Desafios para atenuar o preconceito na contratação algorítmica

A contratação é cara e demorada - e altamente conseqüente para empregadores e funcionários. Para melhorar esse processo, os empregadores começaram a recorrer a técnicas algorítmicas, na esperança de contratar candidatos de qualidade com mais eficiência.

Os empregadores estão particularmente ansiosos para descobrir uma maneira de automatizar a fase de triagem no pipeline de contratação. Em termos gerais, há quatro estágios no processo de contratação: sourcing (atrair ou fazer a curadoria de um grupo de candidatos), triagem, entrevista e seleção.1O estágio de triagem envolve a avaliação de candidatos - selecionando alguns e destacando outros para atenção especial. Embora tenham surgido fornecedores que oferecem ferramentas algorítmicas para cada estágio do processo de contratação, a triagem algorítmica é a área de desenvolvimento mais ativa e freqüentemente a mais importante, pois representa o principal filtro pelo qual os candidatos devem passar cada vez mais.

Este resumo considera as questões de política levantadas pela triagem algorítmica. Fornecemos uma visão geral das técnicas usadas na triagem algorítmica, resumimos o panorama jurídico relevante e levantamos uma série de questões políticas urgentes.



O que é triagem algorítmica?

Contratar nos Estados Unidos tem uma longa e conturbada história de discriminação. Estudos recentes têm mostrado que pouco mudou nas últimas décadas, apesar do aumento do investimento em iniciativas de diversidade e inclusão.doisA persistência do preconceito na tomada de decisão humana e o aparente fracasso dessas abordagens estabelecidas para combater a discriminação explicam grande parte do interesse recente na contratação algorítmica. Os defensores da triagem algorítmica a veem como um caminho promissor a seguir.

O exemplo canônico de triagem algorítmica é a análise automatizada de currículo: um candidato envia um currículo e um algoritmo avalia esse currículo para produzir uma pontuação indicando a qualidade do candidato ou aptidão para o trabalho. Nesses casos, a decisão final de contratação normalmente recai sobre um humano, mesmo que um processo automatizado tenha selecionado e classificado o conjunto de candidatos. Para realizar esta avaliação, um algoritmo pode, por exemplo, atribuir ao candidato uma pontuação mais alta com base na presença de palavras-chave específicas (por exemplo, gerente de produto ou aumento de receita) em seu currículo. É importante ressaltar que as regras que determinam quais palavras-chave merecem qual pontuação não podem ser escritas por um ser humano; em vez disso, essas regras podem ser desenvolvidas automaticamente por meio de um processo chamado aprendizado de máquina. Para determinar quais palavras-chave são usadas por funcionários de sucesso, o sistema de aprendizado de máquina precisa de dados anteriores para aprender. Por exemplo, o sistema de aprendizado de máquina pode receber currículos dos funcionários atuais e dados sobre seu desempenho no trabalho (por exemplo, seus números de vendas). Em conjunto, o computador pode identificar palavras-chave que os funcionários de sucesso costumam usar em seus currículos. Com base nisso, o sistema de aprendizado de máquina pode produzir um conjunto de regras (comumente conhecido como modelo ou algoritmo; usaremos os dois de forma intercambiável) para prever, com base no currículo de um futuro candidato, o quão bom ele pode ser um funcionário.

Embora a triagem de currículo tenha alcançado algum grau de atenção pública, os principais fornecedores de ferramentas de triagem algorítmica oferecem tipos muito diferentes de avaliações. Por exemplo, a empresa Pymetrics 3vende avaliações baseadas em jogos, nas quais os candidatos jogam jogos personalizados, e algoritmos proprietários analisam a jogabilidade para pontuar os candidatos em uma série de características, como capacidade de aprendizagem e determinação. Em tais avaliações, as entradas para o algoritmo podem ser ligeiramente menos claras do que na triagem de retomada - por exemplo, algoritmos podem usar os tempos de reação dos candidatos ou a capacidade de memória para fazer previsões sobre outras características.

Os sistemas de rastreamento algorítmico reduzem o viés?

Em sua superfície, as ferramentas de triagem algorítmica parecem ser inteiramente baseadas em evidências, o que as torna uma alternativa atraente para avaliações humanas tendenciosas. No entanto, há evidências crescentes de que tais ferramentas podem reproduzir e até mesmo exacerbar preconceitos humanos manifestados nos conjuntos de dados nos quais essas ferramentas são construídas. Os dados codificam decisões e julgamentos profundamente subjetivos; raramente são registros neutros. Por exemplo, os empregadores escolhem quem é incluído no conjunto de dados - muitas vezes em virtude de quem eles escolheram contratar no passado - e o que constitui um bom funcionário. Se um empregador nunca contratou um candidato de uma faculdade ou universidade historicamente negra, por exemplo, um algoritmo saberia como avaliar tais candidatos com eficácia? Aprenderia a preferir candidatos de outras escolas? Os algoritmos, por sua natureza, não questionam as decisões humanas subjacentes a um conjunto de dados. Em vez disso, eles tentam reproduzir fielmente as decisões anteriores, o que pode levá-los a refletir os próprios tipos de preconceitos humanos que pretendem substituir.

Em sua superfície, as ferramentas de triagem algorítmica parecem ser inteiramente baseadas em evidências. … No entanto, há cada vez mais evidências de que essas ferramentas podem reproduzir e até mesmo exacerbar os preconceitos humanos.

Os fornecedores costumam apontar a objetividade dos algoritmos como uma vantagem sobre os processos tradicionais de contratação humana, frequentemente alegando que suas avaliações são imparciais ou podem ser usadas para mitigar preconceitos humanos. Na prática, porém, pouco se sabe sobre a construção, validação e uso dessas novas ferramentas de triagem algorítmica, em parte porque esses algoritmos (e os conjuntos de dados usados ​​para criá-los) são normalmente proprietários e contêm dados confidenciais de funcionários. Em um estudo recente, nós (junto com Jon Kleinberg e Karen Levy) concluímos uma pesquisa das declarações públicas feitas por fornecedores de ferramentas de triagem algorítmica,4descobrir que a indústria raramente divulga detalhes sobre seus métodos ou os mecanismos pelos quais visa obter uma avaliação imparcial. Em nosso estudo, coletamos uma amostra de 18 fornecedores de avaliações algorítmicas, documentamos suas práticas e as analisamos no contexto da lei de discriminação no emprego dos EUA.

Avaliações de contratação de algoritmos e lei de direitos civis

O Título VII da Lei dos Direitos Civis de 1964 proíbe a discriminação com base na raça, cor, religião, sexo ou nacionalidade. Tal proibição é entendida como aplicável tanto à discriminação intencional (o chamado tratamento disparate), bem como à discriminação inadvertida, mas injustificada ou evitável (o chamado impacto disparate). As Diretrizes Uniformes sobre Seleção de Funcionários da Comissão de Oportunidades Iguais de Emprego (doravante denominadas simplesmente Diretrizes Uniformes) estados que um procedimento de seleção exibe tratamento díspar se considera explicitamente qualquer um dos atributos protegidos acima ao tomar uma decisão. O impacto díspar, por outro lado, é mais matizado: se um procedimento de seleção aceitar candidatos de um grupo protegido a uma taxa significativamente inferior (80%, como regra prática) do que a de outro, então o procedimento de seleção exibe um impacto díspar . Um empregador poderia se defender contra uma reclamação de impacto díspar, mostrando que o procedimento de seleção serve a um propósito comercial justificado ou necessário, mas ainda seria considerado responsável se o requerente pudesse, no entanto, identificar um procedimento de seleção alternativo que poderia ter servido o mesmo propósito, gerando menos impacto díspar.

Em nosso estudo, descobrimos que os fornecedores de avaliações algorítmicas de contratação geralmente evitam tratamentos díspares simplesmente garantindo que atributos protegidos, como raça ou gênero, não sejam usados ​​como entradas para seus modelos. Com relação ao impacto díspar, no entanto, os fornecedores se enquadram em dois campos. De acordo com as Diretrizes Uniformes, uma maneira de se defender contra uma alegação de impacto díspar é demonstrar que a avaliação em questão - o algoritmo de triagem - tem validade, o que significa que prevê com precisão uma qualidade relacionada ao trabalho. Portanto, mesmo que o algoritmo de triagem produza um impacto diferente, ele pode ser justificado como servindo a um objetivo comercial legítimo se for suficientemente preciso.

Mesmo que o algoritmo de triagem produza um impacto diferente, ele pode ser justificado como servindo a um objetivo comercial legítimo se for suficientemente preciso.

No entanto, alguns fornecedores tomam a etapa adicional de investigar se eles podem desenvolver um algoritmo de triagem diferente que executa igualmente bem, enquanto reduz as disparidades nas taxas de seleção entre os grupos. Em outras palavras, esses fornecedores ajudam os empregadores a descobrir a existência de práticas de negócios alternativas viáveis ​​- práticas que reduzem significativamente o impacto desigual sem impor custos significativos aos empregadores. Os empregadores que deixarem de considerar e adotar tais ferramentas alternativas de triagem se exporiam à responsabilidade, já que os reclamantes poderiam argumentar que o processo de triagem original não é realmente uma necessidade comercial ou justificado por um objetivo comercial legítimo. Na prática, observamos que muitos fornecedores garantem que as avaliações nunca produzam um impacto díspar em primeiro lugar, evitando assim quaisquer acusações de discriminação sem ter que confiar na validade de uma avaliação. Os fornecedores moveram-se nesta direção, apesar do fato de que, até onde sabemos, as avaliações algorítmicas no emprego ainda não enfrentaram quaisquer desafios legais.

Tecnicamente, há uma série de métodos de eliminação de preconceitos que os fornecedores podem empregar como parte dessa segunda estratégia. Uma abordagem comum é construir um modelo, testá-lo para impactos díspares e, se houver impactos díspares, remover as entradas que contribuem para esse impacto díspar e reconstruir o modelo. Considere, por exemplo, um algoritmo de triagem de currículo encontrado para selecionar homens em uma taxa mais alta do que mulheres. Suponha que este algoritmo (como um supostamente construído - mas nunca usado - pela Amazon ) dá pontuações mais altas aos candidatos que jogaram lacrosse. Observe que jogar lacrosse pode legitimamente ter alguma correlação com os resultados desejáveis ​​do trabalho; aqueles com experiência em esportes de equipe podem, em média, ter um desempenho melhor em configurações de equipe do que aqueles sem ela. No entanto, também pode ser o caso em que o lacrosse tende a ser jogado por homens brancos abastados e, portanto, o modelo pode ser mais propenso a selecionar a partir desse grupo. Para combater isso, um fornecedor ou empregador pode proibir o algoritmo de considerar a palavra lacrosse em um currículo, forçando o modelo a encontrar termos alternativos que prevejam o sucesso e, portanto, potencialmente mitigando o impacto original distinto. A esperança é que o modelo com acesso negado à palavra lacrosse identifique outros indicadores de sucesso - talvez esporte ou equipe - que se apliquem igualmente a todos os candidatos a empregos em potencial.

Implicações políticas

Identificar e atenuar o preconceito nos algoritmos de triagem levanta uma série de questões políticas urgentes. A seguir, identificamos um conjunto de questões que precisam de atenção maior e, muitas vezes, urgente.

Os demandantes podem não ter informações suficientes para suspeitar ou demonstrar impactos díspares.

Este tem sido um problema com casos envolvendo impactos díspares - o caso da reclamante não se baseia apenas em sua própria experiência, mas sim no impacto agregado de um processo de seleção em um grupo de pessoas. Portanto, a demonstração de evidências de impactos díspares requer dados de um grupo suficientemente grande. Em avaliações anteriores, pode ter sido possível inferir que uma questão ou requisito específico representava um encargo indevido ou desnecessário para um grupo em comparação com outro; no entanto, com ferramentas de triagem algorítmica modernas, os candidatos podem não ser solicitados a concluir uma avaliação tradicional e podem até mesmo não saber exatamente como estão sendo avaliados. Como resultado, eles podem não ter qualquer indicação de que o mecanismo de avaliação é potencialmente discriminatório.

Não está claro se a validade preditiva é suficiente para se defender contra uma alegação de impacto díspar.

De acordo com as Diretrizes Uniformes, os empregadores podem justificar um impacto díspar demonstrando a validade preditiva de seus procedimentos de seleção. Isso cria uma quase tautologia no contexto do aprendizado de máquina: os modelos produzidos pelo aprendizado de máquina são, por definição, construídos para garantir validade preditiva.5Embora os reclamantes possam questionar se o processo de validação embutido é válido, não está claro quando as formas tradicionais de validação são insuficientes, mesmo que tenham sido executadas corretamente.

[V] alidação pode relatar que um modelo tem um desempenho muito bom no geral, enquanto oculta que ele tem um desempenho muito ruim para uma população minoritária.

Existem vários motivos para suspeitar dos estudos de validação. Em primeiro lugar, a validação pode relatar que um modelo tem um desempenho muito bom em geral, enquanto oculta que ele tem um desempenho muito ruim para uma população minoritária. Por exemplo, um modelo que prediz perfeitamente certos resultados para um grupo majoritário (por exemplo, 95% da população), mas sempre comete erros em um grupo minoritário (por exemplo, 5% da população), ainda pode ser muito preciso no geral (ou seja, 95% de precisão). Maneiras comuns de avaliar um modelo raramente consideram as diferenças de precisão ou erros entre grupos diferentes. Em segundo lugar, os empregadores, trabalhando com fornecedores, têm liberdade considerável na escolha do resultado que os modelos são projetados para prever (por exemplo, a qualidade dos funcionários em potencial). Raramente existe uma medida direta ou objetiva para esses resultados; em vez disso, os profissionais devem escolher algum proxy (por exemplo, pontuações de avaliação de desempenho).6Como as avaliações de desempenho são avaliações subjetivas, elas correm o risco de serem imprecisas e tendenciosas. E embora seja possível criar um modelo que preveja com precisão as avaliações de desempenho, fazer isso simplesmente reproduziria as avaliações discriminatórias. Em outras palavras, o modelo demonstraria validade em prever um resultado tendencioso. Finalmente, as alegações sobre validade, falta de viés e impacto díspar são específicas do conjunto de dados e do contexto. Essas afirmações baseiam-se na crença de que a população e as circunstâncias capturadas em um conjunto de dados usado para avaliar um modelo serão as mesmas que a população e as circunstâncias às quais o modelo será aplicado. Mas raramente é o caso na prática. Um modelo que é um preditor válido que não exibe impacto distinto em um contexto urbano pode não estar em um contexto rural. Assim, um procedimento de seleção não pode ser considerado universalmente válido ou imparcial.

Se um empregador ou fornecedor abordar cada uma dessas questões, a pergunta ainda pode permanecer: A validade preditiva é suficiente para se defender contra uma alegação de impacto díspar? Em outras palavras, uma correlação demonstrável entre entradas e resultados seria suficiente? As Diretrizes Uniformes parecem permitir a possibilidade de validar um modelo em conformidade; não há obrigação de identificar um mecanismo causal, oferecer justificativa teórica para relações descobertas ou mesmo compreender a relação entre as entradas e os resultados do modelo. No entanto, quando esses modelos geram um impacto díspar, podemos ter dificuldade em aceitar seus resultados se eles se basearem em fatores não intuitivos e, portanto, aparentemente arbitrários.7Ao mesmo tempo, se o modelo reduzir o grau de impacto discrepante observado nas práticas de contratação anteriores, podemos recebê-lo como uma melhoria, mesmo que não possamos explicar as correlações que ele descobriu.8

Muitas soluções propostas para mitigar disparidades nas decisões de triagem requerem o conhecimento das características legalmente protegidas.

No mínimo, os empregadores e fornecedores que buscam mitigar um impacto diferente devem conhecer as classes legalmente protegidas às quais pertencem as pessoas nos dados de treinamento. Simplesmente privar um modelo de acesso a essas características no momento da avaliação não pode garantir decisões imparciais. Ainda assim, empregadores e fornecedores temem que considerar explicitamente essas características como parte de suas avaliações possa ser um convite a acusações de tratamento diferente. Nosso estudo sugere que os fornecedores tentaram contornar essa tensão aparente usando características protegidas ao construir modelos, removendo os fatores correlacionados que contribuem para impactos díspares, mas garantindo que os próprios modelos não enxergam atributos sensíveis. Esse estilo de prevenção de preconceito, embora atraente, tem complicações.

Quanto mais sensíveis os dados ou estigmatizado a condição, os candidatos podem se sentir menos à vontade para compartilhá-los com os empregadores - mesmo que o propósito declarado para coletá-los seja proteger contra impactos díspares ao longo dessas linhas.

Para remediar isso, os empregadores precisarão coletar informações, como raça, gênero e outros atributos confidenciais, que os defensores das práticas de contratação justas há muito lutam para ocultar do processo de contratação. Em muitos casos, os empregadores serão forçados a solicitar informações que os candidatos corretamente considerem sensíveis, porque essas informações foram a base para a discriminação no passado, ao invés de sua mitigação. É impossível aplicar as metodologias de redução de preconceitos propostas a modelos na ausência de informações sobre, por exemplo, a orientação sexual ou a condição de deficiência dos funcionários. Ainda assim, quanto mais confidenciais os dados ou estigmatizados a condição, menos confortável os candidatos podem se sentir em compartilhá-los com os empregadores - mesmo que o objetivo declarado para coletá-los seja proteger contra impactos díspares ao longo dessas linhas.

Um foco na mitigação de riscos de impacto díspares, ocultando a validade diferencial.

Nosso estudo sugere que os fornecedores têm se concentrado até agora em garantir que seus modelos exibam o mínimo de impacto díspar, deixando de lado as questões sobre as diferenças na precisão do modelo em toda a população. Considere um modelo que seja perfeitamente preciso na previsão dos resultados do trabalho para um grupo, mas não tem melhor desempenho do que o aleatório para outro grupo. Esse modelo pode não resultar em nenhuma disparidade nas taxas de seleção, mas a qualidade de sua avaliação difere dramaticamente entre os grupos - um fenômeno conhecido como validade diferencial. Avaliações que exibem validade diferencial podem facilmente levar as pessoas ao fracasso, dando suporte aos estereótipos prejudiciais que justificaram a contratação discriminatória no passado.9

A validade diferencial também pode servir a uma função de diagnóstico crucial: um modelo pode ter um desempenho diferente para grupos diferentes porque os fatores que predizem o resultado de interesse não são os mesmos em cada grupo. Quando observamos que um modelo exibe validade diferencial, aprendemos que a relação entre as entradas do modelo e os resultados reais é provavelmente diferente entre os grupos. Em outras palavras, diferentes fatores predizem o sucesso para diferentes grupos.

Existem algumas etapas que os criadores de avaliações algorítmicas podem realizar para mitigar a validade diferencial. Fundamentalmente, a fim de fazer previsões precisas para toda a população, precisamos (1) uma ampla gama de dados de modelo que podem ser preditivos para toda a população (ou seja, não apenas dados de grupo especializados como lacrosse); e (2) um conjunto de dados diversificado contendo exemplos de indivíduos bem-sucedidos de uma variedade de origens. É importante ressaltar que nenhum desses itens pode ser alcançado desviesando o próprio modelo. Em alguns casos, os fornecedores podem precisar coletar mais dados para reduzir a validade diferencial.

As técnicas de desviesamento algorítmico podem ter implicações significativas para práticas de negócios alternativas.

Historicamente, a busca por práticas alternativas de negócios na triagem tem sido bastante cara, exigindo que as empresas considerem uma ampla gama de avaliações e implementações. No entanto, as técnicas de desviesamento algorítmico prometem automatizar algum grau de exploração, descobrindo práticas alternativas viáveis ​​de negócios por conta própria. Dito isso, o uso dessas técnicas tem um custo. Contratar fornecedores dessas ferramentas pode ser caro. Desenvolver a infraestrutura para coletar os dados necessários, incluindo atributos confidenciais dos candidatos, pode ser caro, complicado e complicado. Em alguns casos, o desviesamento algorítmico também reduzirá a precisão de uma avaliação, uma vez que esses métodos geralmente envolvem o descarte de algumas informações que são genuinamente preditivas do resultado de interesse. Mesmo assim, muitos fornecedores incentivam os empregadores a fazer exatamente isso, observando que, na prática, mitigar impactos díspares geralmente tem apenas um pequeno efeito na precisão preditiva. A capacidade dos fornecedores de ajudar os empregadores a encontrar tais práticas de negócios alternativas pode colocar pressão legal sobre os empregadores para que trabalhem com eles, já que deixar de fazê-lo pode parecer uma adesão desnecessária a um processo de contratação que gera um impacto disparatado evitável. E onde houver uma compensação aparente entre precisão e impacto díspar, essas ferramentas tornarão essas tensões explícitas e forçarão os empregadores a defender, por exemplo, a escolha de favorecer ganhos marginais em precisão em vez de uma redução significativa no impacto díspar.

como nos mudou a política externa após ww2

Conclusão

A contratação algorítmica traz novas promessas, oportunidades e riscos. Se não forem verificados, os algoritmos podem perpetuar os mesmos preconceitos e discriminação presentes nas práticas de contratação existentes. As proteções legais existentes contra a discriminação no emprego se aplicam quando essas ferramentas algorítmicas são usadas; no entanto, os algoritmos levantam uma série de questões políticas não resolvidas que merecem mais atenção.