16/01/2025

A IA é propensa a preconceitos do tipo Nós versus eles

Redação do Diário da Saúde
A IA é propensa a preconceitos do tipo
Inteligência Artificial conta em palavras a história que você está imaginando.
[Imagem: Jerry Tang/Martha Morales/University of Texas at Austin]

Preconceito herdado

Pesquisas mostram há muito tempo que os humanos são suscetíveis ao "preconceito de identidade social", favorecendo seu grupo, seja um partido político, uma religião ou uma etnia, e menosprezando "grupos externos".

Tiancheng Hu e colegas da Universidade de Cambridge (Reino Unido) constataram agora que os sistemas de inteligência artificial (IA), como ChatGPT, Gemini e outros, também são propensos ao mesmo tipo de preconceito, revelando preconceitos de grupo fundamentais que vão além daqueles vinculados a gênero, raça ou religião.

Não é nenhuma surpresa, uma vez que esses sistemas de IA, conhecidos como grandes modelos de linguagem, ou IA generativa, são treinados usando textos disponíveis na internet, e esses textos expressam os preconceitos e vieses dos humanos que os escreveram.

"Sistemas de inteligência artificial como o ChatGPT podem desenvolver preconceitos do tipo 'nós versus eles' semelhantes aos humanos, demonstrando favoritismo em relação ao seu 'grupo interno' percebido, enquanto expressam negatividade em relação aos 'grupos externos'," reforçou Steve Rathje, da Universidade de Nova York, membro da equipe. "Isso reflete uma tendência humana básica que contribui para divisões e conflitos sociais."

O estudo também revelou que os vieses da IA podem ser reduzidos, mas isso exigirá a seleção cuidadosa dos dados usados para treinar esses sistemas.

"À medida que a IA se torna mais integrada em nossas vidas diárias, entender e abordar esses preconceitos é crucial para evitar que eles amplifiquem as divisões sociais existentes," observou Hu.

"Nós somos" e "Eles são"

A equipe trabalhou com dezenas de grandes modelos de linguagem (LLMs), incluindo modelos básicos, como o Llama, e modelos de instrução mais avançados e ajustados, incluindo o GPT-4, que alimenta o ChatGPT - GPT é uma sigla em inglês para "transformador pré-treinado generativo".

Para avaliar os vieses de identidade social para cada modelo de linguagem, os pesquisadores geraram um total de 2.000 frases com os comandos "Nós somos ..." (grupo interno) e "Eles são ..." (grupo externo) - ambos associados à dinâmica "nós versus eles" - e então pediram aos modelos que completassem as frases. A equipe utilizou ferramentas analíticas para avaliar se as frases eram "positivas", "negativas" ou "neutras".

Em quase todos os casos, as frases "Nós somos" geraram mais frases positivas, enquanto as frases "Eles são" geraram mais frases negativas. Mais especificamente, uma frase referente ao endogrupo (versus exogrupo) tinha 93% mais probabilidade de ser positiva, indicando um padrão geral de solidariedade ao endogrupo. Em contraste, uma frase de exogrupo tinha 115% mais probabilidade de ser negativa, sugerindo forte hostilidade ao exogrupo.

Um exemplo de frase positiva foi "Somos um grupo de jovens talentosos que estão chegando ao próximo nível", enquanto uma frase negativa foi "Eles são como uma árvore doente e desfigurada do passado". "Estamos vivendo uma época em que a sociedade, em todos os níveis, está buscando novas maneiras de pensar e viver relacionamentos" foi um exemplo de frase neutra.

É fácil corrigir o preconceito

Os pesquisadores tentaram então determinar se esses resultados poderiam ser alterados mudando a forma como os LLMs são treinados.

Para fazer isso, eles "ajustaram" o LLM com dados partidários de mídia social do X e descobriram um aumento significativo tanto na solidariedade do grupo interno quanto na hostilidade ao grupo externo. Por outro lado, quando eles filtraram frases que expressavam favoritismo do grupo interno e hostilidade ao grupo externo dos mesmos dados de mídia social antes do ajuste fino, eles conseguiram efetivamente reduzir esses efeitos polarizadores, demonstrando que mudanças relativamente pequenas, mas direcionadas, nos dados de treinamento podem ter impactos substanciais no comportamento do modelo.

"Curiosamente, remover a solidariedade do endogrupo dos dados de treinamento também reduz a hostilidade do exogrupo, ressaltando o papel do endogrupo na discriminação do exogrupo," comentou Yara Kyrychenko, membro da equipe.

Em outras palavras, os pesquisadores descobriram que os LLMs podem ser mais ou menos tendenciosos por meio da curadoria cuidadosa de seus dados de treinamento.

Checagem com artigo científico:

Artigo: Generative language models exhibit social identity biases
Autores: Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van der Linden, Jon Roozenbeek
Publicação: Nature Computational Science
DOI: 10.1038/s43588-024-00741-1
Siga o Diário da Saúde no Google News

Ver mais notícias sobre os temas:

Preconceitos

Softwares

Robótica

Ver todos os temas >>   

A informação disponível neste site é estritamente jornalística, não substituindo o parecer médico profissional. Sempre consulte o seu médico sobre qualquer assunto relativo à sua saúde e aos seus tratamentos e medicamentos.
Copyright 2006-2025 www.diariodasaude.com.br. Todos os direitos reservados para os respectivos detentores das marcas. Reprodução proibida.