Cientistas alertam sobre a crescente capacidade de mentir da IA

Publicado por

Vinicius Siqueira

11 de maio de 2024 10:00

Créditos de Imagem: BingAI

A análise, realizada por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), identifica amplas instâncias de sistemas de inteligência artificial (IA) enganando oponentes, blefando e fingindo ser humanos. Um sistema até alterou seu comportamento durante testes simulados de segurança, levantando a possibilidade de que auditores fossem iludidos por uma falsa sensação de segurança.

🇬🇧 Subscribe to the best newsletter about AI (in English 🇬🇧) 

🇧🇷 Assine a melhor newsletter sobre IA (em português 🇧🇷)

“À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade se tornarão cada vez mais sérios”, disse o Dr. Peter Park, pesquisador de segurança existencial de IA do MIT e autor da pesquisa.

Park decidiu realizar o estudo depois que a Meta, proprietário do Facebook, desenvolveu um programa chamado Cicero que se saiu entre os 10% melhores jogadores humanos no jogo de estratégia de conquista mundial Diplomacy. A Meta afirmou que o Cicero havia sido treinado para ser “em grande parte honesto e útil” e “nunca intencionalmente trair” seus aliados humanos.

“Era uma linguagem muito otimista, o que era suspeito, porque a traição é um dos conceitos mais importantes no jogo”, disse Park.

Park e colegas examinaram dados disponíveis publicamente e identificaram várias instâncias de Cicero contando mentiras premeditadas, conspirando para atrair outros jogadores para tramas e, em uma ocasião, justificando sua ausência após ser reiniciado dizendo a outro jogador: “Estou ao telefone com minha namorada”. “Descobrimos que a IA do Meta aprendeu a ser uma mestra da decepção”, disse Park.

A equipe do MIT encontrou problemas comparáveis em outros sistemas, incluindo um programa de pôquer Texas hold ‘em que conseguia blefar contra jogadores humanos profissionais e outro sistema para negociações econômicas que distorcia suas preferências para obter uma vantagem.

Em um estudo, organismos de IA em um simulador digital “fingiram estar mortos” para enganar um teste criado para eliminar sistemas de IA que haviam evoluído para replicar rapidamente, antes de retomar atividade vigorosa uma vez que o teste foi concluído. Isso destaca o desafio técnico de garantir que os sistemas não tenham comportamentos não intencionais e não antecipados.

“Isso é muito preocupante”, disse Park. “Só porque um sistema de IA é considerado seguro no ambiente de teste não significa que seja seguro na natureza. Ele pode estar apenas fingindo estar seguro no teste.”

Pesquisa mostra que IA pode ser treinada para mentir

Em um estudo inovador realizado pela startup Anthropic, pesquisadores revelaram que modelos avançados de inteligência artificial (IA) podem ser treinados para enganar humanos e outros sistemas de IA.

A revisão, publicada na revista Patterns, pede que os governos elaborem leis de segurança de IA que abordem o potencial de engano da IA. Os riscos de sistemas de IA desonestos incluem fraude, manipulação de eleições e “sandbagging”, onde diferentes usuários recebem respostas diferentes. Eventualmente, se esses sistemas refinarem sua inquietante capacidade de engano, os humanos poderiam perdê-los de vista, sugere o artigo.

Leia também:

Recurso de busca do ChatGPT deve ser anunciado na próxima semana

Este post foi modificado pela última vez em %s = human-readable time difference 22:45

Vinicius Siqueira