A análise, realizada por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), identifica amplas instâncias de sistemas de inteligência artificial (IA) enganando oponentes, blefando e fingindo ser humanos. Um sistema até alterou seu comportamento durante testes simulados de segurança, levantando a possibilidade de que auditores fossem iludidos por uma falsa sensação de segurança.
🇬🇧 Subscribe to the best newsletter about AI (in English 🇬🇧) 🇧🇷 Assine a melhor newsletter sobre IA (em português 🇧🇷)
“À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade se tornarão cada vez mais sérios”, disse o Dr. Peter Park, pesquisador de segurança existencial de IA do MIT e autor da pesquisa.
Park decidiu realizar o estudo depois que a Meta, proprietário do Facebook, desenvolveu um programa chamado Cicero que se saiu entre os 10% melhores jogadores humanos no jogo de estratégia de conquista mundial Diplomacy. A Meta afirmou que o Cicero havia sido treinado para ser “em grande parte honesto e útil” e “nunca intencionalmente trair” seus aliados humanos.
“Era uma linguagem muito otimista, o que era suspeito, porque a traição é um dos conceitos mais importantes no jogo”, disse Park.
Park e colegas examinaram dados disponíveis publicamente e identificaram várias instâncias de Cicero contando mentiras premeditadas, conspirando para atrair outros jogadores para tramas e, em uma ocasião, justificando sua ausência após ser reiniciado dizendo a outro jogador: “Estou ao telefone com minha namorada”. “Descobrimos que a IA do Meta aprendeu a ser uma mestra da decepção”, disse Park.
A equipe do MIT encontrou problemas comparáveis em outros sistemas, incluindo um programa de pôquer Texas hold ‘em que conseguia blefar contra jogadores humanos profissionais e outro sistema para negociações econômicas que distorcia suas preferências para obter uma vantagem.
Em um estudo, organismos de IA em um simulador digital “fingiram estar mortos” para enganar um teste criado para eliminar sistemas de IA que haviam evoluído para replicar rapidamente, antes de retomar atividade vigorosa uma vez que o teste foi concluído. Isso destaca o desafio técnico de garantir que os sistemas não tenham comportamentos não intencionais e não antecipados.
“Isso é muito preocupante”, disse Park. “Só porque um sistema de IA é considerado seguro no ambiente de teste não significa que seja seguro na natureza. Ele pode estar apenas fingindo estar seguro no teste.”
A revisão, publicada na revista Patterns, pede que os governos elaborem leis de segurança de IA que abordem o potencial de engano da IA. Os riscos de sistemas de IA desonestos incluem fraude, manipulação de eleições e “sandbagging”, onde diferentes usuários recebem respostas diferentes. Eventualmente, se esses sistemas refinarem sua inquietante capacidade de engano, os humanos poderiam perdê-los de vista, sugere o artigo.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 22:45
O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…
Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…
A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…
A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…
Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…
A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…