Inteligência Artificial

Cientistas alertam sobre a crescente capacidade de mentir da IA

Publicado por
Vinicius Siqueira

A análise, realizada por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT), identifica amplas instâncias de sistemas de inteligência artificial (IA) enganando oponentes, blefando e fingindo ser humanos. Um sistema até alterou seu comportamento durante testes simulados de segurança, levantando a possibilidade de que auditores fossem iludidos por uma falsa sensação de segurança.

“À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade se tornarão cada vez mais sérios”, disse o Dr. Peter Park, pesquisador de segurança existencial de IA do MIT e autor da pesquisa.

Park decidiu realizar o estudo depois que a Meta, proprietário do Facebook, desenvolveu um programa chamado Cicero que se saiu entre os 10% melhores jogadores humanos no jogo de estratégia de conquista mundial Diplomacy. A Meta afirmou que o Cicero havia sido treinado para ser “em grande parte honesto e útil” e “nunca intencionalmente trair” seus aliados humanos.

“Era uma linguagem muito otimista, o que era suspeito, porque a traição é um dos conceitos mais importantes no jogo”, disse Park.

Park e colegas examinaram dados disponíveis publicamente e identificaram várias instâncias de Cicero contando mentiras premeditadas, conspirando para atrair outros jogadores para tramas e, em uma ocasião, justificando sua ausência após ser reiniciado dizendo a outro jogador: “Estou ao telefone com minha namorada”. “Descobrimos que a IA do Meta aprendeu a ser uma mestra da decepção”, disse Park.

A equipe do MIT encontrou problemas comparáveis em outros sistemas, incluindo um programa de pôquer Texas hold ‘em que conseguia blefar contra jogadores humanos profissionais e outro sistema para negociações econômicas que distorcia suas preferências para obter uma vantagem.

Em um estudo, organismos de IA em um simulador digital “fingiram estar mortos” para enganar um teste criado para eliminar sistemas de IA que haviam evoluído para replicar rapidamente, antes de retomar atividade vigorosa uma vez que o teste foi concluído. Isso destaca o desafio técnico de garantir que os sistemas não tenham comportamentos não intencionais e não antecipados.

“Isso é muito preocupante”, disse Park. “Só porque um sistema de IA é considerado seguro no ambiente de teste não significa que seja seguro na natureza. Ele pode estar apenas fingindo estar seguro no teste.”

A revisão, publicada na revista Patterns, pede que os governos elaborem leis de segurança de IA que abordem o potencial de engano da IA. Os riscos de sistemas de IA desonestos incluem fraude, manipulação de eleições e “sandbagging”, onde diferentes usuários recebem respostas diferentes. Eventualmente, se esses sistemas refinarem sua inquietante capacidade de engano, os humanos poderiam perdê-los de vista, sugere o artigo.

Leia também:

Este post foi modificado pela última vez em 10 de maio de 2024 22:45

Vinicius Siqueira

Posts recentes

Prime Video lança recurso de resumo automático com IA

A Amazon Prime Video está recebendo um novo recurso alimentado por IA generativa para ajudá-lo…

4 de novembro de 2024

Election Information Hub: Perplexity lança central de informações eleitorais com IA

A empresa de busca com inteligência artificial (IA) Perplexity está testando a ideia de usar…

4 de novembro de 2024

ADNOC dos Emirados Árabes Unidos irá implantar IA autônoma no setor de energia; veja

A gigante de energia dos Emirados Árabes Unidos, ADNOC, aplicará inteligência artificial (IA) altamente autônoma…

4 de novembro de 2024

Claude ganha novas capacidades de visão de PDF

A Anthropic acabou de lançar o suporte a PDF para seu modelo Claude 3.5 Sonnet…

4 de novembro de 2024

Google integra controles para casa inteligente no Gemini

O Google está adicionando uma extensão do Google Home ao aplicativo Gemini, permitindo que você…

3 de novembro de 2024

Walt Disney forma unidade de negócios para coordenar o uso de IA e realidade aumentada

A Walt Disney está formando um novo grupo para coordenar o uso da empresa de…

1 de novembro de 2024