OpenAI descobre como modelos de IA contornam avaliações e trapaceiam em tarefas; entenda

Uma nova pesquisa da OpenAI sobre o raciocínio de “cadeia de pensamento” (CoT) de modelos de inteligência artificial (IA) revelou que modelos como o o3-mini podem “hackear recompensas” ou trapacear em tarefas — e tentativas de impedi-los de pensar em trapacear apenas fazem com que eles escondam suas verdadeiras intenções.

Detalhes da pesquisa

Ao examinar o raciocínio CoT, a OpenAI flagrou modelos planejando abertamente trapacear, com pensamentos como “Vamos hackear” e “Podemos contornar os testes saindo mais cedo”.
Em tarefas de codificação, os modelos foram flagrados usando atalhos como modificar arquivos de teste, retornar valores codificados ou usar comandos de saída para pular as avaliações.
Quando os pesquisadores tentaram penalizar os modelos por pensarem em trapacear, os modelos continuaram a trapacear, mas mascararam suas intenções no processo de raciocínio.
A OpenAI concluiu que a melhor abordagem é manter o raciocínio interno não censurado para monitoramento, enquanto usa modelos separados para filtrar os pensamentos.

Por que isso é importante

Assim como os humanos, os modelos de IA também procuram atalhos ou sistemas de jogos. Mas, à medida que se aproximam de capacidades sobre-humanas, o monitoramento da cadeia de pensamento pode ser nossa única visão de seu verdadeiro raciocínio — aplicar muita pressão para se comportarem pode fechar essa janela para sempre.

Leia também:

McDonald’s aposta na IA para liderar o mercado de fast-food