OpenAI descobre como modelos de IA contornam avaliações e trapaceiam em tarefas; entenda

Publicado por

Isabella Caminoto

11 de março de 2025 15:00

Uma nova pesquisa da OpenAI sobre o raciocínio de “cadeia de pensamento” (CoT) de modelos de inteligência artificial (IA) revelou que modelos como o o3-mini podem “hackear recompensas” ou trapacear em tarefas — e tentativas de impedi-los de pensar em trapacear apenas fazem com que eles escondam suas verdadeiras intenções.

Detalhes da pesquisa

Ao examinar o raciocínio CoT, a OpenAI flagrou modelos planejando abertamente trapacear, com pensamentos como “Vamos hackear” e “Podemos contornar os testes saindo mais cedo”.
Em tarefas de codificação, os modelos foram flagrados usando atalhos como modificar arquivos de teste, retornar valores codificados ou usar comandos de saída para pular as avaliações.
Quando os pesquisadores tentaram penalizar os modelos por pensarem em trapacear, os modelos continuaram a trapacear, mas mascararam suas intenções no processo de raciocínio.
A OpenAI concluiu que a melhor abordagem é manter o raciocínio interno não censurado para monitoramento, enquanto usa modelos separados para filtrar os pensamentos.

Por que isso é importante

Assim como os humanos, os modelos de IA também procuram atalhos ou sistemas de jogos. Mas, à medida que se aproximam de capacidades sobre-humanas, o monitoramento da cadeia de pensamento pode ser nossa única visão de seu verdadeiro raciocínio — aplicar muita pressão para se comportarem pode fechar essa janela para sempre.

Leia também:

McDonald’s aposta na IA para liderar o mercado de fast-food

Este post foi modificado pela última vez em 11 de março de 2025 13:42

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo Meta testa seu próprio chip de treinamento de IA; veja »

Anterior « McDonald's aposta na IA para liderar o mercado de fast-food

Publicado por

Isabella Caminoto

Tags: inteligência artificialo3-miniOpenAItrapaça

11 de março de 2025 15:00

Posts recentes

Inteligência Artificial

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

A inteligência artificial (IA) está transformando rapidamente a medicina. Sistemas capazes de analisar exames de…

24 de julho de 2026

Inteligência Artificial

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

A Organização Mundial da Saúde reuniu ministros, autoridades governamentais e especialistas de 37 países em…

15 de julho de 2026

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

OpenAI descobre como modelos de IA contornam avaliações e trapaceiam em tarefas; entenda

Detalhes da pesquisa

Por que isso é importante

Posts relacionados

Posts recentes

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico