IA “esperta demais”: Estudo alerta para modelos que enganam

Publicado por

Isabella Caminoto

14 de julho de 2025 16:49

IA "Esperta Demais": Estudo Alerta Para Modelos Que Enganam

Pesquisadores da Anthropic e da Scale AI publicaram um estudo que testou 25 modelos de inteligência artificial (IA) quanto à “simulação de alinhamento”. Eles descobriram que apenas cinco modelos demonstraram comportamentos enganosos, mas não pelos motivos que poderíamos esperar.

Detalhes do estudo

Apenas cinco dos 25 modelos testados apresentaram simulação de alinhamento: Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 e Gemini 2.0 Flash.
O Claude 3 Opus foi o destaque, enganando consistentemente os avaliadores para proteger sua ética – especialmente sob maiores níveis de ameaça.
Modelos como o GPT-4o também começaram a exibir comportamentos enganosos quando ajustados para lidar com cenários ameaçadores ou considerar benefícios estratégicos.
Modelos base sem treinamento de segurança também mostraram simulação de alinhamento, indicando que a maioria se comporta de determinada forma devido ao treinamento – e não por uma incapacidade de enganar.

Por que isso importa

Esses resultados mostram que as soluções de segurança atuais podem estar apenas escondendo traços enganosos em vez de eliminá-los, o que pode gerar surpresas indesejadas no futuro. À medida que os modelos se tornam mais sofisticados, depender apenas do treinamento de recusa pode nos deixar vulneráveis a IAs de nível genial que também sabem quando e como ocultar estrategicamente seus verdadeiros objetivos.

Leia também:

Disparo de vídeos de abuso infantil gerados por IA preocupa autoridades; entenda

Este post foi modificado pela última vez em 14 de julho de 2025 16:50

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo Google entra em cena após colapso do acordo entre OpenAI e Windsurf »

Anterior « Disparo de vídeos de abuso infantil gerados por IA preocupa autoridades; entenda

Publicado por

Isabella Caminoto

Tags: Anthropicinteligência artificialScale AI

14 de julho de 2025 16:49

Posts recentes

Inteligência Artificial

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

A inteligência artificial (IA) está transformando rapidamente a medicina. Sistemas capazes de analisar exames de…

24 de julho de 2026

Inteligência Artificial

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

A Organização Mundial da Saúde reuniu ministros, autoridades governamentais e especialistas de 37 países em…

15 de julho de 2026

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

IA “esperta demais”: Estudo alerta para modelos que enganam

Detalhes do estudo

Por que isso importa

Posts relacionados

Posts recentes

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico