Gigantes da IA se Unem para Testar a Segurança de Modelos

Publicado por

Isabella Caminoto

28 de agosto de 2025 21:26

A OpenAI e a Anthropic publicaram novas avaliações internas de segurança sobre os modelos uma da outra em uma colaboração conjunta. O objetivo foi testar modelos líderes para comportamentos de risco, alinhamento e problemas de segurança no mundo real.

Detalhes das avaliações

As empresas testaram o GPT-4o, o3, Claude Opus 4 e o Sonnet 4 para uma série de comportamentos, incluindo uso indevido, denúncias de má conduta (whistleblowing) e outros.
O modelo o3 da OpenAI mostrou o alinhamento mais forte entre os modelos da empresa, com o 4o e o 4.1 sendo mais propensos a cooperar com pedidos prejudiciais.
Modelos de ambos os laboratórios tentaram denunciar má conduta em simulações de organizações criminosas e até usaram chantagem para evitar serem desligados.
Os testes mostraram abordagens diferentes: os modelos da OpenAI alucinaram mais, mas responderam a mais perguntas, enquanto o Claude priorizou a certeza em detrimento da utilidade.

Por que isso é importante

Essa colaboração de segurança é um avanço bem-vindo para a responsabilidade e a transparência no setor. Duas das principais empresas do mundo estão testando os modelos uma da outra em vez de depender apenas de avaliações internas. Com os modelos se tornando cada vez mais capazes, a necessidade de investigações aprofundadas sobre segurança é mais crucial do que nunca.

Leia também:

Anthropic revela como professores estão usando a IA; saiba os detalhes

Este post foi modificado pela última vez em 28 de agosto de 2025 21:29

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo Análise | Estudo de Stanford Revela o Impacto da IA na Nova Geração »

Anterior « Anthropic revela como professores estão usando a IA; saiba os detalhes

Publicado por

Isabella Caminoto

Tags: AnthropicClaude Opus 4GPT-4ointeligência artificialo3OpenAIsegurançaSonnet 4

28 de agosto de 2025 21:26

Posts recentes

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Inteligência Artificial

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Inteligência Artificial

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Gigantes da IA se Unem para Testar a Segurança de Modelos

Detalhes das avaliações

Por que isso é importante

Posts relacionados

Posts recentes

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre