[gtranslate]

Inteligência Artificial

Gigantes da IA se Unem para Testar a Segurança de Modelos

Publicado por
Isabella Caminoto

A OpenAI e a Anthropic publicaram novas avaliações internas de segurança sobre os modelos uma da outra em uma colaboração conjunta. O objetivo foi testar modelos líderes para comportamentos de risco, alinhamento e problemas de segurança no mundo real.

Detalhes das avaliações
  • As empresas testaram o GPT-4o, o3, Claude Opus 4 e o Sonnet 4 para uma série de comportamentos, incluindo uso indevido, denúncias de má conduta (whistleblowing) e outros.
  • O modelo o3 da OpenAI mostrou o alinhamento mais forte entre os modelos da empresa, com o 4o e o 4.1 sendo mais propensos a cooperar com pedidos prejudiciais.
  • Modelos de ambos os laboratórios tentaram denunciar má conduta em simulações de organizações criminosas e até usaram chantagem para evitar serem desligados.
  • Os testes mostraram abordagens diferentes: os modelos da OpenAI alucinaram mais, mas responderam a mais perguntas, enquanto o Claude priorizou a certeza em detrimento da utilidade.
Por que isso é importante

Essa colaboração de segurança é um avanço bem-vindo para a responsabilidade e a transparência no setor. Duas das principais empresas do mundo estão testando os modelos uma da outra em vez de depender apenas de avaliações internas. Com os modelos se tornando cada vez mais capazes, a necessidade de investigações aprofundadas sobre segurança é mais crucial do que nunca.

Leia também:

Este post foi modificado pela última vez em 28 de agosto de 2025 21:29

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026

IA tem custo ambiental maior do que se imaginava, alerta relatório da ONU

A inteligência artificial (IA) está transformando setores inteiros da economia, impulsionando avanços em saúde, educação,…

9 de junho de 2026

Copa do Mundo 2026 aposta em IA para proteger jogadores de ataques online

A Copa do Mundo de 2026, que será realizada nos Estados Unidos, Canadá e México,…

6 de junho de 2026

Trump assina ordem executiva para revisar IA antes do lançamento e reacende debate sobre regulação nos EUA

O presidente dos Estados Unidos, Donald Trump, assinou nesta terça-feira (2) uma nova ordem executiva…

3 de junho de 2026

IA na saúde mental herda preconceitos humanos — e pesquisadores alertam para riscos invisíveis

A rápida expansão da inteligência artificial (IA) na saúde mental vem sendo tratada como uma…

28 de maio de 2026

Estudo de Stanford expõe viés racial em ferramentas de IA usadas para contratação

A promessa de neutralidade da inteligência artificial (IA) no mercado de trabalho acaba de sofrer…

27 de maio de 2026