A OpenAI acaba de publicar uma nova pesquisa detalhando um método para tornar as saídas de grandes modelos de linguagem mais compreensíveis e verificáveis, utilizando um jogo entre duas IAs para tornar as gerações mais “legíveis” para humanos.
A técnica usa um “Jogo Provador-Verificador” onde um modelo de inteligência artificial mais forte (o provador) tenta convencer um modelo mais fraco (o verificador) de que suas respostas estão corretas. Através de múltiplas rodadas do jogo, o provador aprende a gerar soluções que não são apenas corretas, mas também mais fáceis de verificar. Embora o método tenha aumentado a precisão em apenas cerca de 50% em comparação com a otimização exclusiva para correção, suas soluções eram facilmente verificáveis por humanos. A OpenAI testou a abordagem em problemas matemáticos de ensino fundamental, com planos de expandir para domínios mais complexos no futuro.
A IA provavelmente superará os humanos em quase todas as capacidades no futuro – portanto, garantir que as saídas permaneçam interpretáveis para inteligências menores é crucial para segurança e confiança. Essa pesquisa oferece uma maneira escalável de potencialmente manter os sistemas “honestos”, mas o trade-off de desempenho mostra o desafio de equilibrar capacidade com explicabilidade.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 18:03
O TikTok acaba de lançar o Symphony Creative Studio, uma plataforma de geração de vídeo…
A OpenAI acabou de lançar uma atualização para seu aplicativo de desktop que permite ao…
A OpenAI acaba de apresentar um plano abrangente para a infraestrutura de inteligência artificial (IA))…
Pesquisadores de Stanford acabaram de apresentar o Virtual Lab, uma plataforma de pesquisa de inteligência…
A OpenAI está planejando lançar o 'Operator' em janeiro, uma nova ferramenta de inteligência artificial…
A Meta Platforms planeja introduzir anúncios em seu aplicativo de mídia social Threads no início…