A OpenAI acaba de publicar uma nova pesquisa detalhando um método para tornar as saídas de grandes modelos de linguagem mais compreensíveis e verificáveis, utilizando um jogo entre duas IAs para tornar as gerações mais “legíveis” para humanos.
A técnica usa um “Jogo Provador-Verificador” onde um modelo de inteligência artificial mais forte (o provador) tenta convencer um modelo mais fraco (o verificador) de que suas respostas estão corretas. Através de múltiplas rodadas do jogo, o provador aprende a gerar soluções que não são apenas corretas, mas também mais fáceis de verificar. Embora o método tenha aumentado a precisão em apenas cerca de 50% em comparação com a otimização exclusiva para correção, suas soluções eram facilmente verificáveis por humanos. A OpenAI testou a abordagem em problemas matemáticos de ensino fundamental, com planos de expandir para domínios mais complexos no futuro.
A IA provavelmente superará os humanos em quase todas as capacidades no futuro – portanto, garantir que as saídas permaneçam interpretáveis para inteligências menores é crucial para segurança e confiança. Essa pesquisa oferece uma maneira escalável de potencialmente manter os sistemas “honestos”, mas o trade-off de desempenho mostra o desafio de equilibrar capacidade com explicabilidade.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 18:03
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…