Meta cria IA autossuficiente para avaliar outras IAs

A Meta, proprietária do Facebook, anunciou na sexta-feira (18) o lançamento de um lote de novos modelos de inteligência artificial (IA) de sua divisão de pesquisa, incluindo um “Self-Taught Evaluator” que pode oferecer um caminho para menos envolvimento humano no processo de desenvolvimento de IA.

O lançamento segue a introdução da ferramenta pela Meta em um artigo de agosto, que detalhava como ela se baseia na mesma técnica de “cadeia de pensamento” usada pelos modelos o1 recentemente lançados pela OpenAI para fazê-la fazer julgamentos confiáveis sobre as respostas dos modelos.

Essa técnica envolve dividir problemas complexos em etapas lógicas menores e parece melhorar a precisão das respostas em problemas desafiadores em disciplinas como ciência, codificação e matemática.

Os pesquisadores da Meta usaram dados totalmente gerados por IA para treinar o modelo avaliador, eliminando a entrada humana também nessa fase.

A capacidade de usar IA para avaliar IA de forma confiável oferece um vislumbre de um possível caminho para construir agentes de IA autônomos que possam aprender com seus próprios erros, disseram dois dos pesquisadores da Meta à Reuters.

Muitos na área de IA imaginam esses agentes como assistentes digitais inteligentes o suficiente para realizar uma vasta gama de tarefas sem intervenção humana.

Modelos de autoaperfeiçoamento podem eliminar a necessidade de um processo muitas vezes caro e ineficiente usado hoje chamado Aprendizado de Reforço a partir de Feedback Humano, que requer entrada de anotadores humanos que devem ter conhecimento especializado para rotular dados com precisão e verificar se as respostas a perguntas complexas de matemática e escrita estão corretas.

“Esperamos que, à medida que a IA se tornar cada vez mais super-humana, ela ficará cada vez melhor em verificar seu trabalho, para que realmente seja melhor que o humano médio”, disse Jason Weston, um dos pesquisadores.

“A ideia de ser autodidata e capaz de se autoavaliar é basicamente crucial para a ideia de chegar a esse tipo de nível super-humano de IA”, disse ele.

Outras empresas, incluindo Google e Anthropic, também publicaram pesquisas sobre o conceito de RLAIF, ou Aprendizado de Reforço a partir de Feedback de IA. Diferentemente da Meta, no entanto, essas empresas tendem a não lançar seus modelos para uso público.

Outras ferramentas de IA lançadas pela Meta na sexta-feira incluíam uma atualização do modelo Segment Anything de identificação de imagem da empresa, uma ferramenta que acelera os tempos de geração de resposta de LLM e conjuntos de dados que podem ser usados para auxiliar na descoberta de novos materiais inorgânicos.

Leia também:

Worldcoin revela scanner de olho de próxima geração