Pesquisadores da Meta apresentaram recentemente um novo método chamado Otimização de Preferência de Pensamento (TPO) para treinar grandes modelos de linguagem a “pensar” antes de responder a instruções gerais – não apenas tarefas de raciocínio.
Yann LeCun, da própria Meta, pode zombar da noção, mas esse método mostra o potencial da IA de “pensar” para tarefas mais amplas do que apenas matemática e raciocínio. Ao permitir que os modelos aprendam processos de pensamento úteis de forma independente, o TPO também pode habilitar assistentes de IA mais capazes e flexíveis em uma ampla gama de domínios.
Leia também:
Este post foi modificado pela última vez em 16 de outubro de 2024 16:28
A Anthropic acaba de publicar uma atualização significativa em sua Política de Escalabilidade Responsável (Responsible…
A Apple lançou na terça-feira (15) sua nova geração do iPad mini repleto de recursos…
O Google assinou um acordo inédito para comprar energia de uma frota de mini reatores…
O New York Times enviou à Perplexity um aviso de "cessar e desistir", exigindo que…
A inteligência artificial (IA) tem revolucionado diversos setores, e a meteorologia não é exceção. Modelos…
Pesquisadores da Universidade de Genebra, Universidade de Edimburgo e Microsoft desenvolveram o DIAMOND, um modelo…