Empresas de inteligência artificial (IA) como a OpenAI estão buscando superar atrasos inesperados e desafios na busca por modelos de linguagem cada vez maiores, desenvolvendo técnicas de treinamento que utilizam maneiras mais humanas para os algoritmos “pensarem“.
PUBLICIDADE
Uma dúzia de cientistas, pesquisadores e investidores de IA disseram à Reuters que acreditam que essas técnicas, que estão por trás do modelo o1 recentemente lançado pela OpenAI, podem remodelar a corrida armamentista da IA e ter implicações para os tipos de recursos que as empresas de IA têm uma demanda insaciável, desde energia até tipos de chips.
Após o lançamento do viral chatbot ChatGPT há dois anos, empresas de tecnologia, cujas avaliações têm se beneficiado muito do boom da IA, têm mantido publicamente que “escalar” os modelos atuais, adicionando mais dados e poder de computação, levará consistentemente a modelos de IA melhores.
Mas agora, alguns dos cientistas de IA mais proeminentes estão falando sobre as limitações dessa filosofia de “maior é melhor”.
PUBLICIDADE
Ilya Sutskever, co-fundador dos laboratórios de IA Safe Superintelligence (SSI) e OpenAI, disse recentemente que os resultados da escala de pré-treinamento – a fase de treinamento de um modelo de IA que usa uma vasta quantidade de dados não rotulados para entender padrões e estruturas de linguagem – atingiram um platô.
Sutskever é amplamente creditado como um dos primeiros defensores da conquista de saltos gigantescos no avanço da IA generativa através do uso de mais dados e poder de computação no pré-treinamento, o que eventualmente criou o ChatGPT. Sutskever deixou a OpenAI no início deste ano para fundar a SSI.
“A década de 2010 foi a era da escala, agora estamos de volta à era da maravilha e da descoberta novamente. Todos estão procurando a próxima grande coisa”, disse Sutskever. “Escalar a coisa certa importa mais agora do que nunca.”
PUBLICIDADE
Sutskever declinou de compartilhar mais detalhes sobre como sua equipe está abordando o problema, além de dizer que a SSI está trabalhando em uma abordagem alternativa para escalar o pré-treinamento.
Nos bastidores, pesquisadores em grandes laboratórios de IA têm enfrentado atrasos e resultados decepcionantes na corrida para lançar um modelo de linguagem grande que supere o modelo GPT-4 da OpenAI, que tem quase dois anos, de acordo com três fontes familiarizadas com assuntos privados.
As chamadas “rodadas de treinamento” para grandes modelos podem custar dezenas de milhões de dólares, executando simultaneamente centenas de chips. Eles têm mais probabilidade de falhar devido a hardware dado o quão complicado é o sistema; os pesquisadores podem não saber o desempenho final dos modelos até o final da rodada, que pode levar meses.
PUBLICIDADE
Outro problema é que os grandes modelos de linguagem devoram enormes quantidades de dados, e os modelos de IA esgotaram todos os dados facilmente acessíveis do mundo. A falta de energia também tem dificultado as rodadas de treinamento, já que o processo requer vastas quantidades de energia.
Para superar esses desafios, os pesquisadores estão explorando o “cálculo no momento do teste”, uma técnica que aprimora modelos de IA existentes durante a chamada fase de “inferência”, ou quando o modelo está sendo usado. Por exemplo, em vez de escolher imediatamente uma única resposta, um modelo poderia gerar e avaliar múltiplas possibilidades em tempo real, escolhendo finalmente o melhor caminho a seguir.
Este método permite que os modelos dediquem mais poder de processamento a tarefas desafiadoras, como problemas de matemática ou programação, ou operações complexas que exigem raciocínio e tomada de decisão semelhantes aos humanos.
PUBLICIDADE
“Descobriu-se que fazer um bot pensar por apenas 20 segundos em uma mão de poker obteve o mesmo desempenho de aumento que escalar o modelo em 100.000x e treiná-lo por 100.000 vezes mais tempo”, disse Noam Brown, pesquisador da OpenAI que trabalhou no o1, na conferência TED AI em San Francisco no mês passado.
A OpenAI adotou essa técnica em seu modelo recém-lançado conhecido como “o1”, anteriormente conhecido como Q* e Strawberry, que a Reuters informou pela primeira vez em julho. O modelo O1 pode “pensar” através de problemas de forma multi-etapa, semelhante ao raciocínio humano. Também envolve o uso de dados e feedback curados de Ph.Ds e especialistas da indústria.
Leia também: