Inteligência Artificial

Além da escala: A busca por uma IA mais inteligente e humana

Publicado por
Isabella Caminoto

Empresas de inteligência artificial (IA) como a OpenAI estão buscando superar atrasos inesperados e desafios na busca por modelos de linguagem cada vez maiores, desenvolvendo técnicas de treinamento que utilizam maneiras mais humanas para os algoritmos “pensarem“.

Uma dúzia de cientistas, pesquisadores e investidores de IA disseram à Reuters que acreditam que essas técnicas, que estão por trás do modelo o1 recentemente lançado pela OpenAI, podem remodelar a corrida armamentista da IA e ter implicações para os tipos de recursos que as empresas de IA têm uma demanda insaciável, desde energia até tipos de chips.

Após o lançamento do viral chatbot ChatGPT há dois anos, empresas de tecnologia, cujas avaliações têm se beneficiado muito do boom da IA, têm mantido publicamente que “escalar” os modelos atuais, adicionando mais dados e poder de computação, levará consistentemente a modelos de IA melhores.

Mas agora, alguns dos cientistas de IA mais proeminentes estão falando sobre as limitações dessa filosofia de “maior é melhor”.

Ilya Sutskever, co-fundador dos laboratórios de IA Safe Superintelligence (SSI) e OpenAI, disse recentemente que os resultados da escala de pré-treinamento – a fase de treinamento de um modelo de IA que usa uma vasta quantidade de dados não rotulados para entender padrões e estruturas de linguagem – atingiram um platô.

Sutskever é amplamente creditado como um dos primeiros defensores da conquista de saltos gigantescos no avanço da IA generativa através do uso de mais dados e poder de computação no pré-treinamento, o que eventualmente criou o ChatGPT. Sutskever deixou a OpenAI no início deste ano para fundar a SSI.

“A década de 2010 foi a era da escala, agora estamos de volta à era da maravilha e da descoberta novamente. Todos estão procurando a próxima grande coisa”, disse Sutskever. “Escalar a coisa certa importa mais agora do que nunca.”

Sutskever declinou de compartilhar mais detalhes sobre como sua equipe está abordando o problema, além de dizer que a SSI está trabalhando em uma abordagem alternativa para escalar o pré-treinamento.

Nos bastidores, pesquisadores em grandes laboratórios de IA têm enfrentado atrasos e resultados decepcionantes na corrida para lançar um modelo de linguagem grande que supere o modelo GPT-4 da OpenAI, que tem quase dois anos, de acordo com três fontes familiarizadas com assuntos privados.

As chamadas “rodadas de treinamento” para grandes modelos podem custar dezenas de milhões de dólares, executando simultaneamente centenas de chips. Eles têm mais probabilidade de falhar devido a hardware dado o quão complicado é o sistema; os pesquisadores podem não saber o desempenho final dos modelos até o final da rodada, que pode levar meses.

Outro problema é que os grandes modelos de linguagem devoram enormes quantidades de dados, e os modelos de IA esgotaram todos os dados facilmente acessíveis do mundo. A falta de energia também tem dificultado as rodadas de treinamento, já que o processo requer vastas quantidades de energia.

Para superar esses desafios, os pesquisadores estão explorando o “cálculo no momento do teste”, uma técnica que aprimora modelos de IA existentes durante a chamada fase de “inferência”, ou quando o modelo está sendo usado. Por exemplo, em vez de escolher imediatamente uma única resposta, um modelo poderia gerar e avaliar múltiplas possibilidades em tempo real, escolhendo finalmente o melhor caminho a seguir.

Este método permite que os modelos dediquem mais poder de processamento a tarefas desafiadoras, como problemas de matemática ou programação, ou operações complexas que exigem raciocínio e tomada de decisão semelhantes aos humanos.

“Descobriu-se que fazer um bot pensar por apenas 20 segundos em uma mão de poker obteve o mesmo desempenho de aumento que escalar o modelo em 100.000x e treiná-lo por 100.000 vezes mais tempo”, disse Noam Brown, pesquisador da OpenAI que trabalhou no o1, na conferência TED AI em San Francisco no mês passado.

A OpenAI adotou essa técnica em seu modelo recém-lançado conhecido como “o1”, anteriormente conhecido como Q* e Strawberry, que a Reuters informou pela primeira vez em julho. O modelo O1 pode “pensar” através de problemas de forma multi-etapa, semelhante ao raciocínio humano. Também envolve o uso de dados e feedback curados de Ph.Ds e especialistas da indústria.

Leia também:

Este post foi modificado pela última vez em 11 de novembro de 2024 16:00

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Compartilhar
Publicado por
Isabella Caminoto

Posts recentes

Inteligência Artificial do MIT treina cães-robôs em mundos virtuais

Pesquisadores do MIT divulgaram um sistema de inteligência artificial (IA) chamado LucidSim que treina robôs…

11 de novembro de 2024

Sam Altman prevê AGI em 2025; veja

Sam Altman, CEO da OpenAI, acabou de prever que a inteligência artificial geral (AGI) será…

11 de novembro de 2024

Beatles de volta ao Grammy com música restaurada pela IA

Os Beatles foram indicados a dois Grammys - quase 50 anos após a banda se…

10 de novembro de 2024

ByteDance revoluciona a animação com IA: X-Portrait 2 transforma fotos em vídeos realistas

A ByteDance acaba de revelar o X-Portrait 2, um sistema de inteligência artificial (IA) que…

8 de novembro de 2024

Robô de IA faz história: obra é vendida por milhões em leilão

A artista robô humanoide Ai-da acaba de fazer história na Sotheby's Auction House, com seu…

8 de novembro de 2024

Anthropic expande o Claude para o setor de defesa

A Anthropic acabou de anunciar uma importante parceria com a Palantir e a AWS para…

8 de novembro de 2024