O pesquisador de inteligência artificial (IA) Hyung Won Chung, membro da equipe OpenAI e ex-funcionário do Google Brain, entregou um discurso de 45 minutos falando sobre o mundo dos grandes modelos de linguagem em 2023.
Chung, conhecido por ser o primeiro autor do artigo do Google intitulado “Modelos de linguagem com instruções de dimensionamento,” apresentou uma visão detalhada do estado atual e futuro da pesquisa em IA e modelos de linguagem.
Em seu discurso, Chung enfatizou a natureza dinâmica do mundo dos modelos de linguagem extensiva. Ao contrário de campos tradicionais, onde as suposições fundamentais permanecem estáveis, Chung argumentou que o campo de modelos de linguagem está em constante evolução.
“Grandes modelos de hoje serão pequenos modelos em apenas alguns anos”, comentou.
Ele enfatizou a importância de abordar as reivindicações sobre as capacidades dos modelos de linguagem com a expressão “for now,” reconhecendo que o que é considerado impossível hoje pode se tornar possível no futuro.
Uma das principais mensagens do discurso foi que os grandes modelos de hoje logo serão considerados pequenos, à medida que a tecnologia continua avançando.
Chung também dedicou uma parte de sua palestra para elucidar as complexidades dos dados e do paralelismo de modelos, fornecendo informações valiosas sobre o funcionamento interno dessas técnicas.
No discurso, Chung destacou um ponto crítico relacionado à função objetivo usada no pré-treinamento de LLMs, chamada Máxima Verossimilhança. Ele argumentou que essa função poderia representar um obstáculo quando se deseja criar modelos em uma escala muito maior do que o GPT-4, como modelos 10.000 vezes maiores. Para superar esse desafio, Chung sugeriu que o próximo passo no desenvolvimento da IA envolveria o uso de funções de aprendizagem baseadas em algoritmos distintos.
Embora essa abordagem esteja em seus estágios iniciais, Chung destacou esforços contínuos, como o Aprendizado por Reforço com Feedback Humano (RLHF) com Modelagem de Regras, como passos promissores na direção da escalabilidade além das restrições atuais.
Veja também:
Este post foi modificado pela última vez em %s = human-readable time difference 14:10
A OpenAI está considerando desenvolver um navegador web que se integraria ao ChatGPT e aos…
O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…
Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…
A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…
A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…
Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…