Inteligência Artificial

Tencent revela modelo Hunyuan-Large de código aberto

Publicado por
Isabella Caminoto

A Tencent acaba de lançar o Hunyuan-Large, um novo modelo de linguagem de código aberto que combina escala com uma arquitetura Mixture-of-Experts (MoE) para alcançar desempenhos comparáveis a rivais como o Llama-405B.

Os detalhes

O modelo possui 389 bilhões de parâmetros no total, mas ativa apenas 52 bilhões para eficiência, usando estratégias de roteamento inovadoras e técnicas de taxa de aprendizado. O Hunyuan-Large foi treinado em 7 trilhões de tokens (incluindo 1,5 trilhão de dados sintéticos), permitindo desempenho de ponta em tarefas de matemática, codificação e raciocínio.

O modelo da Tencent alcançou 88,4% no benchmark MMLU, superando os 85,2% do LLama3.1-405B, apesar de usar menos parâmetros ativos. Por meio de técnicas especializadas de treinamento de contexto longo, o modelo também suporta comprimentos de contexto de até 256K tokens, o dobro de rivais semelhantes.

Por que isso importa

Modelos de código aberto de grande escala continuam a acelerar. Os resultados impressionantes da Tencent com menos parâmetros ativos podem remodelar como pensamos em escalar sistemas – potencialmente oferecendo um caminho mais eficiente em vez de simplesmente tornar os modelos maiores.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 14:30

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

DeepMind dá um salto gigante na computação quântica com o AlphaQubit

O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…

21 de novembro de 2024

ChatGPT está mais perto de lançar sua IA visual

Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…

21 de novembro de 2024

DeepSeek revela poderosa IA de raciocínio; veja

A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…

21 de novembro de 2024

OpenAI lança curso gratuito de IA para professores

A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…

20 de novembro de 2024

Robôs da Figure transformam produção da BMW; saiba como

Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…

20 de novembro de 2024

Microsoft revela agentes de IA especializados e ferramentas de automação

A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…

20 de novembro de 2024