Inteligência Artificial

Tencent revela modelo Hunyuan-Large de código aberto

Publicado por
Isabella Caminoto

A Tencent acaba de lançar o Hunyuan-Large, um novo modelo de linguagem de código aberto que combina escala com uma arquitetura Mixture-of-Experts (MoE) para alcançar desempenhos comparáveis a rivais como o Llama-405B.

Os detalhes

O modelo possui 389 bilhões de parâmetros no total, mas ativa apenas 52 bilhões para eficiência, usando estratégias de roteamento inovadoras e técnicas de taxa de aprendizado. O Hunyuan-Large foi treinado em 7 trilhões de tokens (incluindo 1,5 trilhão de dados sintéticos), permitindo desempenho de ponta em tarefas de matemática, codificação e raciocínio.

O modelo da Tencent alcançou 88,4% no benchmark MMLU, superando os 85,2% do LLama3.1-405B, apesar de usar menos parâmetros ativos. Por meio de técnicas especializadas de treinamento de contexto longo, o modelo também suporta comprimentos de contexto de até 256K tokens, o dobro de rivais semelhantes.

Por que isso importa

Modelos de código aberto de grande escala continuam a acelerar. Os resultados impressionantes da Tencent com menos parâmetros ativos podem remodelar como pensamos em escalar sistemas – potencialmente oferecendo um caminho mais eficiente em vez de simplesmente tornar os modelos maiores.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 14:30

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024