Nemotron da Nvidia supera modelos líderes de IA

A Nvidia lançou silenciosamente um novo LLM de código aberto, ajustado, chamado Llama-3.1-Nemotron-70B-Instruct, que está superando líderes da indústria como GPT-4o e Claude 3.5 Sonnet em benchmarks-chave.

Os detalhes

O Nemotron é baseado no modelo Llama 3.1 70B da Meta, ajustado pela Nvidia usando métodos avançados de ML como RLHF.
O modelo obtém pontuações máximas em benchmarks de alinhamento como Arena Hard (85.0), AlpacaEval 2 LC (57.6) e GPT-4-Turbo MT-Bench (8.98).
As pontuações superam concorrentes como GPT-4o e Claude 3.5 Sonnet em várias métricas – apesar de ser significativamente menor com apenas 70B de parâmetros.
A Nvidia tornou o modelo de código aberto, o modelo de recompensa e o conjunto de dados de treinamento disponíveis no Hugging Face, que também pode ser testado em uma prévia no site da empresa.

Por que isso importa

Um modelo de código aberto menor está correndo para o topo? Enquanto os triunfos de fabricação de chips da Nvidia são bem conhecidos, mais surpreendentes são os poderosos modelos que a empresa continua a produzir. Com fundações de código aberto e ajuste avançado, o Nemotron está mostrando que modelos menores e eficientes podem competir com gigantes.

Leia também:

Gigantes da tecnologia reprovados: IA falha em cumprir novas regras da UE