Inteligência Artificial

Atualização do Open LLM Leaderboard: Hugging Face aumenta o desafio para grandes modelos de linguagem

Publicado por
Isabella Caminoto

A Hugging Face acaba de lançar uma grande atualização para o Open LLM Leaderboard, trazendo novos benchmarks e métodos de avaliação para lidar com a recente estagnação no progresso dos grandes modelos de linguagem (LLMs).

Detalhes da atualização
  • Seis novos benchmarks foram adicionados ao ranking, projetados para serem mais desafiadores e menos suscetíveis a contaminação.
  • O ranking inicial baseado nesses novos benchmarks mostra o Qwen2-72B-Instruct na liderança, seguido pelo Llama-3-70B-Instruct da Meta e Mixtral 8×22b.
  • Um novo sistema de pontuação normalizada considera o desempenho básico dos modelos, permitindo uma comparação mais justa entre diferentes tipos de avaliação.
  • A atualização também introduz a categoria “destaque do mantenedor” e um sistema de votação da comunidade para priorizar os modelos mais relevantes.

Por que isso é importante

À medida que os LLMs se aproximam do desempenho humano na maioria das tarefas, encontrar novas formas de avaliá-los torna-se mais difícil – e mais crucial. Essa reformulação ajuda a direcionar pesquisadores e desenvolvedores para melhorias mais focadas, fornecendo uma avaliação mais precisa das capacidades dos modelos.

Leia também:

Este post foi modificado pela última vez em 27 de junho de 2024 11:10

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Magnetic-One: Sistema de IA multiagente da Microsoft

Pesquisadores da Microsoft acabaram de apresentar o Magnetic-One, um sistema de orquestração de inteligência artificial…

7 de novembro de 2024

Nvidia revela kit de ferramentas de IA para robótica

A Nvidia acaba de anunciar um conjunto abrangente de novas ferramentas de inteligência artificial (IA)…

7 de novembro de 2024

OpenAI adquire o domínio chat.com por mais de US$ 15 milhões

A OpenAI adquiriu o nome de domínio chat.com (que agora redireciona para o ChatGPT) do…

7 de novembro de 2024

O que a vitória de Trump pode significar para a regulação de IA

Com a vitória de Donald Trump na presidência e o controle do Senado pelos republicanos,…

6 de novembro de 2024

Tencent revela modelo Hunyuan-Large de código aberto

A Tencent acaba de lançar o Hunyuan-Large, um novo modelo de linguagem de código aberto…

6 de novembro de 2024

Apple explora o mercado de óculos inteligentes; veja

A Apple está supostamente dando seus primeiros passos sérios em direção ao desenvolvimento de óculos…

6 de novembro de 2024