Inteligência Artificial

Atualização do Open LLM Leaderboard: Hugging Face aumenta o desafio para grandes modelos de linguagem

Publicado por
Isabella Caminoto

A Hugging Face acaba de lançar uma grande atualização para o Open LLM Leaderboard, trazendo novos benchmarks e métodos de avaliação para lidar com a recente estagnação no progresso dos grandes modelos de linguagem (LLMs).

Detalhes da atualização
  • Seis novos benchmarks foram adicionados ao ranking, projetados para serem mais desafiadores e menos suscetíveis a contaminação.
  • O ranking inicial baseado nesses novos benchmarks mostra o Qwen2-72B-Instruct na liderança, seguido pelo Llama-3-70B-Instruct da Meta e Mixtral 8×22b.
  • Um novo sistema de pontuação normalizada considera o desempenho básico dos modelos, permitindo uma comparação mais justa entre diferentes tipos de avaliação.
  • A atualização também introduz a categoria “destaque do mantenedor” e um sistema de votação da comunidade para priorizar os modelos mais relevantes.

Por que isso é importante

À medida que os LLMs se aproximam do desempenho humano na maioria das tarefas, encontrar novas formas de avaliá-los torna-se mais difícil – e mais crucial. Essa reformulação ajuda a direcionar pesquisadores e desenvolvedores para melhorias mais focadas, fornecendo uma avaliação mais precisa das capacidades dos modelos.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 11:10

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

DeepMind dá um salto gigante na computação quântica com o AlphaQubit

O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…

21 de novembro de 2024

ChatGPT está mais perto de lançar sua IA visual

Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…

21 de novembro de 2024

DeepSeek revela poderosa IA de raciocínio; veja

A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…

21 de novembro de 2024

OpenAI lança curso gratuito de IA para professores

A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…

20 de novembro de 2024

Robôs da Figure transformam produção da BMW; saiba como

Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…

20 de novembro de 2024

Microsoft revela agentes de IA especializados e ferramentas de automação

A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…

20 de novembro de 2024