Inteligência Artificial

Atualização do Open LLM Leaderboard: Hugging Face aumenta o desafio para grandes modelos de linguagem

Publicado por
Isabella Caminoto

A Hugging Face acaba de lançar uma grande atualização para o Open LLM Leaderboard, trazendo novos benchmarks e métodos de avaliação para lidar com a recente estagnação no progresso dos grandes modelos de linguagem (LLMs).

Detalhes da atualização
  • Seis novos benchmarks foram adicionados ao ranking, projetados para serem mais desafiadores e menos suscetíveis a contaminação.
  • O ranking inicial baseado nesses novos benchmarks mostra o Qwen2-72B-Instruct na liderança, seguido pelo Llama-3-70B-Instruct da Meta e Mixtral 8×22b.
  • Um novo sistema de pontuação normalizada considera o desempenho básico dos modelos, permitindo uma comparação mais justa entre diferentes tipos de avaliação.
  • A atualização também introduz a categoria “destaque do mantenedor” e um sistema de votação da comunidade para priorizar os modelos mais relevantes.

Por que isso é importante

À medida que os LLMs se aproximam do desempenho humano na maioria das tarefas, encontrar novas formas de avaliá-los torna-se mais difícil – e mais crucial. Essa reformulação ajuda a direcionar pesquisadores e desenvolvedores para melhorias mais focadas, fornecendo uma avaliação mais precisa das capacidades dos modelos.

Leia também:

Este post foi modificado pela última vez em 27 de junho de 2024 11:10

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Meta inicia testes de chatbots de IA criados por usuários no Instagram

Mark Zuckerberg, CEO da Meta, anunciou que a empresa vai começar a liberar no Instagram…

29 de junho de 2024

Watson: Saiba mais sobre o analista de dados com IA da IBM

Watson é uma plataforma de IA desenvolvida pela IBM, conhecida por sua capacidade de treinar,…

29 de junho de 2024

Centro de Jornalismo Investigativo processa OpenAI e Microsoft por violação de direitos autorais

O Centro de Jornalismo Investigativo (CJI), organização sem fins lucrativos responsável pelo Mother Jones e…

28 de junho de 2024

Gigantes da tecnologia na mira da Europa: acordos de IA de Microsoft e Google sob investigação

A parceria da Microsoft com a OpenAI e o acordo de inteligência artificial (IA) do…

28 de junho de 2024

EUA, Japão e Coreia do Sul se unem em cooperação estratégica para IA, energia limpa e semicondutores

Os ministros do comércio e da indústria dos EUA, Japão e Coreia do Sul prometeram…

28 de junho de 2024

Nokia se prepara para a Era da IA com aquisição da Infinera

A tentativa da Nokia de comprar a fabricante americana de equipamentos de redes ópticas Infinera…

28 de junho de 2024