Undersøgelse questiongyldigheden af AI-rangeringer: modeller overgår benchmarks ved at huske, ikke ved at lære

Ny forskning fra Scale AI rejser alvorlig tvivl om effektiviteten af populære benchmarks ved evaluering af store sprogmodeller (LLM'er). Undersøgelsen afslører, at nogle modeller opnår gode resultater i disse ranglister gennem "overfitting", ved at huske specifikke mønstre i stedet for at udvikle reelle problemløsningsevner.

ANNONCER

???????? Abonner på den bedste newsletter om AI (på engelsk 🇬🇧) 

🇧🇷 Skriv under det bedste newsletter om AI (på portugisisk 🇧🇷)

Undersøgelsesdetaljer:

overfitting: Udtrykket beskriver den situation, hvor en model lærer at håndtere problemer, der er specifikke for et givet benchmark frem for at udvikle en generaliseret problemløsningsevne.
Nyt benchmark: Scale AI har skabt et nyt datasæt kaldet GSM1k, der ligner den meget brugte GSM8k til matematikprøver i inteligência kunstig (IA).
Performance (Præstation) questioni stand: Da de blev testet på GSM1k, klarede flere højtydende AI-modeller sig væsentligt dårligere end på GSM8k, hvilket tyder på, at de huskede mønstre i stedet for at udvikle en reel forståelse af koncepter.
Berørte modeller: Mistral og Phi oplevede bemærkelsesværdige fald i ydeevne, mens GPT-4, Claude, Gemini e Llama præsenterede lignende resultater i begge benchmarks.

Hvorfor dette betyder noget:

Scale AI-undersøgelsen viser, at nuværende benchmarks kan skabe et falsk indtryk af sande fremskridt inden for AI. Modeller, der klarer sig godt på traditionelle benchmarks, har muligvis ikke den generaliserede læringskapacitet, der forventes af dem.

Efterhånden som AI udvikler sig, er det afgørende at udvikle evalueringsmetoder, der er mindre modtagelige for "fælder", og som mere trofast fanger modellernes reelle evner. GSM1k er et eksempel på en tilgang, der har til formål at løse dette problem.

Læs også:

Genvej Gemini ankommer kl Google Chrome