Estudiar questionla validesa dels rànquings d'IA: els models superen els punts de referència memoritzant, no aprenent

Nova investigació de Scale AI planteja seriosos dubtes sobre l'eficàcia dels referents populars en l'avaluació de grans models lingüístics (LLM). L'estudi revela que alguns models aconsegueixen bons resultats en aquests rànquings mitjançant el "sobreajustament", memoritzant patrons específics en lloc de desenvolupar habilitats reals de resolució de problemes.

PUBLICITAT

???????? Subscriure a el millor newsletter sobre la IA (en anglès 🇬🇧) 

🇧🇷 Signa'l el millor newsletter sobre la IA (en portuguès 🇧🇷)

Detalls de l'estudi:

Abastament excessiu: El terme descriu la situació en què un model aprèn a tractar problemes específics d'un punt de referència determinat en lloc de desenvolupar una capacitat generalitzada de resolució de problemes.
Nou referent: Scale AI ha creat un nou conjunt de dades anomenat GSM1k, similar al GSM8k àmpliament utilitzat per a proves de matemàtiques a intel·ligència artificial (IA).
Rendiment questioncapaç: Quan es van provar amb GSM1k, diversos models d'IA d'alt rendiment van tenir un rendiment significativament pitjor que en GSM8k, cosa que suggereix que memoritzaven patrons en lloc de desenvolupar una comprensió real dels conceptes.
Models afectats: Mistral i Phi van veure caigudes notables en el rendiment, mentre que GPT-4, Claude, Gemini e diu van presentar resultats similars en ambdós punts de referència.

Per què això importa:

L'estudi Scale AI mostra que els punts de referència actuals poden estar creant una falsa impressió del veritable progrés de la IA. És possible que els models que tinguin un alt rendiment en els punts de referència tradicionals no tinguin la capacitat d'aprenentatge generalitzada que s'espera d'ells.

A mesura que avança la IA, és crucial desenvolupar mètodes d'avaluació que siguin menys susceptibles a les "trampas" i que capturen més fidelment les habilitats reals dels models. GSM1k és un exemple d'un enfocament que pretén resoldre aquest problema.

Llegiu també:

Drecera Gemini arriba a Google Chrome