Mag-aral questionang bisa ng mga ranggo ng AI: ang mga modelo ay nangunguna sa mga benchmark sa pamamagitan ng pagsasaulo, hindi sa pag-aaral

Bagong pananaliksik mula sa Scale AI nagdudulot ng malubhang pagdududa tungkol sa pagiging epektibo ng mga sikat na benchmark sa pagsusuri ng mga malalaking modelo ng wika (LLM). Ang pag-aaral ay nagpapakita na ang ilang mga modelo ay nakakamit ng magagandang resulta sa mga ranggo na ito sa pamamagitan ng "overfitting", pagsasaulo ng mga partikular na pattern sa halip ng pagbuo ng mga tunay na kasanayan sa paglutas ng problema.

ADVERTISING

???????? Mag-subscribe sa ang pinakamahusay na newsletter tungkol sa AI (sa English 🇬🇧) 

🇧🇷 Pirmahan mo ang pinakamahusay newsletter tungkol sa AI (sa Portuguese 🇧🇷)

Mga detalye ng pag-aaral:

Overfitting: Ang termino ay naglalarawan sa sitwasyon kung saan ang isang modelo ay natututong harapin ang mga problemang partikular sa isang ibinigay na benchmark sa halip na bumuo ng isang pangkalahatang kakayahan sa paglutas ng problema.
Bagong benchmark: Ang Scale AI ay lumikha ng isang bagong dataset na tinatawag na GSM1k, katulad ng malawakang ginagamit na GSM8k para sa mga pagsusulit sa matematika sa inteligência artipisyal (IA).
pagganap questionkaya: Kapag sinubukan sa GSM1k, ilang high-performance na modelo ng AI ang gumanap nang mas masahol pa kaysa sa GSM8k, na nagmumungkahi na kabisado nila ang mga pattern sa halip na bumuo ng isang tunay na pag-unawa sa mga konsepto.
Mga apektadong modelo: Nakakita sina Mistral at Phi ng mga kapansin-pansing pagbaba sa pagganap, habang GPT-4, Claude, Gemini e Llama nagpakita ng magkatulad na mga resulta sa parehong mga benchmark.

Bakit ito mahalaga:

Ipinapakita ng pag-aaral ng Scale AI na ang mga kasalukuyang benchmark ay maaaring lumilikha ng maling impresyon ng tunay na pag-unlad sa AI. Ang mga modelong mahusay na gumaganap sa mga tradisyonal na benchmark ay maaaring walang pangkalahatang kapasidad sa pag-aaral na inaasahan sa kanila.

Habang sumusulong ang AI, napakahalagang bumuo ng mga pamamaraan ng pagsusuri na hindi gaanong madaling kapitan ng mga "pitfalls" at mas matapat na nakukuha ang mga tunay na kakayahan ng mga modelo. Ang GSM1k ay isang halimbawa ng isang diskarte na naglalayong lutasin ang problemang ito.

Basahin din:

Shortcut Gemini pagdating sa Google kromo