tutkimus questiontekoälyluokkien pätevyys: mallit ylittävät vertailuarvot muistamalla, eivät oppimalla

Scale AI:n uusi tutkimus herättää vakavia epäilyjä suosittujen vertailuarvojen tehokkuudesta suurten kielimallien (LLM) arvioinnissa. Tutkimus paljastaa, että jotkin mallit saavuttavat hyviä tuloksia näissä sijoituksissa "yliasoittamalla", muistamalla tiettyjä malleja sen sijaan, että kehittäisivät todellisia ongelmanratkaisutaitoja.

MAINONTA

🇬🇧 Tilaa paras newsletter AI:sta (englanniksi 🇬🇧) 

🇧🇷 Allekirjoittaa se paras newsletter AI:sta (portugaliksi 🇧🇷)

Tutkimuksen tiedot:

overfitting: Termi kuvaa tilannetta, jossa malli oppii käsittelemään tietylle vertailuarvolle ominaisia ongelmia sen sijaan, että kehitetään yleistä ongelmanratkaisukykyä.
Uusi benchmark: Scale AI on luonut uuden datajoukon nimeltä GSM1k, joka on samanlainen kuin laajalti käytetty GSM8k matemaattisissa testeissä inteligência keinotekoinen (IA).
Suorituskyky questionpystyy: Kun testattiin GSM1k:lla, useat korkean suorituskyvyn tekoälymallit suoriutuivat huomattavasti huonommin kuin GSM8k, mikä viittaa siihen, että ne muistivat kuviot sen sijaan, että ne olisivat ymmärtäneet konsepteja.
Vaikuttavat mallit: Mistral ja Phi näkivät huomattavia laskuja suorituskyvyssään GPT-4, Claude, Gemini e liekki esitti samanlaisia tuloksia molemmissa vertailuarvoissa.

Miksi tällä on merkitystä:

Scale AI -tutkimus osoittaa, että nykyiset vertailuarvot voivat luoda väärän kuvan tekoälyn todellisesta edistymisestä. Malleilla, jotka menestyvät hyvin perinteisillä vertailuarvoilla, ei välttämättä ole niiltä odotettua yleistä oppimiskykyä.

Tekoälyn kehittyessä on ratkaisevan tärkeää kehittää arviointimenetelmiä, jotka ovat vähemmän alttiita "suunnille" ja jotka kuvaavat paremmin mallien todellisia kykyjä. GSM1k on esimerkki lähestymistavasta, jolla pyritään ratkaisemaan tämä ongelma.

Lue myös:

Pikakuvake Gemini saapuu Google kromi