Belajar questionvaliditas peringkat AI: model mengungguli tolok ukur dengan menghafal, bukan belajar
Kredit gambar: Curto Berita/Bing AI

Belajar questionvaliditas peringkat AI: model mengungguli tolok ukur dengan menghafal, bukan belajar

Penelitian baru dari Scale AI menimbulkan keraguan serius tentang efektivitas tolok ukur populer dalam mengevaluasi model bahasa besar (LLM). Studi ini mengungkapkan bahwa beberapa model mencapai hasil yang baik dalam pemeringkatan ini melalui “overfitting”, menghafal pola tertentu alih-alih mengembangkan keterampilan pemecahan masalah yang sebenarnya.

PUBLISITAS

Detail studi:

  • overfitting: Istilah ini menggambarkan situasi di mana suatu model belajar untuk menangani masalah-masalah yang spesifik terhadap suatu tolok ukur tertentu daripada mengembangkan kemampuan pemecahan masalah yang umum.
  • Tolok ukur baru: Scale AI telah membuat kumpulan data baru yang disebut GSM1k, mirip dengan GSM8k yang banyak digunakan untuk ujian matematika inteligência buatan (IA).
  • Performance questionmampu: Saat diuji pada GSM1k, beberapa model AI berperforma tinggi memiliki performa yang jauh lebih buruk dibandingkan GSM8k. Hal ini menunjukkan bahwa model tersebut menghafal pola dibandingkan mengembangkan pemahaman konsep yang sebenarnya.
  • Model yang terkena dampak: Mistral dan Phi mengalami penurunan kinerja yang signifikan, sementara GPT-4, Claude, Gemini e Llama menyajikan hasil serupa di kedua tolok ukur.

Mengapa ini penting:

Studi Scale AI menunjukkan bahwa tolok ukur yang ada saat ini mungkin memberikan kesan yang salah tentang kemajuan sebenarnya dalam AI. Model yang memiliki kinerja tinggi berdasarkan tolok ukur tradisional mungkin tidak memiliki kapasitas pembelajaran umum yang diharapkan dari model tersebut.

Seiring dengan kemajuan AI, sangatlah penting untuk mengembangkan metode evaluasi yang tidak terlalu rentan terhadap “perangkap” dan lebih akurat dalam menangkap kemampuan model yang sebenarnya. GSM1k adalah contoh pendekatan yang bertujuan untuk memecahkan masalah ini.

Baca juga:

gulir ke atas