مطالعه questionاعتبار رتبه‌بندی‌های هوش مصنوعی: مدل‌ها با به خاطر سپردن، نه یادگیری، از معیارها بهتر عمل می‌کنند.

تحقیقات جدید Scale AI شک و تردیدهای جدی در مورد اثربخشی معیارهای رایج در ارزیابی مدل های زبان بزرگ (LLM) ایجاد می کند. این مطالعه نشان می‌دهد که برخی از مدل‌ها از طریق «بیش از حد برازش»، به خاطر سپردن الگوهای خاص به‌جای توسعه مهارت‌های واقعی حل مسئله، به نتایج خوبی در این رتبه‌بندی‌ها دست می‌یابند.

تبلیغات

؟؟؟؟؟؟؟؟ اشتراک در بهترین newsletter درباره هوش مصنوعی (به انگلیسی 🇬🇧) 

🇺🇸 امضاش کن بهترین newsletter درباره هوش مصنوعی (به پرتغالی 🇧🇷)

جزئیات مطالعه:

بیش از حد: این اصطلاح وضعیتی را توصیف می کند که در آن یک مدل یاد می گیرد به جای توسعه یک توانایی حل مسئله تعمیم یافته، با مشکلات خاص یک معیار معین برخورد کند.
معیار جدید: Scale AI مجموعه داده جدیدی به نام GSM1k ایجاد کرده است، مشابه GSM8k که به طور گسترده برای تست های ریاضی استفاده می شود. inteligência مصنوعی (IA).
عملکرد questionقادر: هنگامی که بر روی GSM1k آزمایش شد، چندین مدل هوش مصنوعی با عملکرد بالا به طور قابل توجهی بدتر از GSM8k عمل کردند، که نشان می‌دهد آنها الگوها را به جای ایجاد درک واقعی از مفاهیم حفظ می‌کنند.
مدل های تحت تاثیر: Mistral و Phi کاهش قابل توجهی در عملکرد داشتند، در حالی که GPT-4, کلود, Gemini e پشم لاما نتایج مشابهی را در هر دو معیار ارائه کرد.

چرا این مهم است:

مطالعه Scale AI نشان می دهد که معیارهای فعلی ممکن است تصور نادرستی از پیشرفت واقعی در هوش مصنوعی ایجاد کنند. مدل هایی که عملکرد بالایی بر روی معیارهای سنتی دارند، ممکن است ظرفیت یادگیری تعمیم یافته ای که از آنها انتظار می رود را نداشته باشند.

همانطور که هوش مصنوعی پیشرفت می‌کند، توسعه روش‌های ارزیابی که کمتر در معرض «تله‌ها» هستند و توانایی‌های واقعی مدل‌ها را با وفاداری بیشتری نشان می‌دهند، بسیار مهم است. GSM1k نمونه ای از رویکردی است که هدف آن حل این مشکل است.

همچنین بخوانید:

میانبر Gemini می رسد در Google کروم