勉強する questionAI ランキングの妥当性: モデルは学習ではなく記憶することでベンチマークを上回ります

Scale AI による新しい研究これは、大規模言語モデル (LLM) を評価する際の一般的なベンチマークの有効性について深刻な疑問を引き起こします。この研究では、一部のモデルが実際の問題解決スキルを開発するのではなく、特定のパターンを記憶する「過剰適合」によってこれらのランキングで良い結果を達成していることが明らかになりました。

宣伝

???????? 購読する ベスト newsletter AIについて（英語🇬🇧） 

🇧🇷 署名してください melhor newsletter AI について (ポルトガル語 🇧🇷)

研究の詳細:

オーバーフィット: この用語は、モデルが一般化された問題解決能力を開発するのではなく、特定のベンチマークに固有の問題に対処することを学習する状況を表します。
新しいベンチマーク: Scale AI は、数学テストに広く使用されている GSM1k に似た、GSM8k と呼ばれる新しいデータセットを作成しました。 inteligência人工（IA）。
性能 questionできる: GSM1k でテストした場合、いくつかの高性能 AI モデルのパフォーマンスは GSM8k よりも大幅に悪かったため、概念を実際に理解するのではなくパターンを記憶したことが示唆されます。
影響を受けるモデル: Mistral と Phi ではパフォーマンスが著しく低下しましたが、 GPT-4, クロード, Gemini e ラマ両方のベンチマークで同様の結果が得られました。