Scale AI による新しい研究 これは、大規模言語モデル (LLM) を評価する際の一般的なベンチマークの有効性について深刻な疑問を引き起こします。この研究では、一部のモデルが実際の問題解決スキルを開発するのではなく、特定のパターンを記憶する「過剰適合」によってこれらのランキングで良い結果を達成していることが明らかになりました。
宣伝
???????? 購読する ベスト newsletter AIについて(英語🇬🇧) 🇧🇷 署名してください melhor newsletter AI について (ポルトガル語 🇧🇷)
研究の詳細:
- オーバーフィット: この用語は、モデルが一般化された問題解決能力を開発するのではなく、特定のベンチマークに固有の問題に対処することを学習する状況を表します。
- 新しいベンチマーク: Scale AI は、数学テストに広く使用されている GSM1k に似た、GSM8k と呼ばれる新しいデータセットを作成しました。 inteligência人工 (IA)。
- 性能 questionできる: GSM1k でテストした場合、いくつかの高性能 AI モデルのパフォーマンスは GSM8k よりも大幅に悪かったため、概念を実際に理解するのではなくパターンを記憶したことが示唆されます。
- 影響を受けるモデル: Mistral と Phi ではパフォーマンスが著しく低下しましたが、 GPT-4, クロード, Gemini e ラマ 両方のベンチマークで同様の結果が得られました。
なぜそれが重要なのか:
Scale AI の調査は、現在のベンチマークが AI の真の進歩について誤った印象を与えている可能性があることを示しています。従来のベンチマークで高いパフォーマンスを発揮するモデルには、期待される一般化された学習能力が備わっていない可能性があります。
AI の進歩に伴い、「落とし穴」に影響されにくく、モデルの実際の能力をより忠実に捉える評価方法を開発することが重要です。 GSM1k は、この問題の解決を目的としたアプローチの一例です。
また、お読みください。