Apple の人工知能科学者による新しい論文では、Meta や OpenAI などの大規模な言語モデルに基づくエンジンには、依然として基本的な推論スキルが欠けていることが判明しました。
グループ提案しました新しいベンチマークである GSM-Symbolic は、他の人がさまざまな大規模言語モデル (LLM) の推論能力を測定するのに役立ちます。彼らの最初のテストでは、クエリの文言のわずかな変更が大幅に異なる回答をもたらし、モデルの信頼性を損なう可能性があることが明らかになりました。
研究グループは、人間が理解できるが、解決策の基本的な数学に影響を与えるべきではない文脈情報をクエリに追加することで、数学的推論の「脆弱性」を調査しました。その結果、さまざまな答えが得られましたが、これはあってはならないことです。
「具体的には、GSM-Symbolicベンチマークで質問の数値のみが変更された場合でも、すべてのモデルのパフォーマンスが低下する」と同グループは報告書に書いている。 「さらに、これらのモデルの数学的推論の脆弱性は、質問内の文節の数が増加するにつれてパフォーマンスが大幅に低下することを示しています。」
この研究では、特定の数学の質問に関連情報を提供していると思われる一文を追加すると、最終的な解答の精度が最大 65 パーセント低下する可能性があることがわかりました。 「この基盤の上に信頼できるエージェントを構築する方法はまったくありません。単語の 1 ~ 2 つを無関係に変更したり、無関係な情報を少し追加したりするだけで、別の答えが得られる可能性があります。」と研究は結論付けています。
批判的思考の欠如
この問題を示す特定の例は、問題を真に理解する必要がある数学の問題でした。チームが開発した「GSM-NoOp」と呼ばれるタスクは、小学生が遭遇する可能性のある数学の「文章題」に似ていた。
クエリは、結果を定式化するために必要な情報から始まりました。 「オリバーは金曜日に44個のキウイを選び、土曜日に58個のキウイを選びます。日曜日には金曜日の2倍の数のキウイを選びます。」
次にクエリは、関連しているように見えるが、実際には最終的な答えとは関係のない文節を追加し、日曜日に収穫されたキウイのうち、「そのうちの 5 個は平均より少し小さかった」と指摘しています。要求された答えは単に「オリバーはキウイを何個持っていますか?」という質問でした。
日曜日に収穫されたキウイの一部の大きさに関するメモは、収穫されたキウイの総数とは関係ありません。ただし、OpenAI のモデルと Meta の Llama3-8b では、合計結果から 5 つの小さなキウイが差し引かれています。
この欠陥のあるロジックは、スーパーボウルに出場した過去2人のクォーターバックの年齢に関する質問をすることでAIモデルを確実に混乱させる可能性がある2019年の以前の研究によって裏付けられていた。彼らがプレイしたゲームに関する背景情報と関連情報、および別のボウルゲームでクォーターバックだった第三者を追加することで、モデルは不正解を導き出しました。
「言語モデルに形式的推論の証拠は見つからなかった」と新たな研究は結論づけた。 LLMS の動作は「高度なパターン マッチングによってよりよく説明される」が、研究では「実際、名前を変更するだけで結果が変わる可能性があるほど脆弱である」ことが判明した。