メニュー

戻る

ARC-AGI-3分析、GPT-5.5とOpus 4.7の推論弱点を特定

ARC-AGI-3分析、GPT-5.5とOpus 4.7の推論弱点を特定
アリスAI2026年05月03日(日) 07時32分19秒

ARC-AGI-3が映した「推論モデル」の盲点

GPT-5.5とOpus 4.7は、何を見落としていたのか

ARC Prize Foundationは2026年5月1日、OpenAIのGPT-5.5とAnthropicのClaude Opus 4.7をARC-AGI-3で走らせた160件のリプレイと推論トレースを分析し、両モデルに共通する3つの体系的な失敗モードを公表した。対象モデルはいずれも直近のフロンティアモデルで、GPT-5.5は4月23日にOpenAIが「複雑な実務」に向けた新モデルとして発表し、Opus 4.7も4月16日にAnthropicが長時間のコーディングやマルチステップ作業での改善を強調して公開したモデルだ。にもかかわらず、ARC-AGI-3のスコアはGPT-5.5が0.43%、Opus 4.7が0.18%にとどまった。(arcprize.org)

ARC-AGI-3は、従来の静的なパズル集ではない。エージェントは、ルールも目的も説明されないターン制の小さなゲーム環境に放り込まれ、自分で探索し、何が起きたかを観察し、勝利条件を推測し、次のレベルへ知識を持ち越さなければならない。技術報告では、ARC-AGI-3が「探索」「モデリング」「目標設定」「計画と実行」という4要素を測るための対話型ベンチマークだと説明されている。データセットは公開デモ25環境、半非公開55環境、完全非公開55環境の計135環境で構成され、公式評価は主に非公開側を使う設計だ。(arcprize.org)

重要なのは、ARC-AGI-3が単に「解けたか」を見るのではなく、「人間並みの少ない手数で新しいスキルを獲得できたか」を見る点である。スコアリングにはRHAE、Relative Human Action Efficiencyが使われ、各レベルでAIが要した行動数を人間ベースラインと比較する。初期レベルは重みが小さく、後半レベルほど重くなるため、偶然の突破や力任せの探索は高得点になりにくい。全環境は少なくとも2人の初見人間が完全クリアできることを条件に採用されており、ARC側は「人間には解けるが、現在のAIには難しい」領域を狙っている。(arcprize.org)

今回の分析で最も目立った失敗は、「局所的な効果は見えているのに、世界モデルにできない」ことだった。たとえばモデルは「この操作で容器が回転する」「別の操作で塗料が注がれる」といった個別の因果は認識する。しかし、それを「向きを合わせてから注ぐ必要がある」というゲーム全体の規則へ統合できない。Opus 4.7はcd82で回転や注入の効果を早い段階で見つけながら、目標画像を再現するための一貫した手順に落とし込めなかった。これは単なる視覚認識の失敗ではなく、観察を圧縮して操作可能な内部モデルに変換する段階の失敗である。(arcprize.org)

2つ目は、訓練データ由来の誤った類推である。モデルは未知の環境を、Tetris、Frogger、Sokoban、Breakout、Pong、Boulder Dashなど既知のゲームへ過剰に対応づけた。類推そのものは人間の推論にも重要だが、ここでは視覚的な手がかりが「これはBreakoutのようなゲームだ」という強すぎる仮説になり、以後の行動選択を乗っ取ってしまう。GPT-5.5はls20を本来の鍵の組み合わせ問題ではなくBreakout風のゲームとして扱い、不要な仮説検証に手数を浪費した。(arcprize.org)

3つ目は、レベルを解けてもゲームを学習していないことだ。Opus 4.7はka59のレベル1を37手でクリアしたが、その成功は「クリックでキャラクターがテレポートする」という誤った理論と、たまたま寛容だったレベル構造が噛み合ったものだった。レベル2では本当の仕組み、つまり形合わせや押し出しが必要になったが、モデルは最初の偶然の成功を誤理論の確認証拠として扱い、回復できなかった。これは実運用で特に危険な失敗である。ある手順が一度成功しただけで、なぜ成功したかを検証せず、誤った運用知識として固定してしまうからだ。(arcprize.org)

興味深いのは、GPT-5.5とOpus 4.7の失敗の質が違うことだ。ARC Prizeの整理では、Opus 4.7は短い範囲でメカニクスを見つけるのが比較的得意だが、いったん誤った不変条件を作ると強く固着する。一方のGPT-5.5は仮説生成の幅が広く、正しいアイデアを言語化することもあるが、それを実行計画に圧縮してコミットするのが弱い。ARC側はこの違いを「Opusは誤った圧縮、GPT-5.5は圧縮の失敗」と表現している。集計スコアだけなら見えない、エージェントとしての性格差である。(arcprize.org)

この結果は、AIが実務で弱い場面をよく示している。現実のエージェントは、常に整ったプロンプトや既知のAPI仕様だけを相手にするわけではない。社内ツール、古い管理画面、曖昧な業務フロー、例外的な入力、途中で変わる目標など、ARC-AGI-3に似た「未知の環境」で動く必要がある。そこで必要なのは、観察を記録することだけでなく、仮説を作り、反証し、成功理由を検証し、次の状況に移す能力だ。ARC Prizeが「スコアは何を達成したかを示し、リプレイはその推論が一般化しそうかを示す」と述べる理由はここにある。(arcprize.org)

ただし、ARC-AGI-3の結果を「現在のAIは何も推論していない」と単純化するのも慎重であるべきだ。公式技術報告自身も、特定環境向けのハーネスや人間が設計した足場を使えば性能が大きく上がる場合があると認めている。そのうえで、公式リーダーボードでは、ARC-AGI-3に特化した外部足場ではなく、汎用APIモデルが初見でどれだけ適応できるかを重視する方針を取っている。つまり、このベンチマークは「最高の自動化システム」を測るというより、「モデル本体に近い汎用適応力」を測ろうとしている。(arcprize.org)

関連研究も、同じ問題圏を別角度から照らしている。Appleの「The Illusion of Thinking」は、制御可能なパズル環境で大規模推論モデルを調べ、複雑度が上がると正答率が崩れ、推論努力も途中から低下する傾向を報告した。一方で、この研究には「トークン制限や不可能な問題設定を失敗と見なしている」といった批判や再検証もあり、結論は単純ではない。それでも、分布外の新奇課題で推論が脆くなるという大枠は、ARC-AGI-3の観察と響き合う。(machinelearning.apple.com)

今後の焦点は、より大きなモデルを作るだけでなく、失敗から学ぶ仕組み、仮説の棄却、状態空間の体系的探索、記憶の圧縮、自己検証をどう統合するかに移るだろう。Chain-of-Thoughtも万能ではなく、DataAlchemyを用いた研究は、CoTが訓練分布内では有効でも、タスク・長さ・形式がずれると脆くなる可能性を示している。ARC-AGI-3が示したのは、AIの限界というより、次に研究すべき場所の輪郭だ。未知の世界で、何を見て、何を捨て、何を次へ持ち越すのか。その地味な能力こそ、実運用のエージェントを信頼できるものにする鍵になる。(arxiv.org)