「実行できたのに失敗している」AIエージェントの落とし穴:SIMMER論文を読む
今日取り上げたいのは、2026年6月15日のarXiv cs.CL新着に掲載された SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model です。テーマは、LLMエージェントが作る行動計画の評価です。ポイントはとてもシンプルで、「その手順は実行できるか」だけではなく、「実行できてしまうけれど、実は危ない失敗を含んでいないか」を測ろうとしているとこ...
「実行できたのに失敗している」AIエージェントの落とし穴:SIMMER論文を読む
今日取り上げたいのは、2026年6月15日のarXiv cs.CL新着に掲載された SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model です。テーマは、LLMエージェントが作る行動計画の評価です。ポイントはとてもシンプルで、「その手順は実行できるか」だけではなく、「実行できてしまうけれど、実は危ない失敗を含んでいないか」を測ろうとしているところにあります。(arxiv.org)
何が問題なのか
たとえば、料理をするロボットに「チキンサラダを作って」と頼んだとします。モデルは、鶏肉を切る、焼く、野菜を切る、盛りつける、という計画を立てます。一見すると、各ステップは実行可能です。包丁もある。まな板もある。鶏肉も野菜もある。ですから、単純な実行チェックでは失敗になりません。
でも、もし生の鶏肉を切ったまな板を洗わずに、そのままサラダ用の野菜に使っていたらどうでしょう。ロボットは止まりません。エラーも出ません。けれど、最終結果は安全ではありません。SIMMER論文は、こうした「すぐには壊れないが、状態としては破綻している失敗」を latent failure、潜在的失敗 と呼んでいます。論文内でも、生肉を扱った後に同じまな板で野菜を準備する例が、まさにこの種の失敗として説明されています。(arxiv.org)
SIMMERの新しさ
この論文の面白いところは、LLMの計画をただ人間が読んで採点するのではなく、キッチン領域の symbolic world model、記号的な世界モデル に通して検査する点です。
SIMMERは、77種類の行動、262種類の物体、約46,800通りの意味的に現実的な相互作用を持つキッチン世界モデルを定義しています。行動には前提条件と効果があり、物体には「切れる」「加熱できる」「生/調理済み」といった性質や状態があります。さらに、状態機械ベースの実行器によって、通常の前提条件違反だけでなく、潜在的な危険や不可逆な失敗も検出します。(arxiv.org)
ここで重要なのは、「計画が形式的に正しい」ことと「世界の状態を安全に変化させている」ことは別だ、という視点です。LLMエージェントの評価では、ツール呼び出しが成功した、JSONが壊れていない、最終回答がそれらしい、といった指標に寄りがちです。しかし、現実の業務やロボット操作では、途中の状態が汚染される、権限が残る、火がついたままになる、といった問題が起きます。SIMMERは、その「途中状態の倫理と安全性」を評価対象に引き上げています。
結果はかなり厳しい
論文では6つのLLMを評価し、最先端モデルでも完全にエラーのない計画は最大17%にとどまったと報告されています。また、計画の最大56%に潜在的失敗が含まれ、その多くが不可逆な結果につながるとされています。本文中の分析では、全モデル平均でエラーのない計画は7.2%にすぎず、潜在的失敗を含む計画は29〜52%、少なくとも1つの不可逆失敗を含む計画は20〜45%の範囲だったと示されています。(arxiv.org)
これは、LLMが「料理を知らない」という単純な話ではありません。むしろ問題は、モデルが手順をもっともらしく並べることはできても、状態変化を継続的に追跡するのが難しいという点です。生肉を触った手、使用済みのまな板、加熱中のコンロ、開いたままの冷蔵庫。こうした状態は、文章として明示されなければ会話の裏側に沈みます。けれど現実世界では、その沈んだ状態こそが事故を生みます。
改善策としての「反実仮想的な先読み」
SIMMERは問題を指摘するだけではなく、軽量な改善策も試しています。特に注目されるのが counterfactual foresight simulation、つまり各ステップで「この行動をしたら世界の状態はどう変わるか」を明示的に考えさせる方法です。
論文によると、この明示的な状態推論によって、潜在的失敗は最大72%、不可逆なケースは最大75%削減できたとされています。また、単に最後に全体を見直すSelf-Refineよりも、ステップごとに状態を追跡する方が、特に前提条件違反のような局所的な失敗を抑えやすいと分析されています。(arxiv.org)
ここから見えてくるのは、エージェント設計のかなり実務的な方向性です。モデルに「慎重に考えて」と言うだけでは足りません。必要なのは、状態を外部化し、検査可能にし、行動前にシミュレーションする仕組みです。これはロボットだけでなく、社内ワークフロー、データ処理、コード変更、金融・医療・法務の支援エージェントにもそのまま当てはまります。
ただし、限界もある
もちろん、SIMMERは万能の評価ではありません。対象はキッチン領域の記号的世界モデルであり、現実の物理世界のあいまいさ、センサー誤差、人間の予期しない介入までは扱いきれません。また、世界モデル自体が人間の設計物なので、そこに書かれていない危険は検出できません。論文も、ベンチマークや状態機械実行器などは採択後に公開予定と述べており、現時点では第三者による広範な再現検証はこれからです。(arxiv.org)
それでも、この論文の価値は大きいと思います。なぜなら、AIエージェントの失敗を「出力が間違った」ではなく、「世界の状態を壊した」と捉え直しているからです。
今後の見どころ
これからのエージェント評価では、「答えが合っているか」だけでなく、「途中で何を変えたか」「その変更は戻せるか」「隠れた危険状態を作っていないか」が重要になります。SIMMERが示したのは、LLMにより強い推論能力を持たせるだけではなく、LLMの外側に検査可能な世界モデルを置く必要性です。
言い換えるなら、エージェントの信頼性は、モデル単体の賢さではなく、モデル、状態管理、検証器、ログ、シミュレーションの組み合わせで決まるようになっていきます。
今日の一本は、派手な新モデル発表ではありません。でも、AIエージェントを「動くデモ」から「任せられるシステム」に近づけるうえで、かなり本質的な問いを投げかけています。実行できたから成功、ではない。むしろ、実行できてしまう失敗をどう見つけるか。ここが、次の評価軸になりそうです。
出典URL: https://arxiv.org/abs/2606.14574