MentalMap:LLMは「部屋の見取り図」をテキストだけで作れるのか
2026年5月27日に投稿された論文「Do LLMs Build World Models From Text?」は、LLMの“世界モデル”論争をかなり良い形で絞り込んでいる。問いは大きいが、実験設定は具体的だ。部屋の中にある物体の位置関係をテキストで説明されたとき、LLMは単に文を読んでいるだけなのか、それとも頭の中に近い「空間の地図」を構成しているのか。著者らはこの問題を、MentalMapという多言語ベンチマークで検証した。(arxiv.org)
MentalMapの特徴は、空間理解を一問一答の正誤ではなく、6段階の能力階層として分解している点にある。単純な物体関係の確認から、視点を変えた推論、最終的には世界グラフの生成までを扱う。データは100個のProcTHOR家庭内シーンをもとに作られ、8つの類型的に異なる言語と構造化テキストのコントロールを含み、39種類のタスクファミリー、1,950個の評価セルで構成される。さらに、参照枠、読み方向バイアス、推論努力の配分、幻覚という4つの診断軸も加えられている。(arxiv.org)
最も重要な結果は、著者らが「L3 reasoning cliff」と呼ぶ落差だ。13種類のLLMを評価したところ、原子的な空間事実をある程度扱えるモデルでも、視点変換を含む推論では性能が急落した。論文の要約によれば、L0の基礎性能が40%を超える場合でも、L3の視点推論でL0性能の半分を維持できたモデルはなかった。この落差は、言語、モデル規模、プロンプト戦略を変えても残ったと報告されている。(arxiv.org)
ここで注意したいのは、この論文が「LLMには世界モデルがない」と単純に断定しているわけではないことだ。むしろ興味深いのは、人間に同じテキストだけの条件で課題を解かせた場合にも似た失敗パターンが再現された点である。著者らは、ボトルネックが現在のLLM固有の欠陥というより、テキストだけで空間状態を作業記憶に保持することの難しさにある可能性を示唆している。(arxiv.org)
これはLLM研究にとって、かなり大事な整理だと思う。これまで「世界モデルがあるかないか」は、しばしば大きすぎる問いとして語られてきた。しかし実用上の問題は、もっと細かい。「台所の左に冷蔵庫がある」と答えられることと、「自分が反対側を向いたら冷蔵庫はどちらに見えるか」を安定して処理できることは違う。後者には、関係の記憶だけでなく、視点、座標変換、複数物体の同時保持が必要になる。
この論文の示唆は、エージェント設計にも直結する。Web操作やオフィス文書処理では、対象はしばしばテキストとUIの混合空間になる。ロボティクスや倉庫管理、建築、AR支援のような領域では、空間関係の取り違えがそのまま失敗につながる。LLMに長い説明文を渡して「よく考えて」と促すだけでは、空間作業記憶の限界を突破できない可能性がある。
先行研究でも、グリッド迷路のような制御された空間課題で、LLMの成功が表現形式やプロンプトに強く依存し、頑健な空間世界モデルとは言いにくいという報告が出ていた。今回のMentalMapは、その議論を多言語・家庭内シーン・視点変換へ広げた点に価値がある。(arxiv.org)
では、解決策は何か。論文の結論に沿って言えば、方向性は「もっと長い思考」だけではなさそうだ。むしろ、マルチモーダル入力、外部スクラッチパッド、明示的なシーングラフ、地図のような中間表現を組み合わせる必要がある。人間も複雑な部屋の配置を文章だけで覚えるより、図に描いた方が強い。LLMエージェントにも同じことが言えるのかもしれない。
重要なのは、これはLLMの限界を示すだけの論文ではなく、「どの能力をどの表現に外部化すべきか」を考えるための論文だという点だ。世界モデルは、モデルの内部に完全に閉じ込めるものではなく、図、メモリ、ツール、視覚入力、検証器を含むシステム全体として設計されるものになっていく。その意味でMentalMapは、LLMを賢くする競争から、LLMにどんな“認知の足場”を与えるかという競争への移行をよく映している。
出典:arXiv:2605.28277「Do LLMs Build World Models From Text? A Multilingual Diagnostic of Spatial Reasoning」(arxiv.org)