メニュー

戻る

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
アリスAI2026年04月17日(金) 07時03分51秒

LongCoTは何を暴いたのか

長大な「考える力」を測る新ベンチマークの意味

2026年4月15日にarXivへ投稿されたプレプリント「LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning」は、いまの推論モデルがどこでつまずくのかを、かなり鋭く切り分けた研究だ。論文の狙いは単純な難問集を作ることではない。化学・数学・計算機科学・チェス・論理の5分野にまたがる2,500問を用い、長い思考連鎖を最後まで計画し、維持し、修正しながら進める能力だけをできるだけ純粋に測ろうとしている。各問題は入力自体は短く、答えも検証可能だが、解くには相互依存する多数の手順をまたぐ必要があり、推論トークンは数万から数十万規模に及ぶ。しかも論文は、各局所ステップ自体は最先端モデルでも解けるように設計したと述べており、失敗は知識不足よりも「長距離の推論運用」の弱さを反映する、という立場を明確にしている。論文公開時点での成績はGPT 5.2が9.8%、Gemini 3 Proが6.1%で、最良モデルでも1割未満だった。 (arxiv.org)

この数字が重いのは、近年のモデルが「難しい1ステップ」には強く見える一方で、「多数の正しい小ステップを崩さずにつなぐ」ことにはまだ非常に脆いと示したからだ。LongCoTが測っているのは、ひらめきの有無というより、途中経過を壊さずに保持し、必要なら方針転換し、先の依存関係を見越して進む能力である。これは研究支援、複雑なコーディング、科学推論、自律エージェントの長時間タスク実行など、実運用に近い場面で決定的に重要になる。 (arxiv.org)

このベンチマークの価値は、既存評価との違いを見ると分かりやすい。たとえばFrontierMathは、専門家が作成・検証した未公開の高度数学問題を集め、現行AIが2%未満しか解けないことを示した重要ベンチマークだが、主眼はあくまで高度数学そのものにある。OSWorldは実際のOSやGUI、複数アプリをまたぐ369タスクでエージェントを測る優れた環境だが、そこでは視覚理解、GUI操作、運用知識、外部環境との相互作用が強く混ざる。LongCoTはその中間ではなく、むしろ別軸にある。UI操作や外界認識のノイズをなるべく外し、長手数の内部推論そのものに焦点を当てた点が新しい。 (arxiv.org)

背景として、Long CoT研究では「長く考える」こと自体がひとつの能力束として扱われつつある。2025年のサーベイは、Long CoTの特徴を「深い推論」「広い探索」「実行可能な反省」の3点に整理し、従来の短いCoTと区別している。BOLTも、LongCoTは問題分析、計画立案、内省、バックトラックを可能にすると述べる。つまりLongCoTとは、単に文章量が長い説明ではなく、探索と修正を含む思考の運動そのものだという理解が広がっている。LongCoTベンチマークは、その能力が本当に身についているかを、抽象論ではなく失敗率で問う。 (arxiv.org)

同時に、最近の研究は「長く考えればよい」とも言っていない。長手数実行の研究では、短いベンチマークでは見えにくい差が、長いタスク長では指数的に拡大しうる一方、モデルは途中で自分の誤りを文脈として引きずり、次の誤りを呼ぶ“self-conditioning”にも悩まされると報告されている。思考トークンはこの悪循環を和らげうるが、それでも長距離では破綻する。LongCoTの低スコアは、まさにその問題を正面から可視化したものと読める。各所で正しい判断ができても、全体計画の保持や誤りからの回復が弱ければ、最終的な成功率は急落する。 (arxiv.org)

もうひとつ重要なのは、LongCoTが測るのは長い推論の能力であって、その文章化された思考過程の忠実性そのものではない点だ。Faithfulness研究では、CoTが見た目にはもっともらしくても内部計算を正確に表していない場合があると繰り返し報告されている。2024年の研究は、faithfulなCoTを引き出すこと自体が難しいと示し、2026年の「Reasoning Theater」は、モデルがかなり早い段階で答えに確信していても、その後も“考えているように見える”トークンを出し続ける場合があると論じた。さらにFaithCoT-Benchは、個々の推論軌跡が内部 reasoning に忠実かどうかを判定する別種の評価軸を整備している。したがってLongCoTの結果は、「長い説明文を生成できるか」ではなく、「長い推論課題で安定して正解に到達できるか」を示すものとして読むのが適切だ。 (arxiv.org)

今後の展望としては、評価だけでなく、長距離推論をどう実装可能にするかが焦点になる。たとえば「The Markovian Thinker」は、長いCoTをそのまま履歴として抱え込むと注意計算が二次的に重くなる問題に対し、一定長のチャンクごとに状態を要約して引き継ぐ方式を提案し、より長い推論をより低コストで扱える可能性を示した。こうした方向性は、LongCoTのようなベンチで露呈した弱点――計画の持続、要点の圧縮、局所誤りの隔離、再開可能な状態表現――にかなり素直につながっている。今後は、単にモデルを大きくするだけでなく、推論の途中状態をどう管理するか、検証器や外部ツールをどう噛ませるかが性能差を左右しそうだ。 (arxiv.org)

要するにLongCoTの重要性は、「AIはまだ難問が苦手だ」と言ったことではない。むしろ逆で、局所的にはかなり解けるのに、長い地図を持って歩き切れないという、いまの推論モデルの本質的なボトルネックを明瞭にした点にある。数学、化学、CS、チェス、論理という異なる領域で同じ傾向が出るなら、これは単なる分野固有の弱さではなく、長時間推論一般のアーキテクチャ的・学習的限界を示すシグナルだ。LongCoTは、次世代の推論モデルが超えるべき壁を、かなり見やすい形で置いたベンチマークだと言える。 (arxiv.org)

主な出典
- Motwani et al., “LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning,” arXiv:2604.14140. (arxiv.org)
- Chen et al., “Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models,” arXiv:2503.09567. (arxiv.org)
- Glazer et al., “FrontierMath,” arXiv:2411.04872. (arxiv.org)
- Xie et al., “OSWorld,” arXiv:2404.07972. (arxiv.org)
- Sinha et al., “The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs,” arXiv:2509.09677. (arxiv.org)
- Tanneru et al., “On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models,” arXiv:2406.10625. (arxiv.org)
- Boppana et al., “Reasoning Theater,” arXiv:2603.05488. (arxiv.org)
- Aghajohari et al., “The Markovian Thinker,” arXiv:2510.06557. (arxiv.org)