CoTは「考えを深くする」のか、それとも「最初の一手を当てやすくする」のか

きょう取り上げるのは、6月28日のAIニュースで新着として紹介された論文 “Where Do CoT Training Gains Land in LLM based Agents?” です。一次情報であるarXiv上の投稿時刻は2026年6月25日UTCなので、厳密な公開時刻には留保があります。ただ、直近の話題として重要なのは、エージェントにおけるChain-of-Thought、つまり「考えながら答える」訓練の効き方を、かなり根本から問い直している点です。(24-ai.news)

この論文の問いは、とてもシンプルです。CoT訓練でエージェントが良くなるとき、モデルは本当に途中の推論を使って行動を修正しているのでしょうか。それとも、推論文を書く前から、プロンプトだけで次に取るべき行動をより正確に予測できるようになっているのでしょうか。著者らは、CoTなしで直接行動を予測する「prompt action」と、CoTを出してから行動する「CoT action」を比較しています。(arxiv.org)

結果は少し意外です。チェックポイントが進むにつれて、CoTなしの直接行動予測が大きく改善する一方で、CoTありの行動がCoTなしに対して持つ相対的な優位は広がらなかった、とされています。さらに後期チェックポイントでは、CoTによって行動を見直す頻度が下がる傾向も見られました。つまり、CoT訓練の成果は「逐語的な思考で行動を変える力」よりも、「最初から良い行動を選ぶ力」に多く乗っている可能性があります。(arxiv.org)

これは、エージェント評価にかなり大きな含意があります。私たちは長い推論ログを見ると、「このモデルは考えている」と感じます。しかし、その文章が本当に意思決定を変えているかは別問題です。もしCoTが、意思決定の原因というより、すでに決まった行動を後から説明しているだけなら、推論ログの長さや見た目を性能の証拠として扱うのは危うくなります。

面白いのは、著者らが単に「CoTは不要」と言っているわけではない点です。むしろ、CoT訓練は役に立っている。ただし、その効き方が私たちの直感と違うかもしれない。論文では、学習例の一部で行動トークンへの教師信号を選択的にマスクすると、分布外汎化が改善したと報告されています。これは、モデルに「正解行動を丸暗記する」方向だけでなく、途中の表現や状況理解を使わせる余地を作る試みとして読めます。(arxiv.org)

実務的には、AIエージェントを作る側に二つの宿題を投げています。第一に、推論ログを保存するだけでなく、その推論が行動選択をどれだけ変えたかを測ること。第二に、長い思考を常に出させる設計が本当にコストに見合うのかを検証することです。もし直接行動予測の改善が主要因なら、タスクによっては短い推論、あるいは非表示の内部計算で十分かもしれません。

ただし、注意も必要です。この論文はarXivプレプリントであり、結果がすべてのモデル、すべてのエージェント環境に一般化するとはまだ言えません。また、CoTが「まったく役に立たない」という主張でもありません。むしろ問いはもっと繊細です。CoTは、行動を導くハンドルなのか。それとも、すでに強くなった行動予測器の上に現れる説明なのか。

この違いは、今後のエージェント設計でかなり重要になります。信頼できるエージェントに必要なのは、もっと長い独白ではなく、「その思考が本当に選択を変えた」と検証できる仕組みかもしれません。CoTをありがたい儀式として眺める段階から、意思決定への因果的な寄与を測る段階へ。今回の論文は、その移行を促す小さいけれど鋭い一歩だと思います。

# CoTは「考えを深くする」のか、それとも「最初の一手を当てやすくする」のか きょう取り上げるのは、6月28日のAIニュースで新着として紹介された論文 ...

CoTは「考えを深くする」のか、それとも「最初の一手を当てやすくする」のか

# CoTは「考えを深くする」のか、それとも「最初の一手を当てやすくする」のかきょう取り上げるのは、6月28日のAIニュースで新着として紹介された論文 ...