Many-Shot CoT-ICL:長いコンテキストは「情報倉庫」ではなく「授業計画」だった
2026年5月14日のarXiv cs.CL新着に、ICML 2026採択論文として “Many-Shot CoT-ICL: Making In-Context Learning Truly Learn” が掲載されました。テーマは一見すると地味です。LLMにたくさんの例題と解法を見せると、推論はどのように良くなるのか。しかし、この論文の面白さは「例を増やせばよい」「似た問題を検索して詰めればよい」という、長文コンテキスト時代の素朴な前提にブレーキをかけている点にあります。(arxiv.org)
従来のin-context learningは、数個の入出力例をプロンプトに入れ、モデルにタスクの形式を察してもらう技術として理解されてきました。そこにChain-of-Thought、つまり途中推論の例が加わると、モデルは「答えの形式」だけでなく「解き方」もまねるようになります。さらに長いコンテキスト窓が使えるようになると、数十から数百の解法例を入れる many-shot CoT-ICL が現実的になります。ここで自然に生まれる期待は、「例題を増やせば、少ししたファインチューニングのように効くのではないか」というものです。
論文が示すのは、そこまで単純ではないということです。著者らは、非推論タスクと推論タスク、非推論型LLMと推論志向LLMをまたいで many-shot CoT-ICL を調べ、3つの挙動を報告しています。第一に、CoTデモを増やす効果は設定依存で、非推論型モデルでは不安定になりやすく、主に推論志向モデルで利益が出る。第二に、意味的に似た例を検索して入れる方法は、非推論タスクでは役立っても、推論タスクでは失敗しやすい。第三に、例の数が増えるほど、並べ方による性能のばらつきが大きくなる、というものです。(arxiv-troller.com)
特に重要なのは、検索の失敗です。RAGやfew-shot promptingでは、埋め込み類似度で「近い例」を拾う設計がよく使われます。しかし推論問題では、表面的に似ていることと、解法手順が似ていることは一致しません。たとえば、どちらも「円」が出てくる幾何問題でも、必要な補助線や定理が違えば、CoT例としてはむしろノイズになります。逆に、語彙や図形の見た目が違っても、証明の流れが似ていれば有用なデモになり得る。つまり reasoning における「近さ」は、意味検索だけでは測りにくい。
この論文の見方で面白いのは、many-shot CoT-ICLを単なる「大きなプロンプト」ではなく、in-context test-time learning と捉えている点です。長いコンテキストは、関連資料を置く倉庫ではなく、モデルがその場で学ぶための一時的なカリキュラムになる。すると重要なのは、例題の量だけではありません。モデルにとって理解可能な難度であること、そして概念的な進み方が滑らかであることが効いてきます。著者らはこの考えに基づき、Curvilinear Demonstration Selection、略してCDSという並べ方を提案し、64個のデモを使う幾何タスクで最大5.42ポイントの改善を報告しています。(arxiv-troller.com)
実務上の含意はかなりはっきりしています。長文コンテキスト対応モデルを使うとき、「関連しそうな例を上から64件入れる」だけでは、推論性能を安定して引き出せない可能性があります。特に数学、コード修正、法的推論、医療トリアージのように、答えよりも手順が重要な領域では、例の選択基準を「内容の類似」から「解法過程の互換性」へ拡張する必要があります。これはRAG設計にも影響します。検索対象は文書や過去QAだけでなく、「この問題を解くための思考手順」に近いものへ変わっていくかもしれません。
一方で、この結果を「長いプロンプトがファインチューニングを置き換える」と読むのは早いです。論文自身も、効果が設定依存であることを強調しています。報告された改善も、特定のタスク・モデル・デモ数のもとでのものです。many-shot CoTはトークンコストが大きく、評価時には例の順序・難度・出典によるばらつきも管理しなければなりません。むしろこの研究が示しているのは、長いコンテキストが万能になったのではなく、長いコンテキストをどう教科書化するかが新しい研究課題になった、ということです。
これまでプロンプト設計は、どこか「質問文の書き方」の問題として扱われがちでした。しかし、many-shot CoTの時代には、プロンプトは小さな教材編成になります。どの例を先に置くか。どの例を飛ばすか。似ているが解法が違う例をどう避けるか。これは、検索、カリキュラム学習、評価設計が交差する領域です。LLMの推論能力を引き出す技術は、モデルを大きくする方向だけでなく、モデルにその場で何をどう見せるかという方向にも広がっています。
出典:arXiv cs.CL recent submissions、ICML 2026 Downloads、arXiv:2605.13511 要旨情報。(arxiv.org)