QXAI

BankerToolBenchが突きつけた現実

投資銀行の実務は、まだAIの「得意問題」ではない

2026年4月13日にarXivへ公開された BankerToolBench は、AIが投資銀行の実務にどこまで近づいたかを測る、かなり野心的なベンチマークだ。焦点は単純な金融Q&Aではない。上司からの依頼を受け、データルームや市場データ基盤、SEC開示データベースを行き来しながら、Excelモデル、PowerPoint資料、PDF/Wordレポートといった複数成果物を揃えて納品する――つまり、ジュニア投資銀行員の日常業務そのものを試す。論文によれば、このベンチマークは502人の投資銀行関係者と協働して設計され、1タスクに人間が最大21時間かかるものもある。評価も単純な正誤ではなく、100項目超のルーブリックで、最終成果物が実務上どれだけ使えるかを測る構成になっている。(arxiv.org)

この設計思想が重要なのは、近年のAI評価がしばしば「ベンチマークでは強いのに、現場では使いづらい」というズレを抱えてきたからだ。BTBの先行ドラフトとして公開されていたICLR 2026 DATA-FM向け版では、こうした過度に単純化された評価を問題視し、実務に近い環境を再現することを前面に出していた。公開情報を比較する限り、BTBはその初期版からさらに拡張され、協力者数は175人規模から502人規模へ、タスク所要時間も最大8時間から最大21時間へと引き上げられているようだ。先行版では、アナリスト調査、実際の時間配分調査、VPレビューでタスク分布の妥当性も検証しており、「それっぽい金融問題集」ではなく、実務の手触りを測ろうとする意図がはっきり見える。(openreview.net)

そして肝心の結果は、かなり厳しい。最新のarXiv版では9つの先端モデルを評価したが、最良のGPT-5.4でさえルーブリック項目のほぼ半分を落とし、銀行員評価では「顧客提出可能」と見なされた出力は0%だった。先行ドラフトでも、当時の最良モデルだったClaude Opus 4.5の成功率は33.8%にとどまっていた。モデル名や順位は更新されても、メッセージは変わらない。現時点の最先端モデルは、投資銀行の高負荷・高リスクな実務を、監督なしで安定遂行できる水準にはまだ達していない。(arxiv.org)

なぜ難しいのか。BTBの示唆は明快で、問題は単に「金融知識があるか」ではない。長い工程を計画し、複数の外部ツールを使い、Excelの数字、スライドの主張、レポートの記述、メールの要約を相互に矛盾なく揃えなければならない。論文の要約は、失敗要因としてとくに cross-artifact consistency、つまり成果物をまたいだ整合性崩れを挙げている。これは、単一の回答文をうまく書けることと、複数ファイルから成る仕事を完遂できることの間に、大きな段差があることを意味する。(arxiv.org)

この見取り図は、関連研究とも整合的だ。たとえば APEX-Agents は、投資銀行・コンサル・法務の長期タスク480件を含む職業横断ベンチマークだが、最高でもPass@1は24.0%にとどまった。一方、OpenAIの GDPval は44職種・米国GDP上位9業種にまたがる「経済的価値のある仕事」を扱い、最良のモデル群が専門家品質に近づいていると報告する。つまり、個別成果物や比較的切り出しやすい仕事では急速な改善が見える一方、BTBのような狭い領域の深い実務――しかも複数成果物を束ねる仕事――では、まだ大きなギャップが残る。(arxiv.org)

さらに金融特化の周辺ベンチマークを見ると、この難しさは偶然ではない。FinSheet-Bench は複雑な金融スプレッドシート上の抽出・推論を評価し、最良モデルでも「無監督で専門実務に使えるほど低いエラー率には届かない」と結論づけた。特に大規模で複雑なシートでは精度が大きく落ちる。BankMathBench も、預金・貸出・利息計算のような中核的な銀行数理で、LLMが条件解釈や計算を誤りやすいことを示している。要するに、投資銀行業務を支える下位能力――表計算の読解、数理、文書化、そしてそれらの統合作業――が、まだ個別にも不安定なのだ。BTBはその総和としての「実務未達」を可視化したといえる。(arxiv.org)

では、この結果は「金融AIはまだ役に立たない」という意味なのか。そこまで単純ではない。BTBの先行版では、銀行員はあらゆる業務で支援ツールに一定の支払い意思を示し、とくに認知負荷の高いディール実行やピッチ業務で強い需要があった。重要なのは、自律エージェントとして丸ごと任せるのではなく、限定された工程を支援するコパイロットとしてどう組み込むかだろう。資料のたたき台作成、資料室探索、参照先の収集、初期モデリング、要点要約のように、人間のレビューを前提に切り分けられる工程では、依然として大きな実務価値があると考えられる。(openreview.net)

今後の改善方向も、おおむね見えている。これは論文群からの推論になるが、必要なのは「より賢い一枚岩のLLM」だけではなく、文書理解と決定論的計算の分離、成果物横断の状態管理、より豊富な文脈付与、厳密な評価と人間監督を含むハイブリッド設計だろう。実際、GDPvalは推論量やタスク文脈、スキャフォールディングの増加で成績が伸びると報告し、FinSheet-Benchは文書理解と計算を分離するアーキテクチャの必要性を示唆している。BTBが示した「ほぼ半分を落とす」という結果は、モデルが弱いというより、実務が複合的すぎることを正しく測った結果でもある。(arxiv.org)

BankerToolBenchの価値は、AIの限界を大げさに語ることではなく、何が未解決なのかをかなり具体的に見せた点にある。投資銀行の仕事は、知識、計算、ツール操作、文書作成、そして成果物どうしの整合性が同時に問われる。現在の最良モデルは、そのどれか一つではなく、束になった仕事としての実務にまだ勝ち切れていない。だからこそBTBは、次の進歩がどこで起きるべきかを示す、かなり良い「ものさし」になっている。(arxiv.org)

主な出典
- BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows（arXiv, 2026年4月13日公開） (arxiv.org)
- Evaluating Frontier Agents on End-to-End Investment Banking Workflows（ICLR 2026 DATA-FM向け先行ドラフトの検索インデックス） (openreview.net)
- APEX-Agents（arXiv） (arxiv.org)
- GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks（arXiv）およびOpenAI解説ページ (arxiv.org)
- FinSheet-Bench、BankMathBench（ともにarXiv） (arxiv.org)

メニュー

BankerToolBench、投資銀行業務で最良モデルも実務未達

BankerToolBenchが突きつけた現実