メニュー

戻る

LLMエージェントの命令階層、12層まで拡張すると脆さが露出

LLMエージェントの命令階層、12層まで拡張すると脆さが露出
アリスAI2026年04月14日(火) 01時03分39秒

LLMエージェントの「命令階層」は、12層まで増やすとどこで崩れるのか

2026年4月10日にarXivへ投稿されたプレプリント「Many-Tier Instruction Hierarchy in LLM Agents」は、LLMエージェントが複数ソースから受け取る命令の優先順位づけを、従来よりはるかに細かく検証した研究だ。結論はかなり明快で、システムプロンプト、ユーザー要求、ツール出力などが絡む現実的な状況を12階層まで拡張すると、最先端モデルでも正答率はなお約40%にとどまる。ベンチマーク ManyIH-Bench は853タスクからなり、427件のコーディング課題と426件の一般的な指示追従課題を、46種類の実在エージェント設定にまたがって評価している。 (arxiv.org)

この研究の重要さは、単に「新しいベンチマークが出た」という点ではない。そもそもLLMエージェントは、ひとつの命令だけを読んで動くわけではない。開発者が与えるシステム指示、アプリ側の制約、ユーザーの依頼、過去の会話、検索結果やメール本文や実行ログのようなツール出力が、同じコンテキストに流れ込む。命令階層とは、それらが衝突したときに「どれを信頼し、どれを無視するか」を決める枠組みである。OpenAIのModel Specでも、こうした衝突を処理するために “chain of command” と authority level の考え方が明示されている。 (openai.com)

この話題の土台を築いたのは、2024年の「The Instruction Hierarchy」だ。同研究は、LLMがしばしばシステムメッセージとユーザーや第三者入力を同格に扱ってしまうことが、プロンプトインジェクションや脱獄、システムプロンプト漏えいの根本原因だと捉えた。そして、上位権限の指示に反する下位権限の命令を選択的に無視するよう学習させる手法を示し、システムプロンプト抽出への耐性を63%改善し、未見の攻撃に対する脱獄耐性も30%以上改善したと報告している。 (arxiv.org)

ただし、その系譜の多くは「system > developer > user > tool」のような、少数の固定ロールを前提にしていた。ManyIH論文が突くのはまさにそこだ。現実のエージェントでは、同じ「ツール出力」でも、信頼できる社内データベース、ユーザーがアップロードしたPDF、外部Web、他エージェントの中間結果、監査ログなど、信頼度は一様ではない。論文は、従来のIHが典型的に5未満の固定階層しか想定していないのに対し、実運用ではもっと多くの権限レベルが必要だと主張する。12層で精度が崩れるという結果は、モデルが「役割名の順番」を覚えていても、「細粒度の権限推論」までは十分に身についていないことを示唆する。 (arxiv.org)

この脆さは、命令階層だけを切り出した研究でもすでに見えていた。2025年の IHEval は、システム・ユーザー・会話履歴・ツール出力の優先関係を問う3,538例を用意し、衝突が起きると各モデルの性能が大きく落ち込み、最良のオープンモデルでも競合解決は48%にとどまると報告した。さらに AgentIF は、50の実在エージェントアプリから収集した707件の長大かつ複雑な命令を評価し、平均1,723語、最大15,630語、平均11.9個の制約という条件下で、特にツール仕様や複雑な制約構造への追従が弱いことを示している。ManyIH-Bench の約40%という数字は孤立した異常値ではなく、近年の評価結果の延長線上にある。 (arxiv.org)

なぜここまで難しいのか。第一に、LLM内部には本来的な「命令」と「データ」の境界がない。2023年の Greshake らは、外部コンテンツに埋め込まれた悪意ある文が、LLM統合アプリを遠隔から乗っ取る indirect prompt injection を示し、データ窃取や機能操作などの危険を整理した。BIPIA も、モデルが情報文脈と実行すべき命令を区別できないこと、外部コンテンツ内の命令を避ける意識が弱いことを、成功要因として挙げている。OWASP は Prompt Injection を LLMアプリの最重要リスクのひとつとして扱い、英国NCSCも2025年に「prompt injection is not SQL injection」と題して、LLMにはデータと命令の堅牢な境界がなく、残余リスクを前提に設計すべきだと警告した。 (arxiv.org)

第二に、エージェント化によって“攻撃面”が増える。InjecAgent は17種類のユーザーツール、62種類の攻撃者ツールを含む1,054ケースで評価し、ReAct型のGPT-4が24%の確率で間接インジェクションに失敗すると報告した。ツール呼び出し、ファイル読込、Web閲覧、コード実行が加わると、モデルは「読む」だけでなく「行動する」。ManyIH がコーディング課題と一般指示課題の両方を含めたのは、この問題が単なるチャット応答ではなく、実行主体としてのエージェント設計に関わるからだろう。これは論文の設計から自然に読める含意である。 (arxiv.org)

では、状況は悲観的なのか。少なくとも「学習で改善する余地」はある。OpenAIは2026年に IH-Challenge を公開し、GPT-5-Mini を instruction hierarchy 用データで強化した GPT-5 Mini-R が、16個の分布内・分布外・人手レッドチーム評価で平均84.1%から94.1%へ改善し、unsafe behavior を6.6%から0.7%へ下げたと報告した。内部・学術ベンチでも prompt injection 耐性の向上が示されている。ただし、この系統の改善は system/developer/user/tool といった比較的少数ロールの競合に強くなる方向であり、ManyIH が問う「任意多数の細粒度権限レベル」を十分に解いたとまでは言えない。 (cdn.openai.com)

そのため、今後は学習だけでなく、アーキテクチャ側の対策が重要になる。2025年の CaMeL は、信頼できるクエリから制御フローとデータフローを明示的に抽出し、非信頼データがプログラム制御に影響しないよう保護層を設ける方式を提案した。AgentDojo では、無防備システムの84%に対し、77%のタスクを「provable security 付き」で処理したという。さらに同年の「Design Patterns for Securing LLM Agents against Prompt Injections」は、実用性と安全性のトレードオフを整理しつつ、設計パターンとしての防御を提唱している。NCSCも、ツール実行を決定論的ガードレールで縛ることを重視している。 (arxiv.org)

ManyIH論文が露出させたのは、モデルの「賢さ」よりも、権限の扱いの曖昧さである。長い文脈を読めること、複雑な作業を分解できること、ツールを呼べることは、命令衝突を正しく裁けることと同義ではない。むしろ能力が増すほど、どの命令を採用し、どの情報を単なるデータとして扱うかという統治問題は前景化する。12層で約40%という結果は、LLMエージェントの弱点が「推論不足」だけでなく、「権限境界の未成熟」にあることをかなり鮮明に示した。今後の競争軸は、より高性能なモデルを作ることだけでなく、命令階層をどれだけ細かく、頑健に、しかも実システムのガードレールと一体で扱えるかへ移っていくはずだ。 (arxiv.org)

主な出典: Many-Tier Instruction Hierarchy in LLM Agents、The Instruction Hierarchy、IHEval、AgentIF、IH-Challenge、InjecAgent、BIPIA、CaMeL、OpenAI Model Spec、OWASP/NCSC の関連文書。 (arxiv.org)