「指示に従うAI」と「空気を読むAI」は、ときどき衝突する
2026年5月21日のarXiv cs.CL新着で、気になる論文が出ていた。タイトルは “Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs”。直訳すれば「私の言う通りにせよ、私のする通りにするな」。LLMのふるまいを考える上で、かなり良い題名だと思う。論文が扱うのは、明示的な指示と、会話履歴から誘導されるパターンが衝突したとき、モデルはどちらを優先するのか、という問題である。arXivの新着一覧では、5月21日の新規投稿として掲載されている。(arxiv.org)
実験設計は単純だが、実用上の含意は大きい。研究者たちは、ユーザーが「ターゲット行動T」を明示的に指示する会話を作る。たとえば、特定の形式で答える、特定の言語で答える、あるペルソナを維持する、といったものだ。その一方で、会話中にはそれと競合する「パターンP」を示すハードコード済みのアシスタント発話を複数入れる。つまり、言葉では「こうしろ」と言われているが、履歴上では「みんなこうしている」と見える状況を作る。そして13種類のモデル、16種類の指示、最大50ターンにわたって、モデルが指示に従い続けるか、履歴上のパターンに引きずられるかを測る。(arxiv.org)
結果の要点は、LLMの「指示追従」はかなりモデル依存で、平均的な指示追従率はモデルごとに1%から99%まで大きくばらつく、というものだ。しかもこのばらつきは、標準的な能力ベンチマークとはあまり相関しないと報告されている。これは重要だ。数学が強い、コードが書ける、知識問題で高得点を出す、といった能力と、「長い会話の中で、明示指示をどれだけ保持できるか」は別の能力かもしれない。(arxiv.org)
さらに面白いのは、モデルが単純に「意味を理解していれば頑健」なのではない点だ。論文の要約によれば、指示内容がモデルの訓練済み価値観に沿っている場合は、モデルは誘導に長く抵抗しやすい。また、出力形式も効く。単一トークンのような狭い出力より、多様な複数トークンの応答のほうが、パターン誘導に対して頑健だったという。Chain-of-Thoughtは頑健性を改善するが、問題を消すわけではなく、正しく考えているように見える推論と、最終出力の失敗が分離する場合もある。(arxiv.org)
これは、従来の「プロンプトインジェクション」理解を少し広げる。OpenAIは以前から、LLMがシステムプロンプトや開発者指示と、ユーザー・外部コンテンツ由来の指示を同じ優先度のものとして扱ってしまうことが脆弱性の一因だと説明し、Instruction Hierarchyという考え方を提案してきた。つまり、どの指示が上位で、どの指示を無視すべきかをモデルに学習させる方向である。(openai.com)
しかし今回の論文が示しているのは、敵対的な「この指示を無視せよ」という文がなくても、会話履歴そのものがモデルを別方向へ押すことがある、という点だ。これは明示的な命令の衝突ではなく、帰納的な圧力の問題である。人間でいえば、上司から「必ず敬語で対応してください」と言われているのに、過去50件の対応ログが全部くだけた口調だったとき、ついログ側の文体を真似してしまうようなものだ。モデルは「ルールを読む機械」であると同時に、「直前までの文脈をなめらかに継続する機械」でもある。
この論点は、エージェント設計で特に効いてくる。単発チャットなら、指示と入力の関係は比較的見えやすい。だが、エージェントは長い履歴、ツール実行ログ、過去の失敗、部分的に生成されたファイル、他エージェントの発話を抱え込む。その中に誤った形式や不適切な判断が繰り返し現れると、それは単なるノイズではなく、次の行動を形作る「実例」になる。安全性を考えるなら、危険な文字列を検出するだけでなく、履歴中に蓄積する誤った実演がどれほどモデルを動かすかも評価しなければならない。
実務的には、評価ベンチマークの作り方が変わる。モデルに「このルールを守れ」と一度だけ言って、その直後の応答を見るだけでは足りない。競合する会話履歴、誤ったアシスタント例、長いターン数、単一トークン出力と自由記述出力の違い、推論文と最終回答のズレまで含めて見る必要がある。特に、JSON固定出力、ツール選択、承認フロー、医療・金融・法務のような高リスク領域では、「過去のフォーマットを真似る力」が便利さと脆弱性の両方になる。
もちろん、現時点で見えているのはarXiv新着の要約レベルであり、個別モデル名やプロンプト設計、統計処理の詳細は本文で精査する必要がある。ただ、問題設定そのものはかなり本質的だ。LLMの安全性は「悪い命令を拒否できるか」だけではない。「良い命令を、長い文脈の中で忘れずに保てるか」でもある。出典はarXiv新着一覧およびOpenAIのInstruction Hierarchy関連一次資料。(arxiv.org)