引用は「付いている」だけでは足りない――商用LLMとDeep Researchエージェントの参考文献幻覚をどう測り、どう直すか
OpenAIやGoogleのDeep Researchは、長文レポートに引用やソースリンクを付けて検証可能性を前面に出している。OpenAIはDeep Research出力に引用やソースリンクが含まれると案内し、GoogleもDeep Researchが引用付きの報告書を生成すると説明している。だからこそ、いま問われているのは「答えが流暢か」ではなく、「その引用は本当に存在し、しかも主張を支えているか」という点だ。2026年4月3日にarXivへ投稿されたDelip Raoらの論文は、この実務上の痛点を“参考文献URLの健全性”として定量化し、補正まで試みた点で重要である。 (help.openai.com)
この論文の焦点は、従来よく話題になってきた「著者名や誌名をもっともらしく捏造する書誌幻覚」だけではない。対象は、LLMや調査エージェントが自らの主張を裏づけるために提示するcitation URLである。著者らは、企業向けdeep research課題を集めたDRBenchで10モデル/エージェント、専門家作成の長文QAデータセットExpertQAで3モデルを評価し、前者で53,090件、後者で168,021件のURLを検査した。ExpertQA自体は484人の専門家が関わる32分野・2,177問のデータセットで、DRBenchは公的Webと社内知識基盤をまたぐ現実的な調査タスクを想定している。 (arxiv.org)
主要結果はかなり直截だ。評価対象では、3〜13%のcitation URLが「Wayback Machineに記録がなく、おそらく最初から存在しなかった」幻覚URLに当たり、全体の5〜18%は少なくとも現時点で解決不能だった。しかもdeep researchエージェントは、検索拡張LLMより1クエリあたり多くの引用を出す一方で、幻覚率は高かった。分野差もあり、非解決率はBusinessの5.4%からTheologyの11.4%まで開く。ここで効いているのは、壊れたリンクを一括りにしない分析である。著者らは、あるモデルでは非解決URLの全てが捏造だが、別のモデルではリンク切れの比率が相当あり、少なくとも「実在ページを取りに行った痕跡」が見えると報告している。 (arxiv.org)
この論文が新しいのは、引用幻覚を「ある/ない」の道徳的な話ではなく、測定可能な障害として扱った点だ。先行研究でも兆候は明確だった。2024年の経済学分野の検証では、ChatGPTの偽引用はGPT-3.5で30%以上、GPT-4でも20%以上に達し、話題が具体的になるほど精度が落ちた。さらに2026年の大規模監査では、10の商用LLMが生成した69,557件の学術引用をCrossref、OpenAlex、Semantic Scholarで照合した結果、幻覚率は11.4〜56.8%に及び、モデル、領域、プロンプト設計の影響が大きいとされた。つまりRaoらの仕事は、従来の「書誌情報の捏造」研究を、deep research時代の「Web引用の捏造」へと拡張したのである。 (journals.sagepub.com)
補正方法も実務的だ。著者らが公開したurlhealthは、まずURLが生きているかを調べ、死んでいればWayback Machineをたどって「古くなった実在URL」なのか「最初から無かった幻覚URL」なのかを切り分ける。さらに、モデル自身にこのツールを使わせて自己修正させると、非解決URLは6〜79倍減り、1%未満まで下がった。ただし効果はモデルのツール使用能力に依存する。ここで示されているのは、引用の信頼性が「もっと賢い生成」だけでなく、「外部検証器を組み込んだシステム設計」によって改善できるということだ。 (arxiv.org)
もっと広い視野で見ると、deep researchの評価軸そのものが変わりつつある。2025年のpreprint「DeepResearch Bench」は、報告書品質だけでなく、citation accuracyと平均effective citations per taskを測るFACT枠組みを提案した。そこでの2025年4〜5月収集のスナップショットでは、Gemini 2.5 Pro Deep ResearchやOpenAI Deep Researchは多くの有効引用を出す一方、引用精度ではPerplexity Deep Researchが上回った。ResearcherBenchも、最先端のdeep research systemsを、洞察の質だけでなくcitation faithfulnessとgroundednessで評価している。要するに、引用の“量”と“正しさ”は別軸であり、前者だけを伸ばしても信頼性は上がらない。 (deepresearch-bench.github.io)
今後の展望も見えやすい。AnthropicのCitations機能は、少なくともユーザーが与えた文書に対しては、引用が元文書内の有効な位置を指すことを保証する設計を採る。OpenAIのDeep Research APIガイドも、学術・科学クエリでは原論文や公式出版元のような一次ソースを優先すべきだと明記している。さらにOpenAIは2026年2月10日の更新で、信頼できるサイトにWeb探索を制限できるようにした。open web全体を相手にするdeep researchでは、こうした「構造化された出典ポインタ」「一次ソース優先」「信頼ドメイン制限」に、URL健全性チェックや自動アーカイブ、そして“そのURLが本当にその主張を支えるか”を確かめるclaim-level検証を組み合わせる方向が自然だろう。 (docs.anthropic.com)
この論文の価値は、LLMがまだ参考文献を幻覚する、と告発したことだけではない。むしろ、deep researchエージェントの引用信頼性をURL単位で測り、障害の種類を分け、外部ツールで補正できると示した点にある。Deep Researchが普及するほど、引用はレポートの飾りではなく、システムの中核的な品質指標になる。調査AIの次の競争は、おそらく「どれだけ長い報告書を書けるか」ではなく、「どれだけ検証可能な報告書を書けるか」に移る。 (arxiv.org)