Grepはまだ死んでいない:エージェント検索で「ベクトル検索が常に強い」とは限らない
2026年5月15日のarXiv recentに掲載された論文「Is Grep All You Need? How Agent Harnesses Reshape Agentic Search」は、RAGとエージェント設計に対して、かなり実務的な問いを投げている。要点は単純だ。LLMエージェントが長い会話履歴や文書群から情報を探すとき、本当にベクトル検索が常に最適なのか。著者らは、LongMemEvalの116問サンプルを使い、grepによる字句検索とベクト...
Grepはまだ死んでいない:エージェント検索で「ベクトル検索が常に強い」とは限らない
2026年5月15日のarXiv recentに掲載された論文「Is Grep All You Need? How Agent Harnesses Reshape Agentic Search」は、RAGとエージェント設計に対して、かなり実務的な問いを投げている。要点は単純だ。LLMエージェントが長い会話履歴や文書群から情報を探すとき、本当にベクトル検索が常に最適なのか。著者らは、LongMemEvalの116問サンプルを使い、grepによる字句検索とベクトル検索を、Chronosというカスタムハーネス、Claude Code、Codex CLI、Gemini CLIで比較した。さらに、検索結果をそのまま会話文脈へ流し込むinline方式と、結果をファイルに書き出してエージェントに読ませるprogrammatic方式も比較している。(arxiv.org)
この論文の面白さは、「grep vs vector」という古典的な検索比較ではなく、検索器・エージェントハーネス・結果の渡し方を一体のシステムとして評価している点にある。通常のRAG評価では、検索器が返したtop-k文書をプロンプトに詰め、最終回答を見る。しかし、Claude CodeやCodex CLIのような現代的エージェントでは、モデルは検索クエリを作り、ツールを呼び、結果を読み、足りなければ再検索する。この時点で「検索性能」は単独のランキング指標ではなく、ツール呼び出しのUI、stdoutの渡され方、ファイル操作の安定性、停止判断まで含む行動ループの性質になる。論文はこの点をかなり明示的に扱っている。(arxiv.org)
結果は直感に反する。Experiment 1では、inline方式に限ると、grepがすべてのハーネス・モデル組み合わせでベクトル検索を上回った。たとえばChronos+Gemini 3.1 Flash-Liteではgrep 86.2%、vector 62.9%。Codex CLI+GPT-5.4ではgrep 93.1%、vector 75.9%。一方で、programmatic方式にすると様相が変わり、10組中5組でvectorがgrepを上回る。特にCodex CLI+GPT-5.4では、inline grepの93.1%からprogrammatic grepの55.2%へ大きく落ちている。これは「grepが強い/弱い」という話ではなく、検索結果をファイルとして扱わせる追加手順そのものが、エージェントにとって失敗要因になりうることを示している。(arxiv.org)
技術的背景を少し整理すると、grepの強さは魔法ではない。LongMemEvalは、長期会話から日付、好み、過去の発言、状態変化を取り出すタスクを含む。この種の問題では、答えの根拠が「そのままの文字列」として残っていることが多い。日付、名前、数量、ユーザーの好みの表現は、意味的に近い文書を広く拾うより、特徴的な語を正確に当てた方が速くて強い場合がある。著者らも、LongMemEvalが文字列上の証拠を見つける能力を報酬しやすいこと、grepはembeddingやvector indexを必要とせずローカルファイル上で動くことを指摘している。(arxiv.org)
ただし、この論文を「ベクトルDB不要論」と読むのは早い。著者らは明確に、結論は長期会話QAというタスク分布に結びついており、科学文献の統合、言い換えの多い文書、視覚情報を含む資料、コード意味解析のような領域では異なる結果になりうると留保している。dense retrievalは、言い換えや曖昧な関連性を拾える一方、似ているが答えではない「トピック上の偽陽性」を拾いやすい。grepは、うまい検索語を思いつけば鋭いが、語彙が外れると何も拾えない。ここに優劣ではなく、失敗モードの違いがある。(arxiv.org)
もう一つ重要なのは、同じモデルでもハーネスが変わると性能が大きく変わる点だ。論文では、Claude Opus 4.6がChronosではinline grepで93.1%に達する一方、Claude Codeでは76.7%に留まる。これは、モデル本体だけでなく、システムプロンプト、ツール説明、検索結果の整形、サンドボックス、CLIの挙動が、実質的な性能を左右することを示す。言い換えると、エージェント時代のRAG評価では「どの検索器か」だけを報告しても不十分で、「どのハーネスで、どのようにツール結果を渡したか」まで評価対象に入れる必要がある。(arxiv.org)
実務への含意はかなり具体的だ。社内文書、会話履歴、チケット、ログ、仕様書のように、答えの根拠が固有名詞・日付・ID・エラーメッセージとして残る領域では、最初から複雑なベクトル検索だけに寄せるより、grep/BM25/regexを第一級ツールとして持たせる価値がある。むしろ強い設計は、ベクトル検索と字句検索を競わせることではなく、エージェントに「まず literal evidence を探す」「見つからなければ意味検索へ広げる」「検索結果が多い場合はファイルではなく要約付きで段階開示する」といった探索方針を持たせることだろう。
この論文が示しているのは、RAGの競争軸が「埋め込みモデルの性能」だけでは足りなくなっているということだ。検索器は部品にすぎない。実際の性能は、検索語を誰が作るか、結果をどう見せるか、モデルが再検索する余地を持つか、ファイル操作を確実に完了できるかで変わる。つまりエージェント検索の主戦場は、vector DBの選定から、検索行動を成立させるハーネス設計へ移りつつある。
出典:arXiv「Is Grep All You Need? How Agent Harnesses Reshape Agentic Search」(arxiv.org)