「埋め込みモデルの順位」は、プロンプト一つで入れ替わるかもしれない
2026年5月21日にarXivへ投稿された論文「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」は、RAGや検索システムの土台になっている埋め込みモデル評価に、かなり実務的な疑問を投げかけている。主張はシンプルだ。Instruction-tuned embedding modelを、タスクごとに固定された単一プロンプトだけで評価すると、そのスコアはモデルの安定した能力ではなく、「たまたま選ばれた言い回し」に大きく依存してしまう。(arxiv.org)
論文は、6つの埋め込みモデル、11のデータセット、各データセット15種類のタスク固有プロンプト、合計990評価でこの問題を調べている。対象モデルには Qwen/Qwen3-Embedding-0.6B、intfloat/multilingual-e5-large-instruct、KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5、BAAI/bge-small/base/large-en-v1.5 が含まれ、タスクは検索、分類、クラスタリング、意味的類似度にまたがる。公開GitHubにも、MTEB実験を回すコード、生成プロンプト、キャッシュ済み評価結果の構成が示されている。(github.com)
ここで重要なのは、埋め込みモデルが「裏方」ではなくなっている点だ。生成AIアプリでは、LLM本体の前に検索がある。社内文書RAG、コード検索、FAQ検索、法務・医療・金融のナレッジ検索では、どの文書をLLMに渡すかを埋め込みモデルが決める。つまり、埋め込みが少し揺らぐだけで、LLMの回答品質も揺らぐ。MTEBは埋め込み・検索システムを評価する代表的フレームワークで、分類、クラスタリング、検索、STSなど多様なタスクを扱う。現在のMTEBは1000以上の言語と多様なタスクをカバーする大規模評価基盤として運用されている。(huggingface.co)
この論文の新しさは、「良いプロンプトを探すと性能が上がる」という一般論ではない。より鋭いのは、評価値そのものが分布であるべきだ、という指摘だ。著者らは、デフォルトプロンプトのスコアが、妥当なプロンプト集合に対する性能分布を過大評価する場合も、過小評価する場合もあると報告している。さらに、プロンプトを都合よく選べば、研究対象のどのモデルでも模擬リーダーボード上で1位に押し上げられるという。これはモデルを改善せず、評価の入口だけを変えて順位を動かせることを意味する。(arxiv.org)
この構図は、生成AI評価全体で繰り返し出てくる問題に似ている。チャットモデルでは、システムプロンプト、温度、few-shot例、採点プロンプトの違いが結果を変える。エージェント評価では、ツール記述や履歴の与え方で成功率が変わる。今回の論文は、それと同じ揺らぎが「検索前のベクトル化」という低レイヤーにも存在することを示した。派手ではないが、むしろ土台に近いぶん影響範囲は広い。
実務上の含意は明確だ。RAGシステムで埋め込みモデルを選ぶとき、公開リーダーボードの平均点だけを見て決めるのは危うい。少なくとも、自社のクエリ文体、検索対象文書、ユーザーの指示パターンに近い複数プロンプトで再評価した方がよい。特に「次の質問に答えるための文書を探せ」「関連する根拠を検索せよ」「この主張を検証する資料を探せ」のような微妙な指示差がある運用では、モデルごとの順位が変わる可能性がある。
ベンチマーク側への提案も妥当だ。単一スコアではなく、複数プロンプトに対する平均、分散、最悪値、順位安定性を併記する。論文も、単一プロンプト評価ではなく、複数プロンプト評価または感度指標を報告すべきだと結論づけている。これはコスト増にはなるが、「たまたま相性のよい言い回し」をモデル能力と誤認するよりは健全だ。(arxiv.org)
ただし留保もある。今回の研究は6モデル・11データセットの範囲であり、すべての埋め込みモデルや全RAG用途にそのまま一般化できるわけではない。また、プロンプト集合をどう作るか自体にも設計選択が入る。公開リポジトリでは、15種類の合成プロンプトをLLMで生成する手順が示されているが、プロンプト生成器の癖が評価分布に影響する可能性も残る。(github.com)
それでも、この論文の価値は大きい。LLMアプリの品質は、モデル単体ではなく、検索、プロンプト、評価、ランキングの組み合わせで決まる。埋め込みモデルの「順位」がプロンプトの言い回しで動くなら、リーダーボードは順位表というより、評価条件つきの測定結果として読まなければならない。今後の埋め込み評価は、「どのモデルが一番か」から、「どの条件で、どれだけ安定しているか」へ移るべきだと思う。
出典:
arXiv「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」(arxiv.org)
GitHub repository「centre-for-humanities-computing/instruction-sensitivity-evaluation」(github.com)
MTEB / Hugging Face organization page(huggingface.co)