XpertBench公開、LLMの「専門家ギャップ」を可視化する
大規模言語モデルの評価は、ここ1年ほどで明らかに次の段階へ進み始めた。MMLUのような従来の知識ベンチマークでは、最先端モデルが90%超に達し、差が見えにくくなっている。そこで、Google検索では解きにくい大学院レベル理科問題を集めたGPQAや、2,500問の難問で構成されるHumanity’s Last Exam(HLE)、長文の専門業務をチェックリストで測るExpertLongBenchのように、「難しいだけでなく、実務や専門性に近い課題」を測ろうとする流れが強まってきた。 (nature.com)
その文脈で、2026年3月27日にarXivへ投稿された査読前プレプリント「Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation」は、かなり重要な位置を占める。論文によればXpertBenchは、金融、医療、法務、教育、研究(STEMと人文系)にまたがる80カテゴリ・1,346課題から成り、1,000件超の専門家投稿をもとに構築された。各課題には、主に15〜40個の重み付きチェックポイントを含む詳細ルーブリックが付属し、評価には、専門家の少数例で較正したLLM審査器「ShotJudge」を用いる。結果は印象的で、最先端モデルでも成功率の上限はおよそ66%、平均は約55%にとどまった。論文がいう「expert-gap(専門家ギャップ)」とは、まさにこの“流暢だが専門家水準には届かない”差の定量化である。 (arxiv.org)
XpertBenchの面白さは、単に難問を増やしたことではない。HLEやGPQAが主に「閉じた正解」を持つ問題を測るのに対し、XpertBenchが狙うのは、専門職が日々こなす「開いた仕事」の品質だ。法務なら論点を漏らさず法令の有効性まで確認できるか、金融なら定義の取り違えなくデータを集めて解釈できるか、教育なら説明の粒度や図示の指示まで含めて成立しているか、といった具合である。正答率だけでは見えにくい“完成度の不足”や“重要点の見落とし”が、ルーブリックによって可視化される。 (arxiv.org)
このベンチマーク名は、実は2025年12月公開のSeed1.8モデルカードにも「内部ベンチマーク」として現れていた。そこでは、XpertBenchは200人超のドメイン専門家と協働し、140超の実タスク型課題を含む評価基盤として説明されている。例として、アルツハイマー病の診断がある保証人による連帯保証の有効性を検討する法務課題、中国の輸出市場変化を叙述的に分析する金融・マクロ経済課題、斜面上の立方体の力学図を描かせる教育課題、孔子とソクラテスの死生観を史実整合的に対話化する人文学課題などが挙げられていた。今回の論文版XpertBenchは、この内部評価資産を、より体系化して外部に示したものだとみるのが自然だろう。これは論文とモデルカードを突き合わせた上での推測だが、少なくとも両者は同じ問題意識を共有している。 (lf3-static.bytednsdoc.com)
評価手法の面でも、XpertBenchは孤立した試みではない。OpenAIのHealthBenchは262人の医師が作成した5,000件の現実的な健康会話を、会話ごとの医師作成ルーブリックで評価する。MedThink-Benchは医療推論の評価で、根拠付きLLM審査が専門家評価と強く相関することを示した。ExpertLongBenchも、9領域11タスクの長文生成を構造化チェックリストで測る。つまりXpertBenchは、LLM評価を「クイズの正答率」から「専門業務の品質管理」へ移す、より大きな方法論的転換の一部にある。 (openai.com)
この論文が示す66%という数字は、悲観でも楽観でもなく、かなり実務的な意味を持つ。下書き、情報整理、初期分析、観点の洗い出しといった補助用途ではすでに有用だが、法務・医療・金融のような高信頼領域で「専門家の代替」と呼ぶにはまだ遠い、ということだ。しかも論文は、モデルごとに量的推論と文章的統合の得意不得意が重ならない、つまり強みが非対称だとも述べる。1つの総合スコアでモデルを語るより、業務ごとに“どの能力が足りないか”を見る必要がある。 (arxiv.org)
今後の焦点は明快だ。第一に、こうしたベンチマークがどこまで公開され、再現可能になるか。第二に、ShotJudgeのような評価器が、どの程度まで人間の専門判断を代替できるか。第三に、専門家ギャップを埋めるために必要なのが、より大きな基盤モデルなのか、ドメイン特化学習なのか、ツール利用や検索統合なのかを切り分けられるかである。HLEが「閉じた学術問題」における人間との距離を測る物差しだとすれば、XpertBenchは「現実の専門職ワークフロー」における距離を測る物差しになりうる。LLMが賢くなったか、ではなく、どの仕事をどこまで任せられるか。その問いに、ようやく具体的な目盛りが刻まれ始めた。 (nature.com)
出典
XpertBench論文(arXiv, 2026年3月27日投稿) (arxiv.org)
Seed1.8 Model Card 内部XpertBench記述・例題 (lf3-static.bytednsdoc.com)
Humanity’s Last Exam(Nature, 2026) (nature.com)
GPQA(arXiv, 2023) (arxiv.org)
ExpertLongBench(arXiv, 2025) (arxiv.org)
HealthBench(OpenAI, 2025) (openai.com)
MedThink-Bench(npj Digital Medicine, 2025) (nature.com)