LABBench2は何を測り直したのか

生物学研究におけるAI評価を、知識テストから「研究実務」へ引き戻す試み

2026年2月4日にarXivへ投稿され、翌2月5日にEdison Scientificが公式発表したLABBench2は、AIの生物学研究能力を測るベンチマークの新版である。公開情報によれば、LABBench2は1,892タスクを11の大分類にまたがって収録し、フロンティアモデルの性能自体は旧版から伸びているにもかかわらず、対応するサブタスクではなお26〜46%の難化が確認された。要するに、モデルは良くなっているが、研究の現場に近づけた途端に、まだかなり失点することが見えるようになった、というのがこの論文の核だ。 (arxiv.org)

この論文の重要さは、単に問題数を増やしたことではない。前身のLAB-Benchは、2024年7月に公開された、2,457問・8カテゴリの生物学研究向けベンチマークで、文献読解、図表解釈、データベース利用、配列操作、プロトコル設計、クローニングのような、教科書知識ではなく研究補助に直結する作業を測ろうとしていた。ただし当時は多肢選択式が中心で、研究の現場にある「正しい論文を探す」「補足資料を拾う」「図やファイルを実際に読む」といった面では、まだ抽象化が強かった。 (arxiv.org)

LABBench2はそこを作り替えている。公式発表では、FigQAやTableQAのような図表タスクでも、単に与えられた図を読むだけでなく、正しいソースを検索し、その中の図や本文を読み取ることを要求するようになった。SeqQA2やCloningQAでも、必要な配列を取得してから答える設計に改められ、DbQA2とSuppQA2は参照先データベースや補足資料の種類が広がった。さらに新規カテゴリとして、特許を読むPatentQA、臨床試験を読むTrialQA、体系的レビューに採用されなかった研究の理由を見分けるSourceQualQAが追加されている。研究を前に進めるには、正解を知っているだけでなく、どの情報源に当たり、どの情報を信用するかまで含めて判断しなければならない。その前提が、ようやくベンチマーク側に入ってきたわけだ。 (edisonscientific.com)

設計上の転換点として特に大きいのが、多肢選択式をやめたことだ。Edison Scientificは、LABBench2でLAB-Benchの制約を多く見直し、その一つとしてmultiple-choiceの排除を明言している。加えて、必要な文脈をその場で与える、あるいはローカルファイルで与えるモードも持たせ、検索が弱いのか、ファイル処理が弱いのか、読解や推論が弱いのかを切り分けやすくしている。公開ハーネスでも file / inject / retrieve の各モードが用意され、主要タグとして cloning dbqa2 figqa2 litqa3 patentqa protocolqa2 seqqa2 sourcequality suppqa2 tableqa2 trialqa などが並ぶ。ここから見えてくるのは、LABBench2が「モデル単体の賢さ」ではなく、検索・コード実行・ファイル処理を含んだAIシステムの実務能力を測ろうとしていることだ。 (edisonscientific.com)

結果の読み方も重要である。公式発表は、Web検索やコード実行のような高度なツールをモデルに与えると、LABBench2では性能が大きく、ただしタスクごとにかなり不均一に伸びると述べている。つまり、これからの「科学AI」の評価は、パラメータに埋め込まれた知識量だけでは足りない。どの資料に到達できるか、必要な図表や補足ファイルを壊さず扱えるか、配列や数値処理を外部ツールで正しく回せるかが、実力差のかなりの部分を決める。LABBench2は、そのシステム設計の差が露出するように作られている。 (edisonscientific.com)

この方向性は、外部の公的評価とも噛み合っている。US/UK AI Safety Instituteの共同報告では、旧版LAB-BenchがOpenAI o1の生物学的能力評価に使われ、教科書型ベンチマークよりも実務タスク型ベンチマークのほうが、現実の能力差をよく表すと説明されている。さらにUS AISIは、SeqQAではツール使用が性能を大きく押し上げ、逆に多肢選択を自由記述へ変えると多くのモデルで成績が下がることも確認した。LABBench2が検索・ツール利用・自由回答へ軸足を移したのは、単なる難化ではなく、すでに観測されていた評価上の歪みを是正する動きとして理解できる。 (nist.gov)

もっとも、LABBench2は「AIが科学を自律的に行えるか」をそのまま測るものではない。論文はarXiv上のプレプリントであり、2026年4月14日時点では査読付き掲載情報は確認できない。またEdison Scientific自身も、LABBench2は依然として個別タスクとカテゴリの範囲に制約があり、次の段階としては、より深い領域特化ベンチマークや、Kosmosのような長期・自律的な発見キャンペーン、さらには物理ウェットラボまで含む評価が必要だと述べている。LABBench2は「AI科学者」の完成形ではなく、その手前にある、かなり厄介だが本質的な部品検査だ。 (arxiv.org)

新しいベンチマークとしての実務上の注意点もある。公開データセットでは、2026年3月13日に sourcequality タスクのデータ問題が修正され、新しい150タスクに差し替えられ、公開結果も更新された。つまり、LABBench2を引用・比較する際は「どの時点の結果か」を明示したほうがよい。一方で、その新しさにもかかわらず、2月18日のPaperQA3記事やNVIDIAのケーススタディでは、すでにLABBench2の一部サブセットが文献エージェントやPDF解析系の評価に使われている。ベンチマークとしての寿命が始まったばかりなのに、すでに開発現場の調整指標として機能し始めている点は興味深い。 (huggingface.co)

結局のところ、LABBench2が示しているのは、科学AIの弱点が「難しい推論が苦手」という一言では片づかないことだ。論文を探せない、補足資料に届かない、正しい図を切り出せない、表を壊して読む、配列操作をツールと結びつけられない――そうした研究実務の摩擦こそが、現時点では性能のボトルネックになっている。LABBench2は、その摩擦を見えやすくした。だからこのベンチマークは、単に厳しいだけでなく、次にどこを改善すべきかをかなり具体的に教えてくれる。 (edisonscientific.com)

主な出典
- LABBench2本論文（arXiv, 2026年2月4日投稿）。 (arxiv.org)
- Edison Scientificの公式発表「LABBench2: An Improved Benchmark for Measuring AI in Biology Research」（2026年2月5日）。 (edisonscientific.com)
- 前身LAB-Benchの論文・公式発表。 (arxiv.org)
- 公開ハーネスとデータセットのREADME / changelog。 (github.com)
- US/UK AI Safety Instituteのo1事前評価報告。 (nist.gov)
- PaperQA3記事およびNVIDIAケーススタディにおけるLABBench2サブセット利用。 (edisonscientific.com)

メニュー

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2は何を測り直したのか