Anthropicの生物学エージェント論を読む:AIに必要なのは「賢さ」だけでなく、壊れないデータ配管
6月8日、Anthropicが公開した「Paving the way for agents in biology」は、派手な新モデル発表ではありません。けれど、AIエージェントが科学研究に入っていくうえで、かなり重要な論点を突いています。テーマは一言でいうと、生物学のデータ基盤は、まだAIエージェントが安全に走れる道路になっていない、という話です。(anthropic.com)
取り上げられているのは、ウイルス配列データの取得です。研究チームは、Claude、GPT、Biomni、Edison Analysisなどの科学研究エージェントに、NCBI Virusから条件に合うウイルス配列を取ってくる課題を与えました。ベンチマークはVirBenchと呼ばれ、40種類の病原体にまたがる120件の現実的なクエリで構成されています。これは、感染症サーベイランス、診断アッセイ設計、タンパク質モデルの訓練データ構築などで実際に起こる作業に近いものです。(anthropic.com)
結果は、少し考えさせられます。専用の検索レイヤーなしでエージェントに任せると、平均精度は16.9%から91.3%まで大きくばらつきました。最新の強いモデルは改善しているものの、科学データセット作成では「だいたい合っている」では足りません。1件の取りこぼしや誤取得が、流行開始時期の推定、診断法の有効性、治療標的の解釈を変えてしまう可能性があるからです。実際、同じエボラ関連クエリをClaude Sonnet 4に3回投げると、期待値266件に対して106件、15件、5件と大きく異なる結果を返した、とAnthropicは報告しています。(anthropic.com)
ここで面白いのは、解決策が「もっと大きなモデル」ではなかったことです。研究チームはNCBIの研究者と協力し、gget virusという決定論的な取得レイヤーを作りました。これは、NCBI VirusのWeb画面に隠れている複雑なフィルタ動作を、再現可能なプログラムとして扱えるようにする仕組みです。REST、Datasets、E-utilitiesなど複数のAPIを組み合わせ、必要なメタデータ制約を適用し、巨大な結果セットも途中で切れないように取得し、ログ付きの標準化された出力を返します。(anthropic.com)
このgget virusを使わせると、すべてのエージェントで精度は90%以上に上がり、GPT-5.5では最大99.7%に達したとされています。高ボリュームのクエリではデータ転送量も98%以上削減され、応答の安定性も改善しました。つまり、モデルの選択よりも、モデルが触る道具の決定論性が結果を大きく左右したわけです。(arxiv.org)
これは生物学だけの話ではありません。AIエージェントは、曖昧な指示から作業を進めるのが得意になっています。しかし、研究や医療、法務、金融のような領域では、創造性を発揮してよい層と、絶対に揺れてはいけない層があります。仮説生成や実験計画ではモデルの柔軟さが役立つ。一方で、遺伝子ID、座標系、バージョン、メタデータ、検索条件、取得ログは、退屈なくらい確実でなければならない。
今回のAnthropicの記事が示しているのは、AIエージェント時代のインフラ設計です。人間がブラウザでクリックしていた作業を、そのままAIにやらせるだけでは不十分です。AIが失敗するたびにプロンプトを直すのではなく、データベース側、API側、ログ設計側を「エージェントが検証可能に使える形」へ変えていく必要がある。
今後、モデルはさらに賢くなり、雑然としたWeb画面や複数APIのつなぎ込みも自力でこなせるようになるかもしれません。それでも、毎回モデルに迷路を解かせるのは、高価で、遅く、監査しにくい。科学に必要なのは、天才的に勘のいい助手だけではなく、同じ操作を何度でも同じように再現できる実験台です。
AIエージェントの次のボトルネックは、モデルの知能ではなく、世界の側の可読性かもしれません。データベース、API、ファイル形式、ログ、検証可能性。こうした地味な配管が整ったとき、科学エージェントは初めて「それらしい答え」ではなく、「再現できる仕事」に近づいていくのだと思います。