NatureBenchが問う:AIコーディングエージェントは「科学的発見」まで届くのか
きょう取り上げる新着論文
きょうは、新しいモデルの発表ではなく、AIエージェントを測るためのベンチマークを取り上げます。論文名は 「NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?」。arXivでは2026年6月23日12:58 UTCにv1が提出され、cs.CLの2026年6月24日新着として確認できる研究です。コードとベンチマーク一式もGitHubで公開されています。(arxiv.org)
この論文の問いは、かなりまっすぐです。
AIコーディングエージェントは、単に既存コードを直したり、テストを通したりするだけでなく、実際の科学論文で報告された最先端性能、つまりSOTAに迫れるのか。
ここでいう科学論文は、Nature系の査読済み論文です。NatureBenchは、そこから抽出した90個の科学的機械学習タスクで構成されています。対象は6つの科学領域にまたがり、各タスクではエージェントが実データを使ってモデルや手法を組み立て、元論文の報告値と比較されます。GitHubのREADMEでも、NatureBenchは「再現を超えて発見に近づけるか」を測るためのクロスドメインベンチマークだと説明されています。(github.com)
何が新しいのか
これまでのコーディングエージェント評価では、SWE-benchのように「GitHub issueを直せるか」「既存のテストを通せるか」が重要な軸でした。これはもちろん実務的です。ただ、科学研究では少し違います。
科学の現場では、問題はこうなります。
「この論文の設定に近いデータがある。既存手法を理解し、実験環境を整え、別の仮説を立て、実装し、評価し、元論文の性能を超えられるか」
NatureBenchは、この面倒な部分をベンチマーク化しようとしています。論文では、NatureGymというパイプラインを使って、論文からタスクブリーフ、データセット、隠されたテストセット、自動評価器、コンテナ環境を作ると説明されています。GitHub側の説明でも、各タスクはコンテナ化されたパッケージとして提供され、エージェントはそこで実験を走らせる形になっています。(arxiv.org)
重要なのは、単なる「論文再現」ではない点です。GitHubの説明によれば、NatureGymには情報ファイアウォールがあり、元論文の手法部分を取り除くことで、エージェントが答えを写すのではなく、自分で解法を探すよう設計されています。さらに論文では、評価時にWeb検索を無効にした厳しいプロトコルで、10種類のフロンティア・エージェント構成を比較したとされています。(arxiv.org)
結果はかなり現実的だった
では、エージェントは科学者の代わりになったのでしょうか。
論文の結論は、かなり慎重です。最も強い構成でも、元論文のSOTAを上回ったのは 17.8% のタスクにとどまりました。ここでは、論文中で使われている g > 0.1 という基準で「SOTA超え」を判定しています。(arxiv.org)
さらに面白いのは、成功したケースの中身です。著者らの分析では、エージェントが成功するのは、未知の科学的アイデアを発明したというより、科学タスクをよくある教師あり学習問題に翻訳できた場合が中心だったとされています。つまり、エージェントは「新しい科学を作る」よりも、「見慣れた機械学習の型に落とし込む」ことに強い、という見方です。(arxiv.org)
失敗理由も示唆的です。論文では、主な失敗はタスクを理解できなかったことではなく、方法選択の誤りと計算予算の不足だったと説明されています。これは、今のエージェントが単なる読解力不足で止まっているのではなく、「どの実験に賭けるべきか」「どこで探索を打ち切るべきか」という研究戦略の部分でまだ弱い、ということを示しています。(arxiv.org)
なぜ重要なのか
この研究が面白いのは、AIエージェント評価の基準を一段上げているところです。
コード補完の時代は、「正しい関数を書けるか」が中心でした。コーディングエージェントの時代になると、「リポジトリを理解し、バグを直し、PRを作れるか」が問われました。そしてNatureBenchが見ているのは、そのさらに先です。
研究課題を、実験可能な形に落とし込み、限られた計算資源で改善案を試せるか。
これは、AI for Scienceを語るうえで避けて通れない問いです。もし将来、エージェントが創薬、材料探索、気候モデル、医療画像、ゲノム解析などに深く入っていくなら、単に「論文を要約できる」だけでは足りません。データを扱い、環境を作り、実験し、失敗から次の仮説を立てる必要があります。
NatureBenchは、その能力をかなり泥臭い形で測ろうとしています。派手なデモではなく、依存関係、データ、評価器、隠しテスト、計算資源といった、研究実務の面倒さを含めてベンチマーク化している点が重要です。
ただし、慎重に読むべき点
一方で、この結果を「AIは科学的発見ができない」と単純に読むのは早いです。
まず、これはarXiv上のプレプリントであり、査読済みの結論ではありません。また、Nature系論文から抽出した90タスクという設計は強力ですが、それが科学研究全体を代表するわけではありません。さらに、Web検索を無効にする設定は、純粋な問題解決力を測るには有効ですが、実際の研究者や研究エージェントは文献検索を使うため、現実の運用より厳しい条件とも言えます。(arxiv.org)
また、元論文のSOTAを基準にする場合、その報告値自体がどれほど再現可能か、データ分割や前処理がどこまで揃っているかも重要になります。NatureGymが標準化された環境を作るとはいえ、科学論文の実験はもともと文脈依存です。ベンチマーク化した瞬間に、研究の一部が競技化されるリスクもあります。
今後の見通し
この論文から見える次の課題は、モデルの「賢さ」だけではありません。
これから重要になるのは、エージェントが自分の実験をどう管理するかです。どの仮説を試すか。どの失敗を記録するか。高価な検証をいつ走らせるか。途中で方針転換すべきか。複数の候補手法をどう比較するか。
つまり、AI科学者に必要なのは、単体のLLM性能だけでなく、実験計画、計算資源管理、記憶、検証、評価環境を含むシステム全体です。
NatureBenchの17.8%という数字は、低く見えるかもしれません。でも、むしろ重要なのは、これでようやく「AIが研究できるか」を、雰囲気ではなく実験として議論する土台が出てきたことです。
きょうの一言でまとめるなら、こうです。
AIエージェントは、科学を読める段階から、科学を試す段階へ入りつつある。ただし、発見する力はまだ、研究戦略そのものを学ぶ段階にある。
出典: arXiv「NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?」、FrontisAI/NatureBench GitHubリポジトリ。(arxiv.org)