GPT‑Rosalindは何を変えるのか
2026年4月16日、OpenAIは生命科学研究向けの推論モデル「GPT‑Rosalind」を研究プレビューとして公開した。対象はまず米国の適格なEnterprise顧客で、ChatGPT、Codex、APIから利用できる。同時に、Codex向けの「Life Sciences research plugin」もGitHubで公開され、50超の科学ツールや公開データソースを横断できるようになった。モデル名は、DNA構造解明に重要な貢献をしたロザリンド・フランクリンに由来する。 (openai.com)
今回の発表が興味深いのは、単に「生命科学に強いLLM」を出した、という話ではないからだ。OpenAIは、創薬やトランスレーショナル・メディシンの現場では、文献、専門データベース、実験データ、仮説更新が複雑に絡み合い、研究の初期段階ほどワークフローの断片化が深刻だと位置づける。新薬は標的探索から承認まで米国でおおむね10〜15年かかる、とOpenAIは説明しており、だからこそ早期探索での仮説の質や実験設計の改善が、後工程に大きく効いてくるという発想だ。GPT‑Rosalindは、その「初期探索の摩擦」を減らすためのモデルとして設計されている。 (openai.com)
OpenAIの説明によれば、GPT‑Rosalindは生物学、創薬、トランスレーショナル・メディシンを対象に、化学、タンパク質工学、ゲノム解析をまたぐ深い生物学的推論に最適化されている。想定ユースケースは、標的探索・標的妥当性評価、ゲノム解釈、経路解析、タンパク質理解、文献統合、仮説生成、実験計画などだ。とりわけ現時点では、ターゲット生物学、作用機序の理解、文献統合、オミクス解釈といった「早期発見」寄りの仕事で最も有用だとされる。つまり、研究を丸ごと自律化するというより、研究者がすでに行っている高負荷な思考を、より広く深く支える位置づけである。 (openai.com)
このモデルを支える実務的な要が、同時公開のLife Sciences research pluginだ。GitHub上のREADMEでは、これを「Codexのための一般的な生命科学リサーチ層」と位置づけ、曖昧で多段な問いを受けて、エンティティ正規化、必要最小限のスキル選択、証拠の突き合わせ、最終的な統合回答までを担う“research-router-skill”をデフォルト入口としている。収録スキルは50個で、たとえばClinVar、gnomAD、GTEx、AlphaFold、RCSB PDB、UniProt、Reactome、ChEMBL、PubChem、ClinicalTrials、bioRxiv、NCBI BLASTなど、遺伝学・機能ゲノム・構造生物学・化学・臨床・文献探索をまたぐ。ここで重要なのは、モデル単体の賢さよりも、「どの道具に当たり、どう証拠を束ねるか」をワークフローとして実装している点だ。 (github.com)
その意味で、GPT‑RosalindはCodexの拡張としても読むことができる。OpenAIはCodexを、並列クラウド環境とSkillsを備えたマルチエージェント型の作業基盤として位置づけている。もともとはコーディングのための製品だが、Life Sciences pluginを組み合わせることで、Codexは「コードを書く場」から、データ取得、解析、文献横断、再利用可能な研究手順の実行を担う計算的研究机へと性格を広げつつある。これは明示的にそう書かれているわけではないが、公開資料を並べると自然に見えてくる方向性だ。 (openai.com)
性能面でOpenAIはかなり強気だ。発表によれば、GPT‑Rosalindは分子・タンパク質・遺伝子・経路・疾患関連生物学をまたぐ推論や、文献レビュー、配列から機能への解釈、実験計画、データ解析のようなツール併用型タスクで高い性能を示したという。公開ベンチマークでは、BixBenchで公開スコアのあるモデル群の中で先行し、LABBench2ではGPT‑5.4を11課題中6課題で上回った。特にCloningQAの改善が大きいとされる。さらにDyno Therapeuticsと組んだ未公開RNA配列での評価では、Codex上のbest-of-ten提出が、予測タスクで人間専門家の95パーセンタイル超、生成タスクで84パーセンタイル前後に達したと報告している。もっとも、これらはOpenAI自身の評価結果であり、外部再現や長期運用での検証はこれからだと見るべきだろう。 (openai.com)
一方で、この製品の本質は性能だけではない。OpenAIはGPT‑Rosalindを「trusted access」で提供し、対象を当面は米国の適格Enterprise顧客に限定している。個人研究者は対象外で、API利用も内部研究ツール向けに限られ、顧客向け製品や外部商用アプリには使えない。審査では、有益な用途であること、十分なガバナンスと安全監督があること、エンタープライズ級のアクセス管理があることが重視される。Help Centerの特設FAQでも、より強い生物学的推論、長めの推論、多段ワークフロー、科学ツール・DB利用がRosalindの特徴として説明されている。 (help.openai.com)
なぜここまでアクセスが慎重なのか。背景には、生命科学が典型的なデュアルユース領域だという認識がある。OpenAIは2025年6月の生物学安全性に関する方針文書で、今後のモデルは生物分野でPreparedness Framework上の「High」能力に達する可能性があると述べ、一般公開モデルでは高レベルの理解支援にとどめ、実行可能な手順やウェットラボの細かな助言は抑える方針を示した。その上で、信頼できる機関には、審査を通じて“less restricted”な形で、より有用な支援を認める特別アクセス制度を整備してきた。GPT‑Rosalindは、この安全設計と製品設計が合流した最初の本格的な生命科学向けパッケージだと言える。 (openai.com)
この発表は、2025年から続くOpenAIの生命科学路線の延長線上にもある。2025年8月には、Retro Biosciencesとの共同研究で、タンパク質工学向けの特化モデルGPT‑4b microを用い、山中因子の改変で幹細胞再プログラミング指標を50倍超高めたと発表した。12月にはGPT‑5が分子クローニングの効率を79倍改善したウェットラボ研究、2026年2月にはGinkgo Bioworksとのクラウドラボ連携で、無細胞タンパク質合成のコストを40%下げたという研究も公表している。ここから推測できるのは、OpenAIが「科学に強い汎用モデル」を磨くだけでなく、生命科学では特化モデル、ツール接続、ラボ連携、安全統制を一体で積み上げてきたということだ。GPT‑Rosalindは、その蓄積を研究現場向けの製品として束ね直した最初の節目と見るのが自然である。 (openai.com)
今後の焦点は二つある。ひとつは、Rosalindが本当に創薬初期の意思決定をどれだけ改善できるかだ。文献整理やターゲット背景調査を速くするだけなら既存モデルでもある程度できるが、重要なのは、矛盾する証拠を整理し、実験可能な次の一手まで落とし込めるかである。もうひとつは、安全統制を保ったまま、どこまで研究現場に深く入れるかだ。OpenAIは今後、より長期・高ツール依存のワークフローや、Los Alamosを含む国立研究所との協働を通じたタンパク質・触媒設計の評価を進めるとしている。生命科学でAIが本当に研究パートナーになるかどうかは、モデルの賢さだけでなく、評価、接続、運用、統制が同時に成熟するかにかかっている。GPT‑Rosalindは、その難しい条件を正面から製品化し始めた点で、かなり重要な発表だった。 (openai.com)
出典(一次資料中心)
- OpenAI発表「Introducing GPT‑Rosalind for life sciences research」および同FAQ。 (openai.com)
- GitHub公開の「Life Science Research Plugin」README。 (github.com)
- OpenAI for Science、および関連する生命科学研究発表群。 (openai.com)
- OpenAIの生物学安全性・特別アクセス関連資料。 (openai.com)