今日取り上げたいのは、OpenAIが2026年6月18日に発表した、希少遺伝性疾患の「未解決ケース」をAIで再解析した研究です。舞台はBoston Chi...

アリス@aliceshimojimaAI2026年06月20日(土) 07時05分00秒

今日取り上げたいのは、OpenAIが2026年6月18日に発表した、希少遺伝性疾患の「未解決ケース」をAIで再解析した研究です。舞台はBoston Children’s Hospital、Harvard、OpenAIの共同研究。OpenAIの発表によると、研究チームはOpenAI o3 Deep Researchを使い、過去に専門家が調べても診断に至らなかった376件の小児を含む症例を見直し、最終的に18件で医師による診断確定につながる候補を見つけました。追加診断率は4.8%です。数字だけ見ると小さく感じるかもしれません。でも、ここで大事なのは、これらが「すでに一度、専門家の目を通っていた難しい症例」だったという点です。(openai.com)

まず誤解を避けたいのですが、これは「AIが子どもを診断した」という話ではありません。OpenAI自身も、モデルは診断や臨床判断を行っていないと説明しています。モデルがしたのは、匿名化された臨床情報、HPOと呼ばれる標準化された症状記述、年齢や性別、遺伝子変異の表などをもとに、「この遺伝子や変異が説明になるかもしれない」という仮説を、根拠付きで専門家に提示することでした。その後、候補は研究者と臨床専門家がACMG/AMPの枠組みに沿って確認し、CLIA認証ラボでの確認や臨床チームによる家族への返却を経て、初めて診断として扱われています。(openai.com)

この研究が面白いのは、LLMの役割が「医学知識を答えるチャットボット」ではなく、「変化し続ける知識ベースと古い症例をつなぎ直す推論レイヤー」になっていることです。希少疾患では、患者本人のゲノムは変わらなくても、周辺の医学知識は変わります。新しい疾患遺伝子が報告される。ClinVar上の変異分類が変わる。似た症例の論文が出る。つまり、数年前には説明不能だったデータが、今なら説明可能になることがある。Nature Medicineに掲載されたSolve-RDの大規模再解析でも、6,004家系の再解析から506家系、8.4%の診断が得られ、さらに専門家による並行レビューを含めると全体で12.6%の診断率になったと報告されています。再解析そのものは、すでに重要な臨床・研究プロセスなのです。(nature.com)

では、今回の新しさはどこにあるのでしょうか。私は「説明可能な候補生成」にあります。従来のゲノム解析パイプラインは、変異をフィルタし、候補を順位付けすることが得意です。一方で、臨床症状、遺伝形式、家族情報、文献、変異の質、既存データベースの記載を横断して、「なぜこの候補が筋が通るのか」を文章として組み立てる作業は、人間の専門家に大きな負担がかかります。今回のワークフローでは、o3 Deep Researchが単に遺伝子名を出すのではなく、臨床像と変異の関係を説明し、人間が検証しやすい仮説として提示しました。これは、LLMが「最終判断者」になるのではなく、「調査の順番を変える道具」になるという方向性です。(openai.com)

結果の内訳も見ておきましょう。376件のうち、神経発達症のコホートでは100件中10件、神経筋疾患では61件中4件、小児突然死では200件中2件、早期精神病では15件中2件の診断が示されました。早期精神病の13.3%という数字は目を引きますが、母数が15件と小さいため、OpenAIの記事も幅広い信頼区間があると慎重に書いています。全体の4.8%という数字も、万能感を持って読むべきではありません。ただし、診断困難例での数%は、当事者にとっては非常に大きい。何年も名前のない症状と向き合ってきた家族にとって、病名がつくことは、治療方針だけでなく、見通し、遺伝カウンセリング、コミュニティへの接続にも関わります。(openai.com)

一方で、限界はかなり重要です。この研究は後ろ向き研究であり、前向きの臨床試験ではありません。レビュー担当者はモデルの信頼度を知らない状態、つまり完全なブラインドではありませんでした。また、時間短縮、コスト、医師の作業量、偽陽性による追加負担、治療方針への影響は測定されていません。さらに、構造変異、リピート伸長、深部イントロン変異、モザイクなど、遺伝的変化の一部は系統的に評価されていないとされています。LLMは文脈を読み違えたり、もっともらしいが誤った説明を生成したりする可能性があります。だからこそ、この研究では人間の専門家による確認と臨床検査が必須だったわけです。(openai.com)

今後の焦点は、「AIを使うと何件増えるか」だけではなく、「どのくらい安全に、安く、再現可能に、定期再解析を回せるか」になると思います。OpenAIの記事でも、次の段階として、多施設・前向き研究で、標準的な再解析とLLM支援再解析を比較し、診断率、候補提示までの時間、専門家の作業量、偽陽性負担、費用、ケアへの影響を見る必要があるとしています。さらに、プロンプトのバージョン管理、参照文献の確認、監査ログ、不確実性の校正も重要になると述べています。(openai.com)

今日のポイントを一言でまとめるなら、LLM医療応用の主戦場は「医師の代わりに診断するAI」ではなく、「人間の専門家が見落としにくくなるための再解析インフラ」に移りつつある、ということです。これは派手なチャットボットの話ではありません。古い検査結果、増え続ける論文、複雑な症状、断片化した記録を、もう一度つなぎ直すための道具の話です。個別の診断や治療判断は、これまで通り医療専門家の領域です。そのうえで、未解決の症例を定期的に見直す仕組みがスケールするなら、生成AIは「答えを出す機械」ではなく、「まだ答えに届いていない記録を、再び問いに戻す機械」になるかもしれません。