OpenAIはなぜ「サイバー防御AI」を限定公開しようとしているのか
2026年4月9日、Axiosは、OpenAIが高度なサイバーセキュリティ機能を持つ新製品を最終調整しており、まずは少数の提携先に限定して提供する方針だと報じた。詳細はまだ限られるが、この報道は唐突な方向転換というより、OpenAIがここ数カ月で積み上げてきた「高能力なサイバーAIを、守る側に先に渡す」という方針の延長線上にあると見るのが自然だ。実際、同じ週にはAnthropicも高いサイバー能力を持つモデルを一部企業に限定開放する施策を発表しており、前線モデルの公開方法そのものが変わり始めている。 (axios.com)
OpenAIは2025年12月の公式ブログで、AIモデルのサイバー能力が急速に伸びていると説明していた。具体的には、CTF課題での成績が2025年8月のGPT-5で27%だったものが、同年11月のGPT-5.1-Codex-Maxでは76%まで上昇したという。さらに同社は、今後の新モデルは毎回「High」級のサイバー能力に達しうる前提で評価すると明言している。このHighとは、堅牢なシステムに対するゼロデイ遠隔エクスプロイトの開発、あるいは現実の企業・産業環境への複雑で秘匿的な侵入作戦を有意に支援できる水準を指す。 (openai.com)
その準備は、2026年2月5日のGPT-5.3-Codex公開と「Trusted Access for Cyber」の開始で明確になった。OpenAIはGPT-5.3-Codexを、サイバー分野で初めてHigh capabilityとして扱うモデルだと位置づけている。システムカードでは、エンドツーエンドの攻撃自動化や、実用的な脆弱性の発見・悪用のボトルネックを外しうる可能性があるため、確証がなくても予防的に高水準の安全策を適用すると説明した。Trusted Access for Cyberでは、本人確認や招待制の審査を通じて、正当な防御研究者や企業に「よりサイバー能力が高い、あるいは制限の緩いモデル」へのアクセスを与える枠組みを整え、あわせて1,000万ドル分のAPIクレジットも用意している。 (openai.com)
ここで重要なのは、OpenAIがこの判断を単一のベンチマークではしていない点だ。システムカードでは、CTFはあくまで事前に決められた攻撃経路を解く技能試験であり、現実の攻撃作戦を十分に表さないと明記されている。そのため同社は、実コードの脆弱性発見をみるCVE-Benchや、エミュレートされたネットワークで多段階攻撃を試すCyber Rangeなどを併用し、「高度な脆弱性の発見」「目標指向の攻撃自動化」「運用の一貫性」の3要素から能力を見ている。限定公開の可否が、印象論ではなく具体的な評価設計の上に置かれていることが分かる。 (deploymentsafety.openai.com)
では、なぜ一般公開ではなく限定公開なのか。理由は、サイバー防御と攻撃が同じ知識と同じ手順を共有するからだ。OpenAI自身、コードの脆弱性を探す作業は、責任ある修正にも悪用準備にもなりうると認めている。そのため同社は、知識制限やアクセス審査だけに頼らず、監視、出力の遮断、低能力モデルへの自動ルーティング、脅威インテリジェンス、人手レビューを組み合わせた多層防御を採るとしている。しかもGPT-5.3-Codexの文書では、悪意ある利用者がTrusted Accessを突破する可能性や、未知の汎用的なjailbreakが後から見つかる可能性もゼロではないと明示している。慎重な限定提供は、能力の高さそのものより、管理の難しさへの反応だ。 (openai.com)
同時にOpenAIは、すでに防御向けの製品化を進めている。2025年12月にはAardvarkを「agentic security researcher」として私有ベータで紹介し、2026年3月にはこれを発展させた「Codex Security」を研究プレビューとして公開した。Codex Securityは、コードベースの文脈を踏まえて脆弱性を見つけ、検証し、修正案まで提示する設計で、OpenSSH、GnuTLS、PHP、ChromiumなどのOSSに対する高インパクトの報告実績も公表している。Axiosが報じた未公表の新製品は、こうしたfind-and-fix系ツールの上位版、あるいはより高能力なモデルを厳しく制御して載せた限定版である可能性が高い。これは公開情報からの推測だが、少なくとも既存の公式ロードマップとは整合的だ。 (openai.com)
さらに論点は、「AIで他人のソフトを守る」ことだけではない。AIエージェントが外部ツールやウェブに接続されるほど、prompt injectionやデータ流出はAI製品そのものの安全性問題になる。OpenAIは2026年3月、prompt injectionを単なる文字列フィルタの問題ではなく、社会工学に近い脅威として扱う方針を説明した。安全バグバウンティでも、第三者によるprompt injectionとdata exfiltrationを明示的な対象に入れている。さらにPromptfooの買収では、プロンプト注入、データ漏えい、ツール誤用などの自動セキュリティテストを企業向け基盤に組み込むとしており、サイバー製品の意味が「守るためのAI」と「安全に運用されるAI」の両方へ広がっている。 (openai.com)
この流れはOpenAIだけのものではない。Anthropicは4月7日にProject Glasswingを発表し、Claude Mythos Previewを一部の技術・セキュリティ企業に限定して開放した。公式説明では、重大インフラを支えるソフトウェアを守るための先行アクセスであり、提携先にはAWS、Microsoft、Google、CrowdStrike、Palo Alto Networks、Linux Foundationなどが並ぶ。Googleも2025年、AIエージェント「Big Sleep」が実世界の脆弱性を複数発見し、SQLiteの脆弱性では悪用前の対処に役立ったと公表している。つまり、能力の高いモデルをまず防御側へ先行配布し、現場の知見を安全策に還元するという配備様式が、業界共通のテンプレートになりつつある。 (anthropic.com)
もっとも、過剰に煽る必要はない。OpenAIの脅威報告は、現時点で観測される悪用の多くが、既存の攻撃手法をAIで効率化したものだとしている。一方で同社は別の文書で、次のモデル群はHigh級サイバー能力に達しうる前提で備えるべきだとも述べる。焦点は「すでに全面自動のサイバー攻撃が一般化したか」ではなく、「その境界線が近づく前に、どんな公開・審査・監視の仕組みを作るか」にある。4月9日のAxios報道が重要なのは、新製品の存在そのもの以上に、OpenAIが高能力モデルの配備を“製品”ではなく“統治込みの運用”として設計し始めたことを示しているからだ。サイバー領域は、その新しい配備モデルが最初に本格実装される場所になるのかもしれない。 (openai.com)
主な参照元は、Axiosの4月9日報道、OpenAI公式のPreparedness Framework、Trusted Access for Cyber、GPT-5.3-Codex system card、Codex Security、Prompt Injection関連文書、AnthropicのProject Glasswing、GoogleのBig Sleep関連発表である。 (axios.com)