Anthropicはなぜ「強すぎるモデル」をまず守る側に配ったのか――Project GlasswingとClaude Mythos Previewの意味
2026年4月7日、Anthropicは新たなサイバーセキュリティ構想「Project Glasswing」を発表した。AWS、Apple、Google、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksなどが立ち上げパートナーに名を連ね、未公開の汎用フロンティアモデル「Claude Mythos Preview」を使って、重要ソフトウェアの脆弱性を見つけて修正する取り組みを始める。Anthropicはこの研究プレビュー向けに最大1億ドル分の利用クレジットを投じ、さらにオープンソースのセキュリティ団体へ400万ドルを寄付するとしている。加えて、重要なソフトウェア基盤を担う40超の組織にもアクセスを広げる計画だ。 (anthropic.com)
この発表の核心は、新モデルの登場そのものよりも、その公開の仕方にある。Anthropicによれば、Mythos Previewはすでに「すべての主要OSと主要ブラウザ」を含む幅広いソフトウェアで、高深刻度の脆弱性を数千件発見している。一方で同社は、このモデルが脆弱性の発見だけでなく悪用にも強い能力を持つと見ており、現時点では一般公開しないと明言した。まずは危険な出力を検知・遮断する安全策を整え、その改善を今後のClaude Opus系モデルで試しながら、最終的には“Mythos級”モデルを安全に大規模展開したいというのがAnthropicの説明だ。 (anthropic.com)
もっとも、これは突然の方向転換ではない。Anthropicは2026年2月、Claude Opus 4.6が特別な専用足場なしでも、よく監査されたオープンソースから500件超の高深刻度脆弱性を見つけて検証したと報告していた。3月にはMozillaとの協業を公表し、Opus 4.6が2週間でFirefoxの脆弱性22件を発見、そのうち14件をMozillaが高深刻度と判定したと説明している。Firefox 148で大半が修正済みとされ、Anthropic自身も「AIによる脆弱性研究」が実験段階を越えつつあることを強く示していた。Mythos Previewは、その延長線上にある次の段階と見るのが自然だ。 (red.anthropic.com)
技術的に重要なのは、AnthropicがMythosを「サイバー専用モデル」とは位置づけていない点だ。公式説明では、Mythos Previewの危険なほど強いサイバー能力は、強力なエージェント的コーディング能力と推論能力の副産物として現れたものだという。実際、Anthropicの公表値では、CyberGymで83.1%、SWE-bench Proで77.8%、Terminal-Bench 2.0で82.0%と、Claude Opus 4.6を大きく上回る。つまりMythosは「脆弱性検出器」というより、コードを読み、実験し、検証し、必要なら exploit まで組み立てる総合的なソフトウェア研究エージェントに近い。だからこそ防御にも攻撃にも効いてしまう。 (anthropic.com)
Anthropicはすでに、いくつかの具体例も公開している。たとえばOpenBSDでは、1998年に導入されたTCP SACK処理に由来する27年物の不具合をMythosが見つけ、リモートからカーネルをクラッシュさせ得る問題として説明した。OpenBSD側も2026年3月25日のerrata 025で、無効なSACKオプションを含むTCPパケットがカーネルをクラッシュさせる問題を修正しており、この例は少なくとも外部から確認できる。AnthropicはほかにもFFmpegやLinuxカーネルの事例を挙げるが、同社自身、発見した脆弱性のうち完全にパッチ済みなのは1%未満で、現時点で公に検証できるのはごく一部にすぎないとも認めている。未公開案件についてはSHA-3ハッシュを先に公表し、責任ある開示の完了後に中身を明かす方式を採っている。 (red.anthropic.com)
ここから見えてくるのは、Glasswingが単に「強いモデルを限定配布する企画」ではなく、脆弱性発見後の詰まりまで含めて再設計しようとする試みだということだ。Anthropicは、参加組織がローカルな脆弱性検出、ブラックボックスなバイナリ検査、エンドポイント防御、ペネトレーションテストに取り組むと説明する。また寄付の内訳として、Linux Foundation経由でAlpha-OmegaとOpenSSFへ250万ドル、Apache Software Foundationへ150万ドルを拠出した。さらに90日以内に、公開可能な範囲で学んだことや修正済み脆弱性を報告するとしている。脆弱性を「見つける力」だけでなく、「捌いて直す力」を増やさなければ防御優位は成立しない、という認識がはっきりしている。 (anthropic.com)
この発表が示す変化は、サイバー防御の経済学そのものに及ぶ。従来は「見つけること」が希少だったが、AIがそこを急速に安くするなら、ボトルネックは検証、優先順位付け、修正、配布へ移る。Anthropicは2月の時点で、LLMが見つける脆弱性の速度と量に対して、従来の90日開示慣行では追いつかない可能性があると書いていた。Reutersも、今回の発表がAI支援攻撃への懸念が高まる中で行われたと伝えている。Anthropicが米政府当局と継続的に協議していると明かしたのも、問題が企業ITの範囲に収まらず、重要インフラや国家安全保障に接続しているからだろう。 (red.anthropic.com)
では今後、何を見ればよいのか。第一に、Anthropicが今後90日でどれだけ検証可能な事例を増やせるか。第二に、オープンソース保守者やベンダーが、この新しい“報告の洪水”を受け止められる体制を作れるか。第三に、こうした能力を一部大企業へ先行配布するやり方が、防御上の合理性を持ちながらも、フロンティア級のサイバー能力を少数の組織へ集中させるという別の問題をどう扱うかだ。Anthropic自身、将来的には民間と公共部門をまたぐ独立した第三者機関が、この種の大規模サイバー協調の受け皿として望ましいかもしれないと示唆している。Project Glasswingは、強力なAIを「出すか止めるか」という単純な話ではなく、AI時代の脆弱性発見・開示・修正の制度そのものを作り替える最初の実験として読むべきだろう。 (anthropic.com)
主な出典: Anthropic「Project Glasswing」, Anthropic Frontier Red Team「Assessing Claude Mythos Preview’s cybersecurity capabilities」, Anthropic「Evaluating and mitigating the growing risk of LLM-discovered 0-days」, Anthropic「Partnering with Mozilla to improve Firefox’s security」, OpenBSD errata 025, Reuters報道。 (anthropic.com)