Claude Fable 5再開で見えた、「強いモデル」の次の争点

まず、何が発表されたのか

今回取り上げるのは、Anthropicが2026年6月30日に公開した「Claude Fable 5」の再展開です。ポイントは単なるモデル提供再開ではありません。6月12日に米政府の輸出管理措置を受け、AnthropicはClaude Fable 5とClaude Mythos 5へのアクセスを全ユーザー向けに一時停止していましたが、6月30日に制限が解除されたとして、Fable 5を7月1日からClaude Platform、Claude.ai、Claude Code、Claude Coworkでグローバルに提供再開すると発表しました。Mythos 5については、米政府の承認を受けた一部の米国組織向けにアクセスを復旧した、という整理です。(anthropic.com)

ここで大事なのは「停止できたこと」と「戻し方」

Fable 5とMythos 5は、同じ基盤モデルを共有しつつ、Fable 5は一般利用向けに強い安全策をかけたモデル、Mythos 5は一部の防御的サイバーセキュリティ用途の信頼済みパートナー向けに制限を緩めたモデル、という位置づけです。つまり今回は、「性能の高いモデルを出しました」という話ではなく、「危険度の高い能力を含むモデルを、どう止め、どう検証し、どう再開するか」という運用の話なんですね。(anthropic.com)

Anthropicによると、一時停止のきっかけは、Amazonの研究者がFable 5の安全策を回避する手法を見つけたという報告でした。Anthropicはその後、政府やパートナーと検証し、問題の挙動を狙ってブロックする改良版の安全分類器を訓練したと説明しています。この分類器は、報告された特定の手法を99%以上のケースでブロックする一方、通常のコーディングやデバッグでも誤検知が増える可能性がある、とも明記されています。(anthropic.com)

「脱獄」を、ある・なしではなく重症度で見る

今回いちばん面白いのは、AnthropicがAmazon、Microsoft、GoogleなどのGlasswingパートナーと、AIモデルの「jailbreak」、つまり安全策の回避手法を評価する共通フレームワーク作りを始めた点です。提案されている評価軸は4つ。能力上昇の大きさ、どれだけ広い攻撃タスクに効くか、実際の攻撃へ転用しやすいか、そして手法がどれだけ見つけやすいか。これはかなり実務的です。(anthropic.com)

従来は「脱獄できた」「できなかった」という二分法になりがちでした。でも実際には、軽微な抜け道と、重大インフラ攻撃に直結しうる抜け道は同じではありません。ソフトウェア脆弱性にCVSSのような重症度評価があるのと同じように、AIの安全策回避にも、共通言語が必要になってきた。今回の発表は、その方向に一歩進んだものと見てよさそうです。(anthropic.com)

政府評価との接続も進んでいる

背景には、2026年6月2日の米大統領令があります。この大統領令は、フロンティアAIモデルの高度なサイバー能力を評価するベンチマークや、開発企業が政府と協力してモデルを評価する任意の枠組みを設計するよう求めています。一方で、義務的なライセンス制や事前許可制を作るものではない、とも明記されています。つまり、「政府が全部止める」ではなく、「危険な能力を測り、信頼できる相手に安全に出す」方向です。(whitehouse.gov)

NISTのCAISIも、AIシステムの安全性評価や自主的な標準づくり、サイバー・バイオ・化学兵器など国家安全保障リスクに関わる能力評価を担う組織として位置づけられています。今回のAnthropicの説明にCAISIの検証が出てくるのは、フロンティアモデルのリリースが、もはや企業内のQAだけでは完結しない段階に入ったことを示しています。(nist.gov)

開発者と企業ユーザーへの示唆

ここから見える実務上の示唆はシンプルです。これからのAI導入では、「どのモデルが一番賢いか」だけを見ても足りません。重要なのは、危険な領域に入ったときに別モデルへフォールバックできるか、誤検知が業務にどう影響するか、ログや監査、停止・再開の手順があるか、そしてベンダーがインシデント時に透明に説明できるかです。

特にエージェント用途では、モデルが長い作業を自律的に進めます。だからこそ、安全策は単なる拒否文ではなく、ルーティング、監査、分類器、 trusted access、外部評価まで含む「運用システム」になります。今回のFable 5再開は、モデル競争の主戦場が、性能表の数字からリリース後の統治能力へ移っていることをかなりはっきり示したニュースだと思います。