OpenAI、GPT-5.5を公開

「賢くなった」だけではない、仕事を進めるAIへの一段深い移行

OpenAIは2026年4月23日、最新旗艦モデル「GPT-5.5」を公開した。位置づけは単なるマイナーアップデートではない。OpenAIはこれを「実務のための新しい知能クラス」と表現し、GPT-5.4並みの実運用レイテンシを維持しながら、エージェント型コーディング、コンピュータ操作、知識労働、初期段階の科学研究で能力を引き上げたとしている。まずChatGPTとCodexでPlus/Pro/Business/Enterprise向けに展開され、API提供は「近く」開始予定だ。ChatGPTではGPT-5.5 Thinking、上位プランではGPT-5.5 Proも利用でき、Codexでは400Kコンテキスト、APIでは1Mコンテキストを予定している。価格はAPIで gpt-5.5 が入力100万トークンあたり5ドル、出力30ドル、gpt-5.5-pro が入力30ドル、出力180ドルと案内されている。 (openai.com)

今回の要点は、応答品質そのものよりも「仕事の進め方」が変わってきたことだ。OpenAIによれば、GPT-5.5は曖昧で複数段階にまたがる依頼を受け、計画し、ツールを使い、検証し、途中で止まらずに完了まで持っていく能力を強めている。これは2025年8月のGPT-5で進んだ「推論モデル・非推論モデル・ルーターを束ねた統合体制」と、2026年3月のGPT-5.4で進んだ「Codex由来のコーディング力と業務ワークフロー適性の統合」の延長線上にある。言い換えれば、OpenAIは“よく答えるモデル”から“仕事を前に進めるモデル”へ主戦場を移している、と読むのが自然だ。 (openai.com)

その変化は、OpenAIが示した評価指標の並びにも表れている。コーディングではTerminal-Bench 2.0が82.7%でGPT-5.4の75.1%を上回り、SWE-Bench Proは58.6%で5.4の57.7%を上回る。知識労働寄りではGDPvalが84.9%、OSWorld-Verifiedが78.7%、BrowseCompが84.4%、Toolathlonが55.6%。学術寄りではFrontierMath Tier 1–3が51.7%、Tier 4が35.4%、GeneBenchが25.0%、BixBenchが80.5%と、幅広い領域で5.4から改善している。しかもOpenAIは、GPT-5.5が同種のCodexタスクをより少ないトークンで終えられる点も強調している。ここで重要なのは、性能向上が単一ベンチマークの一点突破ではなく、ツール利用・長文脈・実行型タスクにまたがっていることだ。 (openai.com)

ベンチマーク名だけでは分かりにくいので、少し補足したい。SWE-bench Verifiedは、GitHubの実在するソフトウェア課題に対し、コードベースとissue記述から修正パッチを作り、関連テストを通せるかを見る評価だ。OSWorldはUbuntu・Windows・macOS相当の実コンピュータ環境で369の操作課題をこなせるかを測る。BrowseCompは、ウェブ上の「見つけにくい情報」を探し当てる1,266問の閲覧エージェント向け評価、FrontierMathは研究者でも数時間から数日かかる未公開の高難度数学問題群、BixBenchは50超の実世界バイオインフォマティクス解析シナリオと約300問からなる。つまりGPT-5.5が伸びたのは、受験的なQ&Aよりも「環境の中で、長い手順を踏み、正しく進める力」に近い。 (openai.com)

技術面でも興味深い。OpenAIは、GPT-5.5をGPT-5.4と同等のレイテンシで出すため、推論を単なるモデル最適化ではなくシステム全体で再設計したと説明している。GPT-5.5はNVIDIAのGB200/GB300 NVL72上で共同設計・学習・提供され、さらにCodexが本番トラフィックを分析して負荷分散と分割のヒューリスティクスを書き換えたことで、トークン生成速度が20%以上向上したという。ここは宣伝文句として読むより、「より賢いモデルは遅い」という従来の制約を、モデル側とサービング側の同時最適化で崩そうとしている点が重要だ。今後の競争軸が、純粋な知能だけでなく“知能をいかに速く安く届けるか”へ移ることも示している。 (openai.com)

一方で、安全性の扱いはかなり慎重だ。OpenAIはGPT-5.5を、自社Preparedness Framework上で生物・化学とサイバーセキュリティの両面について「High」能力とみなしている。内部・外部レッドチーム、ほぼ200の早期アクセス先からの実運用フィードバック、追加の生物・サイバー評価を経て公開され、サイバー領域ではより厳しい分類器やTrusted Access for Cyberも組み合わせる。API展開が“すぐ”ではなく、安全・セキュリティ要件を満たしながら進めるとされているのも、その慎重姿勢の一部だろう。能力が上がるほど、公開面の摩擦が増えるのは自然であり、GPT-5.5はその現実をかなり露骨に映している。 (openai.com)

では、品質面の実利はどこにあるのか。システムカードでは、従来モデルでユーザーから事実誤認として報告された会話群に対し、GPT-5.5は個々の主張レベルで23%正確性が高く、応答単位でも事実誤りを含む率が3%低いとしている。HealthBench系でもGPT-5.4より改善が見られる。加えて、コンピュータ操作では破壊的な変更を避ける訓練や、高リスク操作前の確認方針、コネクタ経由のプロンプトインジェクション耐性評価も行われている。つまりOpenAIは、単に「賢いエージェント」を作るのではなく、「勝手に壊さないエージェント」に仕立てる工程をかなり前面に出し始めた。これは、実務投入が進むほど避けて通れない論点だ。 (deploymentsafety.openai.com)

総じてGPT-5.5は、GPT-5の統合設計とGPT-5.4の実務志向をさらに先へ進めたモデルだといえる。最大の意味は、チャットAIの延長としての改善ではなく、コーディング、調査、資料作成、データ整理、科学的探索といった「途中経過の多い仕事」を、より少ない監督で前に進める方向へOpenAIが舵を切り続けていることにある。もっとも、ベンチマーク改善がそのまま現場の信頼性に直結するわけではないし、安全策の強化は裏返せば依然として誤作動や悪用リスクが重いことも意味する。今後の注目点は、API公開後にどこまで安定して長時間タスクを回せるか、そして企業や研究現場が“補助者”ではなく“実働する同僚”として扱い始めるかどうかだろう。そこに至れば、GPT-5.5は性能競争の一里塚ではなく、コンピュータ上の仕事の設計そのものを変える節目として記憶されるはずだ。 (openai.com)

主な出典
- OpenAI, “Introducing GPT-5.5” (openai.com)
- OpenAI Deployment Safety Hub, “GPT-5.5 System Card” (deploymentsafety.openai.com)
- OpenAI, “Introducing GPT-5.4” (openai.com)
- OpenAI, “Introducing GPT-5 for developers” (openai.com)
- OpenAI, “BrowseComp: a benchmark for browsing agents” / “Introducing SWE-bench Verified” (openai.com)
- OSWorld, FrontierMath, BixBench, Terminal-Bench 各原論文・公式ページ (arxiv.org)

必要なら次に、この記事を
1) もっと短いニュース解説版
2) 技術者向けにベンチマーク中心へ再構成した版
3) ブログ掲載用に見出しとリードを整えた版
のどれかに整えられる。