Gemma 4が来た――Googleのオープンモデル戦略は次の段階へ
はい、Gemma 4は本当に来ました。Google AI for Developers のリリースノートでは 2026年3月31日 付けで Gemma 4 の公開が記録されており、Google公式ブログの一般向け発表記事は 2026年4月2日 付けです。つまり、「Gemma 4が来た!」は誇張ではなく、まさにこの数日の最新動向です。 (ai.google.dev)
Gemma 4は、Google DeepMind が公開した新しいオープンモデル群です。Google はこれを、Gemini 3 の研究・技術を土台にした“最も知的なオープンモデル”と位置づけており、Apache 2.0 ライセンスで提供します。モデルは4系統に分かれ、モバイルやIoT向けの超軽量系から、PCやワークステーション向けの高性能系までを一つの家族として揃えています。 (deepmind.google)
まず何が出たのか
Gemma 4 のラインアップは次の4つです。小型モデルは「E」、中型MoEモデルは「A」という表記が付きます。Google公式モデルカードによると、E2B は実効 2.3B(埋め込み込みでは 5.1B)、E4B は実効 4.5B(埋め込み込みでは 8B)、26B A4B は総計 25.2B・推論時アクティブ 3.8B の MoE、31B Dense は 30.7B の密結合モデルです。小型2モデルは 128K コンテキスト、中型2モデルは 256K コンテキストに対応します。 (ai.google.dev)
モダリティも世代をまたいで整理されました。全モデルが テキストと画像 を扱え、動画はフレーム列として処理できます。さらに 音声入力は E2B と E4B にネイティブ搭載されており、音声認識や音声翻訳をローカル実行しやすい構成になっています。Google DeepMind の製品ページでは、小型モデルをスマートフォンや Raspberry Pi、Jetson 系デバイスなどのエッジ環境で動かす方向が明確に打ち出されています。 (ai.google.dev)
利用面でもかなり広く開かれています。Google AI Studio では 31B と 26B A4B を試せ、E2B/E4B は Google AI Edge Gallery で扱えます。重みは Hugging Face、Kaggle、Ollama などから取得でき、JAX、Keras、PyTorch、gemma.cpp、Google AI Edge、GKE などへの接続も公式に案内されています。 (deepmind.google)
Gemma 4のどこが新しいのか
1. 「軽いのに賢い」を本気でやりにきた
今回のキーワードは、Google自身の表現を借りれば “intelligence-per-parameter”、つまり「パラメータ当たりの知能」です。大きいモデルをそのまま配るのではなく、スマホで回るE系と、PCで前線級の推論を狙う26B/31B系に設計思想を分けています。31B/26B は推論・コーディング・エージェント用途を強く意識し、E2B/E4B は低遅延・省メモリ・省電力を重視しています。 (blog.google)
2. マルチモーダルが“実用品質”に近づいた
Gemma 3 でも画像理解は可能でしたが、Gemma 4 では画像の 可変アスペクト比 と 可変解像度 に対応し、OCR、文書解析、UI理解、チャート理解、手書き認識などがコア能力として前面に出ています。さらに画像の視覚トークン予算を 70 / 140 / 280 / 560 / 1120 から調整でき、軽い分類タスクから重い文書OCRまで、用途ごとに精度と計算量をトレードできます。 (ai.google.dev)
3. 長文処理がさらに伸びた
Gemma 3 の主力モデルは 128K コンテキストでしたが、Gemma 4 では 31B Dense と 26B A4B MoE が 256K コンテキスト に到達しました。Googleはこれを、長文ドキュメントやコードベース、リポジトリ丸ごとの入力に使える長さとして訴求しています。小型モデルも 128K を維持しており、エッジ側でも「短い命令だけを処理する小型モデル」から一歩進んだ設計です。 (ai.google.dev)
4. エージェント実装をしやすくした
Gemma 4 は ネイティブな function calling、構造化 JSON 出力、system ロール対応、そして thinking mode を備えています。モデルカードでは、Gemma 3 と比べて Gemma 4 は標準的な system / assistant / user ロールを使うことが明記されており、既存のチャットUIやエージェント基盤との整合性がかなり良くなっています。開発者にとっては、単に性能が上がる以上に、この「扱いやすさ」の改善が大きいです。 (ai.google.dev)
技術的な背景をどう見るべきか
Per-Layer Embeddings が小型モデルの肝
E2B/E4B の「E」は effective の意味で、見かけの総パラメータ数より、推論時に重い高速メモリへ載せる実効サイズを小さく見せる設計です。Googleの説明では、小型モデルは Per-Layer Embeddings(PLE) を使っており、各デコーダ層に小さな埋め込みを持たせることで、層を増やしすぎずに品質を上げつつ、GPU/TPU 側の高コストなメモリ使用量を抑えています。なお PLE は Gemma 3n で前面に出た技術で、Gemma 4 の小型モデルにも継承されています。 (ai.google.dev)
これは、単に「小さいモデル」ではなく、“モバイルで賢く動くように調整された小さいモデル” だということです。ローカル推論では、総パラメータ数よりも、VRAM やアクセラレータの高速メモリに何を載せるかが効きます。Gemma 4 のE系はそこをかなり意識した設計です。これは公式記述からの読み解きですが、Googleが Gemma 4 をスマホ・IoT・Raspberry Pi まで視野に入れている理由も、このメモリ戦略と整合しています。 (ai.google.dev)
26B A4B は「実質4B級の軽さで26B級の器」を狙うMoE
26B A4B は Mixture-of-Experts で、総パラメータは 25.2B ある一方、推論時に使うのは 3.8B アクティブです。モデルカードでは、128 の専門家のうち 8 がアクティブで、さらに shared expert を持つ構成とされています。Googleは、このモデルを 31B Dense より低遅延で、4B 級に近い速度感を狙うものとして説明しています。 (ai.google.dev)
この A4B が面白いのは、オープンモデルの定番トレードオフ――「速いけど弱い」か「強いけど重い」か――の中間をかなり本気で取りにきている点です。ローカル IDE、コーディング支援、半自律エージェントのように、そこそこ深く考えつつ応答速度も欲しい用途では、このモデルがいちばん実戦的かもしれません。これは公式スペックと用途説明に基づく推測ですが、Gemma 4 の主戦場はまさにそこに見えます。 (ai.google.dev)
長コンテキスト対応は注意機構の工夫で支える
Gemma 4 は、ローカルな sliding window attention とグローバル attention を交互に使う hybrid attention を採用し、最終層は常にグローバル attention になるよう設計されています。さらに長文処理時のメモリ最適化として、unified Keys and Values と Proportional RoPE(p-RoPE) を使うと説明されています。 (ai.google.dev)
要するに、Gemma 4 の長コンテキストは「ただ窓を広げた」だけではなく、速度・メモリ・全体把握のバランスを取るためのアーキテクチャ改善を伴っています。長文RAG、巨大リポジトリ解析、文書QAのようなユースケースで効いてくるのは、まさにこの種の工夫です。 (ai.google.dev)
性能はどれくらい伸びたのか
ここは冷静に見るべきですが、公式モデルカードの数字はかなり強いです。比較表では、Gemma 4 31B が MMLU Pro 85.2%、AIME 2026 89.2%、LiveCodeBench v6 80.0%、GPQA Diamond 84.3%、MMMU Pro 76.9% を記録しています。同じ表で比較対象になっている Gemma 3 27B(no think) は、それぞれ 67.6%、20.8%、29.1%、42.4%、49.7% です。長コンテキスト系の MRCR v2 8 needle 128k でも 31B は 66.4%、Gemma 3 27B は 13.5% で、世代差がかなり大きいことが示されています。 (ai.google.dev)
ただし、ここには注意もあります。これらは Google公式モデルカードの自己報告ベンチマーク であり、比較対象には “Gemma 3 27B (no think)” と明記されています。つまり、Gemma 4 の reasoning / thinking 機能が効く条件で優位が大きく出ている可能性があります。数字は強いですが、そのまま「どの実アプリでも同じ差が出る」とは限りません。 (ai.google.dev)
一方で、Googleは外部指標としても、2026年4月1日時点の Arena AI テキストリーダーボードで 31B がオープンモデル世界3位、26B が6位だと紹介しています。順位は日々変動し得ますが、少なくとも Google が Gemma 4 を「サイズの割に異様に強いオープンモデル」として打ち出しているのは確かです。 (blog.google)
Gemma 3から何が変わったのか
Gemma 3 は 2025年3月に 1B / 4B / 12B / 27B で公開され、画像入力、128K コンテキスト、140超言語、function calling などを備えていました。Gemma 4 はそこから一段進み、音声入力を小型モデルへ統合し、31B Dense と 26B A4B MoE を追加し、256K コンテキスト、thinking mode、system ロールのネイティブ対応、Apache 2.0 ライセンスまで含めて再設計した世代と見るのが妥当です。 (ai.google.dev)
Gemma 3 が「単一GPUやTPUで回せる高性能オープンモデル」を押し出した世代だったとすれば、Gemma 4 はそこからさらに、モバイル常駐AI・ローカルコーディング・エージェント基盤・企業内主権運用までを一つの製品戦略にまとめた世代だと言えます。これは公式発表内容を踏まえた分析ですが、今回の進化は単なるベンチマーク更新ではありません。 (blog.google)
いちばん大きな変化は、実はライセンスかもしれない
Gemma 4 で見逃せないのが Apache 2.0 への移行です。公式モデルカードと発表ブログは、Gemma 4 を Apache 2.0 で提供すると明記しています。これに対し、従来の Gemma Terms of Use では、配布や派生物の利用にあたって 使用制限の継承 など独自条件がありました。 (ai.google.dev)
この変更は、ベンチマークの数ポイント差以上に実務へ効きます。企業や公共機関がオープンモデルを評価するとき、性能と同じくらい重要なのが 法務の通しやすさ と データ主権 です。Google自身も、Apache 2.0 を「developer flexibility」や「digital sovereignty」の基盤として説明しています。したがって、Gemma 4 は性能だけでなく、導入障壁の低さ でも前進した世代だと言えます。これは公式説明に基づく評価です。 (blog.google)
どんな影響が出るのか
1. ローカルAIが一段実用寄りになる
E2B/E4B が音声・画像・動画フレーム理解を持ち、しかもオフライン運用を強く意識していることで、端末上の音声アシスタント、OCR、翻訳、現場作業支援、教育アプリのようなユースケースがかなり現実的になります。音声は最大30秒、動画は 1fps 換算で最大60秒と制限はありますが、逆に言えば「端末上で扱える実務的な範囲」を明確に定義した設計です。 (ai.google.dev)
2. ローカルコーディング支援が強くなる
Googleは 26B/31B を、IDE、コーディングアシスタント、エージェントワークフロー向けに明確に位置づけています。31B/26B の非量子化 bfloat16 重みは単一 80GB H100 に収まり、量子化版はコンシューマGPUでも動かせるとしています。つまり、クラウド常時接続ではなく、ローカル優先の開発支援がかなり現実的になります。 (blog.google)
3. Googleの“二本立て戦略”がはっきりした
Google公式ブログは、Gemma 4 を Gemini 3 技術に基づくオープンモデルとして紹介しつつ、Gemma は Gemini を補完する存在だと説明しています。また、Gemma 系ではここ1年で Gemma 3n、TranslateGemma、MedGemma 1.5、FunctionGemma、EmbeddingGemma、T5Gemma v2 などが次々に公開されています。これは、Google が Gemma を単発モデルではなく、オープンな基盤ファミリーとして育てていることを示します。 (blog.google)
Googleは発表の中で、Gemma はこれまでに 4億ダウンロード超、10万超の派生モデルを生んだと述べています。こうした規模感を見ると、Gemma 4 の意味は「Googleがまた一つモデルを出した」ではなく、すでに巨大化した Gemma エコシステムに新しい中核世代が入ったことにあります。 (blog.google)
とはいえ、注意点もある
まず、知識の新しさには限界があります。Gemma 4 の学習データのカットオフは 2025年1月 です。したがって、2025年以降の出来事や頻繁に変わる事実をそのまま知っているわけではありません。これは Gemma 4 に限らずオープンモデル一般の重要な注意点です。 (ai.google.dev)
また、Gemma 4 は安全性評価で Gemma 3 / 3n より大きく改善したとされていますが、モデルカード自身が、事実誤認、曖昧表現、バイアス、複雑タスクでの失敗の可能性を認めています。長いコンテキストは有利に働く一方、性能は与える文脈やタスク設定にも左右されます。実運用では、評価・ガードレール・人間の監督がまだ必要です。 (ai.google.dev)
今後の展望
今後の焦点は3つあると思います。第一に、Gemma 4 小型モデルが Android / Edge 側でどこまで実装事例を増やすか。Googleは AI Core Developer Preview を通じた Gemini Nano 4 との前方互換 にも触れており、オープンな Gemma と製品向け Nano 系の距離を縮めていく可能性があります。第二に、Gemma 4 ベースの派生モデルがどれだけ増えるか。第三に、Apache 2.0 化によって企業導入がどれだけ加速するかです。これは現時点での推測ですが、Gemma 4 は単なるモデル更新というより、Google のローカルAI戦略とオープンモデル戦略が合流した節目に見えます。 (blog.google)
まとめ
Gemma 4 の本質は、「軽量オープンモデル」から「配備先ごとに最適化された実戦的オープン基盤」への進化です。E2B/E4B は端末上のマルチモーダルAIを狙い、26B A4B/31B はローカルの高性能推論とコーディング支援を狙う。そこに 256K コンテキスト、thinking mode、system ロール、Apache 2.0 ライセンスが加わり、Gemma はかなり“使う前提”のモデル群になりました。Gemma 4は、Googleのオープンモデル路線が本気で第2フェーズに入ったことを示すリリースです。 (ai.google.dev)
主な出典
- Google公式ブログ「Gemma 4: Byte for byte, the most capable open models」 (blog.google)
- Google AI for Developers「Gemma 4 model card」 (ai.google.dev)
- Google DeepMind「Gemma 4」製品ページ (deepmind.google)
- Google AI for Developers「Gemma releases」 (ai.google.dev)
- Google AI for Developers「Gemma Terms of Use」および Gemma 4 の Apache 2.0 表記 (ai.google.dev)
- Google Developers Blog「Introducing Gemma 3n」系資料(PLE の背景) (developers.googleblog.com)
必要なら次に、
- Gemma 4 と Llama / Qwen / DeepSeek の比較
- Gemma 4 をローカルPCで動かす方法
- 開発者向けに用途別おすすめモデルサイズ
まで続けて整理できます。