QXAI

MAI-Image-2-Efficientは何を変えるのか

2026年4月14日、Microsoftは新しい画像生成モデル「MAI-Image-2-Efficient」を発表した。位置づけは、既存の上位モデル「MAI-Image-2」の廉価版というより、同系統の“量産向け最適化版”に近い。画像出力料金はMAI-Image-2の100万トークンあたり33ドルから19.50ドルへ下がり、約41%安くなった一方、速度は約22%向上し、Microsoftは「4倍効率的」とも説明する。公開初日からMicrosoft FoundryとMAI Playgroundで利用でき、CopilotとBingにも順次展開、PowerPointなどの追加展開も予告されている。なおPlaygroundは米国を含む一部市場で提供され、EUは今後対応予定だ。 (microsoft.ai)

この発表を単発ニュースとして見るより、Microsoftの画像モデル開発の流れの中で捉えると意味が見えやすい。2025年10月に同社初の完全内製画像モデルMAI-Image-1を公開し、11月にはBing Image Creatorなどに組み込み、2026年3月19日にMAI-Image-2を公開、4月2日にはFoundryで一般の開発者向け導線を整え、わずか12日後にEfficient版を追加した。約半年で「研究的な内製モデル」から「製品内展開」と「企業向けAPI最適化」まで進めたことになる。これはMicrosoftが、外部モデルを使うだけでなく、自社製のマルチモーダル基盤を製品群とクラウド基盤に垂直統合し始めたことを示している。 (microsoft.ai)

技術的には、MAI-Image-2-EfficientはMAI-Image-2を土台にした拡張で、モデルカードでは両者とも拡散ベースのテキスト画像生成アーキテクチャを採用し、学習にはflow-matching lossを用いると説明されている。要するに、ノイズから画像へ至る変換を連続的に学習しつつ、推論時には拡散系の生成を行う設計だ。2eのモデルカードには、非埋め込みパラメータ数10B〜50B、入力32Kトークン、出力は最大1024×1024ピクセルとあり、単なる小型化というより、同じ系譜のモデルを本番ワークロード向けに絞り込んだものだと読める。学習期間が2026年1月〜3月、公開が4月14日という短いサイクルも、Microsoftがかなり速い改善ループを回していることをうかがわせる。 (microsoft.ai)

Microsoft自身も、この2モデルを明確に役割分担させている。MAI-Image-2-Efficientは、商品画像、広告クリエイティブ、UIモック、ブランド資産、会話中のリアルタイム生成、あるいは大量バッチ生成のように、速度とコスト管理が重要な用途向けだ。一方のMAI-Image-2は、ポートレート、高精細なフォトリアル表現、アニメやイラストのような作風寄りの生成、長めで複雑な画像内テキストなど、「最後の詰め」が要る場面向けとされる。実運用の観点から見ると、これは品質を一本化して競う発想ではなく、ワークロードごとにモデルをルーティングして費用対効果を最大化する設計思想だと言える。 (microsoft.ai)

ただし、性能指標は読み方に注意がいる。Microsoftのいう「4倍効率」は、NVIDIA H100上で1024×1024生成を行い、レイテンシとGPU使用量で正規化し、最適化済みバッチサイズで比較した結果だ。また「他の主要モデルより平均40%高速」という主張も、p50レイテンシで、Gemini 3.1 Flash系やGemini 3 Pro Image、GPT-Image-1.5-Highなど特定API経由の計測条件に基づく。つまり、2eが速いこと自体は重要だが、その数字は“どんな環境でも必ず再現される普遍値”ではなく、ベンダー定義の条件付きベンチマークとして受け取るのが妥当だ。 (microsoft.ai)

品質面では、Microsoftは3月のMAI-Image-2公開時に「Arena.aiで画像モデルファミリーとしてトップ3」と打ち出した。一方、現在のArena.ai公開テーブルでは、個別モデルとしてのmai-image-2はText-to-Image部門で5位に見える。これは「ファミリー／ラボ単位の位置づけ」と「個別モデル単位の順位」の違いとみられ、必ずしも矛盾ではない。いずれにせよ重要なのは、Microsoftの画像生成が“おまけ機能”ではなく、GoogleやOpenAI、Black Forest Labs、xAIなどと同じ比較軸で評価される地点まで来たことだ。 (microsoft.ai)

このモデルがFoundryで出る意味も大きい。Microsoft Foundryは、モデル、エージェント、ツールを統合し、RBAC、監視、評価、ガバナンスをまとめて扱う企業向けPaaSだ。MAI-Image-2はすでにWPPが大規模利用を進めており、2eについてはShutterstockが評価を開始している。つまりMAI-Image-2-Efficientは、見栄えのよいデモを増やすためのモデルというより、「大量生成を企業が継続的に回せるか」という経済性の論点に正面から応えるモデルとして投入された、と見るほうが実態に近い。 (learn.microsoft.com)

安全性では、2eのモデルカードはMAI-Image-2と同様に、防御を重ねる“defense-in-depth”の考え方を採用し、学習データ段階の緩和策に加えて、製品側でもコンテンツ分類器などを適用するとしている。リスク領域としては暴力、性的表現、公人、商標や保護対象物の再現などが挙げられ、MAI-Image-2ではMicrosoft AI Red Teamによる複数ラウンドのレッドチーミングも実施された。画像生成AIが本格的に業務ワークフローへ入るほど、品質だけでなく、この“運用時の安全設計”が競争力そのものになる。 (microsoft.ai)

今後の展望として、MAI-Image-2-Efficientは画像生成の競争軸が「最高品質を1枚出せるか」から、「十分高品質な画像を、どれだけ安く速く大量に回せるか」へ移っていることをよく示している。しかもMicrosoftは、Foundryでの企業提供と、Copilot/Bing/PowerPointといった自社アプリへの展開を同時に進めている。画像生成モデルが単体サービスではなく、検索、資料作成、会話UI、広告制作の裏側で選択的に使い分けられる部品になっていくなら、2eのような“本番向けの中核モデル”は今後さらに重要になるはずだ。MAI-Image-2-Efficientは、画質競争の新記録というより、画像生成AIが本当に産業化していく段階に入ったことを示す発表だった。 (microsoft.ai)

主な出典
Microsoft AI公式発表「MAI-Image-2-Efficient: Flagship Quality, 41% Lower Cost」および関連発表、MAI-Image-2e/MAI-Image-2のModel Card、Microsoft Foundry公式ドキュメント、Arena.ai公開リーダーボード。 (microsoft.ai)

メニュー

MAI-Image-2-Efficient: Flagship Quality, 41% Lower Cost

MAI-Image-2-Efficientは何を変えるのか