MiniMax M2.7がNVIDIA経由でも公開された意味

2026年4月11日、MiniMaxの最新テキストモデル「M2.7」がNVIDIA経由でも利用可能になった。時系列で見ると、M2.7そのものはMiniMaxが3月18日に公開しており、今回はその重みと実行経路がNVIDIAのBuild/NIM、さらにvLLM・SGLang・NeMo系の周辺スタックまで含めて整備された、という出来事である。単なる「推論APIの追加」ではなく、エージェント用途を前提とした大規模モデルを、NVIDIAの配布・最適化・運用導線に乗せた点が本質だ。 (platform.minimax.io)

M2.7の核は、総パラメータ約230B級、1トークンあたりの活性は10Bという巨大MoEだ。NVIDIA側は230B total parameters、256 experts、各トークンで8 expertsを有効化、62層、200Kコンテキストと説明している。一方でHugging Face上の表記は229B paramsで、ユーザーが「229B級」と呼ぶのはこの表示に沿ったものだろう。要するに、全容量は超巨大だが、推論時には一部の専門家だけを使うことで、フロンティア級の能力と計算効率の両立を狙った設計である。 (docs.api.nvidia.com)

MiniMax自身はM2.7を「自己進化に深く参加した最初のモデル」と位置づける。ローンチ記事とモデルカードによれば、内部版M2.7は強化学習実験用のスキルやメモリ更新に関与し、プログラミング用スキャフォールドを100回超の反復で自律的に改善、内部評価で30％の性能向上を得たという。また、22件のMLE Bench Lite競技では平均66.6％のメダル率だったとしている。ここで重要なのは、M2.7が単に「コードを書くモデル」ではなく、評価・修正・再試行のループに耐えるエージェント向けの振る舞いを、モデルの訓練思想そのものに織り込んでいる点だ。もっとも、これらの数字は基本的にMiniMax公表値であり、NVIDIAのNIMカードでも訓練・評価データ詳細は未開示とされているため、読み方には留保が要る。 (minimax.io)

その能力の見せ方も、M2.7では明確に「エージェント」に寄っている。MiniMaxはSWE-Pro 56.22、VIBE-Pro 55.6、Terminal Bench 2 57.0、NL2Repo 39.8、GDPval-AA 1495 ELO、Toolathon 46.3、MM Claw 62.7、40超の複雑スキルで97％のskill complianceといった数値を挙げ、ソフトウェア工学、業務文書編集、複雑なツール利用を横断する性能を訴求している。しかもOffice系の編集、テンプレートに沿ったドキュメント生成、動的ツール探索、Agent Teamsまで前面に出しており、狙いはチャットボットではなく「仕事を進める実行主体」にある。 (huggingface.co)

今回のNVIDIA公開で価値が大きいのは、モデル配布よりもむしろ実装面だ。NVIDIAはM2系向けに、QK RMSNormの融合カーネルとTensorRT-LLM由来のFP8 MoEカーネルをvLLM/SGLangへ組み込み、Blackwell Ultra上でvLLMは最大2.5倍、SGLangは最大2.7倍のスループット改善をうたう。さらにBuild.NVIDIAの無料GPUエンドポイント、NIM、NeMo AutoModelの微調整レシピ、NeMo RLの学習レシピ、NemoClaw/OpenShellによるエージェント実行基盤まで接続された。つまり「重みを置きました」ではなく、「推論・配備・後学習・エージェント実行の一式をNVIDIA圏で回せます」という提供に変わったのである。 (developer.nvidia.com)

ただし、ここで見落としやすい現実もある。M2.7は“10B activeだから軽い”わけではない。vLLMの公式ガイドでは、重みだけで220GB、さらに100万トークンあたり240GBのKVキャッシュが要るとしており、NVIDIA GPUでは4x H200/H20/H100、あるいは4x A100/A800での起動例が示されている。推奨構成も96GB GPUを4枚以上という水準で、オープンウェイト化されたとはいえ、個人の手元で気軽に回す類いのモデルではない。公開の意味は「誰でもローカルで動かせる」ことより、「十分なGPU資源を持つ組織が自前運用しやすくなった」ことにある。 (docs.vllm.ai)

実務面では、API互換性と推論フォーマットも重要だ。MiniMax APIはAnthropic SDKとOpenAI SDK互換を用意し、M2.7は約60 tps、高速版のM2.7-highspeedは約100 tps、価格は従量課金で入力$0.3/百万トークン、出力$1.2/百万トークンとされる。一方、M2.7は「Interleaved Thinking」を前提にしており、ツール呼び出しの各ターンでthinking/reasoning_detailsや<think>を含む完全な応答を履歴に戻すことが推奨されている。これはエージェント用途では本質的で、単純なOpenAI互換レイヤーで雑に差し替えるだけでは、本来の性能が出ない可能性がある。 (platform.minimax.io)

もう一点、ライセンスは冷静に確認すべきだ。NVIDIAのNIMモデルページでは、NVIDIA API Trial TermsおよびNVIDIA Open Model Licenseのもとで提供され、「commercial/non-commercial use ready」とも読める表現がある。他方、Hugging FaceのM2.7 LICENSEは明確に「NON-COMMERCIAL LICENSE」で、商用利用にはMiniMaxの事前書面承認が必要と書かれている。したがって、M2.7は“オープンウェイト”ではあっても、一般的な意味での自由なオープンソースと即断するのは危うい。利用経路ごとの契約条件確認が前提になる。 (docs.api.nvidia.com)

総じて言えば、今回のNVIDIA経由公開は、M2.7を単なる新モデルから「実運用できるエージェント基盤部品」へ一段押し上げた出来事だ。10B activeのMoE設計、長文脈、ツール利用、業務自動化、vLLM/SGLang最適化、NeMoによる後学習までが一本につながったことで、M2.7は“高性能な公開モデル”というより、“自前で持てる実務向けエージェント・エンジン”として見たほうが実態に近い。ただし、現段階の魅力は主としてベンダー公表値とNVIDIAの最適化ストーリーに支えられており、外部の再現検証、特に長時間エージェント運用での安定性評価が今後の焦点になるだろう。 (developer.nvidia.com)

主な出典は、MiniMaxのM2.7公開記事・モデルページ・APIドキュメント、Hugging FaceのモデルカードとLICENSE、NVIDIA Technical BlogおよびNIMモデルカードである。 (minimax.io)

メニュー

MiniMax、M2.7をNVIDIA経由で公開 229B級オープンウェイトでエージェント用途を前面に

MiniMax M2.7がNVIDIA経由でも公開された意味

MiniMax、M2.7をNVIDIA経由で公開　229B級オープンウェイトでエージェント用途を前面に