JetBrains Mellum2公開：AIコーディングは「巨大モデル一枚岩」から「速い専門部品の組み合わせ」へ

過去24時間の生成AI・LLM関連で注目したいのは、JetBrainsがMellum2をオープンソース化した発表です。Mellum2は、総パラメータ12B、トークンごとに有効化されるのは2.5BのMixture-of-Expertsモデルで、Apache 2.0ライセンスで公開されています。JetBrainsは用途として、コード生成だけでなく、ルーティング、Q&A、RAG、サブエージェント、プライベートなソフトウェア開発環境での利用を挙げています。(blog.jetbrains.com)

今回のポイントは、「また新しいコードLLMが出た」というだけではありません。JetBrains自身が強調しているのは、最大性能よりも、レイテンシ、スループット、コストです。つまりMellum2は、すべてを担う汎用フロンティアモデルというより、AI開発ワークフローの中で高頻度に呼ばれる“速い部品”として設計されています。プロンプトを分類する、検索結果を要約する、ツール呼び出しを補助する、エージェントの途中工程を処理する。そうした作業に毎回最大級モデルを使うのは、品質面では魅力的でも、運用コストと待ち時間の面で重くなります。Mellum2の発表は、この現実的な隙間を狙っています。(blog.jetbrains.com)

技術的には、64 expertのうち8 expertを有効化するMoE構成、Grouped-Query Attention、4 KV heads、4層中3層でSliding Window Attentionを使う設計、さらにMulti-Token Prediction headを事前学習の補助目的と投機的デコード用の内蔵ドラフトモデルとして兼ねる点が示されています。事前学習は約10.6兆トークン規模で、Webデータからコード・数学寄りへ段階的に比重を移す三段階カリキュラムを採用したとされています。128Kコンテキストへの拡張後、SFTとRLVRを経て、直接答えるInstruct系と、明示的な推論過程を出すThinking系が公開されました。(arxiv.org)

公開形態も重要です。Hugging Face上では、Base Pretrain、Base、Instruct SFT、Thinking SFT、Instruct、Thinkingという複数のチェックポイントが提示されています。完成品だけでなく中間段階も出しているため、研究者や企業が「SFTだけの状態」「RL後の状態」「Thinking型と非Thinking型」の違いを比較しやすい。これは単なるモデル配布ではなく、ポストトレーニング工程を観察可能にする公開でもあります。(huggingface.co)

性能の見方は慎重であるべきです。Thinking版の自己報告ベンチマークでは、LiveCodeBench v6が69.9、BFCL v3が69.4、BFCL v4が45.6、AIME平均が58.4、MMLU-Reduxが86.2とされています。一方で、AIMEやGPQA Diamond、IFEvalなどではQwen3.5 9Bなどに劣る項目もあります。つまり「小さくて最強」という話ではありません。むしろ、コード・ツール利用・推論を広く扱えるオープンウェイトの実用部品として、どのタスクで大きなモデルの代替になり、どのタスクではならないかを見極める対象です。なお、モデルカード上の数値はJetBrains自己報告を含むため、独立評価は必要です。(huggingface.co)

面白いのは、Mellum2が「コード補完モデル」の延長線上にありながら、補完だけを目指していないことです。初代Mellumはコード補完に焦点を当てた4B denseモデルでしたが、Mellum2はコード編集、デバッグ、ツール利用、関数呼び出し、エージェント型コーディング、対話的プログラミング支援まで対象を広げています。これは、AIコーディング支援が「次の1行を当てる」段階から、「開発環境内の複数工程を分担する」段階へ移っていることを示しています。(arxiv.org)

実務上の意味は三つあります。

第一に、プライベート実行の選択肢が増えること。Apache 2.0で公開され、vLLMやSGLangでの利用例も示されているため、企業はコードや社内文書を外部APIに出さずに、局所的なAI処理を組み込む余地を持ちます。もちろん、実際の安全性は運用設計、ログ管理、アクセス制御、モデル更新方針に依存します。モデルがローカルで動くことは、ただちに安全を意味しません。(huggingface.co)

第二に、エージェントのコスト構造が変わります。複雑な開発エージェントは、1回の依頼の中で、検索、要約、計画、コード生成、テスト解釈、修正案作成を何度も行います。すべてを大型モデルで処理すると、見た目以上に推論コストが膨らむ。Mellum2のような“focal model”は、各工程に適切なモデルを割り当てるルーティング設計を後押しします。今後のAI開発基盤では、「どのモデルが賢いか」だけでなく、「どの工程にどのモデルを使うか」が重要になります。(blog.jetbrains.com)

第三に、IDEベンダーがモデルを持つ意味です。JetBrainsは開発者の作業環境を長年提供してきた企業であり、モデル単体ではなく、IDE、静的解析、コード検索、テスト、ビルド、エージェント連携の中にAIを置けます。Mellum2はその部品になり得ます。ただし、ここで過大評価は禁物です。良いモデルを持つことと、良い開発体験に統合することは別問題です。低遅延でも、誤った編集、過剰な提案、セキュリティ上危ういコードを出すなら、現場の信頼は得られません。

今回の発表から見える大きな流れは、AIコーディングの競争軸が二層化していることです。一方には、難問解決や大規模リファクタリングを担う強力なフロンティアモデルがある。もう一方には、日常的な補助作業を高速・安価・ローカルに処理する専門モデルがある。開発者が実際に使うAI環境は、おそらく後者を大量に組み合わせ、必要な場面だけ前者を呼ぶ形に近づいていきます。

Mellum2の価値は、単独で最先端モデルを倒すことではありません。むしろ、「AI開発環境は大きな頭脳ひとつではなく、速い小さな頭脳の連携で作られる」という設計思想を、Apache 2.0の実モデルとして提示した点にあります。ここから先の焦点は、ベンチマーク上の点数だけでなく、実際のIDE内ワークフローで、どれだけ安全に、速く、低コストに、開発者の判断を邪魔せず働けるかです。

出典: JetBrains AI Blog、arXiv Technical Report、Hugging Face model cards。(blog.jetbrains.com)

# JetBrains Mellum2公開：AIコーディングは「巨大モデル一枚岩」から「速い専門部品の組み合わせ」へ 過去24時間の生成AI・LLM関連で...

JetBrains Mellum2公開：AIコーディングは「巨大モデル一枚岩」から「速い専門部品の組み合わせ」へ

# JetBrains Mellum2公開：AIコーディングは「巨大モデル一枚岩」から「速い専門部品の組み合わせ」へ過去24時間の生成AI・LLM関連で...