QXAI

Kimi K2.6は何を変えたのか――「巨大モデル」より「長く働く実行体」として見る

Kimi K2.6をひとことで言えば、単なる新しい大規模モデルではなく、長時間のコーディング、継続的なツール使用、そして複数エージェントの協調実行を本気で回すための実戦仕様のKimiだ。Hugging Faceのモデルカードによれば、総パラメータ1T・活性32BのMoEで、384 expertsのうち各トークンで8 expertsを選ぶ疎結合構成を採り、256Kコンテキスト、400M規模のMoonViTを備えたネイティブなマルチモーダルモデルとして公開されている。配布形態はModified MIT Licenseで、Kimi.com、API、Kimi Codeから利用できる。 (huggingface.co)

興味深いのは、MoonshotがK2.6を「土台から別物に作り直した新世代」としては語っていないことだ。モデルカードにはK2.6がK2.5と同じアーキテクチャで、デプロイ方法もそのまま再利用できるとある一方、関連論文として前世代のK2.5技術報告が掲げられている。少なくとも公開時点の一次資料を読むかぎり、今回の本質は基盤MoEそのものの刷新というより、後学習、推論保持、ツール実行、群制御の改善にある、と見るのが自然だ。 (huggingface.co)

その狙いは、公式ブログで示された長時間コーディングの実例によく表れている。Moonshotは、Mac上でQwen3.5-0.8Bのローカル推論をZigで最適化する作業を、12時間超・4000回超のツール呼び出し・14反復にわたって継続し、速度を約15 tok/sから約193 tok/sへ伸ばした例を紹介する。別の例では、8年物のオープンソース取引エンジン exchange-core を13時間かけて改修し、1000回超のツール呼び出しで4000行超を書き換えたという。モデルカードでも preserve_thinking や multi-step tool call が強調されており、K2.6が「対話で賢い」だけでなく、「長く崩れずに働く」ことを重視しているのが見える。 (kimi.com)

ベンチマーク上の見どころも、まさにその方向に集中している。公式表では、SWE-Bench Pro 58.6、SWE-Bench Verified 80.2、Terminal-Bench 2.0 66.7、LiveCodeBench v6 89.6。しかもMoonshotは、SWE系評価をSWE-agent由来の自社ハーネスで実施し、最小限のツール群を用い、コーディング系スコアを10回独立試行の平均で報告したと明記している。さらに、表中の一部他社スコアは公開値ではなく、Moonshotが同条件で再評価した値として * が付いている。SWE-Bench Pro自体が、汚染耐性を高めた難しい多ファイル・長期工程のソフトウェア課題を狙って設計されたベンチマークであることを踏まえると、58.6という数字が注目されるのは理解しやすい。 (huggingface.co)

もう一つの軸が、Moonshotのいう Agent Swarm だ。K2.5世代で同社は、訓練可能なオーケストレータが動的にサブエージェントを生成・配分する PARL を導入し、単一エージェントに処理が戻ってしまう「serial collapse」を避けるための報酬設計まで公開していた。K2.6はその流れを実運用寄りに押し広げ、100体・1500段階だった群実行を300体・4000段階へ拡張し、文書、Web調査、表計算、長文生成のような異種タスクを一回の自律実行でまとめる構想を打ち出す。BrowseCompのswarm設定で86.3、DeepSearchQA f1で92.5、OSWorld-Verifiedで73.1という数字は、K2.6を単体チャットモデルではなく、オーケストレーションの中核として評価すべきことを示している。なおBrowseComp自体も、インターネット上の絡み合った情報を粘り強く探すブラウジング能力を測るために設計されたベンチマークだ。 (kimi.com)

とはいえ、K2.6を「閉源最先端を全面的に追い越したモデル」と言うのは正確ではない。公式表でも、AIME 2026ではGPT-5.4の99.2に対してK2.6は96.4、GPQA-Diamondでも92.8に対して90.5、BrowseCompではGemini 3.1 Proの85.9がK2.6の83.2を上回る。要するに、K2.6の強みは万能首位ではなく、コーディングとエージェント実行での前線級競争力だ。一方、Artificial AnalysisはK2.6を総合指数54で全体4位、かつ open weights の先頭と位置づけている。ただし同サイトのモデルページでは、一部結果について「AI Lab申告値で独立検証前」とも注記しており、現段階では見出しの派手さより検証状況を見ておくべきだろう。 (kimi.com)

実務的には、K2.6の価値はモデル単体よりも「運用スタック込み」で見た方が分かりやすい。MoonshotはK2.6公開と同時に Kimi Vendor Verifier を公開し、thinking modeのデコード設定ミスや、第三者インフラ上の実装差がベンチマーク異常の原因になっていたと説明した。これは、オープン重みモデルの難しさが「重みを配ること」ではなく、「同じ品質で動かすこと」にあると、当の開発元が認めた格好でもある。モデルカードがOpenAI/Anthropic互換API、vLLM、SGLang、KTransformersを推奨しているのも、その現実を反映したものだ。 (kimi.com)

総じてKimi K2.6は、オープンモデル競争の焦点が「知識量」や「一発回答の賢さ」から、「長く走るツール使用」「壊れにくいコーディング」「群協調による横展開」へ移っていることを示すリリースだ。今回の重要さは、1T級MoEをまた出したこと以上に、そのモデルをCLI、API、検証ツール、群オーケストレーションまで含めて外に出してきた点にある。今後の本当の争点は、300サブエージェントという上限が現実の開発や調査業務でどこまで品質向上に結びつくのか、そしてその長時間自律実行をどこまで安全かつ再現可能に扱えるのかだろう。Kimi K2.6は、「オープン重みでも強い」ことの証明というより、「オープン重みで何をどこまで自律化できるか」を問うモデルとして見るのが、いちばん正確だ。 (kimi.com)

メニュー

Kimi K2.6

Kimi K2.6は何を変えたのか――「巨大モデル」より「長く働く実行体」として見る