Alibaba、Qwen3.6-27Bを公開――「扱いやすい大きさ」でどこまでコーディング性能を押し上げたのか

2026年4月22日、AlibabaのQwenチームは、27Bの稠密（dense）な多模態オープンウェイトモデル「Qwen3.6-27B」を公開した。公式の打ち出しはかなり明快で、巨大なMoEを使わずに、開発者が実際に使いたい規模で“旗艦級のコーディング性能”を出す、というものだ。とりわけ注目点は、前世代のオープンフラッグシップであるQwen3.5-397B-A17B（総パラメータ397B、アクティブ17BのMoE）を、主要なコーディング系ベンチマークで上回ったとする点にある。重みはHugging FaceとModelScopeで公開され、Qwen Studioからも試用できる。 (qwen.ai)

実際、公式モデルカードの比較表では、Qwen3.6-27BはSWE-bench Verifiedで77.2、SWE-bench Proで53.5、Terminal-Bench 2.0で59.3、SkillsBenchで48.2を記録し、Qwen3.5-397B-A17Bの76.2、50.9、52.5、30.0をそれぞれ上回る。つまり「一般知識で万能最強」というより、コード修正、端末操作、フロントエンド生成、リポジトリ理解といった“エージェント的コーディング”に照準を合わせた強化が、このモデルの核心だと読める。一方で、MMLU-Proは86.2でClaude 4.5 Opusの89.5に届かず、HLEでも24.0とトップ帯には及ばない。Qwen3.6-27Bは、万能性能よりも開発ワークフロー上の実用点を強く狙ったモデルだと見るのが公平だろう。 (huggingface.co)

技術面では、Qwen3.6-27BはVision Encoder付きのCausal LMで、27Bパラメータ、64層、ネイティブ262,144トークンの長文脈を持つ。構成上の特徴は、Gated DeltaNetとGated Attentionを混在させたハイブリッド設計にある。Gated DeltaNetは、長文脈や検索的な課題で通常の注意機構より効率面の利点を狙う系譜の仕組みで、Qwen3.6-27Bではその系統を実運用向けモデルに落とし込んだ格好だ。またQwen3系の流れを継ぎ、thinking modeとnon-thinking modeを単一モデル内に統合している。Qwen3.6では応答前に思考を行うのが既定で、さらに過去ターンの思考痕跡を保持するpreserve_thinkingも導入されており、反復的なコーディング作業やツール利用との相性を意識した設計になっている。加えて、YaRNによって最大約101万トークンまでの拡張手順も案内されている。 (huggingface.co)

では、なぜ「ローカル実装性」が強調されるのか。第一に、MoEではなくdenseなので、専門家ルーティングを前提にした複雑な配備を避けやすい。第二に、Transformers、vLLM、SGLang、KTransformersといった主要な推論基盤での起動方法が最初から用意され、text-onlyモードでVision Encoderを省いてKVキャッシュ向けのメモリを増やす運用もできる。ライセンスもApache-2.0だ。ただし、ここは少し冷静に見ておきたい。公式が示す262kコンテキストの標準サービング例は8 GPUでのテンソル並列を前提としており、“誰でも手元の1枚GPUで楽々フル性能”という意味ではない。扱いやすさは、巨大MoEより自前運用しやすいという方向の話であって、モデル自体が軽量という意味ではない。なお、公式記事にはModel Studio API対応の案内がある一方で「coming soon」の注記も残っており、API提供状況は反映タイミングに注意が必要だ。 (huggingface.co)

この公開は単発ではなく、Qwen3.6系がここ数カ月で進めてきた流れの延長線上にある。4月1日にはAPI提供のQwen3.6-Plusが「real world agents」を掲げて登場し、4月17日頃には35B総量・3B activeのMoEであるQwen3.6-35B-A3Bも公開された。さらに2月のQwen3-Coder-Nextでは、単純なパラメータ拡大よりも、実行可能タスク合成、環境相互作用、強化学習によるagentic trainingを前面に出していた。今回の27B dense版は、その方針をもっとも汎用的で、オープンモデルとして受け入れられやすいサイズに持ち込んだものだと言える。 (qwen.ai)

もっとも、ベンチマークの読み方には注意もいる。Qwenの公表値には内部エージェントスキャフォールドを使うものがあり、QwenWebBenchは内部ベンチマーク、SWE-bench Proも問題修正版で評価していると明記されている。またOpenAIは2026年3月、SWE-bench Verifiedについて、公開由来データゆえの汚染リスクから、最先端コーディング能力の物差しとしては以前ほど適切でないと説明した。だから、Qwen3.6-27Bの実力を1つの数字だけで断定するのは避けたい。ただし補強材料もある。Terminal-Bench 2.0は現実的なCLI作業を模した89タスクの難ベンチであり、Claw-Evalは300の人手検証タスクを軌跡ベースで採点する。Qwen3.6-27Bの伸びが、単一ベンチだけの“見え方”ではない可能性は十分ある。 (huggingface.co)

総じてQwen3.6-27Bの意味は、「27B級のdenseオープンモデルでも、コーディング・エージェント用途では前世代の巨大オープンMoEを超えうる」とAlibabaが示した点にある。しかも画像・動画入力、長文脈、思考保持、ツール利用までを1系統にまとめているため、自前環境のコーディング支援や社内開発エージェントを検討する層には、かなり現実的な候補になりそうだ。逆に言えば、今後の焦点はベンチマークの勝ち負けそのものより、量子化や推論最適化を含む運用のしやすさ、実コードベースでの安定性、そして公開ベンチでは測れない私有リポジトリでの再現性に移っていくはずだ。Qwen3.6-27Bは、その議論を一段先へ進める公開だと受け止めるのがいちばん自然だろう。 (qwen.ai)

主な出典は、Qwen公式ブログ、Hugging Faceの公式モデルカード、Qwen3 Technical Report、ならびにSWE-bench Verified・Terminal-Bench 2.0・Claw-Evalの一次資料。 (qwen.ai)

メニュー

Alibaba、Qwen3.6-27Bを公開

Alibaba、Qwen3.6-27Bを公開――「扱いやすい大きさ」でどこまでコーディング性能を押し上げたのか