メニュー

戻る

Qwen3.5-Omni技術報告、Qwenのオムニ戦略を開示

Qwen3.5-Omni技術報告、Qwenのオムニ戦略を開示
アリスAI2026年04月20日(月) 15時04分57秒

Qwen3.5-Omni技術報告を読む――Qwenの「オムニ戦略」は何を公開したのか

Qwen3.5-Omniの重要さは、単に「また新しいマルチモーダルモデルが出た」という話ではない。Qwen公式の研究ページではこの系統の公開日は2026年3月29日、そして技術報告そのものは2026年4月17日にarXivへ投稿された。そこで示されたのは、音声・画像・動画・テキスト、さらに検索までをまたぐ“オムニ”を、Qwenがどういう設計思想で本体化しようとしているか、というかなり踏み込んだ中身である。Qwen3.5-OmniはQwen-Omni系の最新世代として位置づけられ、数百億〜数千億級の規模、256kコンテキスト、1億時間超の音声・映像データを用いた学習を特徴としている。 (qwen.ai)

この報告を理解するには、前史との連続性を見るのが早い。Qwen2.5-Omniでは、音声・映像を時間整合させるTMRoPEや、テキスト生成を担うThinkerと音声生成を担うTalkerを分けるThinker-Talker構成が打ち出された。続くQwen3-Omniでは、その設計をMoE化しつつ、音声・音声映像ベンチマーク36本でオープンモデルのSOTAを広く獲得し、さらに音声キャプション向け派生モデルまで公開した。Qwen3.5-Omniは、この系譜を引き継ぎながら、両コンポーネントをHybrid Attention Mixture-of-Expertsへ拡張し、長文脈・多言語・低遅延・音声自然性をまとめて押し上げた版だと読める。つまりQwenのオムニ戦略は、個別モダリティを“寄せ集める”のでなく、統一アーキテクチャの上で段階的に音声・映像・推論・生成を束ねてきた。 (arxiv.org)

技術的な核は二つある。第一に、ThinkerとTalkerの二層構成を維持したまま、両方をQwen3.5系の効率志向アーキテクチャへ載せ替えたことだ。QwenチームはQwen3.5系全体について、早期融合型のマルチモーダル基盤、Gated Delta Networksと疎なMoEを組み合わせた効率的ハイブリッド構造、そして広域な言語対応を中核強化点として説明している。Qwen3.5-Omni報告でHybrid-Attention MoEが強調されるのは、この家族的な設計を音声生成側のTalkerまで貫いたことを意味する。第二に、ARIAの導入である。報告では、テキスト側と音声側のトークン化効率の差がストリーミング音声の不自然さや不安定さを生むと見なし、ARIAで両者を動的に整列させることで、遅延を大きく増やさず会話音声の安定性とプロソディを改善したとしている。これは“音声を出せる”から一歩進み、“会話として自然に話せる”ことを重視した改良だ。 (github.com)

興味深いのは、Qwenが「オムニ」を推論モデルとツール利用の接点として扱っている点だ。技術報告にはAudio-Visual Vibe Codingという新しい能力の出現が記され、音声映像の指示から直接コーディングする可能性が示された。また、Alibaba Cloudの現行ドキュメントでは、Qwen3.5-Omni系列だけがWeb searchをサポートし、通常APIではagent戦略で検索を有効化できる。さらにRealtime版では、モデルが必要に応じて自律的に検索を行う設計になっている。一方で、公開API上の「thinking mode」はQwen3.5-Omni系列ではなくQwen3-Omni-Flash側にある。ここでいうThinkerはユーザー向けの“思考表示モード”ではなく、内部サブシステム名だと理解したほうが正確だ。この切り分けは、Qwenが“推論の見せ方”と“オムニ処理の中核”を別レイヤーで設計していることを示している。 (arxiv.org)

性能面では、Qwen3.5-Omni-plusが215の音声・音声映像の理解・推論・対話タスク/ベンチマークでSOTAを達成し、主要な音声課題ではGemini-3.1 Proを上回り、総合的な音声映像理解では同水準だと報告される。入力能力としては10時間超の音声理解と、720P動画を1FPSで400秒扱えるとされる。加えて、現行のModel Studio文書では、入力音声理解が113言語・方言、音声出力が36言語・方言、55音色に拡張されている。しかも単なる認識・応答だけでなく、時刻同期つきのスクリプトレベル字幕生成、シーン分割、長尺動画要約、歌詞字幕、方言理解までがユースケースとして前面に出ている。Qwenが音声を「ASRの付属物」ではなく、映像理解と並ぶ第一級モダリティとして扱い始めたことがここによく出ている。 (arxiv.org)

では、これがQwen全体の戦略にどうつながるのか。2026年のQwen3.5系は、オープンウェイトのQwen3.5本体を「Native Multimodal Agents」として打ち出しつつ、Qwen3.5-OmniをAPI主体の最新オムニ系として展開している。対照的に、2025年のQwen3-OmniはApache 2.0で重み公開まで踏み込んでいた。さらに2026年1月のQwen3-ASR報告は、Qwen3-Omniの強い音声理解能力を基盤としてASR系モデルを派生させたと明記している。つまりQwenのオムニ戦略は、単独の“万能モデル”競争だけではなく、オムニ基盤を中心にASR、TTS、リアルタイム対話、検索統合へと枝分かれさせるプラットフォーム戦略でもある。Qwen3.5-Omni技術報告が重要なのは、その中心にある設計思想――長文脈、低遅延音声、映像理解、検索接続、そしてコーディング支援までを一つの系で収める発想――を、かなり明示的に外へ出したからだ。 (qwen.ai)

今後の見どころは二つある。第一に、この系統が再び広くオープン化されるのか、それとも高性能版はAPI中心で進むのか。公式研究ページではQwen3.5-Omniは「Release」扱いで、4月1日更新のModel Studio一覧で確認できる公開エンドポイントは少なくともPlusとFlashだった。第二に、検索やリアルタイム対話を含む“オムニ+エージェント”が、どこまで安定した実用系へ落ちるかだ。Realtime版は現時点でプレビューだが、Qwenはすでに「見る・聞く・話す」に「調べる」を接続し始めている。Qwen3.5-Omni技術報告は、その意味で性能表以上に、次のマルチモーダル競争の設計図として読む価値がある。 (qwen.ai)

主な出典: Qwen3.5-Omni Technical Report、Qwen2.5-Omni Technical Report、Qwen3-Omni Technical Report、Qwen3-ASR Technical Report、Qwen公式Researchページ、Alibaba Cloud Model Studioドキュメント。 (arxiv.org)