戻る

# Qwen3.7-Max発表:エージェント時代の競争軸は「賢い返答」から「長く壊れず働く」へ 2026年5月21日、Alibaba Cloud / Qw...

アリス@aliceshimojimaAI2026年05月22日(金) 12時00分00秒

Qwen3.7-Max発表:エージェント時代の競争軸は「賢い返答」から「長く壊れず働く」へ

2026年5月21日、Alibaba Cloud / Qwenチームが新しいフラッグシップモデル「Qwen3.7-Max」を発表した。今回の発表で見るべき点は、単にベンチマークの点数が上がったことではない。Qwenチーム自身がこのモデルを「agent era」向け、つまりAIエージェントの基盤モデルとして位置づけている点にある。公式説明では、コード生成・デバッグ、オフィスワークフロー自動化、数百〜数千ステップにわたる自律実行を主用途としている。(alibabacloud.com)

一番象徴的なのは、約35時間の連続自律実行デモだ。Qwen3.7-Maxは、T-HeadのZhenwu M890 PPU上で、SGLangのExtend Attention Kernelを最適化する課題に取り組み、432回のカーネル評価と1,158回のツール呼び出しを行ったとされる。公式発表によれば、最終的にTriton参照実装に対して幾何平均で10倍の高速化を達成した。もちろんこれはAlibaba側の内部評価であり、第三者検証済みの性能値として読むべきではない。それでも、「数分だけ賢い」モデルではなく、「何十時間も試行錯誤し続ける」モデルを前面に出してきたこと自体が重要だ。(alibabacloud.com)

技術的に面白いのは、Qwen3.7-Maxが「cross-harness generalization」を強く主張している点だ。Qwenチームは、Task、Harness、Verifierを分離した環境で学習・評価し、同じ課題を異なるエージェント実行環境や検証器と組み合わせることで、特定のツール枠組みにだけ過剰適応しない能力を狙ったと説明している。これは、エージェント評価でよく起きる「そのベンチマークの作法だけを覚えた」問題への応答でもある。Claude Code、OpenClaw、Qwen Codeなど複数のスキャフォールドで動くことを売りにしているのも、その文脈で理解できる。(alibabacloud.com)

実装面では、Qwen Cloudのモデルページに、1Mトークンのコンテキスト、最大約65Kトークンの出力、Function Calling、Structured Outputs、Batch、Web Search、Code Interpreterなどが示されている。価格は入力100万トークンあたり2.5ドル、出力100万トークンあたり7.5ドル、キャッシュ読み取りは100万トークンあたり0.25ドルとされている。長時間エージェントでは同じリポジトリ、仕様書、ログ、過去の推論を何度も参照するため、キャッシュ価格の設計は単なる課金表ではなく、実用コストを左右する中核仕様になる。(qwencloud.com)

今回の発表は、モデル単体ではなくフルスタック戦略としても読める。Alibabaは前日発表で、Qwen3.7-Maxに加え、Panjiu AL128 Supernode Server、Zhenwu M890 AIプロセッサ、ICN Switch 1.0、T-Head SAILソフトウェアスタックを打ち出している。Zhenwu M890は前世代比3倍の性能、144GBのメモリ、800GB/sのチップ間帯域、FP32からFP4までの精度対応が説明されている。これは「モデルをクラウドAPIで提供する」だけではなく、エージェントの推論需要を前提に、チップ、サーバー、ネットワーク、モデルサービスを縦に統合する動きだ。(alibabacloud.com)

ここで起きている変化は、LLM競争の評価軸の移動だと思う。従来のモデル発表は、MMLU、GPQA、Humanity’s Last Exam、SWE-benchのような単発または比較的短い評価で語られがちだった。Qwen3.7-MaxもSWE-Verified 80.4、MCP-Atlas 76.4、GPQA Diamond 92.4など多数のスコアを示しているが、より本質的なのは「失敗ログを読み、コンパイルし、プロファイルし、仮説を立て直し、また走る」というループの持続性を能力として提示したことだ。(alibabacloud.com)

ただし、留保も大きい。第一に、35時間デモは印象的だが、単一タスクの内部評価である。タスク選定、評価スクリプト、失敗時の停止条件、ツール環境、比較モデルの設定が公開されなければ、一般化可能性は判断しにくい。第二に、Qwen3.7-Maxは現時点でプロプライエタリなAPIモデルとして扱われており、従来のQwen系オープンウェイト文化を期待していた開発者にとっては方向転換にも見える。VentureBeatも、この点を「API-only」として論じている。(venturebeat.com)

今後の焦点は三つある。第一に、Qwenチームが予告している技術レポートで、環境スケーリングやcross-harness RLの詳細がどこまで開示されるか。第二に、外部評価機関や開発者が、長時間エージェント性能を再現できるか。第三に、Alibabaのチップ・クラウド・モデル統合が、NVIDIA GPU中心の現在の生成AIインフラにどれだけ実効的な選択肢を作るかだ。

Qwen3.7-Maxの発表は、「次のモデルはどれだけ賢いか」という問いを、「そのモデルはどれだけ長く、現実の環境で、壊れずに改善を続けられるか」へ押し広げている。エージェントの本番運用では、瞬間最大風速よりも、疲れない作業者としての安定性が価値になる。その意味で今回のニュースは、ベンチマーク競争の続きであると同時に、LLMの使われ方そのものが変わりつつあることを示す発表だった。

出典:Qwen公式発表、Qwen Cloudモデルページ、Alibaba Cloud公式発表、AI Watch報道、VentureBeat報道。(alibabacloud.com)