AI基礎知識2026年5月更新

Qwen3.6-Max-Previewとは?Alibaba最強フラッグシップ・SWE-bench Pro 1位の全貌を徹底解説

公開日: 2026/04/27
更新日: 2026/05/10
Qwen3.6-Max-Previewとは?Alibaba最強フラッグシップ・SWE-bench Pro 1位の全貌を徹底解説

この記事のポイント

Alibabaが2026年4月20日に公開した最上位LLM「Qwen3.6-Max-Preview」を、SWE-bench Pro 1位の根拠・preserve_thinking・$1.30/$7.80の料金・Claude Opus 4.7やGPT-5.5との違いまで1ページで整理。Preview版を本番導入してよいかの判断基準も解説します。

Qwen3.6-Max-Previewは、Alibaba Cloud(Qwenチーム)が2026年4月20日に公開した、Qwen3.6シリーズ最上位のクローズドウェイト型フラッグシップLLMです。 約1兆規模と報じられるスパースMoE構成・約26万トークンの長大コンテキスト・OpenAI/Anthropic両互換APIを備え、SWE-bench ProやTerminal-Bench 2.0など6つのコーディング/エージェント系ベンチマークで首位を獲得した点が最大の特徴です。

Qwen3.6-Max-Preview の概念イメージ

この記事でわかること:

  • Qwen3.6-Max-Previewの定義と、Qwen3.6シリーズ内での「最上位フラッグシップ」としての立ち位置
  • 6つのベンチマーク1位の中身と、SWE-bench Pro/Verifiedの違いの正しい読み方
  • 入力 $1.30/出力 $7.80(参考値)と Claude Opus 4.7・GPT-5.5・Gemini 3.1 Pro の料金差
  • preserve_thinking を活用したエージェント実装の最小コード例
  • Preview版を本番採用してよいかの判断基準と、日本企業がデータ送信前に確認すべき項目

想定読者:

  • Claude Opus 4.7/GPT-5.5のAPIコストを下げたいエンジニア・テックリード
  • Qwen3.6-Plusでは精度が足りないと感じている、エージェント・自律ワークフロー構築チーム
  • 中国系API利用時のデータ取扱・社内承認フローを整理したい情シス・セキュリティ担当

Qwen3.6-Max-Previewとは|Alibabaがクローズドで出した「最強フラッグシップ」

Qwen3.6-Max-Previewは、Alibaba Cloudが2026年4月20日に公開した、Qwen史上初めて重みを非公開とした最上位プロプライエタリモデルです。 Qwen3.6-Plus(2026年3月30日リリース)の後継として、エージェント型コーディング・指示追従・世界知識に振り切ったプレビュー版という位置付けになります。

注目すべきは、Qwenシリーズで初めてフラッグシップがオープンウェイトでリリースされなかった点です。Qwen3.6-27B(2026/4/22)やQwen3.6-35B-A3B(2026/4/16)といった下位モデルは引き続きApache 2.0で公開されていますが、最上位機だけは「API販売モデル」へと軸足を移しています。

Qwen3.6 ファミリー早見表

シリーズ全体を「いつ・どれを使うか」の視点で整理すると次の通りです。

モデル

ティア

重み

特徴・ユースケース

Qwen3.6-Max-Preview(本記事)

最上位

非公開

約1兆規模スパースMoE、6ベンチ1位を主張する最強フラッグシップ。難所・最終承認向け

Qwen3.6-Plus

中位

非公開

1Mコンテキスト・SWE-bench 78.8%、エージェント中位機。日常運用の主力

Qwen3.6-35B-A3B

中規模OSS

公開(Apache 2.0)

MoE 35B/3B-active、SWE-bench 73.4%、ローカル運用可

Qwen3.6-27B

中規模OSS

公開(Apache 2.0)

dense構成、コーディング特化、社内オンプレ向け

Qwen3.5-Flash

軽量

一部公開

低レイテンシ・低単価、シンプル応答用

Max-Previewは、「Plusでは精度が頭打ちになる難所だけを担当させる」最上位レイヤーです。長期エージェント運用ではPlusと併用し、Max-Previewは「最後に通したい難所」用に絞ると、コスト・性能のバランスが取りやすくなります。

「Preview」が意味すること

公式ドキュメントには、価格・API仕様・モデル挙動が正式版で変更され得る旨が明記されています。実際、海外メディアの一部は「プレビュー期間中は無料」と報じる一方、OpenRouterなど主要再販プラットフォームには $1.30/$7.80(入出力/100万トークン)の値が掲示されており、料金面の確定情報と未確定情報が混在しています。

本記事では「2026年4月時点での参考値・Preview版で変動可能性あり」を前提に整理します。実運用前に必ず Alibaba Cloud Model Studio(Bailian)の最新ドキュメントを確認してください。

Qwen3.6-Max-Previewの主な機能・できること

結論として、Qwen3.6-Max-Previewの強みは「エージェント特化の preserve_thinking」「OpenAI/Anthropic両互換API」「262Kコンテキスト+構造化出力」の3点に集約されます。

1. preserve_thinking|ターンを跨いだ思考保持

Max-Previewで最も特徴的なのが、APIパラメータ preserve_thinking の搭載です。これはマルチターン会話で前ターンのChain-of-Thought(思考過程)を保持する機能で、長期エージェントタスクにおいてツール呼び出しのたびに推論をやり直す必要がなくなります。

たとえば「リポジトリを読み込み→失敗テストを特定→修正→再テスト→PR作成」のような10ターン超のループを回す場合、各ターンで推論コンテキストを再構築するコストとブレが大幅に減ります。エージェント特化を謳うフラッグシップとして、Anthropic Extended Thinking や DeepSeek Reasoner とは異なるアプローチで「推論の継続性」を担保している点が新しい設計です。

2. OpenAI仕様 + Anthropic仕様の両方に互換

Max-PreviewはOpenAI APIとAnthropic APIの両方の仕様に互換性を持つ形で提供されます。具体的には次の通りです。

  • Endpoint: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  • 環境変数: DASHSCOPE_API_KEY
  • モデル名: qwen3.6-max-preview

これにより、Claude Code・OpenClaw・Cline・OpenCode・Cursor 等の既存コーディングアシスタントから、エンドポイントとモデル名・APIキーを差し替えるだけで利用可能です。Anthropic互換が効くため、Claude Code のように環境変数 ANTHROPIC_BASE_URL を経由する設計のクライアントでもそのまま動きます。

3. 約262,144トークンのコンテキストウィンドウ

最大入力は約262K(約26万トークン)で、Qwen3.6-Plusの1Mトークンよりは短いものの、リポジトリ規模のコードや長文ドキュメントを一度に扱うには十分なサイズです。Plusと同等の規模をMax-Previewで扱う場合は、関連ファイルを絞って投入する設計が必要になります。

4. 構造化出力・Function Calling 対応

JSON Schemaに沿った構造化レスポンスや関数呼び出しが標準でサポートされます。エージェント実装でよく使う「ツール呼び出し→ JSON で結果受領→次のステップ」のパイプラインをそのまま組めます。

5. 強化された分野

公式発表によると、Qwen3.6-Plusと比較してとくに強化された分野は以下の3つです。

  • エージェント型コーディング(Agentic Coding) — マルチターン・ツール利用前提のコード生成
  • 世界知識(World Knowledge) — 一般知識・ドメイン知識の精度
  • 指示追従(Instruction Following) — 複雑な制約条件・出力フォーマット指定への忠実度

6. 現時点で対応していないもの

  • マルチモーダル非対応 — 画像・音声・動画の入力には対応せず、テキスト入出力のみ
  • オンプレミス展開不可 — 重み非公開のためローカル実行・自前ホストはできない

ベンチマーク詳細|6つの1位の正しい読み方

Qwen3.6-Max-Previewは公式発表時点で「6つの主要コーディング/エージェント系ベンチで1位」を主張していますが、SWE-bench Verified ではClaude Opus 4.7が優位という事実も併記して理解する必要があります。

Qwen3.6-Max-Preview ベンチマーク結果サマリー

公式が主張する6つの1位

ベンチマーク

内容

Plusからの改善幅

SWE-bench Pro

実世界のソフトウェアエンジニアリング(Verifiedより難化版)

1位獲得(+3〜5pt)

Terminal-Bench 2.0

ターミナル/CLI操作

+3.8pt

SkillsBench

多技能評価

+9.9pt

SciCode

科学技術計算コード生成

+10.8pt

QwenClawBench

自社ツール利用評価

1位

QwenWebBench

Webブラウザ操作

1位(Claude比 ELO 1558 vs 1182)

汎用ベンチマーク

  • SuperGPQA: +2.3pt(Plus比)
  • QwenChineseBench: +5.3pt
  • ToolcallFormatIFBench: +2.8pt(Claudeを上回る指示追従)
  • NL2Repo: +5.0pt
  • Artificial Analysis Intelligence Index v4.0: スコア52で全体2位

SWE-bench Pro と SWE-bench Verified の違い

ここが多くの読者が誤解しやすいポイントです。

  • SWE-bench Verified — 一般的に最もよく引用される「現実的に解けると検証されたタスク」ベンチ。Claude Opus 4.7が約87.6%で優位との集計が複数。
  • SWE-bench Pro — Verifiedより難易度が高い派生版。Qwen3.6-Max-Previewが1位を取ったのはこちらのPro版で、最上位フロンティア機同士でも差が出やすい設計です。

つまり「6ベンチで1位」という見出しは正確である一方、SWE-bench Verified(標準ベンチ)ではClaudeが先行しているという事実は変わりません。記事や社内資料で扱う際は、「ProとVerifiedは別物」という前提で書くのが安全です。

第三者検証では「ベンチ1位 ≠ 体感最強」

Towards AIなど一部の独立検証者は、20種類前後の実コーディングタスクでQwenがClaude Opus 4.7やGPT-5.4に負ける場面もあると報告しています。また、出力が「verbose(冗長)」になりがちで、本番運用では「簡潔に」「マークダウンを使わず」といった明示的な制約をプロンプトに入れる必要があるという指摘もあります。

ベンチマーク表の数字を真に受けず、自社の代表タスクで A/B 検証してから採用判断することが推奨されます。

Qwen3.6-Max-Previewの料金・プラン

Max-Previewの参考料金は、入力 $1.30/出力 $7.80(100万トークンあたり)です。Claude Opus 4.7と比べておおむね1/11、GPT-5.5と比べて約3〜4倍安い水準で、フラッグシップとしては破格の単価です。

主要プロバイダ別の料金

プロバイダ

入力(1Mトークン)

出力(1Mトークン)

備考

OpenRouter / 主要再販

$1.30

$7.80

2026年4月時点の参考値

Qwen Studio(chat.qwen.ai)

無料

無料

プレビュー期間中の体験用

Alibaba Cloud Model Studio (Bailian)

API課金

API課金

DashScope経由・国際リージョン

注意: 一部の海外メディアでは「プレビュー期間中は無料」「コマーシャル料金は近日公開」との記述もあり、価格は確定情報と未確定情報が混在しています。利用前に必ずAlibaba Cloud Model Studio(Bailian)公式の最新値を確認してください。

主要フラッグシップとの料金比較(2026年4月時点・参考値)

モデル

入力(1Mトークン)

出力(1Mトークン)

Max-Preview比

Qwen3.6-Max-Preview

$1.30

$7.80

基準

Claude Opus 4.7

$15

$75

約11倍

GPT-5.5

$5

$30

約3〜4倍

Gemini 3.1 Pro

$3.50

$10.50

約2〜3倍

つまり、「Claude Opus 4.7と同等の問題が解けるなら1/11のコストで済む」というのがMax-Previewの最大のセールスポイントです。一方で、前述のとおりSWE-bench Verifiedでは依然としてClaudeが優位な場面もあるため、「Plusで通す→難所だけMax-Preview→さらに最終承認だけClaude Opus 4.7」といった3段ハイブリッド運用も現実的な選択肢になります。

中国系AIの値上げ事例には要注意

同じ中国系AI(Z.ai/GLM)では、月$30→$70といった短期間での価格急上昇が報告されています。Max-PreviewもPreview段階の参考値であり、本番採用時の長期コスト見積もりには「単価上昇リスクのバッファ」を織り込んで計画するのが安全です。

使い方|APIアクセスから preserve_thinking まで

Max-PreviewはAnthropic互換/OpenAI互換の両方をサポートするため、既存のAIコーディングクライアントから「環境変数の差し替えのみ」で利用できます。

基本ステップ

  1. Alibaba Cloud Model Studio(Bailian)でDashScope APIキーを取得
  2. クライアントで以下3つを設定
    • APIベースURL: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    • APIキー: DASHSCOPE_API_KEY
    • モデル名: qwen3.6-max-preview
  3. 簡単なリクエストで疎通確認

例: OpenAI互換APIで呼び出す(Python)

from openai import OpenAI

client = OpenAI(
    api_key="<DASHSCOPE_API_KEY>",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3.6-max-preview",
    messages=[
        {"role": "system", "content": "You are a senior software engineer."},
        {"role": "user", "content": "List 3 ways to refactor a 1000-line Python module."},
    ],
)
print(response.choices[0].message.content)

例: preserve_thinking を有効化する

長期エージェントタスクで、ツール呼び出しを跨いで推論経路を保持したい場合は、リクエストに preserve_thinking: true を付加します(OpenAI互換のextra_bodyで送る形が標準)。

response = client.chat.completions.create(
    model="qwen3.6-max-preview",
    messages=[...],
    extra_body={
        "preserve_thinking": True,  # 前ターンのCoTを保持
    },
)

いつ使うべきか:

  • ツール呼び出しを伴う10ターン超のエージェントループ
  • マルチステップの試行錯誤を要するデバッグ・リファクタタスク
  • 1ターンで完結するシンプルなFAQ/要約用途では不要(オーバーヘッドのみ増える)

例: Claude Code から差し替える

Claude Code などAnthropic互換APIを期待するクライアントでは、環境変数を差し替えるだけで動作します(クライアントごとの細部はドキュメント参照)。

# Anthropic互換エンドポイントを指す環境変数の設定例
export ANTHROPIC_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
export ANTHROPIC_API_KEY="<DASHSCOPE_API_KEY>"
export ANTHROPIC_MODEL="qwen3.6-max-preview"
claude

OpenClaw・Cline・OpenCode 等も同様に、設定UIで「OpenAI互換」または「Anthropic互換」を選び、Base URLとモデル名を入力すればすぐに使えます。

他モデルとの違い・比較

「絶対精度最優先ならClaude Opus 4.7、コスパ重視ならMax-Preview、長大コンテキスト重視ならQwen3.6-Plus、ローカル運用ならQwen3.6-27B/35B-A3B」というのが基本的な選び分けです。

フラッグシップ4モデルの比較イメージ

主要フラッグシップ比較表(2026年4月時点)

比較ポイント

Qwen3.6-Max-Preview

Claude Opus 4.7

GPT-5.5

Gemini 3.1 Pro

SWE-bench Pro

1位(公式主張)

上位

上位

中位

SWE-bench Verified

中〜上位

約87.6%(首位級)

約78〜85%

同点クラス

コンテキスト

約262K

200K〜1M

約400K〜

1M〜

入力単価(参考)

$1.30/M

$15/M

$5/M

$3.50/M

出力単価(参考)

$7.80/M

$75/M

$30/M

$10.50/M

重み公開

API互換

OpenAI/Anthropic両対応

Anthropic

OpenAI

Google/一部互換

マルチモーダル

テキストのみ

テキスト/画像

テキスト/画像/音声

テキスト/画像/動画/音声

思考保持

preserve_thinking

Extended Thinking

reasoning_effort

thinking_budget

Qwen3.6-Max-Preview vs Qwen3.6-Plus(同シリーズ内)

同じ Qwen3.6 シリーズ内でも、明確な役割分担があります。

  • Max-Preview — 6つのコーディング/エージェントベンチで首位主張のフロンティア機。約1兆規模MoE、262Kコンテキスト。価格は単価ベースでPlusより約2.6倍/7倍(入力$1.30 vs $0.50、出力$7.80 vs $3.00)。
  • Plus — 1Mコンテキスト・SWE-bench Verified 78.8%・常時思考。日常運用の主力として、ほとんどのコーディングタスクをカバー。

「99%のタスクはPlusで通し、Plusで失敗したものだけMax-Previewにフォールバック」というルーティング設計が、コスト・精度の両面で現実的です。

Qwen3.6-Max-Preview vs Claude Opus 4.7

  • 絶対精度(SWE-bench Verified) — Opus 4.7が依然として優位。本番リポジトリの最終承認用途では Opus 4.7 を主役にすべき場面が残ります。
  • エージェント特化(SWE-bench Pro / Terminal-Bench 2.0) — Max-Previewが先行。長期ループや実環境ターミナル操作では Max-Preview が有利な可能性。
  • コスト — Max-Previewの単価は Opus 4.7 のおおむね1/11。コスパ面では大差で Max-Preview が優位。
  • データ取扱 — Opus 4.7 はAnthropic(米国)、Max-Preview は Alibaba Cloud(中国/インターナショナル)。機微データを扱う場合は規約の差分を要確認。

Qwen3.6-Max-Preview vs GPT-5.5

  • コスト — Max-Preview のほうが約3〜4倍安い。
  • マルチモーダル — GPT-5.5 が画像・音声に対応、Max-Preview はテキストのみ。
  • コーディング系ベンチ — Pro系では Max-Preview、Verified では GPT-5.5 が均衡〜やや先行。

メリット・デメリット

短くまとめると、メリットは「価格/コーディング系ベンチ/preserve_thinking/API互換性」、デメリットは「データ主権/マルチモーダル非対応/Preview版の不確実性/冗長な出力傾向」です。

メリット

  • フラッグシップ級の価格破壊 — 入力 $1.30/出力 $7.80 は、Claude Opus 4.7 の約1/11
  • SWE-bench Pro/Terminal-Bench 2.0 で首位 — エージェント・実環境タスク系で強い
  • preserve_thinking でターン間思考を保持 — 長期エージェントの一貫性に寄与
  • OpenAI/Anthropic両互換 — Claude Code・OpenClaw・Cline等から差し替えのみで利用可
  • 構造化出力・Function Calling 標準搭載 — エージェント実装に必要な要素が揃う
  • 指示追従が強化 — ToolcallFormatIFBenchでClaudeを上回る数値報告

デメリット・制約

  • 重み非公開でオンプレ展開不可 — Qwen史上初めてフラッグシップがクローズドウェイト化
  • マルチモーダル非対応 — 画像・音声・動画の入力には対応せず、テキスト入出力のみ
  • データ主権 — APIエンドポイントは Alibaba Cloud(中国/インターナショナル)。金融・医療・公共セクターでは送信先リージョンの確認が必須
  • Preview版の不確実性 — 価格・API仕様・モデル挙動が正式版で変更され得る旨が公式に明記
  • コンテキスト長は Plus より短い — 262K vs 1M。長大文書処理では Plus のほうが有利
  • 冗長な出力傾向 — 第三者検証で verbose と指摘あり、プロンプトでの簡潔化指示が必要
  • クリエイティブライティングは他モデルが優位な場合も — コーディング特化のため

こんな人・企業におすすめ

Max-Previewは、「Claude Opus 4.7のAPI請求書を1/10に圧縮しつつ、エージェントタスクで首位級の精度を出したい」開発チームに最も刺さる選択肢です。

おすすめできる人・企業

  • Claude Opus 4.7/GPT-5.5で月数百万円規模のAPIコストを払っているチーム — Max-Previewへの切替(または難所のみ Opus 維持)で大幅なコスト削減が見込める
  • 長期エージェント・自律ワークフローを構築中のチームpreserve_thinking のターン間思考保持はエージェント実装と相性が良い
  • Qwen3.6-Plus を試して「もう一段階の精度」を欲しているチーム — Plusで失敗するタスクの一部をMax-Previewが拾える可能性
  • OpenAI/Anthropic互換クライアントで運用しているチーム — Claude Code・OpenClaw・Cline 等から差し替えのみで利用可
  • コーディング系ベンチを重視する研究・PoC用途 — SWE-bench Pro 1位は研究上の強い差別点

おすすめしない人・企業

  • 金融・医療・公共セクターなどデータ主権が厳しい組織 — Alibaba Cloud 上のデータ取扱を許容できない場合は、別モデルまたはOSS版(27B/35B-A3B)の自前ホストを検討
  • 画像・音声・動画を扱うマルチモーダル用途 — Max-Preview はテキストのみ。Gemini 3.1 Pro/GPT-5.5/Qwen3.6-Plus のほうが適切
  • 本番運用の安定性を最優先する基幹システム — Preview版で仕様・料金が変動し得るため、まずはPoC/検証用途に留めるのが安全
  • モデルの完全オンプレ展開・独自ファインチューニングが必要な要件 — Max-Preview は API 提供のみ。OSS版(27B/35B-A3B)または別の重み公開モデルを選ぶべき
  • 長大コンテキスト(500K〜1M)が必須の用途 — Qwen3.6-Plus(1M)を選んだほうが要件に合う

日本企業が導入前に確認すべき注意点

結論として、「データ送信先リージョン」「Preview版の仕様変動リスク」「機密データの取扱規約」の3点をまず確認してください。

1. データ送信先リージョン

  • APIエンドポイントは Alibaba Cloud(中国/インターナショナル)dashscope-intl.aliyuncs.com への送信になる旨を社内で明文化する
  • 日本リージョンの正式サポート状況は要確認 — 本記事執筆時点では明確な公開情報が限定的。最新ドキュメントで確認のこと
  • DPA/契約書でデータ保管地域を明示確認 — 業法上のデータ移転制限がある領域(金融・医療・公共)では必須

2. 社内承認の標準フロー(推奨5項目)

中国系API利用時に、社内で確認しておきたいチェック項目を整理します。

  1. データ機密度の分類 — 投入予定データが社内規程上どのレベルか(公開/社内/機微/規制対象)
  2. データ送信先リージョン — 規約・契約書で明示確認、Alibaba Cloud International の対象リージョン特定
  3. 学習利用の有無 — プロンプト・応答がモデル学習に使用されないか規約確認(Preview版は要警戒)
  4. 法務・情シス・セキュリティ部門の三者レビュー — 業法・社内規程・ベンダーリスクの3視点で承認
  5. ログ・監査要件 — 利用ログの保存期間・出力先・監査対応の体制

3. Preview版を本番採用してよいかの判断基準

  • PoC/検証用途 — 問題なし。むしろコストメリットが大きい
  • 本番運用・SLA要件あり — Preview版である旨を踏まえ、フォールバック先(Plus/Claude/GPT等)を必ず用意
  • 長期コスト見積もり — 単価上昇リスクのバッファを織り込んで計画する(GLMの値上げ事例を参考に)
  • 正式版リリースを待つかの判断 — ミッションクリティカル用途では正式版を待つ選択肢も合理的

よくある質問(FAQ)

Q1. Qwen3.6-Max-PreviewはClaude Opus 4.7の代わりに使えますか?

用途次第です。 SWE-bench Pro/Terminal-Bench 2.0 などエージェント系ベンチでは Max-Preview が首位ですが、SWE-bench Verified(標準ベンチ)では Claude Opus 4.7 が優位という集計が複数存在します。本番リポジトリの最終承認用途では Opus を主役にしつつ、コスト圧縮と長期エージェント運用には Max-Preview を活用するハイブリッド運用が現実的です。

Q2. SWE-bench Pro と Verified はどう違いますか?

Verified は「現実的に解けると検証された標準ベンチ」、Pro は「より難易度の高い派生版」です。 Qwen3.6-Max-Preview が1位を取ったのはPro。Verified では依然として Claude Opus 4.7 が首位級です。記事や社内資料で扱う際は「ProとVerifiedは別物」という前提で書くのが安全です。

Q3. 商用利用は可能ですか?

Alibaba Cloud Model Studio(Bailian)/OpenRouter等のAPI提供は商用利用を想定しています。 ただし契約形態・リージョン・Preview版利用時の制約は提供元で異なります。利用前に各プロバイダの利用規約を必ず確認してください。

Q4. 重みは公開されていますか?

Max-Preview自体は非公開(API提供のみ)です。 同シリーズの Qwen3.6-27B(dense)と Qwen3.6-35B-A3B(MoE)は Apache 2.0 で重みが公開されており、ローカル実行が可能です。データ主権要件が厳しい場合はOSS版を検討してください。

Q5. 日本語は使えますか?

使えますが、英語と比べた相対的な品質低下を指摘する第三者観測があります。 Alibaba 公式の日本語ベンチマークは現時点で限定的なため、自社の代表タスクで事前検証することをおすすめします。

Q6. preserve_thinking は常にONにすべきですか?

長期エージェントタスクでは推奨、短い1ターン用途では不要です。 ターン間で思考を保持することは長期ループの一貫性向上に寄与しますが、シンプルなFAQや要約用途では推論オーバーヘッドだけが増えてしまいます。タスクの性質に応じて使い分けてください。

Q7. マルチモーダル(画像・音声)は使えますか?

Max-Preview はテキスト入出力のみで、画像・音声・動画には非対応です。 マルチモーダル用途では Qwen3.6-Plus/Gemini 3.1 Pro/GPT-5.5 など、モダリティ対応モデルを利用してください。

Q8. ファインチューニングはできますか?

Max-Preview自体のフルなファインチューニングはAPIでは提供されていません。 LoRA等の軽量適応の可否も、本記事執筆時点で公開情報が限定的です。完全なFTが必要な場合は、OSS版の27B/35B-A3Bを利用してください。

Q9. Qwen3.6-Plus との使い分けの目安は?

「99%はPlusで通し、Plusで失敗した難所だけMax-Preview」 が現時点の基本ルートです。Plusは1Mコンテキスト・常時思考・低単価で日常運用に最適、Max-Preview は約2.6〜7倍の単価でその先の精度を取りに行く位置付けです。

Q10. Preview版から正式版に切り替わる際、APIは互換性が保たれますか?

公式ドキュメントには「価格・API仕様・モデル挙動が正式版で変更され得る」旨が明記されています。 互換性は保証されていないため、本番採用時はフォールバック先(Plus/Claude/GPT等)と切替フローを用意しておくのが安全です。

まとめ|Qwen3.6-Max-Previewは「価格破壊型のフラッグシップ」

Qwen3.6-Max-Previewは、SWE-bench Pro/Terminal-Bench 2.0 など6つのコーディング・エージェント系ベンチで首位を主張しつつ、入力 $1.30/出力 $7.80 という Claude Opus 4.7 のおおむね1/11の単価で提供される、Alibabaの新たなフラッグシップです。preserve_thinking によるターン間思考保持・OpenAI/Anthropic 両互換 API・約262Kコンテキスト・構造化出力対応と、エージェント実装に必要な要素が揃っています。

一方で、Qwen史上初のクローズドウェイト化/マルチモーダル非対応/Preview版の仕様変動リスク/Alibaba Cloud上でのデータ取扱/冗長な出力傾向という制約も明確です。SWE-bench Verified(標準ベンチ)では依然 Claude Opus 4.7 が優位な点を踏まえると、「Plusで日常運用→難所はMax-Preview→最終承認はOpus」というハイブリッド運用を設計するのが、2026年4月現在の最適解と言えます。

関連記事

この記事の著者

AI革命

AI革命

編集部

AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。

AI活用ならAI革命にお任せ。サービスを見てみる
AI Revolution Growth Arrow

AIでビジネスを革新しませんか?

あなたのビジネスにAIがどのような価値をもたらすかをご提案いたします。