DiffusionGemmaとは?Google拡散型テキスト生成AI・H100毎秒1000トークン超・Gemma 4との違いを徹底解説【2026年6月】

この記事のポイント
DiffusionGemmaはGoogle DeepMindが2026年6月公開の拡散型テキスト生成AI。H100で毎秒1000トークン超・最大4倍速を実現するが「どの環境で速いか」「Gemma 4との品質差は何か」まで、実務判断に必要な情報を整理します。
DiffusionGemmaは、Google DeepMindが2026年6月10〜11日に公開した拡散型テキスト生成AI(Diffusion LLM)のオープンウェイトモデルです。従来の自己回帰型LLMが1トークンずつ順番に生成するのに対し、256トークンを並列・反復生成することでH100上で毎秒1,000トークン超・最大4倍速を実現しています。
ただし「4倍速」はH100・RTX 5090などのハイエンドGPUをシングルユーザーで専有した場合に限った話です。Apple SiliconやクラウドのマルチユーザーAPIでは速度優位性はほぼありません。本記事では、どの環境で速いのか・Gemma 4との品質差・実際の用途への向き不向きまでを、公式情報をベースに整理します。
この記事でわかること:
- DiffusionGemmaの仕組みと自己回帰型との根本的な違い
- GPU別速度ベンチマーク(H100 / RTX 5090 / DGX Station等)
- 「速い環境」「速度優位が薄い環境」の具体的な整理
- Gemma 4との品質ベンチマーク比較(MMLU Pro / AIME 2026等)
- ライセンス・動作要件・使い方(Hugging Face / vLLM / Unsloth GGUF)
- こんな人におすすめ / 向いていない人
対象読者: ローカルLLMの推論速度改善を検討している開発者・研究者、Gemma系モデルのユーザー、拡散型LLMに初めて触れる方
DiffusionGemmaとは
DiffusionGemmaは、Google DeepMindが生成AIの次世代アーキテクチャとして研究してきたテキスト拡散(Text Diffusion)を、初めて本格的なオープンウェイトモデルとして一般公開したものです。内部ではGemini Diffusionと呼ばれる研究の知見をベースにしており、Gemma 4のアーキテクチャと組み合わせて設計されています。

出典: Google AI for Developers 公式
基本情報(2026年6月10〜11日公開時点)
項目 | 内容 |
|---|---|
開発元 | Google DeepMind |
公開日 | 2026年6月10〜11日 |
ベース | Gemma 4アーキテクチャ + Gemini Diffusion研究 |
提供形態 | オープンウェイト(Hugging Face / Kaggle / Vertex AI / NVIDIA NIM) |
モデルID(Hugging Face) |
|
ライセンス | Apache 2.0(商用利用・改変・再配布すべて可) |
位置づけ | 「実験的モデル(experimental model)」 — 速度重視のローカル推論・研究向け |
「experimental model」はGoogle公式の表記です。 Google自身が本番プロダクション品質向けではないと明記しており、品質よりも速度・研究目的を優先した公開という位置づけです。この点は導入判断で最も重要なファクトです。
自己回帰型LLMとの根本的な違い
DiffusionGemmaを理解するうえで最重要なのが、生成方式の根本的な違いです。
比較項目 | 従来の自己回帰型LLM(Gemma 4等) | DiffusionGemma |
|---|---|---|
生成方式 | 1トークンずつ左→右に逐次生成 | 256トークンを並列・反復生成(拡散) |
アテンション | 因果的(単方向) | 双方向(全トークンを同時評価) |
初期状態 | 開始トークンから順次生成 | ランダムトークン256個を「キャンバス」として開始 |
GPUの使い方 | メモリ帯域幅律速(計算が余りがち) | 計算能力律速(並列計算を最大活用) |
向いているタスク | 逐次的な文章生成全般 | コード補完・インライン編集・非線形タスク |
ストリーミング表示 | 対応(1トークンずつ流れる) | 非対応(256トークン単位で一括出力) |
技術的なメカニズム(3つの核心)
① Uniform State Diffusion(ノイズ導入と除去)
元テキストをランダムトークンで置き換えてノイズを導入し、モデルがキャンバス全体を分析してノイズを段階的に除去(デノイジング)していきます。画像生成AIにおける「ランダムノイズから徐々にクリアな画像を作る」プロセスと原理は同じです。
② Block Autoregressive Denoising(ブロック自己回帰)
256トークン単位の「キャンバス」を複数連鎖させることで、最大256Kトークンという長文生成にも対応しています。
③ Self-Conditioning(自己修正)
デコーダが前ステップの確率分布を保持し、次ステップの生成に反映する自己修正機能。生成品質を反復的に改善します。
なぜ速いのか: 自己回帰型LLMは1トークン生成するたびにメモリから重みを読み出すため「メモリ帯域幅の壁」にぶつかります。DiffusionGemmaは256トークンを同時処理するため、H100のような高性能GPU(計算能力が高い)では並列処理能力をフル活用できます。
できること・主な機能
- 超高速ローカルテキスト生成 — H100で毎秒1,000トークン超
- コード補完・コードインフィリング — 双方向アテンションで前後のコード文脈を同時参照。自己回帰型より構造的に有利
- インライン編集 — 既存テキストの中間部への挿入・補完(従来型LLMが苦手な非線形タスク)
- マルチモーダル入力 — テキスト・画像(可変アスペクト比・解像度対応)・ビデオを入力として処理(出力はテキストのみ)
- 256Kトークンの長文コンテキスト — 長文書類・長大なコードベースへの対応
- ファインチューニング — Hackable Diffusion(JAX)/ Unsloth / NVIDIA NeMo対応
- 思考モード(Thinking Mode) — 設定可能な推論チャネルによるステップバイステップ推論
ファインチューニングの実力例: 数独(Sudoku)タスクでは、ベースモデルのスコアは0%でしたが、教師あり微調整後に80%まで改善した実績があります。特定タスクへの適応力の高さを示す事例として、公式ドキュメントで紹介されています。
GPU別速度ベンチマーク
以下は公式ブログ・NVIDIAブログに基づく速度実績です(2026年6月時点・シングルユーザー専用環境での値)。

出典: NVIDIA Blog 公式
ハードウェア | 速度(トークン/秒) | 環境・備考 |
|---|---|---|
DGX Station | 2,000+ | 最高性能構成(A100×8等) |
H100(シングル GPU) | 1,000+ | 公式ブログ掲載値 |
RTX 5090 | 700+ | NVIDIA公式ブログ掲載値 |
DGX Spark | 150 | NVIDIA公式ブログ掲載値 |
自己回帰型比(参考) | 最大4倍速 | シングルユーザー専有GPU環境での比較 |
注意: 上記数値はすべてシングルユーザー・専用GPU環境での計測値です。マルチユーザー・バッチ処理環境では異なります。RTX 4090の具体数値は公式から確認できていません。RTX 5090と同等クラスと考えられますが、断定できるデータは現時点で未確認です。
「速い環境」と「速度優位が薄い環境」を正しく理解する
これが他記事に最も不足している実務情報です。「4倍速」という数字だけで判断すると、実際の利用環境で期待外れになる可能性があります。
DiffusionGemmaが「速い」環境
条件 | 理由 |
|---|---|
H100 / A100 / RTX 5090などハイエンドGPU | 計算能力律速の並列処理を最大活用できる |
シングルユーザー / 占有GPU環境 | 256トークン並列生成の恩恵を独占できる |
コード補完・インライン編集専用ツール | 双方向アテンション × 高速生成の相乗効果 |
ローカル推論プロトタイプ開発 | 量子化版(GGUF)を使えば18GB VRAMで動作可 |
DiffusionGemmaで「速度優位がない or 薄い」環境
条件 | 理由 |
|---|---|
Apple Silicon(M1 / M2 / M3 / M4 Mac) | Unified Memoryアーキテクチャはメモリ帯域幅律速のため、並列計算のメリットを活かせない。自己回帰型と同程度の速度になる |
クラウドAPIのマルチユーザー環境(バッチ32以上) | バッチ処理ではKVキャッシュを再利用できる自己回帰型が有利。コスト効率でむしろ逆転する可能性あり |
RTX 3060 / 4060 / ノートPC GPU | 計算律速の恩恵が小さく、速度優位性が薄れる |
クラウドAPI経由の商用API提供 | スループット優先設計の自己回帰型サービスと比較すると非効率になる場合がある |
まとめ: DiffusionGemmaの「最大4倍速」は、ハイエンドGPUを専有できる研究者・開発者がローカル推論を行う場合に限った話です。MacユーザーやクラウドAPIユーザーは現時点で速度メリットをほとんど体感できません。
Gemma 4との比較:速度 vs 品質のトレードオフ

出典: Google公式ブログ
DiffusionGemmaのベースとなったGemma 4との比較は、導入判断で最も重要な軸です。Google公式モデルカードに掲載されたベンチマーク数値で整理します。
ベンチマーク | DiffusionGemma | Gemma 4(同等サイズ) | 差 |
|---|---|---|---|
MMLU Pro(汎用知識) | 77.6% | 82.6% | −5.0pt |
AIME 2026(数学推論) | 69.1% | 88.3% | −19.2pt |
GPQA Diamond(科学推論) | 73.2% | 82.3% | −9.1pt |
LiveCodeBench v6(コーディング) | 69.1% | 77.1% | −8.0pt |
BigBench Extra Hard(複雑推論) | 47.6% | 64.8% | −17.2pt |
生成速度(H100・専有) | 1,000+トークン/秒 | 〜250トークン/秒(参考) | 最大4倍速 |
比較の注: ベンチマーク数値はGemma 4の26B A4Bサイズ(DiffusionGemmaと同等サイズ)との比較です。他サイズのGemma 4との比較データは現時点で未公開です。
判断のポイント:
- 数学推論(AIME 2026)と複雑推論(BigBench Extra Hard)での品質差が特に大きい(−17〜19pt)
- 汎用知識(MMLU Pro)では差が相対的に小さい(−5pt)
- 「とにかく速くテキストを生成したい」用途ではDiffusionGemmaが有利
- 「複雑な推論・数学・本番品質のコーディング」を優先するならGemma 4や他の高品質モデルが適切
競合拡散LLMとの比較

DiffusionGemmaは、業界初の大手研究ラボによるオープンウェイト拡散LLMとして注目されています。拡散型テキスト生成という新領域には、他にも競合モデルが存在します。
モデル | 開発元 | 公開形態 | 特徴 |
|---|---|---|---|
DiffusionGemma | Google DeepMind | オープンウェイト(Apache 2.0) | 業界初の大手ラボ製オープン拡散LLM。25.2B(MoEアクティブ3.8B) |
Mercury 2 | Inception Labs | クローズド(商用APIのみ) | 2026年2月リリース。「5倍速」を主張。配布なし |
Gemini Diffusion | 非公開(限定テスト中) | DiffusionGemmaの研究基盤。本番品質向けと思われるが詳細非公開 | |
LLaDA | 学術機関 | オープン(研究用) | 8Bスケール、拡散LLMの学術的実証モデル |
MDLM / SEDD | 学術機関 | オープン(研究用) | 拡散テキスト生成の理論基盤を確立したモデル群 |
DiffusionGemmaの最大の差別化は「Apache 2.0でフルモデルを自由に使える」点です。Mercury 2はAPIのみで手元にモデルを持てませんが、DiffusionGemmaはダウンロードして自前インフラで動かせます。
モデルスペック詳細
項目 | 値 |
|---|---|
総パラメータ数 | 25.2B(表示上26B) |
推論時活性化パラメータ | 3.8B(MoE設計のため実効的に軽量) |
アーキテクチャ | Mixture of Experts(MoE) |
専門家(Expert)構成 | アクティブ8 / 合計128 + 共有1 |
層数 | 30層 |
コンテキスト長 | 最大256Kトークン |
1ステップあたりのキャンバス長 | 256トークン |
語彙サイズ | 262K |
入力モダリティ | テキスト・画像(可変解像度・アスペクト比対応)・ビデオ |
出力モダリティ | テキストのみ |
音声入力 | 非対応(公式ドキュメントに「audio is not supported」と明記) |
対応言語 | 140言語以上 |
訓練データの鮮度 | 2025年1月まで |
MoEのポイント: 25.2Bパラメータのうち推論時に使うのは3.8B分だけ。これにより、見かけのパラメータ数よりも軽量な推論が可能です。ただし、全専門家モデルをメモリにロードするには大きなVRAMが必要になります。
推奨推論設定(公式ドキュメント):
- 最大デノイジングステップ: 48ステップ
- 温度スケジュール: 0.8 → 0.4(線形)
- 適応的早期停止: エントロピー閾値 0.005
料金・ライセンス・動作要件
料金
DiffusionGemmaは完全無料のオープンウェイトモデルです。モデル自体に利用料はかかりません。
利用形態 | コスト |
|---|---|
Hugging Face / Kaggleから直接ダウンロード | 無料 |
自前GPU環境での推論 | インフラ費用のみ(GPU電力・クラウドサーバー代等) |
NVIDIA NIM API(build.nvidia.com) | NVIDIAのAPI料金が別途発生(無料試用枠あり) |
Google Vertex AI Model Garden | GCPのAPI料金が別途発生 |
ライセンス(Apache 2.0)
- 商用利用: 可
- 改変・再配布: 可(ライセンス表記が必要)
- ファインチューニング後の再配布: 可
- 制限: CSAM(児童虐待素材)等の有害用途は利用規約で禁止
動作要件
要件 | 内容 |
|---|---|
公式推奨GPU | 60GB以上のGPUメモリ(H100・A100 80GB等) |
量子化版(GGUF)での最小目安 | 18GB VRAM(RTX 3090・4090等) |
⚠️ 注意 | 一般的な16GB VRAMのGPUでは動作しない可能性あり |
Apple Silicon(MLX) | 動作は可能。速度優位性はなし |
「60GBと18GB」の矛盾について: 公式HFドキュメントには「60GB以上のGPU推奨」とありますが、Unsloth等のGGUF量子化版を使えば18GB VRAMでも動作します。フルモデルの高品質推論には60GB+が必要で、量子化版なら18GBというのが現時点の整理です。
使い方:主な3つの方法
方法①:Hugging Face Transformers(標準)
from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor
MODEL_ID = "google/diffusiongemma-26B-A4B-it"
# 60GB以上のGPUを推奨(量子化なしの場合)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto"
)
processor = AutoProcessor.from_pretrained(MODEL_ID)専用クラス DiffusionGemmaForBlockDiffusion が必要です。通常のGemma用クラスでは動作しません。
方法②:vLLM / SGLang(OpenAI互換APIサーバー)
vLLMまたはSGLang経由でOpenAI互換のローカルAPIサーバーを立ち上げられます。既存のOpenAI API対応ツールをそのまま流用したい場合に有効です。
方法③:Unsloth GGUF版(18GB VRAM環境向け)
# Hugging FaceからGGUF版を取得
unsloth/diffusiongemma-26B-A4B-it-GGUFUnslothチームが公式モデルの量子化版を即座に公開しています。RTX 3090・4090など18GB VRAMのGPUで試したい場合の現実的な選択肢です(量子化による品質低下が加わります)。
Blackwell GPU向け最適化版(NVFP4)
NVIDIA Blackwell GPU(RTX 50シリーズ等)向けには、NVFP4量子化版も提供されています。nvidia/diffusiongemma-26B-A4B-it-NVFP4(NVIDIA NIM経由で利用可)
ファインチューニング
ツール | 用途 |
|---|---|
Hackable Diffusion(JAX) | Googleが公式トレーニングレシピを提供。研究・実験向け |
Unsloth | 効率的なファインチューニング。GGUF量子化版も対応 |
NVIDIA NeMo | エンタープライズ向けファインチューニング |
できないこと・制約・安全性
技術的な制約
① ストリーミング出力ができない
実用上で最も影響が大きい制約です。256トークン単位で一括出力するため、ChatGPTのような「リアルタイムで文字が流れてくる」表示ができません。チャットUIや対話型ツールへの組み込みには工夫が必要です。
② Apple Siliconでは速度優位性がない
Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。
③ 音声入力に非対応
公式ドキュメントに「audio is not supported」と明記されています。
④「実験的モデル」ステータス
Google公式が本番プロダクション用途を推奨していません。重要なビジネス用途への単独利用は避け、品質の高い自己回帰型モデルとの併用を検討してください。
⑤ 品質がGemma 4より低い(公式明記)
特に数学推論(AIME 2026で−19.2pt)と複雑推論系タスク(BigBench Extra Hard で−17.2pt)での品質差が出ます。
⑥ クラウド多ユーザー環境での速度優位なし
バッチサイズ32以上ではKVキャッシュを再利用できる自己回帰型が有利になります。
安全性(公式モデルカード記載)
- 学習データのバイアス: 訓練データの偏りが出力に反映される可能性あり
- 微妙なニュアンスや皮肉の理解: 苦手なケースがある
- 事実的精度の保証なし: 生成内容のファクトチェックが必要
- CSAM対策済み: 児童虐待素材フィルタリングを実装済み
- 個人情報の自動削除処理済み: 訓練データから処理済み
- 訓練データの鮮度: 2025年1月まで(それ以降の最新情報への対応は限定的)
こんな人におすすめ / 向いていない人

DiffusionGemmaが向いている人・ケース
ケース | 理由 |
|---|---|
H100 / RTX 5090などハイエンドGPUを持つ研究者・開発者 | 速度優位を最大限活用できる環境 |
ローカルでの高速プロトタイピングが目的 | 量子化版(18GB VRAM)で動作可。反復試行のコスト低下 |
コード補完・インライン編集ツールを開発したい | 双方向アテンション × 高速生成の相乗効果。コードの前後文脈を双方向参照できる強み |
拡散LLMの研究・ファインチューニングをしたい | Apache 2.0で改変自由。公式レシピ(Hackable Diffusion)あり |
Mercury 2(クローズド)の代替オープンモデルを探している | 現時点でほぼ唯一の実用規模オープン拡散LLM |
特定タスクへの大幅なカスタマイズが必要 | 数独タスクの実証例(0%→80%)のようにファインチューニングで大きく改善できる可能性 |
DiffusionGemmaが向いていない人・ケース
ケース | 理由 |
|---|---|
Apple Mac(M1〜M4)ユーザー | Unified Memoryは速度優位を活かせない。同等サイズのGemma 4 MLX版が現実的 |
クラウドAPIでマルチユーザー向けサービスを構築したい | バッチ処理では自己回帰型が有利。コスト増になる可能性がある |
高精度な数学推論・複雑な推論が必要 | Gemma 4比で最大19pt品質差。本番用途には現時点で推奨しない |
チャットUIや会話形式のアプリを作りたい | ストリーミング出力非対応のため、リアルタイム表示の実装に工夫が必要 |
一般的な16GB VRAMのGPUしかない | フルモデルは60GB+推奨。量子化版でも18GBのVRAMが目安 |
本番環境での安定稼働が最優先 | Google自身が「実験的モデル」と明記しており、本番利用を推奨していない |
よくある質問(FAQ)
Q: DiffusionGemmaは無料で使えますか?
A: はい、完全無料のオープンウェイトモデルです(Apache 2.0ライセンス)。Hugging FaceやKaggleからダウンロードでき、商用利用・改変も可能です。NVIDIA NIMやVertex AI経由で使う場合はクラウド側のAPI料金が別途発生します。
Q: MacBook(Apple Silicon)でも使えますか?
A: 動作は可能ですが、速度優位性はほぼありません。Apple Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、DiffusionGemmaの並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。
Q: RTX 4090で動きますか?
A: GGUF量子化版(Unsloth提供)を使えば18GB VRAMで動作するため、RTX 4090(24GB VRAM)なら動作できます。ただし、フルモデルには60GB以上のVRAMが公式推奨されています。
Q: ChatGPTやGeminiのAPIの代替になりますか?
A: 現時点では難しいです。「実験的モデル」のため品質面でGemma 4を下回ること、ストリーミング非対応、本番推奨外であることから、商用APIの代替にはなりません。高速ローカル推論・研究用途が主な適用範囲です。
Q: Gemma 4とどちらを選べばいいですか?
A: 品質重視・本番品質ならGemma 4、速度重視でハイエンドGPU環境がありローカル推論が目的ならDiffusionGemmaという棲み分けです。Gemma 4の詳細はこちらを参照してください。
Q: 拡散型LLMは将来どうなりますか?
A: DiffusionGemmaは「実験的モデル」ですが、Google内部ではGemini Diffusion(より高性能な非公開モデル)の研究も進んでいます。Mercury 2など競合を含め、拡散型LLMは2026〜2027年にかけて実用化が進む分野として注目されています。
Q: ファインチューニングで実用品質に改善できますか?
A: 特定の限定タスクであれば大幅な改善が可能です。数独タスクでは0%→80%という実績があります。ただし汎用品質での改善については、現時点でのデータが限られています。
まとめ
DiffusionGemmaは、Google DeepMindが拡散型テキスト生成AIの可能性をオープンな形で示した実験的モデルです。ハイエンドGPU環境でのローカル推論速度という点で革新的ですが、用途・環境によって評価が大きく変わります。
- 速度優位はハイエンドGPU専有環境限定 — H100で1,000トークン/秒超。Apple SiliconやクラウドAPIでは優位なし
- 品質はGemma 4より低い(公式明記) — 特に数学・複雑推論系で最大19pt差。本番用途は非推奨
- Apache 2.0でフル商用利用可 — Mercury 2(クローズド)と対照的な完全オープン設計
- 量子化版なら18GB VRAMで動作 — RTX 3090/4090クラスで試せるが、フルモデルは60GB+推奨
- コード補完・インライン編集に構造的優位 — 双方向アテンションの恩恵が出るタスク向け
- ストリーミング非対応はUX上の重要制約 — チャットUIへの組み込みには工夫が必要
生成AI全体の動向を把握したい場合は生成AIとはも参照してください。GoogleのAI推論最適化技術についてはTurboQuantとはも関連情報として役立ちます。現在公開されている生成AIツールおすすめ比較も合わせてご確認ください。
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

Cursor 3.1とは?Agents Windowのタイル化と音声入力強化を最新アップデートで徹底解説
2026/04/19

Prometheusとは?ベゾスが2.7兆円調達した「物理AI」とAGE(人工汎用エンジニア)を徹底解説【2026年6月速報】
2026/06/12

Windsurfとは?【2026年6月最新】Devin Desktopへリブランド・機能・料金・Cursorとの違いを解説
2026/03/30

Docker Gordonとは?機能・料金・セキュリティ・使い方を完全ガイド【2026年5月正式リリース】
2026/06/11

AI革命とは?意味・背景・企業に起きる変化をわかりやすく解説【2026年版】
2026/04/12

Claude Fable 5 企業導入の落とし穴:30日データ保持・ZDR無効化・Microsoft社内利用禁止の真相【2026年6月速報】
2026/06/11

