DiffusionGemmaとは？Google拡散型テキスト生成AI・H100毎秒1000トークン超・Gemma 4との違いを徹底解説【2026年6月】

DiffusionGemmaは、Google DeepMindが2026年6月10〜11日に公開した拡散型テキスト生成AI（Diffusion LLM）のオープンウェイトモデルです。従来の自己回帰型LLMが1トークンずつ順番に生成するのに対し、256トークンを並列・反復生成することでH100上で毎秒1,000トークン超・最大4倍速を実現しています。

ただし「4倍速」はH100・RTX 5090などのハイエンドGPUをシングルユーザーで専有した場合に限った話です。Apple SiliconやクラウドのマルチユーザーAPIでは速度優位性はほぼありません。本記事では、どの環境で速いのか・Gemma 4との品質差・実際の用途への向き不向きまでを、公式情報をベースに整理します。

この記事でわかること:

DiffusionGemmaの仕組みと自己回帰型との根本的な違い
GPU別速度ベンチマーク（H100 / RTX 5090 / DGX Station等）
「速い環境」「速度優位が薄い環境」の具体的な整理
Gemma 4との品質ベンチマーク比較（MMLU Pro / AIME 2026等）
ライセンス・動作要件・使い方（Hugging Face / vLLM / Unsloth GGUF）
こんな人におすすめ / 向いていない人

対象読者: ローカルLLMの推論速度改善を検討している開発者・研究者、Gemma系モデルのユーザー、拡散型LLMに初めて触れる方

DiffusionGemmaとは

DiffusionGemmaは、Google DeepMindが生成AIの次世代アーキテクチャとして研究してきたテキスト拡散（Text Diffusion）を、初めて本格的なオープンウェイトモデルとして一般公開したものです。内部ではGemini Diffusionと呼ばれる研究の知見をベースにしており、Gemma 4のアーキテクチャと組み合わせて設計されています。

DiffusionGemma 公式バナー（Google AI for Developers）

出典: Google AI for Developers 公式

基本情報（2026年6月10〜11日公開時点）

項目	内容
開発元	Google DeepMind
公開日	2026年6月10〜11日
ベース	Gemma 4アーキテクチャ + Gemini Diffusion研究
提供形態	オープンウェイト（Hugging Face / Kaggle / Vertex AI / NVIDIA NIM）
モデルID（Hugging Face）	`google/diffusiongemma-26B-A4B-it`
ライセンス	Apache 2.0（商用利用・改変・再配布すべて可）
位置づけ	「実験的モデル（experimental model）」 — 速度重視のローカル推論・研究向け

「experimental model」はGoogle公式の表記です。 Google自身が本番プロダクション品質向けではないと明記しており、品質よりも速度・研究目的を優先した公開という位置づけです。この点は導入判断で最も重要なファクトです。

自己回帰型LLMとの根本的な違い

DiffusionGemmaを理解するうえで最重要なのが、生成方式の根本的な違いです。

比較項目	従来の自己回帰型LLM（Gemma 4等）	DiffusionGemma
生成方式	1トークンずつ左→右に逐次生成	256トークンを並列・反復生成（拡散）
アテンション	因果的（単方向）	双方向（全トークンを同時評価）
初期状態	開始トークンから順次生成	ランダムトークン256個を「キャンバス」として開始
GPUの使い方	メモリ帯域幅律速（計算が余りがち）	計算能力律速（並列計算を最大活用）
向いているタスク	逐次的な文章生成全般	コード補完・インライン編集・非線形タスク
ストリーミング表示	対応（1トークンずつ流れる）	非対応（256トークン単位で一括出力）

技術的なメカニズム（3つの核心）

① Uniform State Diffusion（ノイズ導入と除去）
元テキストをランダムトークンで置き換えてノイズを導入し、モデルがキャンバス全体を分析してノイズを段階的に除去（デノイジング）していきます。画像生成AIにおける「ランダムノイズから徐々にクリアな画像を作る」プロセスと原理は同じです。

② Block Autoregressive Denoising（ブロック自己回帰）
256トークン単位の「キャンバス」を複数連鎖させることで、最大256Kトークンという長文生成にも対応しています。

③ Self-Conditioning（自己修正）
デコーダが前ステップの確率分布を保持し、次ステップの生成に反映する自己修正機能。生成品質を反復的に改善します。

なぜ速いのか: 自己回帰型LLMは1トークン生成するたびにメモリから重みを読み出すため「メモリ帯域幅の壁」にぶつかります。DiffusionGemmaは256トークンを同時処理するため、H100のような高性能GPU（計算能力が高い）では並列処理能力をフル活用できます。

できること・主な機能

超高速ローカルテキスト生成 — H100で毎秒1,000トークン超
コード補完・コードインフィリング — 双方向アテンションで前後のコード文脈を同時参照。自己回帰型より構造的に有利
インライン編集 — 既存テキストの中間部への挿入・補完（従来型LLMが苦手な非線形タスク）
マルチモーダル入力 — テキスト・画像（可変アスペクト比・解像度対応）・ビデオを入力として処理（出力はテキストのみ）
256Kトークンの長文コンテキスト — 長文書類・長大なコードベースへの対応
ファインチューニング — Hackable Diffusion（JAX）/ Unsloth / NVIDIA NeMo対応
思考モード（Thinking Mode） — 設定可能な推論チャネルによるステップバイステップ推論

ファインチューニングの実力例: 数独（Sudoku）タスクでは、ベースモデルのスコアは0%でしたが、教師あり微調整後に80%まで改善した実績があります。特定タスクへの適応力の高さを示す事例として、公式ドキュメントで紹介されています。

GPU別速度ベンチマーク

以下は公式ブログ・NVIDIAブログに基づく速度実績です（2026年6月時点・シングルユーザー専用環境での値）。

DiffusionGemma × NVIDIA RTX AI Garage（NVIDIA公式ブログ）

出典: NVIDIA Blog 公式

ハードウェア	速度（トークン/秒）	環境・備考
DGX Station	2,000+	最高性能構成（A100×8等）
H100（シングル GPU）	1,000+	公式ブログ掲載値
RTX 5090	700+	NVIDIA公式ブログ掲載値
DGX Spark	150	NVIDIA公式ブログ掲載値
自己回帰型比（参考）	最大4倍速	シングルユーザー専有GPU環境での比較

注意: 上記数値はすべてシングルユーザー・専用GPU環境での計測値です。マルチユーザー・バッチ処理環境では異なります。RTX 4090の具体数値は公式から確認できていません。RTX 5090と同等クラスと考えられますが、断定できるデータは現時点で未確認です。

「速い環境」と「速度優位が薄い環境」を正しく理解する

これが他記事に最も不足している実務情報です。「4倍速」という数字だけで判断すると、実際の利用環境で期待外れになる可能性があります。

DiffusionGemmaが「速い」環境

条件	理由
H100 / A100 / RTX 5090などハイエンドGPU	計算能力律速の並列処理を最大活用できる
シングルユーザー / 占有GPU環境	256トークン並列生成の恩恵を独占できる
コード補完・インライン編集専用ツール	双方向アテンション × 高速生成の相乗効果
ローカル推論プロトタイプ開発	量子化版（GGUF）を使えば18GB VRAMで動作可

DiffusionGemmaで「速度優位がない or 薄い」環境

条件	理由
Apple Silicon（M1 / M2 / M3 / M4 Mac）	Unified Memoryアーキテクチャはメモリ帯域幅律速のため、並列計算のメリットを活かせない。自己回帰型と同程度の速度になる
クラウドAPIのマルチユーザー環境（バッチ32以上）	バッチ処理ではKVキャッシュを再利用できる自己回帰型が有利。コスト効率でむしろ逆転する可能性あり
RTX 3060 / 4060 / ノートPC GPU	計算律速の恩恵が小さく、速度優位性が薄れる
クラウドAPI経由の商用API提供	スループット優先設計の自己回帰型サービスと比較すると非効率になる場合がある

まとめ: DiffusionGemmaの「最大4倍速」は、ハイエンドGPUを専有できる研究者・開発者がローカル推論を行う場合に限った話です。MacユーザーやクラウドAPIユーザーは現時点で速度メリットをほとんど体感できません。

Gemma 4との比較：速度 vs 品質のトレードオフ

DiffusionGemma：速度と品質のトレードオフ（Google公式ブログ）

出典: Google公式ブログ

DiffusionGemmaのベースとなったGemma 4との比較は、導入判断で最も重要な軸です。Google公式モデルカードに掲載されたベンチマーク数値で整理します。

ベンチマーク	DiffusionGemma	Gemma 4（同等サイズ）	差
MMLU Pro（汎用知識）	77.6%	82.6%	−5.0pt
AIME 2026（数学推論）	69.1%	88.3%	−19.2pt
GPQA Diamond（科学推論）	73.2%	82.3%	−9.1pt
LiveCodeBench v6（コーディング）	69.1%	77.1%	−8.0pt
BigBench Extra Hard（複雑推論）	47.6%	64.8%	−17.2pt
生成速度（H100・専有）	1,000+トークン/秒	〜250トークン/秒（参考）	最大4倍速

比較の注: ベンチマーク数値はGemma 4の26B A4Bサイズ（DiffusionGemmaと同等サイズ）との比較です。他サイズのGemma 4との比較データは現時点で未公開です。

判断のポイント:

数学推論（AIME 2026）と複雑推論（BigBench Extra Hard）での品質差が特に大きい（−17〜19pt）
汎用知識（MMLU Pro）では差が相対的に小さい（−5pt）
「とにかく速くテキストを生成したい」用途ではDiffusionGemmaが有利
「複雑な推論・数学・本番品質のコーディング」を優先するならGemma 4や他の高品質モデルが適切

競合拡散LLMとの比較

DiffusionGemmaは、業界初の大手研究ラボによるオープンウェイト拡散LLMとして注目されています。拡散型テキスト生成という新領域には、他にも競合モデルが存在します。

モデル	開発元	公開形態	特徴
DiffusionGemma	Google DeepMind	オープンウェイト（Apache 2.0）	業界初の大手ラボ製オープン拡散LLM。25.2B（MoEアクティブ3.8B）
Mercury 2	Inception Labs	クローズド（商用APIのみ）	2026年2月リリース。「5倍速」を主張。配布なし
Gemini Diffusion	Google	非公開（限定テスト中）	DiffusionGemmaの研究基盤。本番品質向けと思われるが詳細非公開
LLaDA	学術機関	オープン（研究用）	8Bスケール、拡散LLMの学術的実証モデル
MDLM / SEDD	学術機関	オープン（研究用）	拡散テキスト生成の理論基盤を確立したモデル群

DiffusionGemmaの最大の差別化は「Apache 2.0でフルモデルを自由に使える」点です。Mercury 2はAPIのみで手元にモデルを持てませんが、DiffusionGemmaはダウンロードして自前インフラで動かせます。

モデルスペック詳細

項目	値
総パラメータ数	25.2B（表示上26B）
推論時活性化パラメータ	3.8B（MoE設計のため実効的に軽量）
アーキテクチャ	Mixture of Experts（MoE）
専門家（Expert）構成	アクティブ8 / 合計128 + 共有1
層数	30層
コンテキスト長	最大256Kトークン
1ステップあたりのキャンバス長	256トークン
語彙サイズ	262K
入力モダリティ	テキスト・画像（可変解像度・アスペクト比対応）・ビデオ
出力モダリティ	テキストのみ
音声入力	非対応（公式ドキュメントに「audio is not supported」と明記）
対応言語	140言語以上
訓練データの鮮度	2025年1月まで

MoEのポイント: 25.2Bパラメータのうち推論時に使うのは3.8B分だけ。これにより、見かけのパラメータ数よりも軽量な推論が可能です。ただし、全専門家モデルをメモリにロードするには大きなVRAMが必要になります。

推奨推論設定（公式ドキュメント）:

最大デノイジングステップ: 48ステップ
温度スケジュール: 0.8 → 0.4（線形）
適応的早期停止: エントロピー閾値 0.005

料金・ライセンス・動作要件

料金

DiffusionGemmaは完全無料のオープンウェイトモデルです。モデル自体に利用料はかかりません。

利用形態	コスト
Hugging Face / Kaggleから直接ダウンロード	無料
自前GPU環境での推論	インフラ費用のみ（GPU電力・クラウドサーバー代等）
NVIDIA NIM API（build.nvidia.com）	NVIDIAのAPI料金が別途発生（無料試用枠あり）
Google Vertex AI Model Garden	GCPのAPI料金が別途発生

ライセンス（Apache 2.0）

商用利用: 可
改変・再配布: 可（ライセンス表記が必要）
ファインチューニング後の再配布: 可
制限: CSAM（児童虐待素材）等の有害用途は利用規約で禁止

動作要件

要件	内容
公式推奨GPU	60GB以上のGPUメモリ（H100・A100 80GB等）
量子化版（GGUF）での最小目安	18GB VRAM（RTX 3090・4090等）
⚠️ 注意	一般的な16GB VRAMのGPUでは動作しない可能性あり
Apple Silicon（MLX）	動作は可能。速度優位性はなし

「60GBと18GB」の矛盾について: 公式HFドキュメントには「60GB以上のGPU推奨」とありますが、Unsloth等のGGUF量子化版を使えば18GB VRAMでも動作します。フルモデルの高品質推論には60GB+が必要で、量子化版なら18GBというのが現時点の整理です。

使い方：主な3つの方法

方法①：Hugging Face Transformers（標準）

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# 60GB以上のGPUを推奨（量子化なしの場合）
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(MODEL_ID)

専用クラス DiffusionGemmaForBlockDiffusion が必要です。通常のGemma用クラスでは動作しません。

方法②：vLLM / SGLang（OpenAI互換APIサーバー）

vLLMまたはSGLang経由でOpenAI互換のローカルAPIサーバーを立ち上げられます。既存のOpenAI API対応ツールをそのまま流用したい場合に有効です。

方法③：Unsloth GGUF版（18GB VRAM環境向け）

# Hugging FaceからGGUF版を取得
unsloth/diffusiongemma-26B-A4B-it-GGUF

Unslothチームが公式モデルの量子化版を即座に公開しています。RTX 3090・4090など18GB VRAMのGPUで試したい場合の現実的な選択肢です（量子化による品質低下が加わります）。

Blackwell GPU向け最適化版（NVFP4）

NVIDIA Blackwell GPU（RTX 50シリーズ等）向けには、NVFP4量子化版も提供されています。
nvidia/diffusiongemma-26B-A4B-it-NVFP4（NVIDIA NIM経由で利用可）

ファインチューニング

ツール	用途
Hackable Diffusion（JAX）	Googleが公式トレーニングレシピを提供。研究・実験向け
Unsloth	効率的なファインチューニング。GGUF量子化版も対応
NVIDIA NeMo	エンタープライズ向けファインチューニング

できないこと・制約・安全性

技術的な制約

① ストリーミング出力ができない
実用上で最も影響が大きい制約です。256トークン単位で一括出力するため、ChatGPTのような「リアルタイムで文字が流れてくる」表示ができません。チャットUIや対話型ツールへの組み込みには工夫が必要です。

② Apple Siliconでは速度優位性がない
Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。

③ 音声入力に非対応
公式ドキュメントに「audio is not supported」と明記されています。

④「実験的モデル」ステータス
Google公式が本番プロダクション用途を推奨していません。重要なビジネス用途への単独利用は避け、品質の高い自己回帰型モデルとの併用を検討してください。

⑤ 品質がGemma 4より低い（公式明記）
特に数学推論（AIME 2026で−19.2pt）と複雑推論系タスク（BigBench Extra Hard で−17.2pt）での品質差が出ます。

⑥ クラウド多ユーザー環境での速度優位なし
バッチサイズ32以上ではKVキャッシュを再利用できる自己回帰型が有利になります。

安全性（公式モデルカード記載）

学習データのバイアス: 訓練データの偏りが出力に反映される可能性あり
微妙なニュアンスや皮肉の理解: 苦手なケースがある
事実的精度の保証なし: 生成内容のファクトチェックが必要
CSAM対策済み: 児童虐待素材フィルタリングを実装済み
個人情報の自動削除処理済み: 訓練データから処理済み
訓練データの鮮度: 2025年1月まで（それ以降の最新情報への対応は限定的）

こんな人におすすめ / 向いていない人

出典: Wikimedia Commons

DiffusionGemmaが向いている人・ケース

ケース	理由
H100 / RTX 5090などハイエンドGPUを持つ研究者・開発者	速度優位を最大限活用できる環境
ローカルでの高速プロトタイピングが目的	量子化版（18GB VRAM）で動作可。反復試行のコスト低下
コード補完・インライン編集ツールを開発したい	双方向アテンション × 高速生成の相乗効果。コードの前後文脈を双方向参照できる強み
拡散LLMの研究・ファインチューニングをしたい	Apache 2.0で改変自由。公式レシピ（Hackable Diffusion）あり
Mercury 2（クローズド）の代替オープンモデルを探している	現時点でほぼ唯一の実用規模オープン拡散LLM
特定タスクへの大幅なカスタマイズが必要	数独タスクの実証例（0%→80%）のようにファインチューニングで大きく改善できる可能性

DiffusionGemmaが向いていない人・ケース

ケース	理由
Apple Mac（M1〜M4）ユーザー	Unified Memoryは速度優位を活かせない。同等サイズのGemma 4 MLX版が現実的
クラウドAPIでマルチユーザー向けサービスを構築したい	バッチ処理では自己回帰型が有利。コスト増になる可能性がある
高精度な数学推論・複雑な推論が必要	Gemma 4比で最大19pt品質差。本番用途には現時点で推奨しない
チャットUIや会話形式のアプリを作りたい	ストリーミング出力非対応のため、リアルタイム表示の実装に工夫が必要
一般的な16GB VRAMのGPUしかない	フルモデルは60GB+推奨。量子化版でも18GBのVRAMが目安
本番環境での安定稼働が最優先	Google自身が「実験的モデル」と明記しており、本番利用を推奨していない

よくある質問（FAQ）

Q: DiffusionGemmaは無料で使えますか？
A: はい、完全無料のオープンウェイトモデルです（Apache 2.0ライセンス）。Hugging FaceやKaggleからダウンロードでき、商用利用・改変も可能です。NVIDIA NIMやVertex AI経由で使う場合はクラウド側のAPI料金が別途発生します。

Q: MacBook（Apple Silicon）でも使えますか？
A: 動作は可能ですが、速度優位性はほぼありません。Apple Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、DiffusionGemmaの並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。

Q: RTX 4090で動きますか？
A: GGUF量子化版（Unsloth提供）を使えば18GB VRAMで動作するため、RTX 4090（24GB VRAM）なら動作できます。ただし、フルモデルには60GB以上のVRAMが公式推奨されています。

Q: ChatGPTやGeminiのAPIの代替になりますか？
A: 現時点では難しいです。「実験的モデル」のため品質面でGemma 4を下回ること、ストリーミング非対応、本番推奨外であることから、商用APIの代替にはなりません。高速ローカル推論・研究用途が主な適用範囲です。

Q: Gemma 4とどちらを選べばいいですか？
A: 品質重視・本番品質ならGemma 4、速度重視でハイエンドGPU環境がありローカル推論が目的ならDiffusionGemmaという棲み分けです。Gemma 4の詳細はこちらを参照してください。

Q: 拡散型LLMは将来どうなりますか？
A: DiffusionGemmaは「実験的モデル」ですが、Google内部ではGemini Diffusion（より高性能な非公開モデル）の研究も進んでいます。Mercury 2など競合を含め、拡散型LLMは2026〜2027年にかけて実用化が進む分野として注目されています。

Q: ファインチューニングで実用品質に改善できますか？
A: 特定の限定タスクであれば大幅な改善が可能です。数独タスクでは0%→80%という実績があります。ただし汎用品質での改善については、現時点でのデータが限られています。