AIツール2026年6月更新

DiffusionGemmaとは?Google拡散型テキスト生成AI・H100毎秒1000トークン超・Gemma 4との違いを徹底解説【2026年6月】

公開日: 2026/06/12
DiffusionGemmaとは?Google拡散型テキスト生成AI・H100毎秒1000トークン超・Gemma 4との違いを徹底解説【2026年6月】

この記事のポイント

DiffusionGemmaはGoogle DeepMindが2026年6月公開の拡散型テキスト生成AI。H100で毎秒1000トークン超・最大4倍速を実現するが「どの環境で速いか」「Gemma 4との品質差は何か」まで、実務判断に必要な情報を整理します。

DiffusionGemmaは、Google DeepMindが2026年6月10〜11日に公開した拡散型テキスト生成AI(Diffusion LLM)のオープンウェイトモデルです。従来の自己回帰型LLMが1トークンずつ順番に生成するのに対し、256トークンを並列・反復生成することでH100上で毎秒1,000トークン超・最大4倍速を実現しています。

ただし「4倍速」はH100・RTX 5090などのハイエンドGPUをシングルユーザーで専有した場合に限った話です。Apple SiliconやクラウドのマルチユーザーAPIでは速度優位性はほぼありません。本記事では、どの環境で速いのか・Gemma 4との品質差・実際の用途への向き不向きまでを、公式情報をベースに整理します。

この記事でわかること:

  • DiffusionGemmaの仕組みと自己回帰型との根本的な違い
  • GPU別速度ベンチマーク(H100 / RTX 5090 / DGX Station等)
  • 「速い環境」「速度優位が薄い環境」の具体的な整理
  • Gemma 4との品質ベンチマーク比較(MMLU Pro / AIME 2026等)
  • ライセンス・動作要件・使い方(Hugging Face / vLLM / Unsloth GGUF)
  • こんな人におすすめ / 向いていない人

対象読者: ローカルLLMの推論速度改善を検討している開発者・研究者、Gemma系モデルのユーザー、拡散型LLMに初めて触れる方

DiffusionGemmaとは

DiffusionGemmaは、Google DeepMindが生成AIの次世代アーキテクチャとして研究してきたテキスト拡散(Text Diffusion)を、初めて本格的なオープンウェイトモデルとして一般公開したものです。内部ではGemini Diffusionと呼ばれる研究の知見をベースにしており、Gemma 4のアーキテクチャと組み合わせて設計されています。

DiffusionGemma 公式バナー(Google AI for Developers)

出典: Google AI for Developers 公式

基本情報(2026年6月10〜11日公開時点)

項目

内容

開発元

Google DeepMind

公開日

2026年6月10〜11日

ベース

Gemma 4アーキテクチャ + Gemini Diffusion研究

提供形態

オープンウェイト(Hugging Face / Kaggle / Vertex AI / NVIDIA NIM)

モデルID(Hugging Face)

google/diffusiongemma-26B-A4B-it

ライセンス

Apache 2.0(商用利用・改変・再配布すべて可)

位置づけ

「実験的モデル(experimental model)」 — 速度重視のローカル推論・研究向け

「experimental model」はGoogle公式の表記です。 Google自身が本番プロダクション品質向けではないと明記しており、品質よりも速度・研究目的を優先した公開という位置づけです。この点は導入判断で最も重要なファクトです。

自己回帰型LLMとの根本的な違い

DiffusionGemmaを理解するうえで最重要なのが、生成方式の根本的な違いです。

比較項目

従来の自己回帰型LLM(Gemma 4等)

DiffusionGemma

生成方式

1トークンずつ左→右に逐次生成

256トークンを並列・反復生成(拡散)

アテンション

因果的(単方向)

双方向(全トークンを同時評価)

初期状態

開始トークンから順次生成

ランダムトークン256個を「キャンバス」として開始

GPUの使い方

メモリ帯域幅律速(計算が余りがち)

計算能力律速(並列計算を最大活用)

向いているタスク

逐次的な文章生成全般

コード補完・インライン編集・非線形タスク

ストリーミング表示

対応(1トークンずつ流れる)

非対応(256トークン単位で一括出力)

技術的なメカニズム(3つの核心)

① Uniform State Diffusion(ノイズ導入と除去)
元テキストをランダムトークンで置き換えてノイズを導入し、モデルがキャンバス全体を分析してノイズを段階的に除去(デノイジング)していきます。画像生成AIにおける「ランダムノイズから徐々にクリアな画像を作る」プロセスと原理は同じです。

② Block Autoregressive Denoising(ブロック自己回帰)
256トークン単位の「キャンバス」を複数連鎖させることで、最大256Kトークンという長文生成にも対応しています。

③ Self-Conditioning(自己修正)
デコーダが前ステップの確率分布を保持し、次ステップの生成に反映する自己修正機能。生成品質を反復的に改善します。

なぜ速いのか: 自己回帰型LLMは1トークン生成するたびにメモリから重みを読み出すため「メモリ帯域幅の壁」にぶつかります。DiffusionGemmaは256トークンを同時処理するため、H100のような高性能GPU(計算能力が高い)では並列処理能力をフル活用できます。

できること・主な機能

  1. 超高速ローカルテキスト生成 — H100で毎秒1,000トークン超
  2. コード補完・コードインフィリング — 双方向アテンションで前後のコード文脈を同時参照。自己回帰型より構造的に有利
  3. インライン編集 — 既存テキストの中間部への挿入・補完(従来型LLMが苦手な非線形タスク)
  4. マルチモーダル入力 — テキスト・画像(可変アスペクト比・解像度対応)・ビデオを入力として処理(出力はテキストのみ)
  5. 256Kトークンの長文コンテキスト — 長文書類・長大なコードベースへの対応
  6. ファインチューニング — Hackable Diffusion(JAX)/ Unsloth / NVIDIA NeMo対応
  7. 思考モード(Thinking Mode) — 設定可能な推論チャネルによるステップバイステップ推論

ファインチューニングの実力例: 数独(Sudoku)タスクでは、ベースモデルのスコアは0%でしたが、教師あり微調整後に80%まで改善した実績があります。特定タスクへの適応力の高さを示す事例として、公式ドキュメントで紹介されています。

GPU別速度ベンチマーク

以下は公式ブログ・NVIDIAブログに基づく速度実績です(2026年6月時点・シングルユーザー専用環境での値)。

DiffusionGemma × NVIDIA RTX AI Garage(NVIDIA公式ブログ)

出典: NVIDIA Blog 公式

ハードウェア

速度(トークン/秒)

環境・備考

DGX Station

2,000+

最高性能構成(A100×8等)

H100(シングル GPU)

1,000+

公式ブログ掲載値

RTX 5090

700+

NVIDIA公式ブログ掲載値

DGX Spark

150

NVIDIA公式ブログ掲載値

自己回帰型比(参考)

最大4倍速

シングルユーザー専有GPU環境での比較

注意: 上記数値はすべてシングルユーザー・専用GPU環境での計測値です。マルチユーザー・バッチ処理環境では異なります。RTX 4090の具体数値は公式から確認できていません。RTX 5090と同等クラスと考えられますが、断定できるデータは現時点で未確認です。

「速い環境」と「速度優位が薄い環境」を正しく理解する

これが他記事に最も不足している実務情報です。「4倍速」という数字だけで判断すると、実際の利用環境で期待外れになる可能性があります。

DiffusionGemmaが「速い」環境

条件

理由

H100 / A100 / RTX 5090などハイエンドGPU

計算能力律速の並列処理を最大活用できる

シングルユーザー / 占有GPU環境

256トークン並列生成の恩恵を独占できる

コード補完・インライン編集専用ツール

双方向アテンション × 高速生成の相乗効果

ローカル推論プロトタイプ開発

量子化版(GGUF)を使えば18GB VRAMで動作可

DiffusionGemmaで「速度優位がない or 薄い」環境

条件

理由

Apple Silicon(M1 / M2 / M3 / M4 Mac)

Unified Memoryアーキテクチャはメモリ帯域幅律速のため、並列計算のメリットを活かせない。自己回帰型と同程度の速度になる

クラウドAPIのマルチユーザー環境(バッチ32以上)

バッチ処理ではKVキャッシュを再利用できる自己回帰型が有利。コスト効率でむしろ逆転する可能性あり

RTX 3060 / 4060 / ノートPC GPU

計算律速の恩恵が小さく、速度優位性が薄れる

クラウドAPI経由の商用API提供

スループット優先設計の自己回帰型サービスと比較すると非効率になる場合がある

まとめ: DiffusionGemmaの「最大4倍速」は、ハイエンドGPUを専有できる研究者・開発者がローカル推論を行う場合に限った話です。MacユーザーやクラウドAPIユーザーは現時点で速度メリットをほとんど体感できません。

Gemma 4との比較:速度 vs 品質のトレードオフ

DiffusionGemma:速度と品質のトレードオフ(Google公式ブログ)

出典: Google公式ブログ

DiffusionGemmaのベースとなったGemma 4との比較は、導入判断で最も重要な軸です。Google公式モデルカードに掲載されたベンチマーク数値で整理します。

ベンチマーク

DiffusionGemma

Gemma 4(同等サイズ)

MMLU Pro(汎用知識)

77.6%

82.6%

−5.0pt

AIME 2026(数学推論)

69.1%

88.3%

−19.2pt

GPQA Diamond(科学推論)

73.2%

82.3%

−9.1pt

LiveCodeBench v6(コーディング)

69.1%

77.1%

−8.0pt

BigBench Extra Hard(複雑推論)

47.6%

64.8%

−17.2pt

生成速度(H100・専有)

1,000+トークン/秒

〜250トークン/秒(参考)

最大4倍速

比較の注: ベンチマーク数値はGemma 4の26B A4Bサイズ(DiffusionGemmaと同等サイズ)との比較です。他サイズのGemma 4との比較データは現時点で未公開です。

判断のポイント:

  • 数学推論(AIME 2026)と複雑推論(BigBench Extra Hard)での品質差が特に大きい(−17〜19pt)
  • 汎用知識(MMLU Pro)では差が相対的に小さい(−5pt)
  • 「とにかく速くテキストを生成したい」用途ではDiffusionGemmaが有利
  • 「複雑な推論・数学・本番品質のコーディング」を優先するならGemma 4や他の高品質モデルが適切

競合拡散LLMとの比較

拡散型LLMの競合比較イメージ

DiffusionGemmaは、業界初の大手研究ラボによるオープンウェイト拡散LLMとして注目されています。拡散型テキスト生成という新領域には、他にも競合モデルが存在します。

モデル

開発元

公開形態

特徴

DiffusionGemma

Google DeepMind

オープンウェイト(Apache 2.0)

業界初の大手ラボ製オープン拡散LLM。25.2B(MoEアクティブ3.8B)

Mercury 2

Inception Labs

クローズド(商用APIのみ)

2026年2月リリース。「5倍速」を主張。配布なし

Gemini Diffusion

Google

非公開(限定テスト中)

DiffusionGemmaの研究基盤。本番品質向けと思われるが詳細非公開

LLaDA

学術機関

オープン(研究用)

8Bスケール、拡散LLMの学術的実証モデル

MDLM / SEDD

学術機関

オープン(研究用)

拡散テキスト生成の理論基盤を確立したモデル群

DiffusionGemmaの最大の差別化は「Apache 2.0でフルモデルを自由に使える」点です。Mercury 2はAPIのみで手元にモデルを持てませんが、DiffusionGemmaはダウンロードして自前インフラで動かせます。

モデルスペック詳細

項目

総パラメータ数

25.2B(表示上26B)

推論時活性化パラメータ

3.8B(MoE設計のため実効的に軽量)

アーキテクチャ

Mixture of Experts(MoE)

専門家(Expert)構成

アクティブ8 / 合計128 + 共有1

層数

30層

コンテキスト長

最大256Kトークン

1ステップあたりのキャンバス長

256トークン

語彙サイズ

262K

入力モダリティ

テキスト・画像(可変解像度・アスペクト比対応)・ビデオ

出力モダリティ

テキストのみ

音声入力

非対応(公式ドキュメントに「audio is not supported」と明記)

対応言語

140言語以上

訓練データの鮮度

2025年1月まで

MoEのポイント: 25.2Bパラメータのうち推論時に使うのは3.8B分だけ。これにより、見かけのパラメータ数よりも軽量な推論が可能です。ただし、全専門家モデルをメモリにロードするには大きなVRAMが必要になります。

推奨推論設定(公式ドキュメント):

  • 最大デノイジングステップ: 48ステップ
  • 温度スケジュール: 0.8 → 0.4(線形)
  • 適応的早期停止: エントロピー閾値 0.005

料金・ライセンス・動作要件

料金

DiffusionGemmaは完全無料のオープンウェイトモデルです。モデル自体に利用料はかかりません。

利用形態

コスト

Hugging Face / Kaggleから直接ダウンロード

無料

自前GPU環境での推論

インフラ費用のみ(GPU電力・クラウドサーバー代等)

NVIDIA NIM API(build.nvidia.com)

NVIDIAのAPI料金が別途発生(無料試用枠あり)

Google Vertex AI Model Garden

GCPのAPI料金が別途発生

ライセンス(Apache 2.0)

  • 商用利用:
  • 改変・再配布: 可(ライセンス表記が必要)
  • ファインチューニング後の再配布:
  • 制限: CSAM(児童虐待素材)等の有害用途は利用規約で禁止

動作要件

要件

内容

公式推奨GPU

60GB以上のGPUメモリ(H100・A100 80GB等)

量子化版(GGUF)での最小目安

18GB VRAM(RTX 3090・4090等)

⚠️ 注意

一般的な16GB VRAMのGPUでは動作しない可能性あり

Apple Silicon(MLX)

動作は可能。速度優位性はなし

「60GBと18GB」の矛盾について: 公式HFドキュメントには「60GB以上のGPU推奨」とありますが、Unsloth等のGGUF量子化版を使えば18GB VRAMでも動作します。フルモデルの高品質推論には60GB+が必要で、量子化版なら18GBというのが現時点の整理です。

使い方:主な3つの方法

方法①:Hugging Face Transformers(標準)

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# 60GB以上のGPUを推奨(量子化なしの場合)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)
processor = AutoProcessor.from_pretrained(MODEL_ID)

専用クラス DiffusionGemmaForBlockDiffusion が必要です。通常のGemma用クラスでは動作しません。

方法②:vLLM / SGLang(OpenAI互換APIサーバー)

vLLMまたはSGLang経由でOpenAI互換のローカルAPIサーバーを立ち上げられます。既存のOpenAI API対応ツールをそのまま流用したい場合に有効です。

方法③:Unsloth GGUF版(18GB VRAM環境向け)

# Hugging FaceからGGUF版を取得
unsloth/diffusiongemma-26B-A4B-it-GGUF

Unslothチームが公式モデルの量子化版を即座に公開しています。RTX 3090・4090など18GB VRAMのGPUで試したい場合の現実的な選択肢です(量子化による品質低下が加わります)。

Blackwell GPU向け最適化版(NVFP4)

NVIDIA Blackwell GPU(RTX 50シリーズ等)向けには、NVFP4量子化版も提供されています。
nvidia/diffusiongemma-26B-A4B-it-NVFP4(NVIDIA NIM経由で利用可)

ファインチューニング

ツール

用途

Hackable Diffusion(JAX)

Googleが公式トレーニングレシピを提供。研究・実験向け

Unsloth

効率的なファインチューニング。GGUF量子化版も対応

NVIDIA NeMo

エンタープライズ向けファインチューニング

できないこと・制約・安全性

技術的な制約

① ストリーミング出力ができない
実用上で最も影響が大きい制約です。256トークン単位で一括出力するため、ChatGPTのような「リアルタイムで文字が流れてくる」表示ができません。チャットUIや対話型ツールへの組み込みには工夫が必要です。

② Apple Siliconでは速度優位性がない
Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。

③ 音声入力に非対応
公式ドキュメントに「audio is not supported」と明記されています。

④「実験的モデル」ステータス
Google公式が本番プロダクション用途を推奨していません。重要なビジネス用途への単独利用は避け、品質の高い自己回帰型モデルとの併用を検討してください。

⑤ 品質がGemma 4より低い(公式明記)
特に数学推論(AIME 2026で−19.2pt)と複雑推論系タスク(BigBench Extra Hard で−17.2pt)での品質差が出ます。

⑥ クラウド多ユーザー環境での速度優位なし
バッチサイズ32以上ではKVキャッシュを再利用できる自己回帰型が有利になります。

安全性(公式モデルカード記載)

  • 学習データのバイアス: 訓練データの偏りが出力に反映される可能性あり
  • 微妙なニュアンスや皮肉の理解: 苦手なケースがある
  • 事実的精度の保証なし: 生成内容のファクトチェックが必要
  • CSAM対策済み: 児童虐待素材フィルタリングを実装済み
  • 個人情報の自動削除処理済み: 訓練データから処理済み
  • 訓練データの鮮度: 2025年1月まで(それ以降の最新情報への対応は限定的)

こんな人におすすめ / 向いていない人

Google DeepMind ロゴ

出典: Wikimedia Commons

DiffusionGemmaが向いている人・ケース

ケース

理由

H100 / RTX 5090などハイエンドGPUを持つ研究者・開発者

速度優位を最大限活用できる環境

ローカルでの高速プロトタイピングが目的

量子化版(18GB VRAM)で動作可。反復試行のコスト低下

コード補完・インライン編集ツールを開発したい

双方向アテンション × 高速生成の相乗効果。コードの前後文脈を双方向参照できる強み

拡散LLMの研究・ファインチューニングをしたい

Apache 2.0で改変自由。公式レシピ(Hackable Diffusion)あり

Mercury 2(クローズド)の代替オープンモデルを探している

現時点でほぼ唯一の実用規模オープン拡散LLM

特定タスクへの大幅なカスタマイズが必要

数独タスクの実証例(0%→80%)のようにファインチューニングで大きく改善できる可能性

DiffusionGemmaが向いていない人・ケース

ケース

理由

Apple Mac(M1〜M4)ユーザー

Unified Memoryは速度優位を活かせない。同等サイズのGemma 4 MLX版が現実的

クラウドAPIでマルチユーザー向けサービスを構築したい

バッチ処理では自己回帰型が有利。コスト増になる可能性がある

高精度な数学推論・複雑な推論が必要

Gemma 4比で最大19pt品質差。本番用途には現時点で推奨しない

チャットUIや会話形式のアプリを作りたい

ストリーミング出力非対応のため、リアルタイム表示の実装に工夫が必要

一般的な16GB VRAMのGPUしかない

フルモデルは60GB+推奨。量子化版でも18GBのVRAMが目安

本番環境での安定稼働が最優先

Google自身が「実験的モデル」と明記しており、本番利用を推奨していない

よくある質問(FAQ)

Q: DiffusionGemmaは無料で使えますか?
A: はい、完全無料のオープンウェイトモデルです(Apache 2.0ライセンス)。Hugging FaceやKaggleからダウンロードでき、商用利用・改変も可能です。NVIDIA NIMやVertex AI経由で使う場合はクラウド側のAPI料金が別途発生します。

Q: MacBook(Apple Silicon)でも使えますか?
A: 動作は可能ですが、速度優位性はほぼありません。Apple Unified Memoryはメモリ帯域幅律速のアーキテクチャのため、DiffusionGemmaの並列計算のメリットを活かせません。Apple SiliconではGemma 4のMLX版を使う方が現実的です。

Q: RTX 4090で動きますか?
A: GGUF量子化版(Unsloth提供)を使えば18GB VRAMで動作するため、RTX 4090(24GB VRAM)なら動作できます。ただし、フルモデルには60GB以上のVRAMが公式推奨されています。

Q: ChatGPTやGeminiのAPIの代替になりますか?
A: 現時点では難しいです。「実験的モデル」のため品質面でGemma 4を下回ること、ストリーミング非対応、本番推奨外であることから、商用APIの代替にはなりません。高速ローカル推論・研究用途が主な適用範囲です。

Q: Gemma 4とどちらを選べばいいですか?
A: 品質重視・本番品質ならGemma 4、速度重視でハイエンドGPU環境がありローカル推論が目的ならDiffusionGemmaという棲み分けです。Gemma 4の詳細はこちらを参照してください。

Q: 拡散型LLMは将来どうなりますか?
A: DiffusionGemmaは「実験的モデル」ですが、Google内部ではGemini Diffusion(より高性能な非公開モデル)の研究も進んでいます。Mercury 2など競合を含め、拡散型LLMは2026〜2027年にかけて実用化が進む分野として注目されています。

Q: ファインチューニングで実用品質に改善できますか?
A: 特定の限定タスクであれば大幅な改善が可能です。数独タスクでは0%→80%という実績があります。ただし汎用品質での改善については、現時点でのデータが限られています。

まとめ

DiffusionGemmaは、Google DeepMindが拡散型テキスト生成AIの可能性をオープンな形で示した実験的モデルです。ハイエンドGPU環境でのローカル推論速度という点で革新的ですが、用途・環境によって評価が大きく変わります。

  • 速度優位はハイエンドGPU専有環境限定 — H100で1,000トークン/秒超。Apple SiliconやクラウドAPIでは優位なし
  • 品質はGemma 4より低い(公式明記) — 特に数学・複雑推論系で最大19pt差。本番用途は非推奨
  • Apache 2.0でフル商用利用可 — Mercury 2(クローズド)と対照的な完全オープン設計
  • 量子化版なら18GB VRAMで動作 — RTX 3090/4090クラスで試せるが、フルモデルは60GB+推奨
  • コード補完・インライン編集に構造的優位 — 双方向アテンションの恩恵が出るタスク向け
  • ストリーミング非対応はUX上の重要制約 — チャットUIへの組み込みには工夫が必要

生成AI全体の動向を把握したい場合は生成AIとはも参照してください。GoogleのAI推論最適化技術についてはTurboQuantとはも関連情報として役立ちます。現在公開されている生成AIツールおすすめ比較も合わせてご確認ください。

AIツールの導入でお困りですか?

お客様のビジネスに最適なAIツールをご提案します。まずは無料相談から。

この記事の著者

AI革命

AI革命

編集部

AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。

AI活用ならAI革命にお任せ。サービスを見てみる
AI Revolution Growth Arrow

AIでビジネスを革新しませんか?

あなたのビジネスにAIがどのような価値をもたらすかをご提案いたします。