Gemma 4 12Bとは？Google製ノートPC対応マルチモーダルAI・16GB VRAM動作・性能比較・使い方を解説【2026年6月】

Gemma 4 12BはGoogle DeepMindが2026年6月3日に公開したオープンウェイトのマルチモーダルLLMで、16GBの統合メモリを搭載したノートPCでもローカル実行できる点が最大の特徴です。テキスト・画像・音声・動画をひとつのモデルで処理でき、Apache 2.0ライセンスにより商用利用も自由に行えます。

本記事では以下の内容を解説します。

Gemma 4 12Bの機能・できること・できないこと
16GB VRAMで動作するための条件（量子化の仕組み）
QAT版（7GB動作）の詳細と入手方法
Ollama・LM Studio・Google AI Studioでの使い方
競合ローカルLLM（Llama 4 Scout・Phi-4 14B・Qwen 3.6）との性能比較
クラウドAI（Gemini 4）との使い分け

個人でのAI実験からプライバシー重視の業務利用まで、Gemma 4 12Bの導入判断に必要な情報をまとめています。

Gemma 4 12Bとは

出典: Google AI for Developers - Gemma

Gemma 4 12BはGoogle DeepMindが開発したオープンウェイトLLMで、約120億パラメータのデコーダーオンリートランスフォーマーに、テキスト・画像・音声・動画を直接入力できるマルチモーダル機能を統合したモデルです。

重みファイルはHugging FaceとKaggleで無償公開されており、誰でも自由にダウンロード・利用・カスタマイズできます。Apache 2.0ライセンスのため、商業利用や改変・再配布も条件なしに認められています。

基本情報

項目	内容
正式名称	Gemma 4 12B（google/gemma-4-12B）
開発元	Google DeepMind
リリース日	2026年6月3日（QAT版：6月5日）
パラメータ数	11.95B（約120億）
アーキテクチャ	Encoder-free 統合マルチモーダル・デコーダーオンリートランスフォーマー
コンテキスト長	256Kトークン
対応入力	テキスト・画像・音声（最大30秒）・動画（最大60秒）
対応言語	140言語以上
ライセンス	Apache 2.0（商用利用・改変・再配布自由）
月間DL数	90万件超（HuggingFace計測）

Gemma 4ファミリーとGoogle AIの全体像については、Gemma 4とは｜Google製オープンウェイトLLM完全解説で詳しく解説しています。

Gemma 4ファミリー内での位置づけ

Gemma 4には5つのサイズが存在します。12Bはスマートフォン向けE4Bとサーバー向け31B Denseの中間に位置する「ノートPC向けマルチモーダルモデル」という位置づけです。

モデル名	総パラメータ	アクティブパラメータ	主な用途
Gemma 4 E2B	約5B	2B	超軽量（Raspberry Pi等）
Gemma 4 E4B	8B	4B	スマートフォン・エッジデバイス
Gemma 4 12B	12B（11.95B）	12B（Dense）	ノートPC・ローカルマルチモーダル
Gemma 4 26B A4B	26B	4B（MoE）	中規模サーバー・効率的な高性能推論
Gemma 4 31B Dense	31B	31B	最高品質・サーバー

12BはDenseモデルとしてすべてのパラメータがアクティブに働くため、MoE（Mixture of Experts）方式の26Bとは異なり、ハードウェアに対して正直な要求をします。その代わり、推論動作が予測しやすく、ファインチューニングも比較的扱いやすいという特性があります。

Gemma 4 12Bでできること

マルチモーダル処理（テキスト・画像・音声・動画）

Gemma 4 12Bが対応する入力モダリティは4種類です。Gemmaシリーズの中型モデルとして初めて音声をネイティブ入力に対応させた点が大きな特徴です。

入力種別	仕様	主な活用シーン
テキスト	140言語以上・256Kトークン	文書要約・Q&A・翻訳・コード生成
画像	可変解像度・可変アスペクト比	ドキュメント理解・画像説明・OCR的処理
音声	最大30秒・16kHz	会議音声の文字起こし・内容要約
動画	最大60秒・毎秒1フレーム	動画内容説明・シーン理解

256Kトークンのコンテキストウィンドウは、一般的な英語で約192,000語（日本語で約8〜10万字相当）に相当します。長い業務ドキュメントや複数ファイルをまとめて処理するユースケースに対応できます。

推論・エージェント機能

Function Calling（ネイティブ対応）: 外部ツールを呼び出すAIエージェントワークフローを構築できます
マルチターン会話: システムプロンプト対応。継続的な対話ができます
Multi-Token Prediction（MTP）: 複数トークンを先読みする専用ドラフターモデルを搭載し、推論速度を向上させます

主な活用領域

会議音声・議事録の要約とタスク抽出（ローカル完結）
機密文書の解析・要約（個人情報を外部に送信しない）
ローカル完結型AIエージェントの構築
コード生成・レビュー・デバッグ
画像キャプション・PDF/ドキュメント理解
多言語翻訳・ローカライゼーション
カスタムファインチューニング（LoRA / Unsloth対応）

Encoder-freeアーキテクチャとは

Gemma 4 12Bの技術的な核心は「Encoder-freeアーキテクチャ」です。従来のマルチモーダルモデルとの違いを理解することで、なぜ小さいVRAMで動くのかが見えてきます。

従来型との比較

項目	従来型（Gemma 3など）	Gemma 4 12B
画像エンコーダ	5.5億パラメータのVision Transformer	35Mの軽量埋め込みモジュール（単一行列乗算）
音声エンコーダ	独立した音声エンコーダ	廃止。生の16kHz音声を直接LLM空間に線形投影
メモリ効率	エンコーダ分のVRAMが必要	同等〜より少ないVRAMで高性能
レイテンシ	エンコーダ推論のオーバーヘッドあり	エンコーダ不要で低レイテンシ
ファインチューニング	エンコーダとLLMを別々に調整	統一デコーダのLoRA/Unslothで一括調整

画像処理の仕組み: 画像を48×48ピクセルのパッチに分割し、単一の行列乗算でLLMの隠れ次元に投影します。位置情報は座標ルックアップ（Factorized coordinate lookup）で付与します。

音声処理の仕組み: 16kHz音声を40msフレーム（640浮動小数点値）に分割し、各フレームをLLMの隠れ次元に線形投影します。時系列情報は既存のRoPE（回転位置埋め込み）で管理します。

この設計により、「エンコーダを抱えた従来型より少ないパラメータで、マルチモーダル処理を実現している」のがGemma 4 12Bの技術的優位性です。

必要なハードウェア・VRAM要件

「16GB VRAMで動く」というのは量子化版（Q4またはQAT）を使った場合の話です。フル精度（BF16）では約26.7GBが必要になるため、16GBのノートPCには収まりません。

フォーマット別VRAM要件

フォーマット	必要VRAM / 統合メモリ	対象ハードウェア
BF16（フル精度）	約26.7GB	RTX 3090 Ti / A100等
SFP8（8bit量子化）	約13.4GB	RTX 4080 / M3 Max等
Q4_0（4bit量子化）	約6.7GB	16GB VRAM搭載機で余裕動作
QAT版（公式4bit量子化）	7.2GB	16GB VRAM搭載機で推奨

16GB対応の代表的なハードウェア

Apple Silicon（M-series）: MacBook Air M3（16GB）・MacBook Pro M4（16GB〜）でMLX経由での実行が可能
Windows（NVIDIA GPU）: RTX 4070 Ti（16GB VRAM）・RTX 4080（16GB VRAM）等
Copilot+ PC: Q4量子化でのCPU実行は可能だが、GPU/NPU加速の詳細は現時点未確認
CPU-onlyマシン（RAM 16GB以上）: 技術的には可能だが、推論速度が実用的な水準を大きく下回る

注意点: CPU-onlyでの実行は遅すぎて実用的でないケースが多いです。GPU（NVIDIAまたはApple Silicon）を搭載したマシンが推奨です。

QAT版とは（省メモリ実行の決め手）

QATとは「Quantization-Aware Training（量子化を考慮した学習）」の略で、通常の量子化より精度の劣化を抑えながらモデルサイズを大幅に削減する技術です。

Gemma 4 12BのQAT版は2026年6月5日（本体リリースの2日後）にGoogleが公式リリースしました。

項目	QAT版の詳細
リリース日	2026年6月5日
ファイルサイズ	7.2GB（オリジナル比72%削減）
品質	オリジナルと「ほぼ同等」（Google公式）
フォーマット	GGUF（llama.cpp / Ollama向け）、Compressed Tensors（クラウドサービング向け）
配布場所	HuggingFace（`gemma-4-12B-qat-q4_0-gguf`）
Ollamaでの利用	`ollama run gemma4:12b-it-qat`

後付けで量子化した「通常のQ4」と比べて、QAT版はモデルの学習段階から量子化を前提にしているため、精度の劣化が少ないのが特徴です。16GB以下の環境でGemma 4 12Bを使う場合は、通常のQ4よりQAT版を選ぶのが現時点では推奨です。

性能・ベンチマーク

出典: Google DeepMind - Gemma 4

Gemma 4 12B vs 26B MoEの比較

ベンチマーク	Gemma 4 12B	Gemma 4 26B MoE	備考
MMLU Pro	77.2%	82.6%	多分野QA
GPQA Diamond	78.8%	82.3%	科学的専門知識
AIME 2026	77.5%	88.3%	数学推論
LiveCodeBench v6	72.0%	77.1%	コーディング
DocVQA	94.9%	—	ドキュメント理解
InfoVQA	88.4%	—	情報理解
MMMU Pro	69.1%	73.8%	マルチモーダル推論
τ2-bench	85.5%	—	エージェントツール利用

数値の傾向として、12Bは26B MoEに対して全体的に5〜10%程度スコアが下がりますが、DocVQA（94.9%）など文書理解系では高い性能を発揮しています。パラメータ数の差を考えると、12Bは費用対効果の高いモデルと言えます。

出典: HuggingFaceモデルカード（12B）、Google DeepMind公式（26B MoE）。数値はGoogle社が公表したベンダー報告値です。

競合ローカルLLMとの比較

比較項目	Gemma 4 12B	Llama 4 Scout	Phi-4 14B	Qwen 3.6
パラメータ	12B	17B活性（109B総）	14B	非公開
ライセンス	Apache 2.0	Custom（700M MAU制限あり）	MIT	Apache 2.0
16GB VRAM動作	✅（Q4/QAT）	❌（24GB+必要）	△	△
ネイティブ音声入力	✅	❌	❌	❌
コンテキスト長	256K	10M	16K	128K
コーディング強度	高（72.0%）	中	高	最高（83.9%）
数学推論	高（77.5%）	中	高	高
エンコーダフリー設計	✅	❌	❌	❌
商用制限なし	✅	❌	✅	✅

16GB VRAMで動作し、ネイティブ音声に対応し、商用制限なしという3条件を同時に満たすのは、2026年6月時点でGemma 4 12Bだけです。コーディング特化の用途ではQwen 3.6が上回りますが、マルチモーダルの汎用性と動作条件のバランスでGemma 4 12Bは差別化されています。

Llama 4 Scoutとの詳細な比較については、Google I/O 2026での発表内容も参考になります。Google I/O 2026 全発表まとめで各モデルの位置づけを確認できます。

Gemma 4 12Bの動かし方・使い方

方法1：Ollama（最も簡単なローカル実行）

Ollamaはコマンド1つでGemma 4 12Bをローカル実行できる最も手軽な方法です。GUIが不要で、M-series MacでもWindowsでもLinuxでも動作します。

必須条件: 最新版のOllama（ollama.comから導入）

# 通常版（Q4_K_M量子化・7.6GB）
ollama pull gemma4:12b
ollama run gemma4:12b

# QAT版（公式推奨・7.2GB）
ollama run gemma4:12b-it-qat

# マルチモーダル（画像入力）例
ollama run gemma4:12b "この画像を説明してください。" --image /path/to/image.jpg

インストールはOllama公式サイト（ollama.com）からダウンロードして実行するだけです。APIサーバーが自動起動するため、http://localhost:11434でOpenAI互換APIとして利用できます。

方法2：LM Studio（GUIで手軽に試す）

GUIで操作したいWindows・Macユーザー向けの選択肢です。モデルの検索・ダウンロード・チャットがすべてグラフィカルなUIで完結します。

LM Studio公式サイトからダウンロード・インストール
検索バーで「Gemma 4 12B」を入力
QAT版（gemma-4-12B-qat-q4_0-gguf）を選択してダウンロード
「Chat」タブでそのまま会話開始

OpenAI互換のローカルAPIサーバーとしても動作するため、既存のアプリケーションをローカルLLMに切り替える際にも活用できます。

方法3：Google AI Studio（インストール不要の無料API）

ローカル環境を用意したくない場合は、Google AI Studio経由でAPI利用ができます。インストール不要で、ブラウザからすぐに試せます。

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
    model="gemma-4-12b-it",
    contents="Gemma 4 12Bの特徴を教えてください"
)
print(response.text)

項目	内容
アクセス先	ai.google.dev でAPIキー取得
無料枠	15リクエスト/分（日次トークン上限あり）
SDK	`google-genai` Python SDK（pip installで導入）
移行先	Vertex AI（商用・大量利用時）

注意: Google AI Studioを使った場合、リクエストはGoogleのサーバーに送信されます。機密情報や個人情報を含むデータを処理する場合はローカル実行を選んでください。

方法4：HuggingFace Transformers（Python・開発者向け）

pip install -U transformers torch accelerate

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

processor = AutoProcessor.from_pretrained("google/gemma-4-12B-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-12B-it",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

推奨サンプリング設定: temperature=1.0, top_p=0.95, top_k=64（Google公式推奨値）

ファインチューニングを行う場合はUnsloth経由のLoRAが現時点での主流です。

ローカル実行ツール比較

ツール	特徴	適した用途
Ollama	コマンド1つで起動・最も簡単	個人実験・開発入門
LM Studio	GUIで操作できる	Windows/Macユーザーの入門
llama.cpp	CPU対応・最軽量	VRAM不足時・CPU推論
vLLM	高スループット（Ollamaの数倍〜十数倍）	プロダクション・複数ユーザー対応
MLX	Apple Silicon最適化	MacでのM-series高速実行
SGLang	サーバーフレームワーク	API公開・バッチ処理
LiteRT-LM	Google公式エッジランタイム	モバイル・組込み用途

できないこと・制約・注意点

Gemma 4 12Bの限界を正確に把握しておくことが、適切な用途選定につながります。

制約事項	詳細
画像生成	非対応。画像の理解・分析のみ可能
音声入力上限	最大30秒。それ以上は分割処理が必要
動画入力上限	最大60秒・毎秒1フレーム。長尺・高フレームレートは非対応
リアルタイム音声	リアルタイムのSpeech-to-Speech（STS）は非対応
CPU-only実行	技術的には可能だが推論速度が実用域を大きく下回る
最高品質の推論	31B DenseやGemini 4クラウドモデルには性能が劣る
日本語特化精度	140言語対応だが日本語ベンチマーク（JMMMU: 45.7%の報告あり）は英語より低め
音声文字起こし専用	文字起こしのみならWhisperの方が軽量・高速
超長文コンテキスト	256Kトークンが上限（Llama 4 Scoutの10Mトークンには及ばない）

日本語性能についての注意: 12B固有の公式日本語ベンチマーク値は2026年6月時点では未公開です。日本語タスクの精度は英語より若干低い傾向があるため、業務導入前には実際のデータでPoC（概念実証）を行うことを推奨します。

GeminiとGemmaの違い（クラウドAI vs ローカルLLM）

Geminiも同じGoogleが開発していますが、GeminiとGemmaはまったく異なる用途向けの製品です。

比較軸	Gemini 4（クラウドAI）	Gemma 4 12B（ローカルLLM）
実行場所	Googleのクラウドサーバー	自分のPC・サーバー
データの外部送信	あり（Googleサーバーに送信）	なし（完全ローカル）
性能	最高水準（大型モデル）	中上位（12Bクラスの実力）
コスト	API料金（従量制）	ハードウェア代のみ（実行コスト0）
カスタマイズ	限定的	LoRA等でファインチューニング自由
オフライン利用	不可	可能
ライセンス	商用利用はAPI利用規約に従う	Apache 2.0（完全自由）

使い分けの基準:

Geminiを選ぶべき場合: 最高品質の回答が必要・APIとして素早く統合したい・大量の非機密データ処理
Gemma 4 12Bを選ぶべき場合: 機密情報・個人情報を扱う・インターネット接続なしで動かしたい・独自カスタマイズをしたい・ランニングコストをゼロにしたい

Gemini 4の詳細についてはGemini 4とは｜Google最新AIの機能・料金・Gemini 3.5との違いを参照してください。

Gemmaファミリーの画像生成特化モデルについてはDiffusionGemmaとは｜Googleの画像生成特化モデル解説で詳しく解説しています。

ライセンスと商用利用

Gemma 4 12BはApache 2.0ライセンスで提供されています。これは最も自由度の高いオープンソースライセンスのひとつで、以下が無条件で許可されます。

商業製品・サービスへの組み込み
モデルの改変・派生モデルの作成
改変版の再配布（有償・無償問わず）
社内システムへのデプロイ

ただし、Google Gemma利用規約が追加で適用されます。以下は禁止です：

武器開発・大量破壊兵器への使用
児童性的搾取コンテンツの生成
違法活動・人権侵害への利用

比較として、Llama 4はカスタムライセンスで月間アクティブユーザー7億人超の場合にMetaの許可が必要です。Gemma 4のApache 2.0はこのような商用規模制限がなく、大規模なビジネス利用でも追加申請が不要です。

Gemma 4 12Bが向いている人・向いていない人

こんな人・組織におすすめ

1. 機密データを外部送信したくない業務担当者

医療・法律・金融・人事など、機密性の高い情報を扱う業務でローカルAIを活用したい場合に最適です。データが一切外部サーバーに送られないため、情報漏えいリスクを排除できます。

2. 16GB搭載ノートPCやApple Silicon Macユーザー

QAT版（7.2GB）を使えば、M2/M3/M4 MacBook Air（16GB）やRTX 4070 Ti搭載のWindowsノートで余裕を持って動作します。クラウドAPIのコストを払わずにマルチモーダルAIを使いたい方に向いています。

3. カスタムAIモデルを開発・研究したい方

Apache 2.0ライセンスにより、LoRAファインチューニングで独自データに最適化したり、派生モデルを商業製品に組み込んだりすることが自由にできます。

4. マルチモーダルのローカルエージェントを構築したい開発者

Function Calling対応・音声ネイティブ入力・256Kコンテキストを組み合わせると、音声や画像を入力として受け付けるローカルエージェントを構築できます。競合LLMでこの組み合わせを実現できるものは2026年6月時点では少ない状況です。

5. 複数の入力モダリティをまとめて扱いたい場合

テキスト・画像・音声・動画をひとつのAPIで処理できるため、入力種別ごとに別モデルを管理する複雑さを避けられます。

こんな場合はおすすめしない

1. とにかく最高品質の回答が必要な場合

Gemini 4 UltraやClaude 4 Opusなどの大型クラウドモデルに比べると、複雑な推論や創造的なタスクでは品質が下がります。品質最優先であればクラウドモデルを選んでください。

2. 数学・コーディングに特化した用途

LiveCodeBenchでQwen 3.6（83.9%）に対して72.0%と差があります。コーディング専用ならQwen 3.6やDeepSeek-Coder系モデルの方が得意です。

3. 長い音声・動画を処理したい場合

音声は最大30秒、動画は最大60秒・1fpsという制限があります。長時間の会議録音を一括処理するにはWhisper等との組み合わせが必要です。

4. CPU-onlyの低スペックマシンしかない場合

GPU（NVIDIAまたはApple Silicon）がない環境では、推論速度が実用に耐えないケースがほとんどです。

5. インターネット経由でサクッと使いたいだけの場合

Google AI Studio（無料API）で試すことはできますが、手軽さではChatGPTやGemini.googleの方が上です。Gemma 4 12Bの真価はローカル実行にあります。

よくある質問（FAQ）

Q1. Gemma 4 12BはGemini 4と同じモデルですか？

いいえ、異なります。Gemini 4はGoogleのクラウドAIサービスで、クローズドなモデルです。Gemma 4 12Bはオープンウェイトで、重みを自由にダウンロードして自分の環境で実行できます。両者ともGoogle DeepMindが開発していますが、目的が異なります。

Q2. MacBook Air（M3・16GB）で動きますか？

公式QAT版（7.2GB）を使えば動作します。MLXフレームワーク経由での実行がApple Silicon環境では最も高速です。OllamaでもMLXバックエンドが選択できるため、実際にはOllama一択で問題ない場合がほとんどです。ただし16GBメモリはOSや他のアプリと共有するため、他のアプリを最小化して使うことを推奨します。

Q3. 無料で使えますか？

モデルの重みは無償公開されており、ローカル実行のコストは電気代とハードウェア代だけです。Google AI Studio経由のAPIも無料枠があります（15リクエスト/分）。大量利用やVertex AI経由の場合はGoogleの料金体系が適用されます。

Q4. 日本語は使えますか？

140言語以上に対応しており日本語も含まれますが、英語に比べると精度が若干下がる傾向があります。2026年6月時点で12B固有の公式日本語ベンチマーク値は公開されていないため、業務利用前にはご自身のデータでテストすることを推奨します。

Q5. 商用アプリに組み込めますか？

Apache 2.0ライセンスのため、商用製品・サービスへの組み込みは自由です。Google Gemma利用規約の禁止事項（武器開発・有害コンテンツ生成等）に反しない限り、規模や用途の制限はありません。

Q6. QAT版と通常のQ4量子化の違いは何ですか？

通常のQ4は学習済みモデルを後から量子化するため、精度が一定程度低下します。QAT（Quantization-Aware Training）版はGoogle DeepMindが学習段階から量子化を前提に最適化したもので、精度の低下が少なく「オリジナルとほぼ同等」の性能を維持します。同じメモリ使用量なら、QAT版の方が精度が高いです。

Q7. Gemma 4の他のモデルサイズと何が違うのですか？

Gemma 4ファミリーの中で、12Bは唯一のDenseマルチモーダルモデルです。E2B/E4Bはスマートフォン向けに特化した超軽量版、26B A4BはMoEアーキテクチャで効率的な推論を実現したサーバー向け、31B Denseはさらなる高品質を求めるサーバー向けです。12Bは「16GBノートPCで動く音声対応マルチモーダル」という点でユニークな位置にいます。Gemma 4ファミリー全体の比較も参考にしてください。