AI革命 - 生成AIコンサルティング・受託開発

Gemma 4（ジェマ 4）は、Google DeepMindが2026年4月2日にリリースした、無料で商用利用もできるオープンAIモデルです。Googleのクラウドサービス「Gemini」の技術基盤をもとに開発されており、テキスト・画像・音声・動画を処理できるマルチモーダル対応と、エージェント型のタスク自律実行を強みとしています。

本記事では、Gemma 4の定義・できること・4モデルの選び方・強み・弱み・料金・使い方・Llama 4やQwen 3.5との違い・向いている人まで、導入判断に必要な情報をまとめて解説します。「GemmaとGeminiの違いがわからない」「どのサイズのモデルを使えばいいか知りたい」「自社のPCで動かせるか確認したい」という方を想定しています。

GemmaとGeminiの違い

Gemma 4を理解するうえで、まず「Gemma」と「Gemini」の違いを整理しておくことが重要です。名前が似ているため混同されやすいですが、役割がまったく異なります。

項目	Gemini	Gemma
提供形態	Googleのクラウドサービス（API/Web）	ダウンロードして使えるオープンモデル
実行環境	Googleのサーバー上で動作	自分のPC・サーバーで動作可能
料金	従量課金（API）/ 無料枠あり	モデル自体は無料
データの扱い	Googleにデータが送信される	ローカル実行ならデータは外部に出ない
カスタマイズ	不可（API経由で利用するのみ）	ファインチューニング・改変が自由
ライセンス	プロプライエタリ	Apache 2.0（商用利用・再配布自由）

一言でまとめると、GeminiはGoogleが運営するAIサービス、GemmaはそのGeminiの技術をベースに作られた「持ち帰って自由に使えるAIモデル」です。

Gemma 4でできること

Gemma 4は、テキスト処理だけでなく、画像・音声・動画の理解やエージェント的な自律タスク実行まで幅広く対応しています。

テキスト処理

高度な推論・論理問題: 数学（AIME 2026で89.2%）、科学、論理的な分析タスクに高い精度で対応
コード生成・レビュー: LiveCodeBench v6で80%、Codeforces ELOは2150（エキスパートレベル）。前世代Gemma 3から飛躍的に向上
140以上の言語に対応: 多言語での文章生成・翻訳・要約が可能
長文脈処理: 最大256Kトークン（約19万語相当）のコンテキストを扱える（31B/26Bモデル）

マルチモーダル処理

画像理解: 物体検出、OCR（文字認識）、画像の説明生成。可変アスペクト比にも対応
音声理解: 音声の文字起こし、音声に対する質問応答（E2B/E4Bモデル、最大30秒）
動画理解: 動画の内容要約・質問応答（31B/26Bモデル、最大60秒）

エージェント機能

マルチステップ計画: 複数の手順を自律的に計画・実行
ファンクションコーリング: 外部ツールやAPIを呼び出して情報取得・操作を実行
思考モード（Thinking）: enable_thinking=Trueで段階的な推論過程を表示し、透明性のある回答を生成

できないこと

画像・音声・動画の生成: 入力の理解はできるが、出力はテキストのみ
リアルタイム情報の取得: 訓練データのカットオフは2025年1月。単体でのWeb検索機能はない
音声処理は小型モデルのみ: 31B/26Bモデルは音声に非対応
動画処理は大型モデルのみ: E2B/E4Bモデルは動画に非対応

Gemma 4のモデルラインアップと選び方

Gemma 4には4つのモデルサイズがあり、用途や手持ちのハードウェアに応じて選べます。各モデルにはbase版（事前学習済み）とIT版（指示チューニング済み）があります。

モデル一覧（2026年4月時点）

モデル	パラメータ数	アーキテクチャ	コンテキスト長	対応モダリティ	推論メモリ（BF16）	推論メモリ（Q4量子化）
E2B	2.3B（実効値）	Dense + PLE	128K	テキスト・画像・音声	9.6GB	3.2GB
E4B	4.5B（実効値）	Dense + PLE	128K	テキスト・画像・音声	15GB	5GB
26B A4B	4B active / 26B total	MoE	256K	テキスト・画像・動画	48GB	15.6GB
31B	31B	Dense	256K	テキスト・画像・動画	58.3GB	17.4GB

用途別おすすめモデル

「どのモデルを選べばいいかわからない」という方のために、用途別の目安を整理しました。

用途	おすすめモデル	理由
スマホ・Raspberry Piでのチャットボット	E2B	量子化で1.5GB未満のメモリで動作。オフラインでも利用可能
ノートPCでの文章作成・要約	E4B	8GB RAMのPCで動作。音声入力にも対応
社内文書の分析・長文処理	26B A4B	MoEで効率的に高精度を実現。256Kコンテキストで長文に強い
最高精度のコード生成・研究開発	31B	ベンチマーク最高スコア。ただし24GB以上のGPU推奨

必要なハードウェアの目安

モデル	最低構成	推奨構成	概算費用（GPU）
E2B（Q4量子化）	4GB RAM PC / Raspberry Pi 5	8GB RAM PC	不要（CPU動作可）
E4B（Q4量子化）	8GB RAM PC	16GB RAM PC	不要（CPU動作可）
26B A4B（Q4量子化）	16GB VRAM GPU	RTX 4090（24GB）	約25〜30万円
31B（Q4量子化）	24GB VRAM GPU	RTX 4090 / A6000	約25〜80万円
31B（BF16非量子化）	64GB VRAM（マルチGPU）	A100 80GB / H100	クラウド推奨

Apple Silicon（M1〜M4）搭載のMacでは、ユニファイドメモリを活用してMLX経由で効率的に実行できます。M4 Pro（48GB）であれば31Bの量子化版も実行可能です。

Gemma 4の強み

1. 完全無料・Apache 2.0ライセンス

Gemma 4はApache 2.0ライセンスで公開されており、商用利用・改変・再配布がすべて無料で自由に行えます。従来のGemmaシリーズは独自ライセンスでしたが、Gemma 4で初めてApache 2.0を採用し、企業が自社プロダクトに組み込む際の法的ハードルが大きく下がりました。

2. パラメータ効率が非常に高い

Gemma 4の31Bモデルは、自身の20倍以上のパラメータを持つモデルを上回るベンチマーク結果を出しています。Arena AIリーダーボード（テキスト）ではElo 1452でオープンモデル世界第3位。小さなモデルで高い性能を得られるため、実行コストを抑えやすい設計です。

3. エッジ・ローカル実行に強い

E2Bモデルは量子化すれば1.5GB未満のメモリで動作し、Raspberry Pi 5でもプレフィル133トークン/秒、デコード7.6トークン/秒で応答します。スマートフォンやIoTデバイスでの完全オフラインAIが現実的な選択肢になっています。前世代比でバッテリー消費は最大60%改善されています。

4. データが外に出ないローカルAI

ローカル実行であればデータがGoogleのサーバーに一切送信されません。日本の個人情報保護法への対応が必要な企業や、機密情報を扱う医療・金融・法務分野で、「AIは使いたいがデータを外部に出せない」という課題を解決できます。

5. エージェント機能をネイティブサポート

ファンクションコーリングやマルチステップの計画実行をモデルレベルで対応しているため、外部ツールと連携した自律的なワークフローを構築しやすくなっています。

6. エコシステムが充実

リリース初日から、Ollama、llama.cpp、Hugging Face Transformers、MLX、vLLM、NVIDIA NIMなど主要なフレームワークでDay-0サポートが提供されています。導入のしやすさはオープンモデルの中でもトップクラスです。

Gemma 4の弱み・注意点

1. 大型モデルには高性能GPUが必要

31Bモデルを非量子化で動かすには58.3GB以上のVRAMが必要です。256Kフルコンテキストを利用する場合は80GB超。個人のPCでは量子化が前提になり、量子化による精度低下のトレードオフがあります。

2. 出力はテキストのみ

画像・音声・動画を入力として理解できますが、出力はすべてテキストです。画像生成や音声合成が必要な場合は、別のツール（Stable Diffusion等）との組み合わせが必要です。

3. 長文脈での精度低下

256Kトークンのコンテキストをフル活用する場合、特にMoEモデル（26B A4B）では精度が低下する傾向があります。MRCR v2（128K）ベンチマークで26Bは44.1%にとどまっており、長文脈での利用時は注意が必要です。

4. 音声・動画対応がモデルによって異なる

音声入力はE2B/E4Bのみ、動画理解は31B/26Bのみと、モデルサイズによって対応モダリティが分かれています。「音声も動画もすべて1つのモデルで」という使い方は現時点ではできません。

5. リアルタイム情報の取得不可

訓練データのカットオフは2025年1月です。最新のニュースや時事情報は取得できず、単体でのWeb検索機能もありません。RAG（検索拡張生成）などの外部連携が必要になります。

6. 日本語特化のベンチマークが未公表

公式は140言語対応を謳っていますが、日本語固有のベンチマーク（JHumanEval、JGLUE等）のスコアは2026年4月時点で公表されていません。日本語の品質は実際に試して確認する必要があります。

Gemma 4の料金

Gemma 4はオープンウェイトモデルのため、モデル自体は完全無料です。 かかるのはハードウェアコストまたはクラウド利用料のみです。

利用方法	費用	備考
ローカル実行（自分のPC）	無料（ハードウェア費用のみ）	Ollama、llama.cpp等で実行
Google AI Studio	無料	31B / 26B MoEが利用可能
Google Cloud Vertex AI	Google Cloudの従量課金	Model Garden経由
Hugging Face	無料	モデルダウンロード・デモ推論
サードパーティAPI（OpenRouter等）	入力: $0.14/100万トークン、出力: $0.40/100万トークン	2026年4月時点の参考価格。変動あり

商用利用でもライセンス料は不要です。Apache 2.0ライセンスのため、自社プロダクトへの組み込みや派生モデルの再配布も自由に行えます。ただし、再配布時は著作権表示とライセンス文の保持が必要です。また、「Gemma」「Google」の商標使用権は付与されていないため、派生モデルの命名には注意してください。

Gemma 4の使い方

Gemma 4を実際に動かす方法を、代表的な3つの手段で紹介します。

方法1: Ollamaでローカル実行（最も手軽）

Ollamaはローカル環境でLLMを動かすためのツールで、Gemma 4をDay-0サポートしています。

# Ollamaのインストール（macOS / Linux）
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 E4Bモデルの実行（8GB RAMのPCで動作可能）
ollama run gemma4:e4b

# Gemma 4 26B MoEモデルの実行（24GB GPU推奨）
ollama run gemma4:26b-a4b

方法2: Google AI Studioで試す（インストール不要）

Google AI Studio（https://aistudio.google.com/）にアクセスすれば、ブラウザ上でGemma 4の31Bモデルや26B MoEモデルを無料で試せます。ハードウェアの準備が不要で、まず性能を確認したい場合に最適です。

方法3: Hugging Face Transformersで実行

Pythonコードから柔軟に利用したい場合は、Hugging Face Transformersを使います。

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

inputs = tokenizer("Gemma 4の特徴を教えてください", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

その他の実行方法

llama.cpp: GGUF量子化版をCPUで高速実行
MLX: Apple Silicon（M1〜M4）に最適化されたフレームワーク
vLLM / SGLang: サーバーサイドでの高スループット推論
NVIDIA NIM: NVIDIA GPUに最適化されたコンテナデプロイ
Google AI Edge Gallery: Android / iOS端末での実行

Gemma 3からの進化ポイント

Gemma 4は前世代のGemma 3から大幅に性能が向上しています。

比較項目	Gemma 3	Gemma 4
コーディング（Codeforces ELO）	110	2,150（約20倍）
コーディング（LiveCodeBench）	約27%	80%（約3倍）
ライセンス	Gemma独自ライセンス	Apache 2.0（商用利用の自由度が大幅向上）
音声入力	非対応	E2B/E4Bでネイティブ対応
エージェント機能	限定的	ファンクションコーリング・マルチステップ計画をネイティブサポート
MoEモデル	なし	26B A4B（4Bアクティブ / 26Bトータル）を追加
実行速度	基準	最大4倍高速化
バッテリー消費	基準	最大60%削減

特にコーディング能力の向上は劇的で、Codeforces ELOが110から2,150に跳ね上がっています。これはオープンモデルの中でもトップクラスの水準です。

競合オープンモデルとの比較

Gemma 4の主な競合は、Meta の Llama 4 と Alibaba の Qwen 3.5 です。2026年4月時点での比較を整理します。

主要オープンモデル比較表

比較項目	Gemma 4（31B）	Llama 4 Scout（109B）	Qwen 3.5（27B）
開発元	Google DeepMind	Meta	Alibaba Cloud
パラメータ数	31B	109B（17B active）	27B
ライセンス	Apache 2.0	Llama Community License	Apache 2.0
コンテキスト長	256K	10M	128K
MMLU Pro	85.2%	非公表	Gemma 4以下
コーディング（Codeforces ELO）	2,150	—	—
マルチモーダル	テキスト・画像・動画	テキスト・画像	テキスト
音声対応	あり（E2B/E4B）	なし	なし
エッジ実行	E2Bで1.5GB未満	大型モデルが中心	小型モデルあり
日本語対応	140言語対応（日本語含む）	多言語対応	多言語対応（中国語に強み）
エージェント機能	ネイティブ対応	対応	対応
商用利用	完全自由	Meta独自ライセンス（条件付き）	完全自由

選び方の目安

ライセンスの自由度を重視するなら → Gemma 4 または Qwen 3.5（Apache 2.0）
マルチモーダル（音声含む）をローカルで使いたいなら → Gemma 4（音声対応の小型モデルを持つ唯一の選択肢）
超長文脈を扱いたいなら → Llama 4 Scout（10Mトークン対応）
コーディング性能を最優先するなら → Gemma 4 31B（Codeforces ELO 2,150）
エッジデバイスで動かしたいなら → Gemma 4 E2B（Raspberry Pi 5でも動作）

ローカルAIとしてのメリット（日本企業向け）

Gemma 4の最大の特徴の一つが、自社の環境だけで完結するローカルAI運用が可能な点です。日本企業にとって具体的にどんなメリットがあるかを整理します。

データが外部に一切出ない

ローカル実行であれば、入力したデータがGoogleを含む外部サーバーに送信されることはありません。個人情報保護法の遵守が求められる顧客データの処理や、NDA（秘密保持契約）で保護された情報の分析に活用できます。

オフライン環境でも動作する

インターネット接続がなくても動作するため、工場・研究施設・医療現場など、ネットワーク接続が制限される環境でもAIを利用できます。

クラウドAPI費用が発生しない

モデル自体は無料で、実行に必要なのはハードウェア費用のみです。大量のリクエストを処理する場合、クラウドAPIの従量課金と比較して長期的なコスト削減が見込めます。

ファインチューニングで自社業務に最適化できる

Apache 2.0ライセンスのため、自社の業務データでファインチューニング（追加学習）を行い、特定のタスクに特化したモデルを自由に作成できます。Unsloth、Hugging Face TRL、Keras等のフレームワークが対応しています。

注意すべき法的事項

ローカル実行であっても、以下の規制への対応は必要です。

医療用途: 薬機法のSaMD（医療機器プログラム）規制、厚労省ガイドラインへの準拠
個人情報の処理: 個人情報保護法に基づく適切な取り扱い
EU向けサービス: AI Act等の規制に注意

こんな方におすすめ

Gemma 4が向いている人

データを外部に出したくない企業・組織: 機密情報や個人情報を扱う業務でAIを活用したい
自社プロダクトにAIを組み込みたい開発者: Apache 2.0ライセンスで商用利用が自由
エッジデバイスでAIを動かしたいIoTエンジニア: E2Bモデルなら1.5GB未満のメモリで動作
コスト効率を重視するスタートアップ: クラウドAPIの従量課金を避けたい
最新のオープンモデルを試したいAI研究者・開発者: Day-0の充実したエコシステム

Gemma 4をおすすめしない人

インストールや環境構築なしでAIを使いたい人: ChatGPTやGeminiのようなWebサービスの方が手軽
画像生成やマルチメディア出力が必要な人: Gemma 4の出力はテキストのみ
常に最新情報をもとに回答してほしい人: 訓練データのカットオフがあり、リアルタイム検索機能はない
日本語の品質を最優先する人: 日本語ベンチマークが未公表のため、実際に試しての確認が必要
GPUやサーバーの管理に時間をかけたくない人: ローカル実行にはハードウェアの準備とメンテナンスが伴う

よくある質問（FAQ）

Q1. GemmaとGeminiは何が違うの？

Geminiは Google が運営するクラウドAIサービスで、ブラウザやAPIから利用します。Gemmaは Gemini の技術をベースにした、ダウンロードして自分の環境で動かせるオープンモデルです。Gemma 4はローカル実行できるため、データが外部に出ないメリットがあります。

Q2. 本当に無料で使えるの？

モデル自体は完全無料です。Apache 2.0ライセンスのため、商用利用や改変・再配布にもライセンス料はかかりません。ただし、ローカル実行にはハードウェア費用が、クラウド利用（Vertex AI等）には従量課金がかかります。

Q3. 自分のPCで動かせる？

E2Bモデルなら4GB RAMのPCでも量子化版を動作させられます。E4Bは8GB RAM、26B A4Bは16〜24GB VRAMのGPU、31Bは24GB以上のGPUが推奨です。Apple Silicon搭載のMacであれば、MLX経由でユニファイドメモリを活用した効率的な実行が可能です。

Q4. ファインチューニングはできる？

はい。Apache 2.0ライセンスのもと、自社データでのファインチューニングが自由に行えます。Unsloth、Hugging Face TRL、Keras/JAX等のフレームワークが対応しています。

Q5. ChatGPTやClaudeの代わりになる？

用途によります。テキスト生成やコード作成では高い性能を発揮しますが、ChatGPTのようなプラグインエコシステムやClaudeのような超長文コンテキスト（100万トークン）は備えていません。「データを外部に出したくない」「自社プロダクトに組み込みたい」という要件がある場合にGemma 4が有力な選択肢になります。

Q6. 日本語は使える？

140以上の言語に対応しており、日本語も含まれています。ただし、日本語固有のベンチマークスコアは公式に公表されていないため、精度については実際に試して確認することを推奨します。

まとめ：Gemma 4は「自分の環境で動かせる高性能AI」

Gemma 4は、Google DeepMindが2026年4月にリリースしたオープンAIモデルで、以下の点が特徴です。

完全無料・Apache 2.0: 商用利用・改変・再配布が自由
4つのモデルサイズ: スマホから研究用GPUまで、用途に合わせて選べる
マルチモーダル: テキスト・画像・音声・動画を統合的に処理
エージェント機能: ファンクションコーリングやマルチステップ計画に対応
ローカル実行: データが外部に出ない安心感。オフラインでも動作

「自社の環境でAIを活用したいが、クラウドにデータを送りたくない」「オープンモデルで自社プロダクトを開発したい」という方にとって、Gemma 4は現時点で有力な選択肢の一つです。

他のAIツールとの比較を知りたい方は、「生成AIツールおすすめ比較」もあわせてご覧ください。AIコーディングツールに関心がある方は「AIコーディングツールおすすめ比較」が参考になります。