Gemma 4とは?特徴・モデル比較・使い方・Llama 4との違いをわかりやすく解説

Gemma 4(ジェマ 4)は、Google DeepMindが2026年4月2日にリリースした、無料で商用利用もできるオープンAIモデルです。Googleのクラウドサービス「Gemini」の技術基盤をもとに開発されており、テキスト・画像・音声・動画を処理できるマルチモーダル対応と、エージェント型のタスク自律実行を強みとしています。
本記事では、Gemma 4の定義・できること・4モデルの選び方・強み・弱み・料金・使い方・Llama 4やQwen 3.5との違い・向いている人まで、導入判断に必要な情報をまとめて解説します。「GemmaとGeminiの違いがわからない」「どのサイズのモデルを使えばいいか知りたい」「自社のPCで動かせるか確認したい」という方を想定しています。
GemmaとGeminiの違い
Gemma 4を理解するうえで、まず「Gemma」と「Gemini」の違いを整理しておくことが重要です。名前が似ているため混同されやすいですが、役割がまったく異なります。
項目 | Gemini | Gemma |
|---|---|---|
提供形態 | Googleのクラウドサービス(API/Web) | ダウンロードして使えるオープンモデル |
実行環境 | Googleのサーバー上で動作 | 自分のPC・サーバーで動作可能 |
料金 | 従量課金(API)/ 無料枠あり | モデル自体は無料 |
データの扱い | Googleにデータが送信される | ローカル実行ならデータは外部に出ない |
カスタマイズ | 不可(API経由で利用するのみ) | ファインチューニング・改変が自由 |
ライセンス | プロプライエタリ | Apache 2.0(商用利用・再配布自由) |
一言でまとめると、GeminiはGoogleが運営するAIサービス、GemmaはそのGeminiの技術をベースに作られた「持ち帰って自由に使えるAIモデル」です。
Gemma 4でできること
Gemma 4は、テキスト処理だけでなく、画像・音声・動画の理解やエージェント的な自律タスク実行まで幅広く対応しています。
テキスト処理
- 高度な推論・論理問題: 数学(AIME 2026で89.2%)、科学、論理的な分析タスクに高い精度で対応
- コード生成・レビュー: LiveCodeBench v6で80%、Codeforces ELOは2150(エキスパートレベル)。前世代Gemma 3から飛躍的に向上
- 140以上の言語に対応: 多言語での文章生成・翻訳・要約が可能
- 長文脈処理: 最大256Kトークン(約19万語相当)のコンテキストを扱える(31B/26Bモデル)
マルチモーダル処理
- 画像理解: 物体検出、OCR(文字認識)、画像の説明生成。可変アスペクト比にも対応
- 音声理解: 音声の文字起こし、音声に対する質問応答(E2B/E4Bモデル、最大30秒)
- 動画理解: 動画の内容要約・質問応答(31B/26Bモデル、最大60秒)
エージェント機能
- マルチステップ計画: 複数の手順を自律的に計画・実行
- ファンクションコーリング: 外部ツールやAPIを呼び出して情報取得・操作を実行
- 思考モード(Thinking): enable_thinking=Trueで段階的な推論過程を表示し、透明性のある回答を生成
できないこと
- 画像・音声・動画の生成: 入力の理解はできるが、出力はテキストのみ
- リアルタイム情報の取得: 訓練データのカットオフは2025年1月。単体でのWeb検索機能はない
- 音声処理は小型モデルのみ: 31B/26Bモデルは音声に非対応
- 動画処理は大型モデルのみ: E2B/E4Bモデルは動画に非対応
Gemma 4のモデルラインアップと選び方

Gemma 4には4つのモデルサイズがあり、用途や手持ちのハードウェアに応じて選べます。各モデルにはbase版(事前学習済み)とIT版(指示チューニング済み)があります。
モデル一覧(2026年4月時点)
モデル | パラメータ数 | アーキテクチャ | コンテキスト長 | 対応モダリティ | 推論メモリ(BF16) | 推論メモリ(Q4量子化) |
|---|---|---|---|---|---|---|
E2B | 2.3B(実効値) | Dense + PLE | 128K | テキスト・画像・音声 | 9.6GB | 3.2GB |
E4B | 4.5B(実効値) | Dense + PLE | 128K | テキスト・画像・音声 | 15GB | 5GB |
26B A4B | 4B active / 26B total | MoE | 256K | テキスト・画像・動画 | 48GB | 15.6GB |
31B | 31B | Dense | 256K | テキスト・画像・動画 | 58.3GB | 17.4GB |
用途別おすすめモデル
「どのモデルを選べばいいかわからない」という方のために、用途別の目安を整理しました。
用途 | おすすめモデル | 理由 |
|---|---|---|
スマホ・Raspberry Piでのチャットボット | E2B | 量子化で1.5GB未満のメモリで動作。オフラインでも利用可能 |
ノートPCでの文章作成・要約 | E4B | 8GB RAMのPCで動作。音声入力にも対応 |
社内文書の分析・長文処理 | 26B A4B | MoEで効率的に高精度を実現。256Kコンテキストで長文に強い |
最高精度のコード生成・研究開発 | 31B | ベンチマーク最高スコア。ただし24GB以上のGPU推奨 |
必要なハードウェアの目安
モデル | 最低構成 | 推奨構成 | 概算費用(GPU) |
|---|---|---|---|
E2B(Q4量子化) | 4GB RAM PC / Raspberry Pi 5 | 8GB RAM PC | 不要(CPU動作可) |
E4B(Q4量子化) | 8GB RAM PC | 16GB RAM PC | 不要(CPU動作可) |
26B A4B(Q4量子化) | 16GB VRAM GPU | RTX 4090(24GB) | 約25〜30万円 |
31B(Q4量子化) | 24GB VRAM GPU | RTX 4090 / A6000 | 約25〜80万円 |
31B(BF16非量子化) | 64GB VRAM(マルチGPU) | A100 80GB / H100 | クラウド推奨 |
Apple Silicon(M1〜M4)搭載のMacでは、ユニファイドメモリを活用してMLX経由で効率的に実行できます。M4 Pro(48GB)であれば31Bの量子化版も実行可能です。
Gemma 4の強み
1. 完全無料・Apache 2.0ライセンス
Gemma 4はApache 2.0ライセンスで公開されており、商用利用・改変・再配布がすべて無料で自由に行えます。従来のGemmaシリーズは独自ライセンスでしたが、Gemma 4で初めてApache 2.0を採用し、企業が自社プロダクトに組み込む際の法的ハードルが大きく下がりました。
2. パラメータ効率が非常に高い
Gemma 4の31Bモデルは、自身の20倍以上のパラメータを持つモデルを上回るベンチマーク結果を出しています。Arena AIリーダーボード(テキスト)ではElo 1452でオープンモデル世界第3位。小さなモデルで高い性能を得られるため、実行コストを抑えやすい設計です。
3. エッジ・ローカル実行に強い
E2Bモデルは量子化すれば1.5GB未満のメモリで動作し、Raspberry Pi 5でもプレフィル133トークン/秒、デコード7.6トークン/秒で応答します。スマートフォンやIoTデバイスでの完全オフラインAIが現実的な選択肢になっています。前世代比でバッテリー消費は最大60%改善されています。
4. データが外に出ないローカルAI
ローカル実行であればデータがGoogleのサーバーに一切送信されません。日本の個人情報保護法への対応が必要な企業や、機密情報を扱う医療・金融・法務分野で、「AIは使いたいがデータを外部に出せない」という課題を解決できます。
5. エージェント機能をネイティブサポート
ファンクションコーリングやマルチステップの計画実行をモデルレベルで対応しているため、外部ツールと連携した自律的なワークフローを構築しやすくなっています。
6. エコシステムが充実
リリース初日から、Ollama、llama.cpp、Hugging Face Transformers、MLX、vLLM、NVIDIA NIMなど主要なフレームワークでDay-0サポートが提供されています。導入のしやすさはオープンモデルの中でもトップクラスです。
Gemma 4の弱み・注意点
1. 大型モデルには高性能GPUが必要
31Bモデルを非量子化で動かすには58.3GB以上のVRAMが必要です。256Kフルコンテキストを利用する場合は80GB超。個人のPCでは量子化が前提になり、量子化による精度低下のトレードオフがあります。
2. 出力はテキストのみ
画像・音声・動画を入力として理解できますが、出力はすべてテキストです。画像生成や音声合成が必要な場合は、別のツール(Stable Diffusion等)との組み合わせが必要です。
3. 長文脈での精度低下
256Kトークンのコンテキストをフル活用する場合、特にMoEモデル(26B A4B)では精度が低下する傾向があります。MRCR v2(128K)ベンチマークで26Bは44.1%にとどまっており、長文脈での利用時は注意が必要です。
4. 音声・動画対応がモデルによって異なる
音声入力はE2B/E4Bのみ、動画理解は31B/26Bのみと、モデルサイズによって対応モダリティが分かれています。「音声も動画もすべて1つのモデルで」という使い方は現時点ではできません。
5. リアルタイム情報の取得不可
訓練データのカットオフは2025年1月です。最新のニュースや時事情報は取得できず、単体でのWeb検索機能もありません。RAG(検索拡張生成)などの外部連携が必要になります。
6. 日本語特化のベンチマークが未公表
公式は140言語対応を謳っていますが、日本語固有のベンチマーク(JHumanEval、JGLUE等)のスコアは2026年4月時点で公表されていません。日本語の品質は実際に試して確認する必要があります。
Gemma 4の料金
Gemma 4はオープンウェイトモデルのため、モデル自体は完全無料です。 かかるのはハードウェアコストまたはクラウド利用料のみです。
利用方法 | 費用 | 備考 |
|---|---|---|
ローカル実行(自分のPC) | 無料(ハードウェア費用のみ) | Ollama、llama.cpp等で実行 |
Google AI Studio | 無料 | 31B / 26B MoEが利用可能 |
Google Cloud Vertex AI | Google Cloudの従量課金 | Model Garden経由 |
Hugging Face | 無料 | モデルダウンロード・デモ推論 |
サードパーティAPI(OpenRouter等) | 入力: $0.14/100万トークン、出力: $0.40/100万トークン | 2026年4月時点の参考価格。変動あり |
商用利用でもライセンス料は不要です。Apache 2.0ライセンスのため、自社プロダクトへの組み込みや派生モデルの再配布も自由に行えます。ただし、再配布時は著作権表示とライセンス文の保持が必要です。また、「Gemma」「Google」の商標使用権は付与されていないため、派生モデルの命名には注意してください。
Gemma 4の使い方
Gemma 4を実際に動かす方法を、代表的な3つの手段で紹介します。
方法1: Ollamaでローカル実行(最も手軽)
Ollamaはローカル環境でLLMを動かすためのツールで、Gemma 4をDay-0サポートしています。
# Ollamaのインストール(macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Gemma 4 E4Bモデルの実行(8GB RAMのPCで動作可能)
ollama run gemma4:e4b
# Gemma 4 26B MoEモデルの実行(24GB GPU推奨)
ollama run gemma4:26b-a4b方法2: Google AI Studioで試す(インストール不要)
Google AI Studio(https://aistudio.google.com/)にアクセスすれば、ブラウザ上でGemma 4の31Bモデルや26B MoEモデルを無料で試せます。ハードウェアの準備が不要で、まず性能を確認したい場合に最適です。
方法3: Hugging Face Transformersで実行
Pythonコードから柔軟に利用したい場合は、Hugging Face Transformersを使います。
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "google/gemma-4-31b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
inputs = tokenizer("Gemma 4の特徴を教えてください", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))その他の実行方法
- llama.cpp: GGUF量子化版をCPUで高速実行
- MLX: Apple Silicon(M1〜M4)に最適化されたフレームワーク
- vLLM / SGLang: サーバーサイドでの高スループット推論
- NVIDIA NIM: NVIDIA GPUに最適化されたコンテナデプロイ
- Google AI Edge Gallery: Android / iOS端末での実行
Gemma 3からの進化ポイント
Gemma 4は前世代のGemma 3から大幅に性能が向上しています。
比較項目 | Gemma 3 | Gemma 4 |
|---|---|---|
コーディング(Codeforces ELO) | 110 | 2,150(約20倍) |
コーディング(LiveCodeBench) | 約27% | 80%(約3倍) |
ライセンス | Gemma独自ライセンス | Apache 2.0(商用利用の自由度が大幅向上) |
音声入力 | 非対応 | E2B/E4Bでネイティブ対応 |
エージェント機能 | 限定的 | ファンクションコーリング・マルチステップ計画をネイティブサポート |
MoEモデル | なし | 26B A4B(4Bアクティブ / 26Bトータル)を追加 |
実行速度 | 基準 | 最大4倍高速化 |
バッテリー消費 | 基準 | 最大60%削減 |
特にコーディング能力の向上は劇的で、Codeforces ELOが110から2,150に跳ね上がっています。これはオープンモデルの中でもトップクラスの水準です。
競合オープンモデルとの比較

Gemma 4の主な競合は、Meta の Llama 4 と Alibaba の Qwen 3.5 です。2026年4月時点での比較を整理します。
主要オープンモデル比較表
比較項目 | Gemma 4(31B) | Llama 4 Scout(109B) | Qwen 3.5(27B) |
|---|---|---|---|
開発元 | Google DeepMind | Meta | Alibaba Cloud |
パラメータ数 | 31B | 109B(17B active) | 27B |
ライセンス | Apache 2.0 | Llama Community License | Apache 2.0 |
コンテキスト長 | 256K | 10M | 128K |
MMLU Pro | 85.2% | 非公表 | Gemma 4以下 |
コーディング(Codeforces ELO) | 2,150 | — | — |
マルチモーダル | テキスト・画像・動画 | テキスト・画像 | テキスト |
音声対応 | あり(E2B/E4B) | なし | なし |
エッジ実行 | E2Bで1.5GB未満 | 大型モデルが中心 | 小型モデルあり |
日本語対応 | 140言語対応(日本語含む) | 多言語対応 | 多言語対応(中国語に強み) |
エージェント機能 | ネイティブ対応 | 対応 | 対応 |
商用利用 | 完全自由 | Meta独自ライセンス(条件付き) | 完全自由 |
選び方の目安
- ライセンスの自由度を重視するなら → Gemma 4 または Qwen 3.5(Apache 2.0)
- マルチモーダル(音声含む)をローカルで使いたいなら → Gemma 4(音声対応の小型モデルを持つ唯一の選択肢)
- 超長文脈を扱いたいなら → Llama 4 Scout(10Mトークン対応)
- コーディング性能を最優先するなら → Gemma 4 31B(Codeforces ELO 2,150)
- エッジデバイスで動かしたいなら → Gemma 4 E2B(Raspberry Pi 5でも動作)
ローカルAIとしてのメリット(日本企業向け)

Gemma 4の最大の特徴の一つが、自社の環境だけで完結するローカルAI運用が可能な点です。日本企業にとって具体的にどんなメリットがあるかを整理します。
データが外部に一切出ない
ローカル実行であれば、入力したデータがGoogleを含む外部サーバーに送信されることはありません。個人情報保護法の遵守が求められる顧客データの処理や、NDA(秘密保持契約)で保護された情報の分析に活用できます。
オフライン環境でも動作する
インターネット接続がなくても動作するため、工場・研究施設・医療現場など、ネットワーク接続が制限される環境でもAIを利用できます。
クラウドAPI費用が発生しない
モデル自体は無料で、実行に必要なのはハードウェア費用のみです。大量のリクエストを処理する場合、クラウドAPIの従量課金と比較して長期的なコスト削減が見込めます。
ファインチューニングで自社業務に最適化できる
Apache 2.0ライセンスのため、自社の業務データでファインチューニング(追加学習)を行い、特定のタスクに特化したモデルを自由に作成できます。Unsloth、Hugging Face TRL、Keras等のフレームワークが対応しています。
注意すべき法的事項
ローカル実行であっても、以下の規制への対応は必要です。
- 医療用途: 薬機法のSaMD(医療機器プログラム)規制、厚労省ガイドラインへの準拠
- 個人情報の処理: 個人情報保護法に基づく適切な取り扱い
- EU向けサービス: AI Act等の規制に注意
こんな方におすすめ
Gemma 4が向いている人
- データを外部に出したくない企業・組織: 機密情報や個人情報を扱う業務でAIを活用したい
- 自社プロダクトにAIを組み込みたい開発者: Apache 2.0ライセンスで商用利用が自由
- エッジデバイスでAIを動かしたいIoTエンジニア: E2Bモデルなら1.5GB未満のメモリで動作
- コスト効率を重視するスタートアップ: クラウドAPIの従量課金を避けたい
- 最新のオープンモデルを試したいAI研究者・開発者: Day-0の充実したエコシステム
Gemma 4をおすすめしない人
- インストールや環境構築なしでAIを使いたい人: ChatGPTやGeminiのようなWebサービスの方が手軽
- 画像生成やマルチメディア出力が必要な人: Gemma 4の出力はテキストのみ
- 常に最新情報をもとに回答してほしい人: 訓練データのカットオフがあり、リアルタイム検索機能はない
- 日本語の品質を最優先する人: 日本語ベンチマークが未公表のため、実際に試しての確認が必要
- GPUやサーバーの管理に時間をかけたくない人: ローカル実行にはハードウェアの準備とメンテナンスが伴う
よくある質問(FAQ)
Q1. GemmaとGeminiは何が違うの?
Geminiは Google が運営するクラウドAIサービスで、ブラウザやAPIから利用します。Gemmaは Gemini の技術をベースにした、ダウンロードして自分の環境で動かせるオープンモデルです。Gemma 4はローカル実行できるため、データが外部に出ないメリットがあります。
Q2. 本当に無料で使えるの?
モデル自体は完全無料です。Apache 2.0ライセンスのため、商用利用や改変・再配布にもライセンス料はかかりません。ただし、ローカル実行にはハードウェア費用が、クラウド利用(Vertex AI等)には従量課金がかかります。
Q3. 自分のPCで動かせる?
E2Bモデルなら4GB RAMのPCでも量子化版を動作させられます。E4Bは8GB RAM、26B A4Bは16〜24GB VRAMのGPU、31Bは24GB以上のGPUが推奨です。Apple Silicon搭載のMacであれば、MLX経由でユニファイドメモリを活用した効率的な実行が可能です。
Q4. ファインチューニングはできる?
はい。Apache 2.0ライセンスのもと、自社データでのファインチューニングが自由に行えます。Unsloth、Hugging Face TRL、Keras/JAX等のフレームワークが対応しています。
Q5. ChatGPTやClaudeの代わりになる?
用途によります。テキスト生成やコード作成では高い性能を発揮しますが、ChatGPTのようなプラグインエコシステムやClaudeのような超長文コンテキスト(100万トークン)は備えていません。「データを外部に出したくない」「自社プロダクトに組み込みたい」という要件がある場合にGemma 4が有力な選択肢になります。
Q6. 日本語は使える?
140以上の言語に対応しており、日本語も含まれています。ただし、日本語固有のベンチマークスコアは公式に公表されていないため、精度については実際に試して確認することを推奨します。
まとめ:Gemma 4は「自分の環境で動かせる高性能AI」
Gemma 4は、Google DeepMindが2026年4月にリリースしたオープンAIモデルで、以下の点が特徴です。
- 完全無料・Apache 2.0: 商用利用・改変・再配布が自由
- 4つのモデルサイズ: スマホから研究用GPUまで、用途に合わせて選べる
- マルチモーダル: テキスト・画像・音声・動画を統合的に処理
- エージェント機能: ファンクションコーリングやマルチステップ計画に対応
- ローカル実行: データが外部に出ない安心感。オフラインでも動作
「自社の環境でAIを活用したいが、クラウドにデータを送りたくない」「オープンモデルで自社プロダクトを開発したい」という方にとって、Gemma 4は現時点で有力な選択肢の一つです。
他のAIツールとの比較を知りたい方は、「生成AIツールおすすめ比較」もあわせてご覧ください。AIコーディングツールに関心がある方は「AIコーディングツールおすすめ比較」が参考になります。
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。




