Gemini 3.5 Live Translateとは？70言語リアルタイム音声翻訳の仕組み・料金・使い方・他AI比較を整理【2026年6月】

Gemini 3.5 Live Translateとは、Googleが2026年6月9日に発表した「リアルタイム音声翻訳」専用のAIモデルです。70以上の言語に対応し、話者の声のトーンや抑揚を保ったまま、話の途中からでも翻訳音声を流し続ける「ほぼ同時通訳」を実現します。汎用の対話アシスタントではなく、音声→音声の翻訳に特化した専用モデルである点が特徴です。

この記事では、以下を一次情報（Google公式ブログ・Gemini APIドキュメント・DeepMindのモデルカード）をもとに整理します。

Gemini 3.5 Live Translateの定義と「従来の音声翻訳との違い」
できること・強み・弱み（公式が認める制約も率直に）
料金（開発者向けAPIの分単価・無料ティア）
個人・開発者・法人の3チャネルでの使い方
OpenAI・DeepL・Samsung・Appleなど他のAIリアルタイム翻訳との比較

想定読者は、海外取引や多国籍チームで会議翻訳を検討している人、翻訳機能をアプリに組み込みたい開発者、そして「結局どのAI翻訳が自分に合うのか」を知りたい個人ユーザーです。最新の仕様・料金は変動するため、本文では公式での再確認ポイントも示します。

出典: Google公式ブログ

※本記事は2026年6月23日時点の公開情報に基づきます。Gemini 3.5 Live Translateは多くの機能がプレビュー段階で、提供範囲・料金は今後変わる可能性があります。

Gemini 3.5 Live Translateとは：一文でわかる定義

Gemini 3.5 Live Translateは、「話している最中から、相手の言語へ自然な音声で訳し続ける」専用のリアルタイム音声翻訳モデルです。ベースは「Gemini 3 Pro」アーキテクチャ（DeepMindのモデルカード記載）で、テキスト生成や対話を担う汎用モデルとは別系統の、音声翻訳に最適化された専用モデルとして設計されています。

ポイントは次の3つです。

70以上の言語に対応し、入力言語を自動検出する
声のトーン・抑揚・ピッチ・話すペースを保持したまま翻訳音声を生成する
3つのチャネル（Google翻訳アプリ／Google Meet／Gemini API）で同時に展開された

立ち位置としては、OpenAIが2026年5月に発表した「GPT-Realtime-Translate」と同じく、リアルタイム翻訳に特化した専用音声モデルです。チャットや汎用アシスタントを求める用途には向きません。生成AIの全体像を押さえたい場合は生成AIとは何かを解説した記事も参考にしてください。

従来の音声翻訳との違い：ターンバイターンからストリーミングへ

最大の違いは、「話し終わるのを待たない」翻訳方式にあります。

従来の音声翻訳の多くは「ターンバイターン方式」でした。これは、話者が一区切り話し終えるのを待ってから翻訳を始める方式で、どうしても会話に不自然な「間（ま）」が生まれます。会議で発言ごとに数秒の沈黙が挟まる、あの感覚です。

これに対しGemini 3.5 Live Translateは「ストリーミング（連続生成）方式」を採用しています。話の途中でも翻訳を生成し続け、話者から数秒遅れで流暢な翻訳音声を流します。Googleはこれを「文脈を待って精度を上げること」と「話者に追従して即座に訳すこと」のトレードオフをバランスさせた設計だと説明しています。

比較ポイント	従来（ターンバイターン方式）	Gemini 3.5 Live Translate（ストリーミング方式）
翻訳開始のタイミング	話し終わってから	話している途中から
会話の間（ポーズ）	発言ごとに沈黙が発生しやすい	不自然な間が出にくい
声の表現	機械的・均一になりがち	話者のトーン・抑揚を保持
言語の指定	手動設定が必要なことが多い	入力言語を自動検出（混在も対応）
ノイズ環境	影響を受けやすい	ノイズに比較的強い（完全ではない）

加えて、複数言語が混ざった入力も自動で検出するため、利用者が事前に「何語から何語へ」を細かく設定する手間が減ります。ただしノイズ対策や言語検出は万能ではなく、既知の制約も残ります。

できること：3チャネルで何が使えるのか

Gemini 3.5 Live Translateは、「個人」「開発者」「法人」の3つの入口で提供されています。自分がどの立場かによって、いま使えるものが変わります。

出典: Google公式ブログ

1. 個人向け：Google翻訳アプリ（グローバル展開中）

iOS／Android向けのGoogle翻訳アプリにグローバル展開中です。ヘッドフォンを接続すると、話者のトーンを反映した自然な翻訳音声を体験できます。Androidには新たに「リスニングモード（listening mode）」が追加され、周囲の会話を聞き取って訳す使い方ができます。

※日本での提供状況・対応端末の詳細条件は、執筆時点で公式から明確化されていません。アプリのストア表記を確認してください。

2. 開発者向け：Gemini Live API（パブリックプレビュー）

開発者はGemini Live API＋Google AI Studioでパブリックプレビューとして利用できます。モデル名は gemini-3.5-live-translate-preview です。自社アプリやサービスにリアルタイム翻訳を組み込みたい場合の入口です。

3. 法人向け：Google Meet（プライベートプレビュー）

Google Meetの音声翻訳機能がGemini 3.5 Live Translateに刷新されました。これまで5言語だった対応言語が70言語以上に拡大し、1回の会議で2,000以上の言語ペア（英語を経由しない直接翻訳）に対応します。会議画面から直接翻訳を操作できるUIに変わり、事前設定ダイアログが不要になりました。

現在は選択されたWorkspace顧客向けのプライベートプレビューとして2026年6月から順次展開中で、より広い提供は2026年後半予定とされています。法人向けのGemini活用全体像はGeminiの法人向けエージェント基盤の記事も参考になります。

チャネル	対象	提供状況	できること
Google翻訳アプリ	個人	グローバル展開中	ヘッドフォン接続で自然な音声翻訳、Androidはリスニングモード
Gemini Live API	開発者	パブリックプレビュー	自社アプリへの組み込み、言語コード指定
Google Meet	法人	プライベートプレビュー（一般提供は2026年後半予定）	会議で70言語・2,000+ペアの同時通訳

強み：他のリアルタイム翻訳と何が違うのか

Gemini 3.5 Live Translateの強みは、「翻訳の自然さ」と「展開の広さ」を同時に押さえている点に集約されます。

出力言語も70以上：入力70言語→出力70言語の双方向で広い。OpenAIのGPT-Realtime-Translateが出力13言語に限られるのと比べ、組み合わせの自由度が高い。
声のトーン保持：訳した音声でも話者の感情や抑揚が残るため、ビジネス会話でもニュアンスが伝わりやすい。声の保持はElevenLabsのような音声合成技術とも通じる方向性です。
3チャネル同時展開：個人・開発者・法人を一気にカバー。エコシステムとして使い分けられる。
無料ティアと低単価：開発者向けAPIに無料枠があり、有料でも分単価が安い。
SynthIDウォーターマーク：生成音声すべてにAI生成であることを示す電子透かしが埋め込まれ、フェイク音声対策になっている。

実証面では、東南アジアの配車サービスGrabがドライバーと利用者の多言語コミュニケーションでテスト中（月1,000万件超の音声通話）と報告されており、大規模な実運用を見据えた検証が進んでいます。

弱み・できないこと：公式が認める制約

信頼できる判断のために、Googleがモデルカードで公開している制約も率直に押さえておきます。「まだプレビュー段階で、万能ではない」ことを前提にすべきです。

音声入力のみ対応。テキスト入力は不可（API）。テキスト翻訳は従来のGoogle翻訳など別手段が必要。
長い会話や複数話者の高速な切り替わりで声が不安定になることがある（声質が途中で変わる／性別が変わって聞こえる／一つの声に固定される、など）。
言語の自動検出が、強い訛り・似た言語・急な言語切替で苦戦することがある。
背景音フィルタリングが不完全で、無視しきれない音が翻訳に影響する場合がある。
ターゲット言語の復唱（echo）モードで、入力がすでにターゲット言語のときに雑音（アーティファクト）が出ることがある。
公式の精度ベンチマークや競合比較の性能データは未公開（業界メディアSlatorも指摘）。「数秒遅れ」「流暢」といった表現は定性的な説明にとどまる。

安全性については、Google AI Principles および Gen AI Prohibited Use Policy に準拠し、能力はGemini 3.1 Proより低く、重大なリスクレベル（Critical Capability Level）には達しないと評価されています。つまり翻訳という限定タスクに特化した、安全側に振った設計といえます。

料金：開発者向けAPIの分単価と無料ティア

消費者向け（Google翻訳アプリ）と法人向け（Google Meet）は、それぞれのアプリ／Workspace契約内の機能として提供され、個別のAPI課金は発生しません。料金が明確に定義されているのは開発者向けのGemini APIです。

出典: Google公式ブログ

公式のGemini API料金ページ（ai.google.dev）に記載された有料ティアは以下のとおりです。音声1秒＝25トークンで計算されます。

区分	100万トークンあたり	分あたりの目安
入力音声（Audio input）	$3.50	約 $0.0053/分
出力音声（Audio output）	$21.00	約 $0.0315/分
入力＋出力の実効単価	—	約 $0.0368/分

さらに無料ティア（Free tier）があり、レート制限内であれば入力・出力ともに無償で試せます。まずは無料枠で品質を検証し、本番運用で有料に移行する流れが現実的です。

⚠️ 第三者サイトでは「約$0.023/分」といった異なる数値も見られますが、本記事は公式料金ページの実効$0.0368/分（入出力合算）を一次情報として採用しています。料金は変動しうるため、導入前に必ずGemini API公式料金ページで再確認してください。

Geminiの消費者向け有料プランの料金感はGoogle AI Plusの記事も参考になります。

使い方：開発者向けAPIの設定ポイント

開発者がGemini Live APIでリアルタイム翻訳を使う際の要点を、公式ドキュメントから整理します。

ターゲット言語の指定：generationConfig 内の translationConfig で、出力したい言語をBCP-47言語コード（targetLanguageCode）として指定します。
echo（復唱）制御：echoTargetLanguage で「入力がすでにターゲット言語だった場合に、そのまま読み上げるか／黙るか」を制御できます。
音声フォーマット：入力は16bit PCM・16kHz・モノラル・リトルエンディアン（推奨チャンク100ms）、出力は16bit PCM・24kHz・モノラルです。
コンテキスト長：入力は最大128Kトークン、出力（音声＋テキスト）は最大64Kトークンまで。
セキュリティ：クライアント直結時はephemeral token（v1alpha）を使うことで、APIキーを露出せずに利用できます。

実装そのものはWebSocketベースのストリーミング接続になるため、リアルタイム音声を扱える設計が前提です。同じくリアルタイム音声APIを提供するOpenAIのGPT-Realtime-2の記事と仕様を比較しておくと、設計判断がしやすくなります。

他のAIリアルタイム翻訳との比較

リアルタイム翻訳は2026年に入って各社が一気に投入した激戦領域です。代表的なサービスをGemini 3.5 Live Translateと横並びで整理します。

サービス	提供元	言語対応	方式・特徴	主な利用形態
Gemini 3.5 Live Translate	Google	入力70+／出力70+	ストリーミング、声のトーン保持、無料ティアあり	アプリ・Meet・API
GPT-Realtime-Translate	OpenAI	入力70+／出力13	リアルタイム特化、Realtime API	API中心
DeepL Voice	DeepL	法人志向（主要言語）	文脈精度・プライバシー重視	Teams/Zoom・対面・API
Galaxy AI Live Translate	Samsung	主要言語	電話通話のオンデバイス通訳	スマホ通話
Apple Live Translation	Apple	主要言語	オンデバイス・プライバシー重視	iPhone・AirPods連携

ここから読み取れる選び分けの軸は次のとおりです。

対応言語の広さで選ぶなら：Geminiが頭一つ抜けています。OpenAIは入力70言語に対し出力が13言語に限られるため、多言語の双方向通訳ではGeminiが有利です。
翻訳品質・プライバシーで選ぶなら：法人会議に絞るならDeepL Voiceの文脈精度とプライバシー設計が候補。
スマホで完結させたいなら：通信なしで使えるSamsungやAppleのオンデバイス翻訳が手軽です。
会議で多言語を一気に扱うなら：Google Meet刷新版（70言語・2,000+ペア）が強力です。

Geminiの注意点は、精度の定量ベンチマークが未公開であること、声の安定性や言語検出に既知の弱点があることです。「言語数とエコシステムの広さ」を取るか、「実証済みの精度・プライバシー」を取るかが判断の分かれ目になります。Gemini全体の比較はChatGPTとGeminiの比較記事やClaudeとGeminiの比較記事も参考にしてください。

こんな人・組織におすすめ

Gemini 3.5 Live Translateが向いているのは、次のようなケースです。

多言語の会議が日常的にある企業：Google Workspaceを使っており、70言語・2,000+ペアの会議翻訳を求める法人。
多言語アプリを作りたい開発者：無料ティアと低単価で、リアルタイム翻訳を自社サービスに組み込みたい人。
海外旅行・対面コミュニケーション中心の個人：Google翻訳アプリで、声のトーンまで自然な翻訳を手軽に使いたい人。
幅広い言語の双方向通訳が必要な人：出力言語の多さでOpenAIより優位なため、マイナー言語間の翻訳が必要な現場。

よくある質問（FAQ）

Q. Gemini 3.5 Live Translateは無料で使えますか？
A. Google翻訳アプリの機能としてはアプリ内で利用でき、開発者向けGemini APIにもレート制限内の無料ティアがあります。有料の場合は入出力合算で約$0.0368/分が目安です（公式料金ページで要確認）。

Q. 何語に対応していますか？
A. 70以上の言語に対応し、入力言語の自動検出も可能です。Google Meet版では1回の会議で2,000以上の言語ペアに対応します。

Q. OpenAIのGPT-Realtime-Translateとどちらが良いですか？
A. 対応言語の広さ（特に出力言語が70以上ある点）と3チャネル展開ではGeminiが優位です。一方で精度の定量データは両社とも限定的なため、用途に応じた実機検証をおすすめします。

Q. 翻訳した音声がAI生成だと分かりますか？
A. はい。生成音声すべてにSynthIDという電子透かしが埋め込まれ、AI生成音声であることを検出できます。

Q. 日本語の会議でも使えますか？
A. 日本語は70言語に含まれます。ただしGoogle Meet版は現在プライベートプレビューで、日本の一般利用には提供拡大を待つ必要があります。アプリ版の日本での提供条件は公式表記を確認してください。

Q. テキストの翻訳はできますか？
A. 本モデルは音声入力専用で、テキスト入力には対応していません。文書翻訳は従来のGoogle翻訳やDeepLを利用してください。

まとめ

Gemini 3.5 Live Translateは、「話の途中から、声のトーンを保ったまま、70以上の言語へ訳し続ける」リアルタイム音声翻訳専用モデルです。個人（Google翻訳アプリ）・開発者（API）・法人（Google Meet）の3チャネルで同時展開され、無料ティアと低単価、SynthIDによる安全設計を備えます。

一方で、多くの機能がプレビュー段階であること、声の安定性や言語検出に既知の制約があること、精度ベンチマークが未公開であることも事実です。「対応言語とエコシステムの広さ」を重視するならGemini、「実証された精度・プライバシー・オフライン性」を重視するなら他社という選び分けが現実的です。

導入を検討する際は、まず無料ティアやアプリで品質を体感し、本番運用は公式の最新ステータスと料金を確認したうえで判断することをおすすめします。Gemini全体やリアルタイム音声AIの動向は、ChatGPTとGeminiの比較やOpenAI GPT-Realtime-2の解説もあわせてご覧ください。