GPT-Realtime-2とは?OpenAI 音声・翻訳・Whisper API 3モデルの料金・機能・競合比較【2026年6月】

この記事のポイント
GPT-Realtime-2はOpenAIが2026年5月に正式公開した音声対話モデル。gpt-realtime-translate・gpt-realtime-whisperを含む3モデルの料金体系、機能の違い、ElevenLabs・Gemini Liveとの比較、導入コスト試算まで実務目線で解説。
GPT-Realtime-2は、OpenAIが2026年5月7日にRealtime APIで一般公開(GA)した、GPT-5クラスの推論能力を持つ音声対話モデルです。 同日に gpt-realtime-translate(リアルタイム音声翻訳)と gpt-realtime-whisper(ストリーミング文字起こし)の2モデルが同時リリースされ、Realtime API はベータを卒業してSLA付きの本番プラットフォームとなりました。
この記事でわかること:
- GPT-Realtime-2・translate・whisperの3モデルの違いと用途
- トークン課金と分課金が混在する料金体系と、現実的なコスト試算
- ElevenLabs・Gemini Live・Step-Audioとの価格・機能比較
- 128Kコンテキスト・パラレルツールコール・SIP接続など新機能の整理
- 日本語対応の実情と本番投入前のセキュリティ・法務チェック
音声AIによるカスタマーサポート自動化・通訳システム・リアルタイム字幕を検討中のエンジニア・プロダクトマネージャー、または gpt-4o-realtime-preview や gpt-realtime-1.5 からの移行を検討している開発者に向けた内容です。
GPT-Realtime-2とは — 3モデル同時公開とRealtime API GA化

出典: GitHub - openai/openai-python
GPT-Realtime-2は、OpenAIが2026年5月7日(米国時間)に正式公開したRealtime API向けの音声モデル群の中核です。従来の「音声→テキスト→LLM→テキスト→音声」という多段パイプラインではなく、speech-to-speechアーキテクチャで音声を直接処理します。
同日に公開された3モデルの全体像は以下のとおりです。
モデル | 役割 | 課金単位 | 主な用途 |
|---|---|---|---|
gpt-realtime-2 | 推論強化型 speech-to-speech 音声エージェント | per 1M tokens | 音声カスタマーサポート、業務エージェント |
gpt-realtime-translate | リアルタイム音声翻訳(音声→音声+テキスト) | $0.034/分 | 同時通訳、ライブ吹き替え、多言語コールセンター |
gpt-realtime-whisper | ストリーミング音声文字起こし | $0.017/分 | ライブ字幕、リアルタイム議事録 |
3モデルとも Realtime APIのGA(一般提供)化と同時に公開されており、「実験段階」から「本番運用前提」へ格上げされた意味を持ちます。新音声「Cedar」「Marin」も追加され、既存の alloy / ash / ballad / coral / echo と並んで利用できます。
gpt-realtime-2の基本スペック(公式情報):
項目 | 内容 |
|---|---|
開発元 | OpenAI |
正式公開 | 2026年5月7日 |
提供形態 | OpenAI Realtime API / Playground(API専用) |
入力モダリティ | テキスト・音声・画像 |
出力モダリティ | テキスト・音声 |
コンテキストウィンドウ | 128,000トークン(前世代32Kの4倍) |
最大出力 | 32,000トークン |
Knowledge cutoff | 2024年9月30日 |
推論強度 | minimal / low(既定)/ medium / high / xhigh の5段階 |
接続方式 | WebRTC / WebSocket / SIP |
Function calling | 対応 |
Streaming / Structured Outputs / Fine-tuning | 非対応 |
本記事は2026年6月17日時点の公式発表に基づきます。料金・仕様の最新値は OpenAI API Pricing を必ず確認してください。
旧モデルからの進化 — gpt-realtime-1.5 → gpt-realtime-2

GPT-Realtime-2は gpt-4o-realtime-preview(2024年12月)→ gpt-realtime-1.5 の系譜を継ぐメジャー更新です。前世代との主な変化点は3つです。
1. GPT-5級推論の搭載
OpenAIは「Realtime API初のGPT-5クラス推論モデル」と位置付けています。GPT-5.5 Instantとの違いと合わせると、2026年のOpenAIモデル体系が整理しやすくなります。
公式ベンチマーク(gpt-realtime-1.5 比):
ベンチマーク | gpt-realtime-2 | gpt-realtime-1.5 | 改善幅 |
|---|---|---|---|
Big Bench Audio | 96.6% | 81.4% | +15.2pt |
Audio MultiChallenge(xhigh) | 48.5% | 34.7% | +13.8pt |
Conversational Dynamics | 96.1% | — | — |
Zillow コールセンター成功率 | 95% | 69% | +26pt |
Big Bench Audio 96.6%は「複雑な指示を音声で受け取り、文脈を保ったまま回答できる水準」に到達したことを意味します。
2. コンテキストウィンドウが32K→128Kへ4倍拡張
前世代では数十分の会話で履歴を切り詰める必要がありましたが、128Kあれば1〜2時間規模のセッションでも履歴管理が現実的です。社内FAQ・製品マニュアルをシステムプロンプトに同梱する用途でも実用性が大幅に改善しました。
3. レイテンシと自然さの両立
time-to-first-audio(最初の音声が出るまでの時間)の公式数値:
- minimal: 1.12秒(最低レイテンシ優先)
- low(既定): 約1.4秒
- high: 2.33秒(精度優先)
Conversational Dynamics 96.1%は、相槌・割り込み・沈黙の処理が人間会話に近い水準に達したことを示します。
GPT-Realtime-2でできること — 主要機能を整理

GPT-Realtime-2は「賢くなった音声モデル」ではなく、業務エージェントとして組み込むための機能群が揃っています。
5段階の推論強度(reasoning effort)
reasoning_effort パラメータで5段階を指定できます。
レベル | 想定用途 | time-to-first-audio目安 |
|---|---|---|
| 雑談・定型応答 | 1.12秒 |
| 一般的な業務会話 | 約1.4秒 |
| 多段階質問・ツール使い分け | — |
| トラブル切り分け・複雑ルール照合 | 2.33秒 |
| 法務・金融など高難度判断 | さらに遅延増加 |
「軽い問い合わせはminimalで安く速く、複雑な相談はhighで精度優先」というコスト最適化が現実的です。
パラレルツールコール
複数の関数・API・MCP(Model Context Protocol)リモートサーバを同時並行で呼び出せます。「在庫確認→配送日計算→顧客プロファイル参照」を直列ではなく並列処理できるため、レスポンスが体感で大幅に短縮されます。MCPの仕組みと組み合わせると社内システム連携の幅が広がります。
割り込み復帰(interruption recovery)
ユーザーが話を遮っても文脈を維持したまま会話を再開できます。「あ、ちょっと待って」「やっぱり別件なんだけど」が頻発するサポート通話で効果が出ます。
プリアンブル発話
ツール呼び出し中の沈黙を埋めるために「ちょっと確認しますね」「少々お待ちください」といった繋ぎ発話を自動生成します。数秒の無音でユーザーが「切れた?」と感じる問題を緩和します。
トーン適応
問題解決中は冷静、ユーザーが苛立っていれば共感的、解決後は明るく — 文脈に応じて声色・テンポを自動調整します。
画像入力(gpt-realtime-2のみ)
3モデル中、画像を入力できるのはGPT-Realtime-2だけです。ユーザーが共有した写真・スクリーンショットを音声で説明する、商品画像をもとに在庫検索するなど、マルチモーダル音声エージェントが構築できます。
新音声 Cedar / Marin
Realtime API専用の高品質ボイスが追加されました。既存の alloy / ash / ballad / coral / echo に加わる形で、人間に近い発話感を狙ったプリセットです。日本語での品質は現時点で公式デモでしか確認できていないため、業務利用前にPoCでの実測が必須です。
GPT-Realtime-Translateでできること — リアルタイム音声翻訳

gpt-realtime-translate は入力70以上の言語→出力13言語のライブ音声翻訳に特化したモデルです。推論・関数呼び出しは行わず、翻訳に振り切った設計になっています。
出力対応13言語に日本語が含まれる
地域 | 出力対応言語 |
|---|---|
アジア | 日本語・中国語(繁体字/簡体字)・韓国語 |
アジア | ヒンディー語・インドネシア語・ベトナム語 |
ヨーロッパ | スペイン語・ポルトガル語・フランス語・ドイツ語・イタリア語・ロシア語 |
グローバル | 英語 |
入力側はアラビア語・ベンガル語・タイ語・チェコ語・トルコ語・ウクライナ語など70以上をサポート。「英語→日本語」「中国語→日本語」がそのまま使える点は、インバウンド業務を抱える国内企業にとって大きな利点です。
出力13言語の完全リストは公式ドキュメントに明示がなく、サードパーティソース(Famulor等)での確認値です。本番利用前に OpenAI Cookbook の翻訳ガイドで最新の対応状況を確認してください。
専用エンドポイントと音声仕様
- WebSocket:
wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate - 音声仕様: 24kHz PCM16、出力は200msチャンクでbase64配信
- エンドツーエンドレイテンシ: 400〜900ms
- 自動言語検出: 発話開始から約1.5秒以内
- response.create()不要(翻訳専用エンドポイントのため)
gpt-realtime-translateの制約
- 翻訳専用: 推論・関数呼び出し・カスタム音声選択・任意プロンプトは不可
- 出力言語と同言語の発話は翻訳されない場合がある: 話者管理・チャンネル分離での対策が必要
- カスタム用語集・固有名詞辞書・発音指定は未提供(ドメイン特化用語は事前テスト必須)
- 複数ターゲット言語は言語ごとに別セッションが必要(コスト倍増)
GPT-Realtime-Whisperでできること — ストリーミング文字起こし
gpt-realtime-whisper は発話と並行してテキストを生成する低遅延ストリーミング音声認識モデルです。
主な用途
- ライブ字幕の生成(カンファレンス・配信・教育コンテンツ)
- 会議メモ・商談ログのリアルタイム作成
- コールセンターの通話内容モニタリング
- 動画配信プラットフォームのリアルタイム字幕
精度改善
- Whisper v2比: 約90%ハルシネーション削減(公式発表)
- gpt-4o-transcribe比: 約70%ハルシネーション削減(公式発表)
- コンテキストウィンドウ: 16,000トークン(最大出力 2,000トークン)
gpt-realtime-whisper vs 既存Whisper API(バッチ処理)
観点 | gpt-realtime-whisper | 既存Whisper API(バッチ) |
|---|---|---|
処理形態 | ストリーミング(リアルタイム) | バッチ(録音後に一括) |
遅延 | 数百ms〜 | ファイル処理時間 |
課金 | $0.017/分 | 別単価(per minute) |
話者分離(diarization) | 非対応 | 外部組み合わせで実装可 |
構造化出力 | 非対応 | 対応あり |
主な用途 | ライブ字幕・リアルタイム議事録 | アーカイブ動画・長尺音声 |
法的確定記録 | 不可 | バッチ後の人間確認推奨 |
ライブ性が必要ならgpt-realtime-whisper、最終的な高精度書き起こし・話者分離が必要なら既存Whisperの二段構えが現実的です。いずれも法的・規制業界での確定記録としての使用は不可である点に注意してください。
3モデルの料金まとめ — トークン課金と分課金が混在

3モデルの料金体系はGPT-Realtime-2がトークン課金、TranslateとWhisperが分課金という非対称な構造です。
公式料金(2026年5月時点・公式確認済み)
モデル / 種別 | 単位 | 料金(USD) | 円換算(参考・1$=156円) |
|---|---|---|---|
gpt-realtime-2 / 音声入力 | 1M tokens | $32.00 | 約 ¥4,992 |
gpt-realtime-2 / 音声入力(キャッシュ) | 1M tokens | $0.40 | 約 ¥62 |
gpt-realtime-2 / 音声出力 | 1M tokens | $64.00 | 約 ¥9,984 |
gpt-realtime-2 / テキスト入力 | 1M tokens | $4.00 | 約 ¥624 |
gpt-realtime-2 / テキスト入力(キャッシュ) | 1M tokens | $0.40 | 約 ¥62 |
gpt-realtime-2 / テキスト出力 | 1M tokens | $24.00 | 約 ¥3,744 |
gpt-realtime-2 / 画像入力 | 1M tokens | $5.00 | 約 ¥780 |
gpt-realtime-translate | 1分 | $0.034/分 | 約 ¥5.3/分 |
gpt-realtime-whisper | 1分 | $0.017/分 | 約 ¥2.7/分 |
- キャッシュ入力: 通常の音声入力の約1/80のコスト($32→$0.40)。システムプロンプトや固定コンテキストが多い業務ほど効果が大きい
- 音声トークンはテキストの約8倍の単価: テキストのみで構築できる業務はテキスト入力を活用するとコスト削減になる
公式料金ページ: OpenAI API Pricing
コスト試算 — 現実的な3シナリオ
数字だけでは判断しづらいため、典型的なユースケースでの月額コストを試算します。
① 音声カスタマーサポート(gpt-realtime-2 / 平均5分通話 × 1,000件/月)
- 月間通話時間: 5分 × 1,000 = 5,000分
- トークン消費(概算): 1通話あたり音声入力25K+音声出力25K = 50,000トークン
- 月間: 入力25M × $32 + 出力25M × $64 = $800 + $1,600
- 概算: 約 $2,400/月(約37万円)
- キャッシュヒット率が高ければ入力コストは大幅圧縮可能
② 同時通訳(gpt-realtime-translate / 30分セッション × 20回/月)
- 月間翻訳時間: 30分 × 20 = 600分
- 概算: 600 × $0.034 = $20.4/月(約3,200円)
- イベント・講演などのピンポイント用途では極めて低コスト
③ ライブ字幕(gpt-realtime-whisper / 1日8時間 × 22営業日)
- 月間処理時間: 8時間 × 60分 × 22 = 10,560分
- 概算: 10,560 × $0.017 = $179.5/月(約2.8万円)
- フルタイムでライブ字幕を動かしても月3万円以下
これらはあくまで概算です。アイドル時間・キャッシュ命中率・接続維持コストで変動するため、本番投入前に小規模PoCでの実測を推奨します。
競合比較 — ElevenLabs / Gemini Live / Step-Audio との価格・機能比較
音声AI領域は競合が増えており、価格・機能の観点から代表的な競合サービスを比較します。

出典: GitHub - openai/openai-node
音声AIサービス 機能・価格比較
比較軸 | gpt-realtime-2 | ElevenLabs Conversational AI | Gemini Live(Google) | Step-Audio R1.1(OSS系) |
|---|---|---|---|---|
推論能力 | GPT-5クラス(強) | 外部LLM依存 | Gemini 2.5クラス | モデル依存 |
音声品質 | Cedar/Marin(高品質) | カスタムボイス可(最高水準) | 自然な音声 | モデル依存 |
カスタムボイス | 不可(プリセット固定) | 可(声クローン含む) | 限定的 | 可 |
ツール呼び出し | 対応(パラレル可) | 対応 | 対応 | モデル依存 |
動画入力 | 不可 | 不可 | 対応 | 一部対応 |
画像入力 | 対応 | 非対応 | 対応 | 部分対応 |
SIP/電話連携 | 対応 | Twilio等経由 | 非対応 | 要実装 |
日本語対応 | 32言語以上(日本語含む) | 日本語対応 | 日本語対応 | 要確認 |
データレジデンシー | EU対応あり / Azure経由 | 要確認 | Google Cloud依存 | セルフホスト可 |
オンプレ展開 | 不可 | 不可 | 不可 | 可 |
料金モデル | トークン課金(複雑) | 分課金(シンプル) | API従量課金 | インフラコストのみ |
SLA(本番保証) | あり(GA済み) | あり | あり | なし(OSS) |
用途別の選び方指針
gpt-realtime-2が優位な場面:
- OpenAI Agents SDK・MCP・Codex等の既存エコシステムと統合する
- SIPで既存の電話インフラと直接つなぐ
- 複雑な推論を伴う業務エージェント(在庫確認・予約変更・トラブルシューティング)
- OpenAI × AWSパートナーシップを活用したクラウド展開
ElevenLabsが優位な場面:
- カスタムボイス・声クローンが必要(マーケティング・キャラクター用途)
- 音声品質の絶対値を最大化したい
Gemini Liveが優位な場面:
- 動画フレームを使ったマルチモーダルな音声対話が必要
- Google Workspaceとの深い連携を前提とするプロジェクト
OSS(Step-Audioなど)が優位な場面:
- 音声データをクラウドに送れないセキュリティ要件
- 完全オンプレミス・エアギャップ環境
- コストを最小化しつつ自前でスケールしたい
競合の料金は変動が激しいため、具体的な金額比較は各社公式ページで最新値を確認してください。
用途別の選び方 — どのモデルを選ぶべきか
3モデルの選定フロー:
- 会話して動かしたいか?
- はい → gpt-realtime-2(推論・ツール呼び出しが必要)
- いいえ → 2へ
- 音声を別言語の音声に変換したいか?
- はい → gpt-realtime-translate
- いいえ → 3へ
- 音声をテキストに起こしたいか?
- リアルタイム性が必要 → gpt-realtime-whisper
- バッチ処理で十分 → 既存 Whisper API
会話と翻訳を組み合わせたい場合(多言語サポート+動的応答)は、gpt-realtime-2を主軸に置き、必要に応じてgpt-realtime-translateを並用するアーキテクチャが現実的です。
用途別おすすめ一覧
用途 | 推奨モデル | 推奨理由 |
|---|---|---|
音声カスタマーサポート | gpt-realtime-2 | 推論+ツール呼び出し+トーン適応 |
社内業務エージェントの音声化 | gpt-realtime-2 | MCP・関数呼び出しで既存システム連携 |
電話での予約・問い合わせ自動化 | gpt-realtime-2 + SIP | PSTN直接接続 |
国際会議の同時通訳 | gpt-realtime-translate | 70言語以上→13言語・日本語出力対応 |
ライブ吹き替え(配信・動画) | gpt-realtime-translate | 200msチャンクの低遅延配信 |
多言語コールセンター | translate + gpt-realtime-2 | 翻訳→AI応答の3段構成 |
ライブ字幕(カンファレンス) | gpt-realtime-whisper | 低遅延優先設定 |
リアルタイム議事録 | gpt-realtime-whisper | 文字起こしのみで十分 |
アーカイブ動画の書き起こし | 既存Whisper API | バッチ処理・話者分離が必要 |
商品画像を見ながらの音声相談 | gpt-realtime-2 | 画像入力は3モデル中で唯一 |
使い方 — Playground・WebRTC・WebSocket・SIP

GPT-Realtime-2を含む3モデルは、以下の4経路から呼び出します。
1. Playground(試用・プロトタイピング)
OpenAI Playgroundのブラウザ上で音声入出力を試せます。Cedar / Marinの発話イメージ確認、推論強度の聞き比べ、関数呼び出しの動作確認に向いています。APIキーがあれば即日利用可能です。
2. WebRTC(ブラウザ・モバイル向け)
エンドユーザーが直接AIと話すUXに向いた接続方式です。割り込み処理(interruption)を自動管理してくれるため、フロントエンド実装の負担が軽減されます。
3. WebSocket(サーバ向け)
サーバ側からRealtime APIに接続し音声ストリームを中継する構成。コールセンターのバックエンドや、Twilio / LiveKitなどの電話・会議基盤との連携に使われます。
セッション設定(WebSocket / gpt-realtime-2)の例:
{
"type": "session.update",
"session": {
"model": "gpt-realtime-2",
"voice": "cedar",
"modalities": ["audio", "text"],
"instructions": "あなたは丁寧なカスタマーサポート担当です...",
"reasoning_effort": "low",
"tools": [...],
"input_audio_format": "pcm16",
"output_audio_format": "pcm16"
}
}翻訳エンドポイントの場合はモデル名を gpt-realtime-translate、エンドポイントを wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate に変更します。詳細は OpenAI Cookbook の翻訳実装ガイドが一次資料として最も確実です。
4. SIP(電話網接続)
Realtime APIはSIP接続に対応しており、PSTN(公衆電話網)やIP電話と直接つながります。既存の電話番号でAIオペレーターを受けられる構成が可能で、コールセンターの段階的AI移行に有効です。音声フォーマットはG.711(電話用途)を使用します。
エンタープライズ早期採用事例
OpenAIはGA発表時に複数の顧客数値を公開しています。
顧客 | ユースケース | 公表効果 |
|---|---|---|
Glean | 社内検索・業務エージェントの音声化 | 助力性 +42.9% |
Genspark | 音声エージェント | 有効会話率 +26% |
Zillow | 不動産検索・予約自動化 | コール成功率 69%→95%(+26pt) |
Deutsche Telekom | 顧客サポートのリアルタイム翻訳 | 多言語対応の自動化 |
Priceline | 旅行手配の音声統合 | 予約フロー全体の音声化 |
Vimeo | ライブ吹き替え(Translate) | 完全ライブ翻訳の実現 |
数値はベンダー公表ベースのため自社業務での再現性は別途検証が必要ですが、「音声AIがPoCから本番運用へ移行し始めている」段階を示すサインとして読めます。
制約・落とし穴・運用上の注意点
本番投入前に把握しておくべき制約を整理します。
機能上の制約
gpt-realtime-2:
- Streaming レスポンス・Structured Outputs・Fine-tuning・Predicted outputs は非対応
- 動画入力・画像出力は不可(画像入力のみ可)
- カスタムボイス不可: なりすまし防止のためプリセット音声に固定
- セッション最大60分(55分頃に再接続処理が必要)
- Knowledge cutoff: 2024年9月30日(以降の固有情報はツール呼び出しで補完が必要)
gpt-realtime-translate:
- 翻訳専用: 推論・関数呼び出し・任意プロンプトは不可
- 出力言語は13言語のみ(対象外言語はSTT-MT-TTSのフォールバックが必要)
gpt-realtime-whisper:
- 出力はテキストのみ(音声出力不可)
- 話者分離(diarization)非対応
- 法的に有効な確定記録としての使用は不可(ストリーミング精度の制約から)
安全分類器(Active Safety Classifier)の存在
Realtime APIのセッションには有害コンテンツ検出クラシファイアが常時動作しており、ガイドライン違反を検知すると会話を中断します。正規の会話で誤検知が発生するケースも想定されるため、本番では人間オペレーターへの自動転送フローが必須です。
日本語品質は別途検証推奨
公式ベンチマーク(Big Bench Audioなど)は多言語平均または英語中心で評価されており、日本語特化スコアは未公表です。Cedar / Marinの日本語発話・敬語・固有名詞の品質は、業務利用前に必ず自社スクリプトで PoC 実測してください。
コスト予測困難のリスク
アイドル時の無音・ループ応答でトークン消費が増加するリスクがあります。high/xhigh設定では出力トークン数も増加します。本番前にセッション単位のコストをPoCで実測し、予算上限(usage limit)をOpenAI Dashboardで設定することを推奨します。
企業導入時の法務・運用チェックリスト
- ユーザーへのAI利用の明示と録音同意取得(法令要件)
- 契約・返金・医療・法務・金融などの最終判断は人間が担うフロー
- 個人情報を含む会話ログと運用ログの分離保存
- クライアントサイドへのAPIキー直接公開は音声ストリームの脆弱性リスク(サーバー経由でのセッション発行を推奨)
- EU コンプライアンス: EU データストレージオプションあり / Azure経由での展開も選択肢
OpenAI-Safety-Identifierヘッダーの活用(内部ユーザーIDをハッシュで渡し、不正利用を組織全体シャットダウンなしに制御)
こんな方におすすめ / おすすめしない方
gpt-realtime-2 が向いている方
- 音声カスタマーサポートをAI化したい: 推論・関数呼び出し・トーン適応が揃う
- OpenAIのエコシステム(Codex / MCP / Agents SDK)をすでに使っている: 一体運用がしやすい
- 長時間の会話セッションを扱う: 128Kコンテキストで履歴を保ちやすい
- マルチモーダル音声エージェントを作りたい: 画像入力に対応するのは3モデル中これだけ
- 既存の電話インフラと直接つなぎたい: SIPでPSTN連携が可能
gpt-realtime-translate が向いている方
- インバウンド業務で日本語出力が必要: 出力13言語に日本語が含まれる
- 同時通訳・ライブ吹き替え: 200msチャンクの低遅延配信
- 翻訳に特化したシンプルな分課金モデルが好ましい
gpt-realtime-whisper が向いている方
- ライブ字幕・リアルタイム議事録: 低遅延ストリーミング前提
- コールセンターの通話モニタリング: 通話と同時にテキスト解析したい
おすすめしない方
- 任意の声をクローン・カスタムしたい: プリセット音声固定のため不可(ElevenLabsなどが向く)
- 話者分離が必須の議事録: gpt-realtime-whisperはdiarization非対応
- 完全オンプレミスで音声データを外部に出せない: クラウドAPI専用
- Fine-tuningでドメイン特化したい: gpt-realtime-2はfine-tuning非対応
- 動画フレームを使ったマルチモーダル音声対話が必要: Gemini Liveが向く
- 1通話あたりのコストを精緻にコントロールしたい: トークン課金は予測がしづらい(分課金モデルの競合が管理しやすい)
よくある質問(FAQ)
Q1. GPT-Realtime-2は無料で使えますか?
無料枠はありません。Realtime API経由でトークン課金(音声入力 $32/1M、音声出力 $64/1M)が発生します。Playgroundでの試用にもAPI利用分の料金がかかります。
Q2. 旧モデル gpt-realtime-1.5 はどうなりますか?
2026年5月7日時点で即座に廃止されたわけではありません。ただし新規プロジェクトはGPT-Realtime-2からの開始を推奨します。OpenAIのdeprecationsページを定期確認し、移行猶予期間を踏まえてマイグレーションを計画してください。なお1.5→2への移行時はプロンプトの再最適化が必要になる場合があります(挙動変化が報告されています)。
Q3. gpt-realtime-translateは日本語に対応していますか?
出力対応13言語に日本語が含まれます。「英語→日本語」「中国語→日本語」など、インバウンド業務で必要な方向はほぼカバーされています。ただし方言・専門用語・固有名詞の精度は別途PoCでの検証が必要です。
Q4. 既存Whisper APIは廃止になりますか?
2026年6月時点で廃止予告は出ていません。gpt-realtime-whisperは補完関係にあり、リアルタイム性が必要なら新モデル、バッチ処理・話者分離・高精度書き起こしは既存API、という二段構えが推奨です。
Q5. SIPで既存の電話番号と直接つなげますか?
Realtime APIはSIP接続をサポートしています。実装にはPBXやSIPトランクの設定が必要で、Twilio / LiveKitなど既存の電話基盤との組み合わせが現実的です。対応キャリアの詳細は公式ドキュメントを確認してください。
Q6. ElevenLabsと比べてどちらが安いですか?
用途によって異なります。gpt-realtime-2はトークン課金のため、長時間音声会話ではコスト計算が複雑になります。翻訳・文字起こし特化であれば分課金のgpt-realtime-translate($0.034/分)やgpt-realtime-whisper($0.017/分)の方がコスト見積もりしやすいです。ElevenLabsを含む競合の料金は変動が激しいため、各社公式ページで最新値を比較してください。
Q7. Azure OpenAI経由でも使えますか?
Microsoft Community Hub等の情報では、Azure OpenAI Serviceでのgpt-realtime-2利用が確認されています。AzureはSLA・コンプライアンス要件・データレジデンシー面で直接API以上の選択肢を提供する場合があります。ただしAzure経由での料金差異については公式確認が必要です。
Q8. パラレルツールコールはどんな場面で効きますか?
「在庫確認」「配送日計算」「顧客プロファイル参照」のように、互いに依存しない複数の問い合わせを同時発火できる場面で体感のレスポンスが大幅に改善します。MCPリモートサーバーとの組み合わせで、社内システム連携の幅が広がります。
Q9. gpt-realtime-miniというモデルもありますか?
日本語の一部情報源で言及されていますが、2026年6月時点でOpenAI公式ドキュメントでの明示を確認できていません。「公式確認中」として扱い、断定しないことをお勧めします。
まとめ — GPT-Realtime-2が音声AIの本番投入を加速する
GPT-Realtime-2は、推論・コンテキスト・ツール呼び出し・トーン制御が揃った「業務エージェント前提」の音声モデルです。同時公開された gpt-realtime-translate(音声翻訳・日本語出力対応)と gpt-realtime-whisper(ストリーミング文字起こし)を組み合わせることで、カスタマーサポート・通訳・字幕・コールセンターまで広範な用途をRealtime API一本でカバーできます。
導入判断の3つのポイント:
- 用途の切り分け: 会話エージェントならgpt-realtime-2、翻訳ならtranslate、文字起こしならwhisper(または既存Whisper APIバッチ)
- コスト設計: トークン課金と分課金の混在を理解し、推論強度・キャッシュ・PoC実測でコストを最適化。ElevenLabsなど競合との価格比較は用途別に
- 本番運用設計: AI利用明示・人間引き継ぎ・ログ分離・安全分類器フォールバック・録音同意取得まで含めた運用ルールを先に決める
音声AIは数週間〜数か月単位で更新されるため、料金・モデル仕様の最新値はOpenAI 公式ページで定期確認してください。
関連記事:
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

PLaMo 3.0 Primeとは?PFN国産フルスクラッチLLMの料金・256Kコンテキスト・使い方を徹底解説
2026/06/23

Tencent Hy3 Preview(Hunyuan 3.0)とは?元OpenAI姚順雨が率いる295B MoE・21B active・256K中国産フラッグシップを徹底解説
2026/04/18

Sakana Fuguとは?日本発マルチエージェントAIの仕組み・Fugu Ultra・料金・使い方を整理【2026年6月速報】
2026/06/23

Qwen3.6-Plusとは?SWE-bench 78.8%・1Mコンテキストの中位モデルを料金・使い方まで徹底解説
2026/04/26

Sakana Marlinとは?日本発Ultra Deep Research AI・8時間自律調査・料金・ChatGPTとの違いを解説
2026/06/22

Mozilla Thunderboltとは?OSS・セルフホスト型AIクライアントの特徴・料金・使い方を解説
2026/04/24

