GPT-Realtime-2とは|OpenAI 音声・翻訳・Whisper API 3モデル徹底解説・料金・使い方【2026年5月】

この記事のポイント
GPT-Realtime-2は、OpenAIが2026年5月7日に発表した音声・翻訳・文字起こしの新3モデルの中核。料金・機能・接続方式・日本語対応・コスト試算・gpt-realtime-translate / gpt-realtime-whisperとの使い分けまで公式情報ベースで整理します。
GPT-Realtime-2は、OpenAIが2026年5月7日にRealtime APIで一般公開した、GPT-5級の推論能力を備えた音声対話モデルです。 同日に発表された gpt-realtime-translate(リアルタイム音声翻訳)と gpt-realtime-whisper(ストリーミング文字起こし)の3モデル構成で、Realtime API は同時にベータを卒業し本番運用前提の音声AIプラットフォームとなりました。
この記事では、GPT-Realtime-2 を中心に新3モデルの違い、料金、ベンチマーク、使い方、日本語での実用性、競合との位置付けまで、導入判断に必要な情報を公式発表ベースで整理します。
この記事でわかること:
- GPT-Realtime-2 と新2モデル(Translate / Whisper)の違いと用途
- トークン課金・分課金の混在する料金体系と現実的なコスト試算
- 5段階の推論強度・128Kコンテキスト・パラレルツールコールなどの新機能
- WebRTC・WebSocket・SIP の3接続方式と Playground での試し方
- 日本語対応の実情と、本番投入時の安全運用ポイント
- どんな業務に向いているか/向いていないか
OpenAI の音声 AI でカスタマーサポートや通訳・字幕システムを検討中のエンジニア、プロダクトマネージャー、現行の gpt-4o-realtime-preview や gpt-realtime-1.5 からの移行を検討している開発者に向けた内容です。
GPT-Realtime-2 の概要 — 3モデル同時公開と Realtime API の GA 化

出典: GitHub - openai/openai-python
GPT-Realtime-2 は、OpenAI が 2026年5月7日(米国時間)に公開した Realtime API 向けの新音声モデル群の中核モデルです。同時に発表されたのは以下の3モデルで、いずれも Realtime API 経由で利用します。
モデル | 役割 | 課金単位 | 主な用途 |
|---|---|---|---|
gpt-realtime-2 | 推論強化型 speech-to-speech 音声エージェント | per 1M tokens | 音声カスタマーサポート、業務エージェント、音声アシスタント |
gpt-realtime-translate | リアルタイム音声翻訳(音声→音声+テキスト) | per minute($0.034 /分) | 同時通訳、ライブ吹き替え、多言語コールセンター |
gpt-realtime-whisper | ストリーミング音声文字起こし | per minute($0.017 /分) | ライブ字幕、会議メモ、商談ログ |
3モデルとも Realtime API(旧称:Realtime ベータ)が 同時に GA(一般提供)化 されたタイミングで公開されており、「実験段階」から「本番運用前提」へ位置付けが格上げされました。新音声「Cedar」「Marin」も追加され、既存の alloy / echo / shimmer と並んで Realtime API 専用ボイスとして利用できます。
項目 | gpt-realtime-2 |
|---|---|
開発元 | OpenAI |
発表日 | 2026年5月7日 |
提供形態 | OpenAI Realtime API / Playground |
入力モダリティ | テキスト・音声・画像 |
出力モダリティ | テキスト・音声 |
コンテキストウィンドウ | 128,000トークン(前世代 32K の4倍) |
最大出力 | 32,000トークン |
Knowledge cutoff | 2024年9月30日 |
推論強度 | minimal / low(既定)/ medium / high / xhigh の5段階 |
Function calling | 対応 |
Streaming / Structured Outputs / Fine-tuning | 非対応 |
※ 本記事は2026年5月9日時点の OpenAI 公式情報・大手メディア報道に基づきます。料金・モデル仕様は更新頻度が高いため、最新値は OpenAI 公式 API Pricing を必ず確認してください。
旧モデルからの進化 — gpt-realtime-1.5 → gpt-realtime-2

GPT-Realtime-2 は、世代としては gpt-4o-realtime-preview(2024年12月)→ gpt-realtime(2025年8月)→ gpt-realtime-1.5 の系譜を継ぐメジャー更新です。前世代との主な違いは次の3点に集約されます。
1. GPT-5級推論の搭載
OpenAI は GPT-Realtime-2 を「Realtime API 初の GPT-5 級推論モデル」と位置付けています。テキスト経由で往復する従来の音声パイプライン(speech-to-text → LLM → text-to-speech)と異なり、音声を直接処理する speech-to-speech 方式 を維持したまま推論深度を引き上げた点が特徴です。
ベンチマーク(前世代 gpt-realtime-1.5 比):
ベンチマーク | gpt-realtime-2 | gpt-realtime-1.5 | 差分 |
|---|---|---|---|
Big Bench Audio | 96.6% | 81.4% | +15.2pt |
Audio MultiChallenge(xhigh) | 48.5% | 34.7% | +13.8pt |
Conversational Dynamics | 96.1% | — | — |
数値だけ見ると小さな差に思えますが、Big Bench Audio で 96.6% に達したことは「会話の文脈を保ったまま複雑な指示に従える水準」に届いたことを意味します。
2. コンテキストウィンドウが32K → 128Kへ4倍拡張
長時間のサポート通話や、社内ドキュメント・FAQ をプロンプトに同梱する用途で実用性が大きく改善しました。前世代では数十分の会話で履歴を切り詰める必要がありましたが、128K あれば1〜2時間規模のセッションでも履歴管理が現実的です。
3. レイテンシと自然さの両立
公式公表の time-to-first-audio(最初の音声が出るまでの時間)は推論強度に応じて以下のとおりです。
- minimal: 1.12秒
- low(既定): 約1.4秒
- high: 2.33秒
会話としての自然さの指標である Conversational Dynamics スコア 96.1% は、相槌・割り込み・沈黙の処理が人間に近い水準に到達したことを示します。
GPT-Realtime-2 でできること — 主要機能を整理
GPT-Realtime-2 は単なる「賢くなった音声モデル」ではなく、業務エージェントとして組み込むための機能群が大きく強化されています。
5段階の推論強度(reasoning effort)
reasoning_effort パラメータで minimal / low / medium / high / xhigh の5段階を指定できます。
- minimal — 雑談や定型応答。最も低レイテンシ
- low(既定) — 一般的な業務会話のバランス値
- medium — 多段階の質問に答える、ツールを使い分ける場面
- high — トラブル切り分け、複雑なルール照合
- xhigh — 法務・金融などの高難度判断
タスクごとに reasoning_effort を切り替えると、「軽い問い合わせは minimal で安く速く、複雑な相談は high で精度優先」というコスト最適化が現実的です。
パラレルツールコール
複数の関数・API・MCP(Model Context Protocol)リモートサーバ・データベースを 同時並行 で呼び出せます。「在庫を見ながら配送日を計算しつつ顧客プロファイルも確認する」といった処理を、直列ではなく並列で実行できるためレスポンスが体感で大幅に短くなります。
割り込み復帰(interruption recovery)
ユーザーが話を遮っても、文脈を維持したまま会話を再開できます。サポート通話のように「あ、ちょっと待って」「やっぱり別件なんだけど」が頻発する用途で効きます。
プリアンブル発話
ツール呼び出し中の沈黙を埋めるために、「ちょっと確認しますね」「少々お待ちください」 のような繋ぎ発話を自動生成します。実装しないと数秒の沈黙が発生し、ユーザーが「切れた?」と感じやすい問題を緩和します。
トーン適応
問題解決中は冷静、ユーザーが苛立っていれば共感的、解決後は明るく — のように、文脈に応じて声色やテンポを自動調整します。コールセンターで「機械的な対応に聞こえる」という従来課題への直接的な対策です。
新音声 Cedar / Marin
Realtime API 専用の高品質ボイスが追加されました。既存の alloy / echo / shimmer / coral / verse / ballad / ash / sage に加わる形で、より人間に近い発話感を狙ったプリセットです。
画像入力対応(gpt-realtime-2 のみ)
3モデル中、画像を入力できるのは GPT-Realtime-2 だけです。ユーザーが共有した写真・スクリーンショットを音声で説明する、商品画像をもとに在庫検索する、といったマルチモーダル音声エージェントが構築できます。出力側には画像・動画は含まれません。
Function calling 対応
通常の関数呼び出しに対応し、外部 API・データベース・社内システムとの連携が可能です。ただし Streaming レスポンス・Structured Outputs・Fine-tuning・Predicted outputs は非対応 である点は実装前に把握しておく必要があります。
GPT-Realtime-Translate でできること — リアルタイム音声翻訳
gpt-realtime-translate は、入力 70+ 言語 → 出力 13 言語 のライブ音声翻訳に特化したモデルです。GPT-Realtime-2 と異なり、推論や関数呼び出しは行わず、翻訳に振り切った設計になっています。
出力対応13言語に日本語が含まれる
OpenAI Cookbook で公開されている出力対応13言語は次のとおりです。
カテゴリ | 出力対応言語 |
|---|---|
アジア | 日本語・中国語・韓国語・ヒンディー語・インドネシア語・ベトナム語 |
ヨーロッパ | スペイン語・ポルトガル語・フランス語・ドイツ語・イタリア語・ロシア語 |
グローバル | 英語 |
入力側はアラビア語・ベンガル語・チェコ語・タイ語・ヘブライ語・スワヒリ語・トルコ語・ウクライナ語など 70 以上をサポートし、Whisper 系の言語サポートを継承しています。日本語が出力言語に含まれるため、「英語→日本語」「中国語→日本語」のインバウンド業務にそのまま使える点は国内導入の大きな追い風です。
発話途中で翻訳を開始
センテンスが完結するのを待たず、話者と並行して翻訳音声を出します。プロ通訳者の音声で訓練されており、ライブ吹き替え や 国際会議の同時通訳 といった用途で実用レベルに達したとされています。
専用エンドポイントと音声仕様
通常の Realtime API とは別に、翻訳専用エンドポイントが用意されています。
- WebRTC:
https://api.openai.com/v1/realtime/translations/calls - WebSocket:
wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate
音声仕様は 24kHz PCM16(little-endian)、出力は 200ms チャンクで base64 配信 です。自動言語検出に対応するため、ソース言語を指定せずに混在発話の翻訳を開始できます。
制約
- 翻訳専用 — 推論・関数呼び出し・任意プロンプトでの挙動制御・カスタム音声選択は不可
- 同言語は翻訳されない場合がある — 出力言語と同じ言語の発話が混入すると翻訳がスキップされる挙動が報告されている
- カスタム用語集・固有名詞辞書・発音指定は提供されていない(ドメイン特化用語は事前テスト必須)
GPT-Realtime-Whisper でできること — ストリーミング文字起こし
gpt-realtime-whisper は、発話と並行してテキストを生成する低遅延ストリーミング音声認識 モデルです。
用途
- ライブ字幕の生成(カンファレンス、配信、教育コンテンツ)
- 会議メモ・商談ログのリアルタイム作成
- コールセンターの通話内容モニタリング
- 字幕同時生成(動画配信プラットフォーム)
遅延と精度のトレードオフ調整
「より低遅延で early partial text を出す」か、「待機時間を伸ばして精度を上げる」かをパラメータで制御できます。ライブ配信の字幕では低遅延優先、議事録では精度優先 — のように用途に合わせた調整が可能です。
既存 Whisper API(バッチ処理)との使い分け
既存の Whisper API(バッチ処理タイプ)は 廃止されたわけではなく、補完関係 にあります。下表のように使い分けるのが現時点の推奨です。
観点 | gpt-realtime-whisper | 既存 Whisper API(バッチ) |
|---|---|---|
処理形態 | ストリーミング(リアルタイム) | バッチ(録音後に一括) |
遅延 | 数百ms〜 | ファイル処理時間 |
課金 | $0.017 /分 | per minute(別単価) |
話者分離(diarization) | 提供なし | 提供あり(外部組み合わせで実装) |
用途例 | ライブ字幕、リアルタイム議事録 | アーカイブ動画の文字起こし、長尺音声 |
ライブ性が必要なら gpt-realtime-whisper、最終的な高精度書き起こしや話者分離が必要なら既存 Whisper の処理を併用する、という二段構えが現実的です。
3モデルの料金まとめ — トークン課金と分課金が混在
3モデルの料金体系は GPT-Realtime-2 がトークン課金、Translate と Whisper が分課金 という非対称な構造になっています。
公式料金(2026年5月時点・1Mトークン or 1分あたり)
モデル / 種別 | 単位 | 料金(USD) | 円換算(参考・1ドル=156円) |
|---|---|---|---|
gpt-realtime-2 / 音声入力 | 1M tokens | $32.00 | 約 ¥4,992 |
gpt-realtime-2 / 音声入力(キャッシュ) | 1M tokens | $0.40 | 約 ¥62 |
gpt-realtime-2 / 音声出力 | 1M tokens | $64.00 | 約 ¥9,984 |
gpt-realtime-2 / テキスト入力 | 1M tokens | $4.00 | 約 ¥624 |
gpt-realtime-2 / テキスト入力(キャッシュ) | 1M tokens | $0.40 | 約 ¥62 |
gpt-realtime-2 / テキスト出力 | 1M tokens | $24.00 | 約 ¥3,744 |
gpt-realtime-2 / 画像入力 | 1M tokens | $5.00 | 約 ¥780 |
gpt-realtime-translate | 1分 | $0.034 /分 | 約 ¥5.3 /分 |
gpt-realtime-whisper | 1分 | $0.017 /分 | 約 ¥2.7 /分 |
レート制限(gpt-realtime-2)は Tier 1 で 200 RPM / 40,000 TPM、最上位 Tier 5 で 20,000 RPM / 15,000,000 TPM です。
公式料金ページ: OpenAI API Pricing
コスト試算 — 現実的な3シナリオ
数字だけでは判断しづらいため、3つの典型的なユースケースで月額コストを試算します。
① カスタマーサポート(gpt-realtime-2 / 平均5分通話 × 1,000件/月)
- 平均通話時間: 5分 × 1,000 = 5,000分
- 想定トークン消費: 音声入出力合わせて約 1通話 50,000 トークン(音声入力25K+音声出力25K)
- 月間トークン消費: 5,000万トークン
- 概算: 入力 25M × $32 = $800、出力 25M × $64 = $1,600 → 合計約 $2,400 /月(約37万円)
- キャッシュを活用すれば入力側は1〜2割まで圧縮可能
② 同時通訳(gpt-realtime-translate / 30分セッション × 20回/月)
- 月間翻訳時間: 30分 × 20 = 600分
- 概算: 600 × $0.034 = $20.4 /月(約3,200円)
- イベントや講演など、ピンポイント用途では非常に低コスト
③ ライブ字幕(gpt-realtime-whisper / 1日8時間 × 22営業日)
- 月間処理時間: 8時間 × 60分 × 22 = 10,560分
- 概算: 10,560 × $0.017 = $179.5 /月(約2.8万円)
- 同等用途を Whisper(バッチ)で処理した場合との比較は、ライブ性の必要性で判断
数値はあくまで概算です。実際にはトークン消費量・キャッシュ命中率・接続維持コストで変動するため、本番投入前に小規模 PoC で実測することを推奨します。
用途別の選び方 — どのモデルを選ぶべきか
3モデルが同時公開されたことで、「どれを使えばいいか」の判断軸が増えました。次のフローで切り分けると整理しやすくなります。
選定フロー
- 会話して動かしたいか?
- はい → gpt-realtime-2(推論・ツール呼び出しが必要なため)
- いいえ → 2へ
- 音声を別言語の音声に変換したいか?
- はい → gpt-realtime-translate
- いいえ → 3へ
- 音声をテキストに起こしたいか?
- はい → gpt-realtime-whisper(ライブ性が必要)または既存 Whisper API(バッチ)
会話と翻訳を組み合わせたい場合(例:「多言語サポート + 動的応答」)は、gpt-realtime-2 を主軸に置き、必要に応じて gpt-realtime-translate を併用する構成が現実的です。
用途別おすすめ
用途 | 推奨モデル | 理由 |
|---|---|---|
音声カスタマーサポート | gpt-realtime-2 | 推論+ツール呼び出し+トーン適応 |
社内業務エージェントの音声化 | gpt-realtime-2 | MCP・関数呼び出しで既存システムと連携 |
国際会議の同時通訳 | gpt-realtime-translate | 70+→13言語、日本語出力対応 |
ライブ吹き替え(配信・動画) | gpt-realtime-translate | 200ms チャンクの低遅延配信 |
多言語コールセンター | translate + gpt-realtime-2 | 翻訳→AI応答→翻訳の3段構成 |
ライブ字幕(カンファレンス) | gpt-realtime-whisper | 低遅延優先設定 |
議事録のリアルタイム生成 | gpt-realtime-whisper | 文字起こしのみで十分 |
アーカイブ動画の文字起こし | 既存 Whisper API | ライブ性不要・話者分離が必要なら |
商品画像を見ながらの音声相談 | gpt-realtime-2 | 画像入力対応は3モデルで唯一 |
使い方 — Playground・WebRTC・WebSocket・SIP の4経路

出典: GitHub - openai/openai-node
GPT-Realtime-2 を含む3モデルは、Realtime API 経由で次のいずれかの方式から呼び出します。
1. Playground(試用・プロトタイピング)
OpenAI Playground 上で、ブラウザから音声入出力を試せます。Cedar / Marin の発話イメージ確認、推論強度の聞き比べ、関数呼び出しの動作確認に向いています。
2. WebRTC(ブラウザ・モバイル向け)
ブラウザやスマホアプリに直接組み込む際に使う接続方式。低レイテンシで双方向音声を扱え、エンドユーザーが直接 AI と話す UX に向いています。
3. WebSocket(サーバ向け)
サーバ側から Realtime API に接続し、音声ストリームを中継する構成。コールセンターのバックエンド、Twilio / LiveKit などの電話・会議基盤連携 に使われます。
4. SIP(電話網接続)
Realtime API は SIP 接続 にも対応しており、PSTN(公衆電話網)や IP 電話と直接つながります。既存の電話番号で AI オペレーターを受けられる構成が可能で、コールセンターの段階的 AI 移行に有効です。
簡単な実装ポイント
WebSocket でセッションを開始する際の主要パラメータは次のとおりです。
# セッション設定(WebSocket / gpt-realtime-2)
{
"type": "session.update",
"session": {
"model": "gpt-realtime-2",
"voice": "cedar",
"modalities": ["audio", "text"],
"instructions": "あなたは丁寧なカスタマーサポート担当です...",
"reasoning_effort": "low",
"tools": [...],
"input_audio_format": "pcm16",
"output_audio_format": "pcm16"
}
}
翻訳エンドポイントの場合は、モデル名を gpt-realtime-translate、エンドポイントを wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate に変えるのが要点です。詳細は OpenAI Cookbook の翻訳実装ガイド が一次資料として最も確実です。
エンタープライズ早期採用事例 — 公表された数値
OpenAI は発表時に複数のエンタープライズ顧客の効果数値を公表しています。要点を整理します。
顧客 | ユースケース | 公表効果 |
|---|---|---|
Glean | 社内検索・業務エージェントの音声化 | 助力性(helpfulness)+42.9% |
Genspark | 音声エージェント | 有効会話率 +26% |
Zillow | 不動産検索・予約自動化 | 成功率 +26pt |
Deutsche Telekom | 顧客サポートのリアルタイム翻訳 | 多言語対応の自動化 |
Priceline | 旅行手配の音声統合 | 予約フロー全体の音声化 |
Vimeo | ライブ吹き替え(Translate デモ) | 完全ライブ翻訳 |
数値はベンダー公表ベースのため、自社業務での再現性は別途検証が必要ですが、「音声 AI が一巡して PoC から本番運用へ移行し始めている」段階を示すサインとして読めます。
制約・落とし穴・運用上の注意点
GPT-Realtime-2 系は強力ですが、本番投入前に把握しておくべき制約があります。
機能上の制約
- gpt-realtime-2 は Streaming レスポンス・Structured Outputs・Fine-tuning・Predicted outputs に未対応
- 動画入力・画像出力は不可(画像入力は gpt-realtime-2 のみ可)
- 音声出力は OpenAI プリセット音声に固定 — なりすまし防止のためカスタムボイスは不可
- gpt-realtime-translate は 翻訳専用(推論・関数呼び出し・任意プロンプトは不可)
- gpt-realtime-whisper は 話者分離(diarization)非対応 — 複数話者識別が必要な場合は外部処理を組み合わせる
- Knowledge cutoff が 2024年9月30日 のため、それ以降の固有情報はツール呼び出し(検索・MCP)で補完が必要
安全分類器(Active Safety Classifier)
Realtime API のセッションには有害コンテンツ検出のクラシファイアが常時動作しており、ガイドライン違反を検知すると会話を中断します。誤検知で正規の会話が途切れるケースが想定されるため、本番環境では「会話中断時のフェイルセーフ(人間オペレーターへの転送など)」の設計が必要です。
言語混在の落とし穴(gpt-realtime-translate)
出力言語と同じ言語の発話が混入した場合、翻訳がスキップされる挙動が報告されています。たとえば「英語→日本語」セッション中に話者が突然日本語で話し始めると、その部分は翻訳されない可能性があります。話者管理・チャンネル分離での対策が現実的です。
日本語品質は別途検証推奨
公式ベンチマーク(Big Bench Audio など)は多言語平均または英語中心で、日本語特化スコアは未公表です。Cedar / Marin の日本語発話や、敬語・固有名詞の処理品質は 公式デモで限定的にしか確認できていないため、業務利用前に必ず PoC で実測してください。
本番運用前に決めるべきポイント
OpenAI 公式・コミュニティで推奨されている本番投入前のチェック項目です。
- ユーザーへの AI 利用の明示 と録音同意取得
- 契約・返金・医療・法務・金融などの最終判断は 人間引き継ぎ
- 個人情報を含む会話ログと運用改善ログの分離保存
- 雑音・早口・方言・劣化音声を含む現実的なテストケース整備
- Agents SDK 経由での独自ガードレール追加(業務固有の制限を上乗せ)
競合との位置付け — ElevenLabs / Gemini Live / Step-Audio との違い
音声 AI 領域は競合が増えており、用途による使い分けが現実的です。
ツール | 強み | 課題 |
|---|---|---|
gpt-realtime-2 | GPT-5級推論、ツール呼び出し、SIP対応 | プリセット音声のみ、Streaming未対応 |
ElevenLabs Voice / Conversational AI | 音声品質・カスタムボイスの自由度 | 推論深度は外部 LLM 依存 |
Gemini Live(Google) | マルチモーダル動画理解、Google エコシステム連携 | エンタープライズ機能の成熟度 |
Step-Audio R1.1 ほか OSS / 中国系 | コスト・データレジデンシー柔軟性 | 日本語品質・サポート体制 |
「OpenAI のエコシステム(Function calling・MCP・Agents SDK・Codex 等)との一体運用」を重視するなら GPT-Realtime-2 が現時点で最も統合度が高い選択肢です。一方、音声品質と任意人物の声クローンを最優先するなら ElevenLabs などの音声特化ベンダーが向きます。
OpenAI モデル全体の体系についてはGPT-5.4とは?機能・料金・モデル比較・GPT-5.5 Instant とは を、課金体系全般はChatGPT 料金徹底解説を合わせて参照すると判断しやすくなります。
こんな方におすすめ
GPT-Realtime-2 系3モデルは、次のような方に向いています。
GPT-Realtime-2 が向いている方
- 音声カスタマーサポートを AI 化したい — 推論・関数呼び出し・トーン適応が揃う
- 既存の OpenAI エコシステムを使っている — Codex、MCP、Agents SDK と一体運用しやすい
- 長時間の会話セッションを扱う — 128K コンテキストで履歴を保ちやすい
- マルチモーダル音声エージェントを作りたい — 画像入力に対応するのは3モデル中これだけ
- 電話網と直接つなぎたい — SIP 対応で PSTN 連携が可能
gpt-realtime-translate が向いている方
- インバウンド業務で日本語出力が必要 — 出力13言語に日本語が含まれる
- 同時通訳・ライブ吹き替え — 200ms チャンクの低遅延配信
- 70+ → 13 言語の翻訳で十分 — マイナー言語の出力が必要な場合は要検討
gpt-realtime-whisper が向いている方
- ライブ字幕・リアルタイム議事録 — 低遅延ストリーミング前提
- コールセンターの通話モニタリング — 通話と同時にテキスト解析
おすすめしない方
- 任意人物の声をクローンしたい — プリセット音声固定のため不可(ElevenLabs などが向く)
- 話者分離が必須の議事録 — gpt-realtime-whisper は diarization 非対応
- データレジデンシー要件が厳しい業務 — Azure OpenAI Service への展開時期は未確認、規制業種は事前協議が必要
- fine-tuning でドメイン特化したい — gpt-realtime-2 は fine-tuning 非対応
- 完全オンプレミスで動かしたい — クラウド API 専用
よくある質問(FAQ)
Q1. GPT-Realtime-2 は無料で使えますか?
無料枠はありません。Realtime API 経由でトークン課金(音声入力 $32/1M、音声出力 $64/1M)が発生します。Playground での試用にも API 利用分の料金がかかる点に注意してください。
Q2. 旧 gpt-realtime や gpt-realtime-1.5 はどうなりますか?
2026年5月7日時点で、旧モデルは即座に廃止されたわけではありません。ただし新規プロジェクトは GPT-Realtime-2 で開始することを推奨します。OpenAI の deprecations ページを定期確認し、移行猶予期間を踏まえてマイグレーションを計画してください。
Q3. gpt-realtime-translate は日本語に対応していますか?
出力対応13言語に日本語が含まれます。「英語→日本語」「中国語→日本語」など、ほとんどのインバウンド業務で必要な方向はカバーされています。ただし方言・専門用語・固有名詞の精度は別途 PoC での検証が必要です。
Q4. 既存 Whisper API は廃止になりますか?
2026年5月時点で公式には廃止予告は出ていません。gpt-realtime-whisper は補完関係にあり、リアルタイム性が必要な用途は新モデル、バッチ処理・話者分離・高精度書き起こしは既存 API、という二段構えで使い分けるのが現時点の推奨です。
Q5. SIP で電話番号と直接つなげますか?
Realtime API は SIP 接続をサポートしています。実装には PBX や SIP トランクの設定が必要で、対応キャリアや PSTN 仕様の詳細は別途公式ドキュメントを確認してください。Twilio / LiveKit など既存の電話・会議基盤との組み合わせ実装が現実的です。
Q6. Cedar / Marin の日本語発話の自然さはどの程度ですか?
公式デモで限定的にしか確認されておらず、断定的な品質評価はまだできません。日本語業務での実用判断は、自社のスクリプトで PoC を行い、敬語表現・固有名詞・テンポを評価したうえで決めることを推奨します。
Q7. パラレルツールコールはどんな場面で効きますか?
「在庫確認」「配送日計算」「顧客プロファイル参照」のように、互いに依存しない複数の問い合わせを同時に発火できる場面で効果が大きくなります。会話のレスポンスが体感で大きく改善するため、業務 API が複数連携する音声エージェントでは導入価値が高い機能です。
Q8. 安全分類器が誤検知して会話が中断されたらどうなりますか?
会話セッションが切断される挙動になります。本番環境では、人間オペレーターへの自動転送や「申し訳ありません、別の表現で言い直していただけますか」へのフォールバックを実装することで、誤検知時の体験劣化を抑える設計が必要です。
まとめ — GPT-Realtime-2 が音声 AI の本番投入を加速する
GPT-Realtime-2 は、推論・コンテキスト・ツール呼び出し・トーン制御が揃った「業務エージェント前提」の音声モデルです。同時公開された gpt-realtime-translate(音声翻訳・日本語出力対応)と gpt-realtime-whisper(ストリーミング文字起こし)と組み合わせることで、カスタマーサポート・通訳・字幕・コールセンターまで広範な用途を Realtime API 一本でカバーできます。
導入判断のポイントは次の3つです。
- 用途の切り分け — 会話エージェントなら gpt-realtime-2、翻訳なら translate、文字起こしなら whisper(または既存 Whisper API バッチ)
- コスト設計 — トークン課金と分課金の混在を理解し、推論強度・キャッシュ・PoC 実測でコストを最適化
- 本番運用設計 — AI 利用の明示・人間引き継ぎ・ログ分離・安全分類器のフォールバックまで含めた運用ルールを先に決める
音声 AI は数週間〜数か月単位で更新されるため、料金・モデル仕様の最新値は OpenAI 公式ページで定期確認してください。
関連記事:
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

Pentagon AIブラックリストとは?国防総省が8社契約しAnthropicを除外した理由・サプライチェーンリスク指定・Claude軍事利用拒否を整理【2026年5月】
2026/05/09

Anthropic Google 2,000億ドル契約とは|TPU・Cloud調達・Alphabet バックログ40%占有・SpaceX提携と並走するAIインフラ戦略徹底解説
2026/05/08

GPT-5.5-Cyberとは?OpenAI Trusted Access for Cyberの中身・脆弱性検知性能・GPT-5.5との違いを徹底解説【2026年5月】
2026/05/08

スタートアップのAI活用事例|プロダクト開発・資金調達・MVP構築AI徹底解説【2026年最新】
2026/05/08

印刷・出版業のAI活用事例|DTP自動化・デジタル出版・コンテンツAIを徹底解説【2026年版】
2026/05/08

福祉・NPO・非営利組織のAI活用事例|申請支援・多言語対応・業務自動化AI徹底解説【2026年最新】
2026/05/08

