GPT-Realtime-2とは｜OpenAI 音声・翻訳・Whisper API 3モデル徹底解説・料金・使い方【2026年5月】

GPT-Realtime-2は、OpenAIが2026年5月7日にRealtime APIで一般公開した、GPT-5級の推論能力を備えた音声対話モデルです。 同日に発表された gpt-realtime-translate（リアルタイム音声翻訳）と gpt-realtime-whisper（ストリーミング文字起こし）の3モデル構成で、Realtime API は同時にベータを卒業し本番運用前提の音声AIプラットフォームとなりました。

この記事では、GPT-Realtime-2 を中心に新3モデルの違い、料金、ベンチマーク、使い方、日本語での実用性、競合との位置付けまで、導入判断に必要な情報を公式発表ベースで整理します。

この記事でわかること:

GPT-Realtime-2 と新2モデル（Translate / Whisper）の違いと用途
トークン課金・分課金の混在する料金体系と現実的なコスト試算
5段階の推論強度・128Kコンテキスト・パラレルツールコールなどの新機能
WebRTC・WebSocket・SIP の3接続方式と Playground での試し方
日本語対応の実情と、本番投入時の安全運用ポイント
どんな業務に向いているか／向いていないか

OpenAI の音声 AI でカスタマーサポートや通訳・字幕システムを検討中のエンジニア、プロダクトマネージャー、現行の gpt-4o-realtime-preview や gpt-realtime-1.5 からの移行を検討している開発者に向けた内容です。

GPT-Realtime-2 の概要 — 3モデル同時公開と Realtime API の GA 化

OpenAI Python SDK公式GitHubリポジトリ（Realtime API も同SDKから利用可能）

出典: GitHub - openai/openai-python

GPT-Realtime-2 は、OpenAI が 2026年5月7日（米国時間）に公開した Realtime API 向けの新音声モデル群の中核モデルです。同時に発表されたのは以下の3モデルで、いずれも Realtime API 経由で利用します。

モデル	役割	課金単位	主な用途
gpt-realtime-2	推論強化型 speech-to-speech 音声エージェント	per 1M tokens	音声カスタマーサポート、業務エージェント、音声アシスタント
gpt-realtime-translate	リアルタイム音声翻訳（音声→音声＋テキスト）	per minute（$0.034 /分）	同時通訳、ライブ吹き替え、多言語コールセンター
gpt-realtime-whisper	ストリーミング音声文字起こし	per minute（$0.017 /分）	ライブ字幕、会議メモ、商談ログ

3モデルとも Realtime API（旧称：Realtime ベータ）が 同時に GA（一般提供）化 されたタイミングで公開されており、「実験段階」から「本番運用前提」へ位置付けが格上げされました。新音声「Cedar」「Marin」も追加され、既存の alloy / echo / shimmer と並んで Realtime API 専用ボイスとして利用できます。

項目	gpt-realtime-2
開発元	OpenAI
発表日	2026年5月7日
提供形態	OpenAI Realtime API / Playground
入力モダリティ	テキスト・音声・画像
出力モダリティ	テキスト・音声
コンテキストウィンドウ	128,000トークン（前世代 32K の4倍）
最大出力	32,000トークン
Knowledge cutoff	2024年9月30日
推論強度	minimal / low（既定）/ medium / high / xhigh の5段階
Function calling	対応
Streaming / Structured Outputs / Fine-tuning	非対応

※ 本記事は2026年5月9日時点の OpenAI 公式情報・大手メディア報道に基づきます。料金・モデル仕様は更新頻度が高いため、最新値は OpenAI 公式 API Pricing を必ず確認してください。

旧モデルからの進化 — gpt-realtime-1.5 → gpt-realtime-2

OpenAI Evalsベンチマーク評価フレームワーク（GPT-Realtime-2 のスコアもこの系統で評価される）

出典: GitHub - openai/evals

GPT-Realtime-2 は、世代としては gpt-4o-realtime-preview（2024年12月）→ gpt-realtime（2025年8月）→ gpt-realtime-1.5 の系譜を継ぐメジャー更新です。前世代との主な違いは次の3点に集約されます。

1. GPT-5級推論の搭載

OpenAI は GPT-Realtime-2 を「Realtime API 初の GPT-5 級推論モデル」と位置付けています。テキスト経由で往復する従来の音声パイプライン（speech-to-text → LLM → text-to-speech）と異なり、音声を直接処理する speech-to-speech 方式 を維持したまま推論深度を引き上げた点が特徴です。

ベンチマーク（前世代 gpt-realtime-1.5 比）:

ベンチマーク	gpt-realtime-2	gpt-realtime-1.5	差分
Big Bench Audio	96.6%	81.4%	+15.2pt
Audio MultiChallenge（xhigh）	48.5%	34.7%	+13.8pt
Conversational Dynamics	96.1%	—	—

数値だけ見ると小さな差に思えますが、Big Bench Audio で 96.6% に達したことは「会話の文脈を保ったまま複雑な指示に従える水準」に届いたことを意味します。

2. コンテキストウィンドウが32K → 128Kへ4倍拡張

長時間のサポート通話や、社内ドキュメント・FAQ をプロンプトに同梱する用途で実用性が大きく改善しました。前世代では数十分の会話で履歴を切り詰める必要がありましたが、128K あれば1〜2時間規模のセッションでも履歴管理が現実的です。

3. レイテンシと自然さの両立

公式公表の time-to-first-audio（最初の音声が出るまでの時間）は推論強度に応じて以下のとおりです。

minimal: 1.12秒
low（既定）: 約1.4秒
high: 2.33秒

会話としての自然さの指標である Conversational Dynamics スコア 96.1% は、相槌・割り込み・沈黙の処理が人間に近い水準に到達したことを示します。

GPT-Realtime-2 でできること — 主要機能を整理

GPT-Realtime-2 は単なる「賢くなった音声モデル」ではなく、業務エージェントとして組み込むための機能群が大きく強化されています。

5段階の推論強度（reasoning effort）

reasoning_effort パラメータで minimal / low / medium / high / xhigh の5段階を指定できます。

minimal — 雑談や定型応答。最も低レイテンシ
low（既定） — 一般的な業務会話のバランス値
medium — 多段階の質問に答える、ツールを使い分ける場面
high — トラブル切り分け、複雑なルール照合
xhigh — 法務・金融などの高難度判断

タスクごとに reasoning_effort を切り替えると、「軽い問い合わせは minimal で安く速く、複雑な相談は high で精度優先」というコスト最適化が現実的です。

パラレルツールコール

複数の関数・API・MCP（Model Context Protocol）リモートサーバ・データベースを 同時並行 で呼び出せます。「在庫を見ながら配送日を計算しつつ顧客プロファイルも確認する」といった処理を、直列ではなく並列で実行できるためレスポンスが体感で大幅に短くなります。

割り込み復帰（interruption recovery）

ユーザーが話を遮っても、文脈を維持したまま会話を再開できます。サポート通話のように「あ、ちょっと待って」「やっぱり別件なんだけど」が頻発する用途で効きます。

プリアンブル発話

ツール呼び出し中の沈黙を埋めるために、「ちょっと確認しますね」「少々お待ちください」 のような繋ぎ発話を自動生成します。実装しないと数秒の沈黙が発生し、ユーザーが「切れた？」と感じやすい問題を緩和します。

トーン適応

問題解決中は冷静、ユーザーが苛立っていれば共感的、解決後は明るく — のように、文脈に応じて声色やテンポを自動調整します。コールセンターで「機械的な対応に聞こえる」という従来課題への直接的な対策です。

新音声 Cedar / Marin

Realtime API 専用の高品質ボイスが追加されました。既存の alloy / echo / shimmer / coral / verse / ballad / ash / sage に加わる形で、より人間に近い発話感を狙ったプリセットです。

画像入力対応（gpt-realtime-2 のみ）

3モデル中、画像を入力できるのは GPT-Realtime-2 だけです。ユーザーが共有した写真・スクリーンショットを音声で説明する、商品画像をもとに在庫検索する、といったマルチモーダル音声エージェントが構築できます。出力側には画像・動画は含まれません。

Function calling 対応

通常の関数呼び出しに対応し、外部 API・データベース・社内システムとの連携が可能です。ただし Streaming レスポンス・Structured Outputs・Fine-tuning・Predicted outputs は非対応 である点は実装前に把握しておく必要があります。

GPT-Realtime-Translate でできること — リアルタイム音声翻訳

gpt-realtime-translate は、入力 70+ 言語 → 出力 13 言語 のライブ音声翻訳に特化したモデルです。GPT-Realtime-2 と異なり、推論や関数呼び出しは行わず、翻訳に振り切った設計になっています。

出力対応13言語に日本語が含まれる

OpenAI Cookbook で公開されている出力対応13言語は次のとおりです。

カテゴリ	出力対応言語
アジア	日本語・中国語・韓国語・ヒンディー語・インドネシア語・ベトナム語
ヨーロッパ	スペイン語・ポルトガル語・フランス語・ドイツ語・イタリア語・ロシア語
グローバル	英語

入力側はアラビア語・ベンガル語・チェコ語・タイ語・ヘブライ語・スワヒリ語・トルコ語・ウクライナ語など 70 以上をサポートし、Whisper 系の言語サポートを継承しています。日本語が出力言語に含まれるため、「英語→日本語」「中国語→日本語」のインバウンド業務にそのまま使える点は国内導入の大きな追い風です。

発話途中で翻訳を開始

センテンスが完結するのを待たず、話者と並行して翻訳音声を出します。プロ通訳者の音声で訓練されており、ライブ吹き替え や 国際会議の同時通訳 といった用途で実用レベルに達したとされています。

専用エンドポイントと音声仕様

通常の Realtime API とは別に、翻訳専用エンドポイントが用意されています。

WebRTC: https://api.openai.com/v1/realtime/translations/calls
WebSocket: wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate

音声仕様は 24kHz PCM16（little-endian）、出力は 200ms チャンクで base64 配信 です。自動言語検出に対応するため、ソース言語を指定せずに混在発話の翻訳を開始できます。

制約

翻訳専用 — 推論・関数呼び出し・任意プロンプトでの挙動制御・カスタム音声選択は不可
同言語は翻訳されない場合がある — 出力言語と同じ言語の発話が混入すると翻訳がスキップされる挙動が報告されている
カスタム用語集・固有名詞辞書・発音指定は提供されていない（ドメイン特化用語は事前テスト必須）

GPT-Realtime-Whisper でできること — ストリーミング文字起こし

gpt-realtime-whisper は、発話と並行してテキストを生成する低遅延ストリーミング音声認識 モデルです。

用途

ライブ字幕の生成（カンファレンス、配信、教育コンテンツ）
会議メモ・商談ログのリアルタイム作成
コールセンターの通話内容モニタリング
字幕同時生成（動画配信プラットフォーム）

遅延と精度のトレードオフ調整

「より低遅延で early partial text を出す」か、「待機時間を伸ばして精度を上げる」かをパラメータで制御できます。ライブ配信の字幕では低遅延優先、議事録では精度優先 — のように用途に合わせた調整が可能です。

既存 Whisper API（バッチ処理）との使い分け

既存の Whisper API（バッチ処理タイプ）は 廃止されたわけではなく、補完関係 にあります。下表のように使い分けるのが現時点の推奨です。

観点	gpt-realtime-whisper	既存 Whisper API（バッチ）
処理形態	ストリーミング（リアルタイム）	バッチ（録音後に一括）
遅延	数百ms〜	ファイル処理時間
課金	$0.017 /分	per minute（別単価）
話者分離（diarization）	提供なし	提供あり（外部組み合わせで実装）
用途例	ライブ字幕、リアルタイム議事録	アーカイブ動画の文字起こし、長尺音声

ライブ性が必要なら gpt-realtime-whisper、最終的な高精度書き起こしや話者分離が必要なら既存 Whisper の処理を併用する、という二段構えが現実的です。

3モデルの料金まとめ — トークン課金と分課金が混在

3モデルの料金体系は GPT-Realtime-2 がトークン課金、Translate と Whisper が分課金 という非対称な構造になっています。

公式料金（2026年5月時点・1Mトークン or 1分あたり）

モデル / 種別	単位	料金（USD）	円換算（参考・1ドル=156円）
gpt-realtime-2 / 音声入力	1M tokens	$32.00	約 ¥4,992
gpt-realtime-2 / 音声入力（キャッシュ）	1M tokens	$0.40	約 ¥62
gpt-realtime-2 / 音声出力	1M tokens	$64.00	約 ¥9,984
gpt-realtime-2 / テキスト入力	1M tokens	$4.00	約 ¥624
gpt-realtime-2 / テキスト入力（キャッシュ）	1M tokens	$0.40	約 ¥62
gpt-realtime-2 / テキスト出力	1M tokens	$24.00	約 ¥3,744
gpt-realtime-2 / 画像入力	1M tokens	$5.00	約 ¥780
gpt-realtime-translate	1分	$0.034 /分	約 ¥5.3 /分
gpt-realtime-whisper	1分	$0.017 /分	約 ¥2.7 /分

レート制限（gpt-realtime-2）は Tier 1 で 200 RPM / 40,000 TPM、最上位 Tier 5 で 20,000 RPM / 15,000,000 TPM です。

公式料金ページ: OpenAI API Pricing

コスト試算 — 現実的な3シナリオ

数字だけでは判断しづらいため、3つの典型的なユースケースで月額コストを試算します。

① カスタマーサポート（gpt-realtime-2 / 平均5分通話 × 1,000件/月）

平均通話時間: 5分 × 1,000 = 5,000分
想定トークン消費: 音声入出力合わせて約 1通話 50,000 トークン（音声入力25K+音声出力25K）
月間トークン消費: 5,000万トークン
概算: 入力 25M × $32 = $800、出力 25M × $64 = $1,600 → 合計約 $2,400 /月（約37万円）
キャッシュを活用すれば入力側は1〜2割まで圧縮可能

② 同時通訳（gpt-realtime-translate / 30分セッション × 20回/月）

月間翻訳時間: 30分 × 20 = 600分
概算: 600 × $0.034 = $20.4 /月（約3,200円）
イベントや講演など、ピンポイント用途では非常に低コスト

③ ライブ字幕（gpt-realtime-whisper / 1日8時間 × 22営業日）

月間処理時間: 8時間 × 60分 × 22 = 10,560分
概算: 10,560 × $0.017 = $179.5 /月（約2.8万円）
同等用途を Whisper（バッチ）で処理した場合との比較は、ライブ性の必要性で判断

数値はあくまで概算です。実際にはトークン消費量・キャッシュ命中率・接続維持コストで変動するため、本番投入前に小規模 PoC で実測することを推奨します。

用途別の選び方 — どのモデルを選ぶべきか

3モデルが同時公開されたことで、「どれを使えばいいか」の判断軸が増えました。次のフローで切り分けると整理しやすくなります。

選定フロー

会話して動かしたいか？
- はい → gpt-realtime-2（推論・ツール呼び出しが必要なため）
- いいえ → 2へ
音声を別言語の音声に変換したいか？
- はい → gpt-realtime-translate
- いいえ → 3へ
音声をテキストに起こしたいか？
- はい → gpt-realtime-whisper（ライブ性が必要）または既存 Whisper API（バッチ）

会話と翻訳を組み合わせたい場合（例：「多言語サポート + 動的応答」）は、gpt-realtime-2 を主軸に置き、必要に応じて gpt-realtime-translate を併用する構成が現実的です。

用途別おすすめ

用途	推奨モデル	理由
音声カスタマーサポート	gpt-realtime-2	推論＋ツール呼び出し＋トーン適応
社内業務エージェントの音声化	gpt-realtime-2	MCP・関数呼び出しで既存システムと連携
国際会議の同時通訳	gpt-realtime-translate	70+→13言語、日本語出力対応
ライブ吹き替え（配信・動画）	gpt-realtime-translate	200ms チャンクの低遅延配信
多言語コールセンター	translate + gpt-realtime-2	翻訳→AI応答→翻訳の3段構成
ライブ字幕（カンファレンス）	gpt-realtime-whisper	低遅延優先設定
議事録のリアルタイム生成	gpt-realtime-whisper	文字起こしのみで十分
アーカイブ動画の文字起こし	既存 Whisper API	ライブ性不要・話者分離が必要なら
商品画像を見ながらの音声相談	gpt-realtime-2	画像入力対応は3モデルで唯一

使い方 — Playground・WebRTC・WebSocket・SIP の4経路

OpenAI Node.js公式ライブラリのGitHubリポジトリ（Realtime API 連携実装にも利用される）

出典: GitHub - openai/openai-node

GPT-Realtime-2 を含む3モデルは、Realtime API 経由で次のいずれかの方式から呼び出します。

1. Playground（試用・プロトタイピング）

OpenAI Playground 上で、ブラウザから音声入出力を試せます。Cedar / Marin の発話イメージ確認、推論強度の聞き比べ、関数呼び出しの動作確認に向いています。

2. WebRTC（ブラウザ・モバイル向け）

ブラウザやスマホアプリに直接組み込む際に使う接続方式。低レイテンシで双方向音声を扱え、エンドユーザーが直接 AI と話す UX に向いています。

3. WebSocket（サーバ向け）

サーバ側から Realtime API に接続し、音声ストリームを中継する構成。コールセンターのバックエンド、Twilio / LiveKit などの電話・会議基盤連携 に使われます。

4. SIP（電話網接続）

Realtime API は SIP 接続 にも対応しており、PSTN（公衆電話網）や IP 電話と直接つながります。既存の電話番号で AI オペレーターを受けられる構成が可能で、コールセンターの段階的 AI 移行に有効です。

簡単な実装ポイント

WebSocket でセッションを開始する際の主要パラメータは次のとおりです。

# セッション設定（WebSocket / gpt-realtime-2）
{
  "type": "session.update",
  "session": {
    "model": "gpt-realtime-2",
    "voice": "cedar",
    "modalities": ["audio", "text"],
    "instructions": "あなたは丁寧なカスタマーサポート担当です...",
    "reasoning_effort": "low",
    "tools": [...],
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16"
  }
}

翻訳エンドポイントの場合は、モデル名を gpt-realtime-translate、エンドポイントを wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate に変えるのが要点です。詳細は OpenAI Cookbook の翻訳実装ガイドが一次資料として最も確実です。

エンタープライズ早期採用事例 — 公表された数値

OpenAI は発表時に複数のエンタープライズ顧客の効果数値を公表しています。要点を整理します。

顧客	ユースケース	公表効果
Glean	社内検索・業務エージェントの音声化	助力性（helpfulness）+42.9%
Genspark	音声エージェント	有効会話率 +26%
Zillow	不動産検索・予約自動化	成功率 +26pt
Deutsche Telekom	顧客サポートのリアルタイム翻訳	多言語対応の自動化
Priceline	旅行手配の音声統合	予約フロー全体の音声化
Vimeo	ライブ吹き替え（Translate デモ）	完全ライブ翻訳

数値はベンダー公表ベースのため、自社業務での再現性は別途検証が必要ですが、「音声 AI が一巡して PoC から本番運用へ移行し始めている」段階を示すサインとして読めます。

制約・落とし穴・運用上の注意点

GPT-Realtime-2 系は強力ですが、本番投入前に把握しておくべき制約があります。

機能上の制約

gpt-realtime-2 は Streaming レスポンス・Structured Outputs・Fine-tuning・Predicted outputs に未対応
動画入力・画像出力は不可（画像入力は gpt-realtime-2 のみ可）
音声出力は OpenAI プリセット音声に固定 — なりすまし防止のためカスタムボイスは不可
gpt-realtime-translate は 翻訳専用（推論・関数呼び出し・任意プロンプトは不可）
gpt-realtime-whisper は 話者分離（diarization）非対応 — 複数話者識別が必要な場合は外部処理を組み合わせる
Knowledge cutoff が 2024年9月30日 のため、それ以降の固有情報はツール呼び出し（検索・MCP）で補完が必要

安全分類器（Active Safety Classifier）

Realtime API のセッションには有害コンテンツ検出のクラシファイアが常時動作しており、ガイドライン違反を検知すると会話を中断します。誤検知で正規の会話が途切れるケースが想定されるため、本番環境では「会話中断時のフェイルセーフ（人間オペレーターへの転送など）」の設計が必要です。

言語混在の落とし穴（gpt-realtime-translate）

出力言語と同じ言語の発話が混入した場合、翻訳がスキップされる挙動が報告されています。たとえば「英語→日本語」セッション中に話者が突然日本語で話し始めると、その部分は翻訳されない可能性があります。話者管理・チャンネル分離での対策が現実的です。

日本語品質は別途検証推奨

公式ベンチマーク（Big Bench Audio など）は多言語平均または英語中心で、日本語特化スコアは未公表です。Cedar / Marin の日本語発話や、敬語・固有名詞の処理品質は 公式デモで限定的にしか確認できていないため、業務利用前に必ず PoC で実測してください。

本番運用前に決めるべきポイント

OpenAI 公式・コミュニティで推奨されている本番投入前のチェック項目です。

ユーザーへの AI 利用の明示 と録音同意取得
契約・返金・医療・法務・金融などの最終判断は 人間引き継ぎ
個人情報を含む会話ログと運用改善ログの分離保存
雑音・早口・方言・劣化音声を含む現実的なテストケース整備
Agents SDK 経由での独自ガードレール追加（業務固有の制限を上乗せ）

競合との位置付け — ElevenLabs / Gemini Live / Step-Audio との違い

音声 AI 領域は競合が増えており、用途による使い分けが現実的です。

ツール	強み	課題
gpt-realtime-2	GPT-5級推論、ツール呼び出し、SIP対応	プリセット音声のみ、Streaming未対応
ElevenLabs Voice / Conversational AI	音声品質・カスタムボイスの自由度	推論深度は外部 LLM 依存
Gemini Live（Google）	マルチモーダル動画理解、Google エコシステム連携	エンタープライズ機能の成熟度
Step-Audio R1.1 ほか OSS / 中国系	コスト・データレジデンシー柔軟性	日本語品質・サポート体制

「OpenAI のエコシステム（Function calling・MCP・Agents SDK・Codex 等）との一体運用」を重視するなら GPT-Realtime-2 が現時点で最も統合度が高い選択肢です。一方、音声品質と任意人物の声クローンを最優先するなら ElevenLabs などの音声特化ベンダーが向きます。

OpenAI モデル全体の体系についてはGPT-5.4とは？機能・料金・モデル比較・GPT-5.5 Instant とはを、課金体系全般はChatGPT 料金徹底解説を合わせて参照すると判断しやすくなります。

こんな方におすすめ

GPT-Realtime-2 系3モデルは、次のような方に向いています。

GPT-Realtime-2 が向いている方

音声カスタマーサポートを AI 化したい — 推論・関数呼び出し・トーン適応が揃う
既存の OpenAI エコシステムを使っている — Codex、MCP、Agents SDK と一体運用しやすい
長時間の会話セッションを扱う — 128K コンテキストで履歴を保ちやすい
マルチモーダル音声エージェントを作りたい — 画像入力に対応するのは3モデル中これだけ
電話網と直接つなぎたい — SIP 対応で PSTN 連携が可能

gpt-realtime-translate が向いている方

インバウンド業務で日本語出力が必要 — 出力13言語に日本語が含まれる
同時通訳・ライブ吹き替え — 200ms チャンクの低遅延配信
70+ → 13 言語の翻訳で十分 — マイナー言語の出力が必要な場合は要検討

gpt-realtime-whisper が向いている方

ライブ字幕・リアルタイム議事録 — 低遅延ストリーミング前提
コールセンターの通話モニタリング — 通話と同時にテキスト解析

よくある質問（FAQ）

Q1. GPT-Realtime-2 は無料で使えますか？

無料枠はありません。Realtime API 経由でトークン課金（音声入力 $32/1M、音声出力 $64/1M）が発生します。Playground での試用にも API 利用分の料金がかかる点に注意してください。

Q2. 旧 `gpt-realtime` や `gpt-realtime-1.5` はどうなりますか？

2026年5月7日時点で、旧モデルは即座に廃止されたわけではありません。ただし新規プロジェクトは GPT-Realtime-2 で開始することを推奨します。OpenAI の deprecations ページを定期確認し、移行猶予期間を踏まえてマイグレーションを計画してください。

Q3. gpt-realtime-translate は日本語に対応していますか？

出力対応13言語に日本語が含まれます。「英語→日本語」「中国語→日本語」など、ほとんどのインバウンド業務で必要な方向はカバーされています。ただし方言・専門用語・固有名詞の精度は別途 PoC での検証が必要です。

Q4. 既存 Whisper API は廃止になりますか？

2026年5月時点で公式には廃止予告は出ていません。gpt-realtime-whisper は補完関係にあり、リアルタイム性が必要な用途は新モデル、バッチ処理・話者分離・高精度書き起こしは既存 API、という二段構えで使い分けるのが現時点の推奨です。

Q5. SIP で電話番号と直接つなげますか？

Realtime API は SIP 接続をサポートしています。実装には PBX や SIP トランクの設定が必要で、対応キャリアや PSTN 仕様の詳細は別途公式ドキュメントを確認してください。Twilio / LiveKit など既存の電話・会議基盤との組み合わせ実装が現実的です。

Q6. Cedar / Marin の日本語発話の自然さはどの程度ですか？

公式デモで限定的にしか確認されておらず、断定的な品質評価はまだできません。日本語業務での実用判断は、自社のスクリプトで PoC を行い、敬語表現・固有名詞・テンポを評価したうえで決めることを推奨します。

Q7. パラレルツールコールはどんな場面で効きますか？

「在庫確認」「配送日計算」「顧客プロファイル参照」のように、互いに依存しない複数の問い合わせを同時に発火できる場面で効果が大きくなります。会話のレスポンスが体感で大きく改善するため、業務 API が複数連携する音声エージェントでは導入価値が高い機能です。

Q8. 安全分類器が誤検知して会話が中断されたらどうなりますか？

会話セッションが切断される挙動になります。本番環境では、人間オペレーターへの自動転送や「申し訳ありません、別の表現で言い直していただけますか」へのフォールバックを実装することで、誤検知時の体験劣化を抑える設計が必要です。

まとめ — GPT-Realtime-2 が音声 AI の本番投入を加速する

GPT-Realtime-2 は、推論・コンテキスト・ツール呼び出し・トーン制御が揃った「業務エージェント前提」の音声モデルです。同時公開された gpt-realtime-translate（音声翻訳・日本語出力対応）と gpt-realtime-whisper（ストリーミング文字起こし）と組み合わせることで、カスタマーサポート・通訳・字幕・コールセンターまで広範な用途を Realtime API 一本でカバーできます。

導入判断のポイントは次の3つです。

用途の切り分け — 会話エージェントなら gpt-realtime-2、翻訳なら translate、文字起こしなら whisper（または既存 Whisper API バッチ）
コスト設計 — トークン課金と分課金の混在を理解し、推論強度・キャッシュ・PoC 実測でコストを最適化
本番運用設計 — AI 利用の明示・人間引き継ぎ・ログ分離・安全分類器のフォールバックまで含めた運用ルールを先に決める

音声 AI は数週間〜数か月単位で更新されるため、料金・モデル仕様の最新値は OpenAI 公式ページで定期確認してください。

関連記事:

この記事のポイント