何が変わったのか——GPT-Realtime-2の核心
従来のRealtime APIは応答の速度は優秀だったが、複雑な推論や長い文脈を扱う能力に課題があった。 GPT-Realtime-2はその壁を打ち破った。
最大の変更点は「コンテキストウィンドウが32Kから128Kへ拡大」された点だ。 長時間の会話セッション、複数ターンにわたるエージェントフロー、外部ツールの呼び出し履歴を持ち越しながら処理することが現実的になった。
また推論レベルをminimal / low / medium / high / xhighの5段階から選択できるようになった。 デフォルトはlowに設定されており、単純な会話ではレイテンシを抑えながら、複雑なタスクにはhighを指定して時間をかけた推論を走らせるという使い分けができる。
さらに複数ツールの並列呼び出しに対応し、「カレンダーを確認しながら同時に在庫を検索する」ような処理を音声応答の流れの中でシームレスに実行できる。 応答中に「確認中です」「調べています」といったフィラー的な発話を挟むことで、ユーザはエージェントが処理中であることを自然に感じ取れる設計になっている。
GPT-Realtime-Translate——70言語のリアルタイム翻訳
GPT-Realtime-Translateは、話者が話しているそのままのペースで翻訳を返す「ライブ翻訳モデル」だ。 対応入力言語は70以上で、出力言語は現在13言語に対応している。
価格は1分あたり0.034ドル。 例えば60分の国際会議を翻訳したとして約2ドルのコストになる計算だ。
すでに実用化が最も現実的なユースケースとして、「多言語コールセンター」「国際カンファレンスの同時通訳補助」「多国籍チームのオンライン会議支援」などが挙げられている。 日本企業にとっても、日英・日中間のリアルタイム翻訳を自社システムに組み込むハードルが格段に下がった。
GPT-Realtime-Whisper——話しながら文字に変わる体験
GPT-Realtime-Whisperはストリーミング音声文字起こしに特化したモデルだ。 話者が発話するたびに、テキストがリアルタイムで流れるように出力される。
価格は1分あたり0.017ドルで、Realtime-Translateの半額程度だ。 医療の診察記録、会議の議事録、カスタマーサポートの通話ログなど、高い精度と低レイテンシが求められる場面での活用が想定される。
エンジニア視点での実装インパクト
エンジニアの立場からこれらAPIを評価すると、「音声エージェントのプロダクション化コスト」が大幅に下がったという点が最大のインパクトだ。
従来は、音声エージェントを実用レベルに仕上げるために「音声入力→テキスト変換→LLM処理→テキスト→音声出力」という複数ステップのパイプラインを組む必要があり、各段階のレイテンシが積み上がっていた。 GPT-Realtime-2はエンドツーエンドで音声を扱い、128Kのコンテキストを維持しながら推論までこなす。 パイプラインの複雑さが大幅に減る。
料金面では、GPT-Realtime-2は入力100万トークンあたり32ドル、出力100万トークンあたり64ドルだ。 音声トークンのコストはテキストより高いため、ユースケースによってはコスト試算が重要になる。 短時間の音声インタラクションに特化したプロダクトであれば実用コストの範囲に収まるが、長時間の通話処理には事前の試算が不可欠だ。
OpenAIがGPT-5.5 InstantをChatGPTのデフォルトモデルに更新し幻覚を52.5%削減したのと同じ時期に、APIレイヤーでも大きな更新が重なっている。 2026年前半のOpenAIは、モデル性能だけでなく「使える形でのプロダクト投入」を加速させている印象を受ける。
競合との比較——音声AIはどこに向かうか
音声AIの分野では、GoogleのGemini Live APIやAnthropicの音声機能との比較が避けられない。 Google Gemini 3.1 Flash-Liteの正式リリースが示すように、軽量・高速モデルの投入はGoogle側でも続いている。
GPT-Realtime-2の差別化ポイントは「推論レベルの選択制」と「128Kコンテキスト」の組み合わせだ。 汎用の音声会話よりも、複雑なタスクを処理する「音声エージェント」の構築に適した仕様と言える。
今後の注目点
DALL-Eモデルスナップショットは2026年5月12日にAPIから削除される予定だ。 音声系モデルの拡充と並行して、画像生成APIの整理が進んでいる。
音声AIのプロダクション事例が積み上がるにつれ、エンジニアが直面する課題も「実装できるか」から「いかに品質とコストを両立させるか」にシフトしていく。 あなたが今開発中のプロダクトに音声機能を加えるとしたら、GPT-Realtime-2の128Kコンテキストをどのように活用するだろうか。
ソース:
- Advancing voice intelligence with new models in the API — OpenAI(2026年5月7日)
- OpenAI has new voice models that reason, translate, and transcribe as you speak — 9to5Mac(2026年5月7日)
- GPT-Realtime-2 Expands OpenAI's Voice Intelligence Capabilities — Dataconomy(2026年5月8日)
- OpenAI GPT-Realtime-2 Brings GPT-5 Reasoning to Voice Agents — Analytics Drift
- OpenAI Developer Changelog — developers.openai.com



