ニュース

OpenAI、開発者向けGPT-Realtime APIに3つのオーディオモデル

編集部：中野信二

2026年5月8日 12:32

　OpenAIは、Realtime APIに3つのオーディオモデルを導入した。これらのモデルを使用することで、開発者はより自然で、よりインテリジェントに反応し、リアルタイムでアクションを実行する音声体験を構築できる。

　Realtime APIでは、「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」が利用可能。価格は、GPT-Realtime-2は音声入力トークン100万個あたり32ドル（キャッシュされた入力トークンは0.40ドル）、音声出力トークン100万個あたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルとなっている。

・GPT‑Realtime‑2
　より高度な要求にも対応し、自然な会話を進行できる、GPT-5クラス推論機能を備えた初の音声モデル。

・GPT‑Realtime‑Translate
　70以上の入力言語から13の出力言語へ、話者のペースに合わせて音声を翻訳する新しいライブ翻訳モデル。

・GPT‑Realtime‑Whisper
　話者が話している最中にリアルタイムで音声を文字起こしする、新しいストリーミング音声認識技術。

　今回発表するモデル群は、リアルタイム音声を単純な呼び出しと応答から、会話の展開に合わせて聞き取り、推論し、翻訳し、書き起こし、行動を起こすといった、実際に機能する音声インターフェースへと進化させるものとなる。

　音声がソフトウェアを使用するより自然な方法になるにつれて、開発者は音声AIにおける3つの新たなパターンを中心に構築を進めていることが分かる。

・Voice-to-action
　ユーザーがニーズを説明すると、システムがその要求を推論し、ツールを使ってタスクを完了できる。例えば、Zillowは「私の購入可能額の範囲内で家を探して、混雑した道路を避けて、土曜日に内覧を予約して」といった要求を聞き取り、推論し、実行できるアシスタントを開発している。

・Systems-to-voice
　ソフトウェアが状況に応じて音声ガイダンスをリアルタイムで提供できる。例えば、旅行アプリは旅行者に「到着便が遅延していますが、乗り継ぎは可能です。新しい搭乗ゲートを見つけ、ターミナル内の最短ルートを地図上に示しました。荷物も問題なく乗り継ぎできます」と積極的に伝えられる。

・Voice-to-voice
　AIは、言語、タスク、または変化する状況を超えて、ライブ会話を継続するのに役立つ。例えばドイツテレコムは、顧客が最も使い慣れた言語で話すことができ、モデルが会話をリアルタイムで翻訳する音声サポート体験を構築している。

　実際の音声エージェントに近い音声評価では、その成果が表れている。GPT-Realtime-2（高）は、ネイティブ音声モデルの論理的推論能力や知能を評価する「Big Bench Audio」でGPT-Realtime-1.5よりも15.2％高いスコアを獲得。GPT-Realtime-2（超高）は、音声対話AIの会話能力を評価する「Audio MultiChallenge」で13.8%高いスコアを獲得し、GPT-Realtime-1.5を上回り、ライブ会話における推論、コンテキスト管理、および制御能力が向上している。

URL

🔗ニュースリリース
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/