ニュース

Google、最新の音声対訳モデル「Gemini 3.5 Live Translate」をリリース

 Googleは、リアルタイムの音声対訳に向けた最新の音声モデル「Gemini 3.5 Live Translate」をリリースした。現在、Googleのプロダクト全体で展開を開始した。

  • 開発者向け:Gemini Live API および Google AI Studio を通じて、パブリックプレビューで提供
  • エンタープライズ向け:今月からGoogle Meetにおいて、プライベートプレビューを開始
  • すべてのユーザー向け:AndroidおよびiOSのGoogle 翻訳アプリを通じて提供

 このモデルは、70以上の言語を自動検出し、話者のイントネーション、テンポ、ピッチを維持した、スムーズで自然な響きの翻訳音声を生成する。応答前に話者が話し終えるのを待つ「ターンバイターン方式」方式とは異なり、音声を継続的に生成し、品質向上のためにコンテキストを待つことと、話者と同調するための翻訳のバランスを取る。話者からわずか数秒遅れで、滑らかな音声を提供する。

 また、音声ストリーミングをリアルタイムで処理することで、言語間のよりシームレスな接続を実現。手動での設定を必要とせず、多言語入力を処理する。ノイズに対する耐性も高く、騒がしく、予測不可能な環境でも対応可能という。

 Gemini Live APIを活用することで、Agora、Fishjam、LiveKit、Pipecat、Vision Agentsといったデベロッパープラットフォームは、開発者が音声翻訳アプリを容易に構築・展開できるようにする。

 これらのプラットフォームとの統合が、複雑なリアルタイムメディアストリーミングインフラストラクチャを処理するため、開発者はユーザーエクスペリエンスに集中できる。

 Grabでは、乗車時におけるドライバーと乗客の間のリアルタイムに近い多言語コミュニケーションを実現するため、このモデルをテストしている。

 Google Meetの音声翻訳はまもなく、同モデルを採用し、以下の機能を提供することでエクスペリエンスを向上させる。

  • 対応言語を従来の5言語から、70以上の言語に拡大
  • 従来の「英語との相互翻訳のみ」から、1回の会議で2,000以上の言語の組み合わせが可能に
  • 音声翻訳に即座にアクセスできるよう、インターフェースを刷新

 今月から、一部のビジネス向けGoogle Workspaceユーザーを対象に、プライベートプレビューを開始し、年内にはさらなる展開を予定している。

 このモデルは、AndroidとiOSのGoogle 翻訳アプリにも世界中で順次展開。ライブ翻訳機能を使用する際は、ヘッドホンを接続するだけで、70以上の言語で、話者のトーンを反映したよりシームレスな翻訳が体験できる。

 Androidユーザー向けには、同モデルを使用した新しい「リスニングモード」の展開も開始。通常の通話と同じようにスマートフォンを耳に当てるだけで、翻訳された音声が聞こえるようになる。

 なお、このモデルが使用するすべての音声には、SynthIDによる電子透かしが埋め込まれている。電子透かしは、音声出力に直接組み込まれており、AI生成コンテンツの検出可能性を維持し、誤情報の防止に役立つ。