ニュース

「Gemini 3.1 Flash TTS」、表現力豊かなAI音声に進化

 Googleは、最新のテキスト読み上げモデルである「Gemini 3.1 Flash TTS」を発表した。このモデルは、制御性、表現力、品質が向上しており、開発者、企業、一般ユーザーが次世代のAI音声アプリケーションを構築できるようになる。4月16日現在、Gemini APIとGoogle AI Studioを介したプレビュー版開発者向け、Vertex AIのプレビュー版を利用中の企業向け、Google Vid経由のWorkspace ユーザー向けに公開されている。

 Gemini 3.1 Flash TTSは、従来のモデルよりも音声品質が全体的に向上。何千人もの視覚障害者の好みを反映するベンチマークである「Artificial Analysis」で1211という高いスコアを記録。70以上の言語に対応し、自然言語によるクリエイティブコントロールにも優れ、複数人の対話をネイティブにサポートする「マルチスピーカー」機能も備えている。

 また、音声のスタイルやペース、発話方法を直感的に制御できる音声タグも導入。テキストにタグを挿入することで、感情や話し方を細かく指定できる。

 なお、Gemini 3.1 Flash TTSで生成されるすべての音声には、Googleの電子透かし技術「SynthID」のウォーターマークが埋め込まれている。AI生成コンテンツを確実に検出し、誤情報の拡散を防ぐのに役立つ。