GoogleのGemini 2.5で日本語を含む多言語の音声生成が可能に

Gemini 2.5に、人間らしい表現力を持った音声生成機能「ネイティブオーディオ」が統合されました。Google AIスタジオなどで無料で試すことができます。
Gemini 2.5’s native audio capabilities
https://blog.google/technology/google-deepmind/gemini-2-5-native-audio/
新しく統合されたネイティブオーディオ機能には「リアルタイム音声ダイアログ」と「制御可能なテキスト読み上げ」の2種類があります。
◆リアルタイム音声ダイアログ
高品質で、豊かな表現力を持った音声読み上げ機能です。自然言語プロンプトを使って読み上げ時のアクセントを設定したり、音声のトーンを調整したりすることができます。日本語にも対応しています。
Google AI Studioの「Stream」タブでプロンプトを入力し、「Run」をクリックすると音声を生成できます。

実際にいくつかのプロンプトを入力して読み上げさせてみました。「ますかねぇ」といった語尾の抜け感が自然に表現できている一方で、関西弁のイントネーションはかなり不自然です。
Google AI Studioで「Gemini 2.5」のリアルタイム音声ダイアログを試してみた - YouTube

◆制御可能なテキスト読み上げ
生成される音声を自由にコントロールする機能です。短い文章から長編のナレーションまで、スタイル、トーン、感情表現、パフォーマンスを正確に指示し、自然言語プロンプトによってすべてをコントロールすることができると説明されています。
Google AI Studioの「Generate Media」タブで「Gemini speech generation」を選択すると利用できます。

「Raw structure」に読み上げさせたい文章を入力します。

入力する文章の中に「名前:」の形で話者を指定し、右枠の「Name」に文章中の名前を入れておきます。これで最大2人までの会話文を生成できます。

実際に読み上げさせてみました。
Google AI Studioで「Gemini 2.5」の制御可能なテキスト読み上げを試してみた - YouTube

ネイティブオーディオ機能はGoogle AI Studioのほか、Vertex AIでGemini APIを介して利用できます。
Googleによると、生成される音声にはすべてGoogleの透かし技術であるSynthIDが埋め込まれているとのことです。
・関連記事
Googleが「Gemini 2.5 Flash」を発表、OpenAIの「o4-mini」よりコスパに優れているとアピール - GIGAZINE
Googleが公開わずか数日でGemini 2.5 Proを無料ユーザーにも開放 - GIGAZINE
GoogleがAI生成コンテンツに電子透かしを入れてフェイク拡散を防ぐ「SynthID」をテキストと動画にも拡張、一体どうやって文章に透かしを入れるのか? - GIGAZINE
コンテンツの制作にGoogleのAIが使われた否かを見分けられる「SynthID Detector」が登場 - GIGAZINE
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表 - GIGAZINE
・関連コンテンツ
in レビュー, ソフトウェア, ウェブアプリ, 動画, Posted by log1p_kr
You can read the machine translated English article Google's Gemini 2.5 enables voice ge….