2025年06月04日 13時23分レビュー

GoogleのGemini 2.5で日本語を含む多言語の音声生成が可能に

Gemini 2.5に、人間らしい表現力を持った音声生成機能「ネイティブオーディオ」が統合されました。Google AIスタジオなどで無料で試すことができます。

Gemini 2.5’s native audio capabilities
https://blog.google/technology/google-deepmind/gemini-2-5-native-audio/

新しく統合されたネイティブオーディオ機能には「リアルタイム音声ダイアログ」と「制御可能なテキスト読み上げ」の2種類があります。

◆リアルタイム音声ダイアログ
高品質で、豊かな表現力を持った音声読み上げ機能です。自然言語プロンプトを使って読み上げ時のアクセントを設定したり、音声のトーンを調整したりすることができます。日本語にも対応しています。

Google AI Studioの「Stream」タブでプロンプトを入力し、「Run」をクリックすると音声を生成できます。

実際にいくつかのプロンプトを入力して読み上げさせてみました。「ますかねぇ」といった語尾の抜け感が自然に表現できている一方で、関西弁のイントネーションはかなり不自然です。

Google AI Studioで「Gemini 2.5」のリアルタイム音声ダイアログを試してみた - YouTube

◆制御可能なテキスト読み上げ
生成される音声を自由にコントロールする機能です。短い文章から長編のナレーションまで、スタイル、トーン、感情表現、パフォーマンスを正確に指示し、自然言語プロンプトによってすべてをコントロールすることができると説明されています。

Google AI Studioの「Generate Media」タブで「Gemini speech generation」を選択すると利用できます。