2025年09月10日 11時32分ソフトウェア

日本語を含む11言語に対応する高精度な自動文字起こしAIモデル「Qwen3-ASR-Flash」をAlibabaの開発チームが発表

Alibabaの大規模言語モデル「Qwen」の開発チームが、新たな音声認識AIである「Qwen3-ASR-Flash」を発表しました。Qwen-ASR-Flashは日本語を含む11言語に対応しており、サウンド付きの歌やバックグラウンドノイズ混じりの音声でも、高い精度で書き起こすことができるとされています。

🎙️ Meet Qwen3-ASR — the all-in-one speech recognition model!
✅ High-accuracy EN/CN + 9 more languages: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
✅ Auto language detection
✅ Songs? Raps? Voice with BGM? No problem. <8% WER
✅ Works in noise, low quality, far-field
✅ Custom… pic.twitter.com/eE1ucgYpVX
— Qwen (@Alibaba_Qwen) September 8, 2025

Qwen3 ASR: Hear clearly, transcribe smartly.
https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

Qwen-ASR-FlashはQwen3-Omniをベースとして、数千万時間の自動音声認識データを含む大量のマルチモーダルデータを使って構築された高性能な音声認識サービスです。

Qwen-ASR-Flashは複雑なバックグラウンドノイズが入った音声や、大きなサウンド付きの歌声などでも、音声認識で高いパフォーマンスを発揮するとのこと。また、11言語と複数のアクセントに対応しているほか、ユーザーが入力したプロンプトに基づいて、カスタマイズされた音声認識結果を取得できるとされています。

Qwen-ASR-Flashが対応している言語は中国語・英語・フランス語・ドイツ語・ロシア語・イタリア語・スペイン語・ポルトガル語・日本語・韓国語・アラビア語の11個。さらに中国語は北京語だけでなく四川語、閩南(びんなん)語、広東語といった方言を認識するほか、英語もイギリス英語やアメリカ英語などさまざまな地域のアクセントをサポートしているとのこと。

以下のグラフは、「Qwen-ASR-Flash」「Gemini 2.5 Pro」「GPT-4 Transcribe」「Paraformer-v2」「Doubao-ASR」の自動音声認識のエラー率を並べたものです。Qwen-ASR-Flashの成績は紫色の棒グラフで表されており、Chinese(中国語)・Chinese Accent(中国語の方言)・English(英語)・Multilingual(日本語などを含む複数言語)・Entities(中国語と英語のベンチマーク)・Lyrics(中国語の歌)・Fullsong(中国語と英語のフル曲)・AccentHard(強いアクセントやノイズを含む音声)・LongMix(複数言語が混ざった音声)など、幅広い音声で低いエラー率を達成していることがわかります。

Qwen-ASR-Flashのデモ版もHugging Faceで公開されていたので、実際に文字起こしをさせてみました。

Qwen3 ASR Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

画面左側の「Upload Audio」の欄に日本語の音声ファイルをドラッグ＆ドロップします。

言語選択欄で「Auto Detect(自動検出)」を選択してから「Start Recognition(認識開始)」をクリック。

音声の背景には音楽やノイズが入っていましたが、高い精度で言葉を認識することができました。ただし、「無論赤い」が「ローマ赤い」になるなど不正確な部分もあります。

Qwen-ASR-FlashのAPIはAlibaba Cloud Model Studioで公開されています。

Alibaba Cloud Model Studio Console
https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031

この記事のタイトルとURLをコピーする

・関連コンテンツ

2025年09月10日 11時32分00秒 in ソフトウェア, ネットサービス, Posted by log1h_ik

You can read the machine translated English article Alibaba's development team announces….