日本語を含む11言語に対応する高精度な自動文字起こしAIモデル「Qwen3-ASR-Flash」をAlibabaの開発チームが発表

Alibabaの大規模言語モデル「Qwen」の開発チームが、新たな音声認識AIである「Qwen3-ASR-Flash」を発表しました。Qwen-ASR-Flashは日本語を含む11言語に対応しており、サウンド付きの歌やバックグラウンドノイズ混じりの音声でも、高い精度で書き起こすことができるとされています。
🎙️ Meet Qwen3-ASR — the all-in-one speech recognition model!
— Qwen (@Alibaba_Qwen) September 8, 2025
✅ High-accuracy EN/CN + 9 more languages: ar, de, en, es, fr, it, ja, ko, pt, ru, zh
✅ Auto language detection
✅ Songs? Raps? Voice with BGM? No problem. <8% WER
✅ Works in noise, low quality, far-field
✅ Custom… pic.twitter.com/eE1ucgYpVX
Qwen3 ASR: Hear clearly, transcribe smartly.
https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list
Qwen-ASR-FlashはQwen3-Omniをベースとして、数千万時間の自動音声認識データを含む大量のマルチモーダルデータを使って構築された高性能な音声認識サービスです。
Qwen-ASR-Flashは複雑なバックグラウンドノイズが入った音声や、大きなサウンド付きの歌声などでも、音声認識で高いパフォーマンスを発揮するとのこと。また、11言語と複数のアクセントに対応しているほか、ユーザーが入力したプロンプトに基づいて、カスタマイズされた音声認識結果を取得できるとされています。

Qwen-ASR-Flashが対応している言語は中国語・英語・フランス語・ドイツ語・ロシア語・イタリア語・スペイン語・ポルトガル語・日本語・韓国語・アラビア語の11個。さらに中国語は北京語だけでなく四川語、閩南(びんなん)語、広東語といった方言を認識するほか、英語もイギリス英語やアメリカ英語などさまざまな地域のアクセントをサポートしているとのこと。
以下のグラフは、「Qwen-ASR-Flash」「Gemini 2.5 Pro」「GPT-4 Transcribe」「Paraformer-v2」「Doubao-ASR」の自動音声認識のエラー率を並べたものです。Qwen-ASR-Flashの成績は紫色の棒グラフで表されており、Chinese(中国語)・Chinese Accent(中国語の方言)・English(英語)・Multilingual(日本語などを含む複数言語)・Entities(中国語と英語のベンチマーク)・Lyrics(中国語の歌)・Fullsong(中国語と英語のフル曲)・AccentHard(強いアクセントやノイズを含む音声)・LongMix(複数言語が混ざった音声)など、幅広い音声で低いエラー率を達成していることがわかります。

Qwen-ASR-Flashのデモ版もHugging Faceで公開されていたので、実際に文字起こしをさせてみました。
Qwen3 ASR Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
画面左側の「Upload Audio」の欄に日本語の音声ファイルをドラッグ&ドロップします。

言語選択欄で「Auto Detect(自動検出)」を選択してから「Start Recognition(認識開始)」をクリック。

音声の背景には音楽やノイズが入っていましたが、高い精度で言葉を認識することができました。ただし、「無論赤い」が「ローマ赤い」になるなど不正確な部分もあります。

Qwen-ASR-FlashのAPIはAlibaba Cloud Model Studioで公開されています。
Alibaba Cloud Model Studio Console
https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031
・関連記事
Claude Sonnet 4に匹敵するコーディング特化のオープンモデル「Qwen3-Coder」をAlibabaが発表 - GIGAZINE
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億 - GIGAZINE
オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE
DeepSeekにほぼ並ぶ性能を実現したオープンソースのAIモデル「QWQ-32B」をQwenが公開、誰でも無料で動かせるデモページも公開中 - GIGAZINE
画像生成AI「Qwen-Image」登場、OpenAIやFlux超えの高品質画像を生成可能で「複数行の漢字」を自然に描写できる驚異的テキスト描画性能をアピール - GIGAZINE
キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能 - GIGAZINE
GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース - GIGAZINE
・関連コンテンツ
in ソフトウェア, ネットサービス, Posted by log1h_ik
You can read the machine translated English article Alibaba's development team announces….