ソフトウェア

Mistral AIが文字起こし可能な音声認識オープンモデル「Voxtral」をリリース


フランスのAI企業・Mistral AIが、音声認識オープンモデル「Voxtral」を発表しました。同社は、Voxtralを「実際に現場で使える音声インテリジェンス」を展開できる初のオープンモデルとしてアピールしています。

Voxtral | Mistral AI
https://mistral.ai/news/voxtral

Mistral releases Voxtral, its first open source AI audio model | TechCrunch
https://techcrunch.com/2025/07/16/mistral-releases-voxtral-its-first-open-source-ai-audio-model/

Mistral AIは「これまで開発者は、文字起こしの精度が低く、文脈理解も不十分な安価なオープンソースシステムと、高機能だが高価で展開の自由度が低いクローズドなAPIとの間で、難しい選択を迫られてきました」と述べています。MistralはVoxtralを「本番環境で真に使える音声インテリジェンス」を展開できる初のオープンモデルとして位置づけており、同等の性能を持つソリューションの半額以下という手頃な価格で、この問題を解決するとしています。


Voxtralは、用途に応じて2つのモデルが提供されています。1つは240億パラメータを持つ「Voxtral Small」で、本番規模のシステム展開が想定されています。このモデルは、ElevenLabsのScribe、GPT-4o-mini、Gemini 2.5 Flashといったモデルと競合する性能を持っているとのこと。

もう1つは30億パラメータの「Voxtral Mini」で、ローカル環境やエッジデバイスでの利用に適したモデルです。さらに、このVoxtral Miniをベースに、文字起こし専用に最適化された、非常に安価で高速なAPI「Voxtral Mini Transcribe」も用意されています。Mistral AIは「Voxtral Miniは、OpenAIのWhisperを半額以下の価格で、それを上回る性能を有しています」とアピールしました。

以下は文字起こしのエラー率(縦軸)と1分当たりのAPI利用価格(横軸)で文字起こしのコストパフォーマンスを各モデルで比較した図。Voxtral Small、Voxtral Mini、Vox Mini TranscribeのいずれもGPT-4o miniやGemini、そしてOpenAIのWhisperよりも高いコストパフォーマンスを示しています。


そして、英語や他言語(Mozilla Common VoicesFLEURS)におけるベンチマークの比較結果が以下。結果はエラー率で示されているので低い方が優れていることになりますが、VoxtralはWhisper large-v3よりも全体的にエラー率が低く、GPT-4o mini TranscribeやGemini 2.5 Flashよりも優れた結果を示しています。


イタリア語・スペイン語・英語・ドイツ語・ポルトガル語・フランス語・オランダ語・ヒンディー語・アラビア語でのエラー率を比較した結果はこんな感じ。


さらに、VoxtralはMistral Small 3.1というLLMを基盤としているため、最大30分の音声を文字起こしできるだけでなく、最大40分までの音声の内容を認識することができるとのこと。これにより、利用者は音声コンテンツについて直接質問したり、要約を生成させたり、あるいは音声コマンドをAPI呼び出しなどのリアルタイムアクションに変換したりすることができます。

Voxtralの対応言語はイタリア語・スペイン語・英語・ドイツ語・ポルトガル語・フランス語・オランダ語・ヒンディー語・アラビア語。VoxtralのモデルはHugging Faceにホストされており、Apache 2.0ライセンスの下で公開されています。

mistralai (Mistral AI_)
https://huggingface.co/mistralai

VoxtralのAPIは、Hugging Faceから無料で試用できるほか、Mistralのチャットボット「Le Chat」でもテストが可能。アプリケーションへのAPI統合は、1分あたり0.001ドル(約0.15円)からという手頃な価格で提供されます。さらに企業向けでは、自社インフラ内で完結するオンプレミス展開や、医療・法律といった特定ドメイン向けのファインチューニング、話者識別や感情検出といった高度な機能のサポート、既存システムへの統合支援といったサービスも用意されているとのこと。今後は、話者分離や単語レベルのタイムスタンプ、非音声の認識といった機能の追加も計画しているとMistral AIは述べています。

この記事のタイトルとURLをコピーする

・関連記事
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE

Mistral AIが同社初の推論モデル「Magistral」を発表、専門分野の深掘りに対応してステップ推論に特化 - GIGAZINE

Mistral AIがローカル環境で動作する小型で高性能なエージェント型コーディングAI「Devstral」を発表 - GIGAZINE

OpenAIの文字起こしAPIは音声データを2倍速か3倍速にすると安く使える - GIGAZINE

Appleの新しい文字起こしAPI「SpeechAnalyzer」がスピードテストでOpenAIのWhisperを圧倒 - GIGAZINE

MozillaがOpenAIのWhisperベースの高性能文字起こしAI「Whisperfile」を開発中 - GIGAZINE

・関連コンテンツ

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Mistral AI releases 'Voxtral', an open-s….