Alibabaが画像生成AI「Qwen VLo」を発表、プログレッシブ生成手法を採用しテレビの走査線みたいに上から順に描画される

AlibabaのAI開発チームであるQwenが画像生成AI「Qwen VLo」を2025年6月26日(木)に発表しました。Qwen VLoは画像内に含まれるコンテンツ理解力が高く、正確な画像編集が可能とのこと。また、プログレッシブ生成手法を採用しており、左上から順番に画像が生成されるのも大きな特徴です。
Qwen VLo: From "Understanding" the World to "Depicting" It | Qwen
https://qwenlm.github.io/blog/qwen-vlo/
Qwen VLoの画像生成過程を示すデモ映像が以下。既存の画像生成AIモデルの多くは「画像全体を粗く描写し、段階的に高精細にしていく」という生成手法を採用していますが、Qwen VLoはプログレッシブ生成手法を採用しており、画像が左から右、上から下へと段階的に生成されます。Qwen VLoは画像の生成中に予測内容を継続的に改良・最適化しており、最終的な生成結果の一貫性を確保しています。開発チームはプログレッシブ生成手法について「視覚的な品質を向上させるだけでなく、ユーザーに柔軟かつ制御可能なクリエイティブ体験を提供できる」とアピールしています。
Alibabaの画像生成AI「Qwen VLo」が画像を生成する様子 - YouTube

Qwen VLoはチャットAI「Qwen Chat」内で利用可能です。言語は中国語と英語に対応しており、テキストからの画像生成だけでなく、画像を入力して編集することもできます。

Qwen VLoは画像内のコンテンツを認識する能力が従来モデルと比べて強化されており、「車の色を赤色に変更」といった自然言語での指示を理解して編集結果へ正確に反映することができます。
開発チームが示した「Qwen VLoを用いた画像編集の例」が以下。まず、元画像はこんな感じ。

「变成真实照片(実写に変更)」と指示すると「白いTシャツを着たクマが座ってスイカを食べている」という状況はそのままに実写風の画像になりました。

「背景换成艾弗尔铁塔(背景をエッフェル塔に変更)」と指示すると背景が指示通りに変化します。

「变成气球飘到空中(宙に浮くバルーンに変更)」と入力するとこんな感じ。簡潔な指示ですが、うまくクマ部分だけをバルーン化できています。

Qwen VLoは記事作成時点ではプレビュー段階で、「プロンプトとの不一致」や「元の画像との不一致」といった問題が発生する可能性があるとのこと。開発チームは今後もモデルの改善に努める姿勢を示しています。
・関連記事
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能 - GIGAZINE
画像生成AI「Stable Diffusion 3.5 Large」の18GBを超えるVRAM使用量を40%も削減して11GBにする新技術をNVIDIAが公開 - GIGAZINE
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」 - GIGAZINE
Adobeが画像生成AI「Firefly」のAndroid・iOS用アプリを公開、Googleの画像生成AI「Imagen」・動画生成AI「Veo」・OpenAIの画像生成AIも利用可能 - GIGAZINE
Googleの拡散型言語モデル「Gemini Diffusion」はどれくらい爆速なのか? - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article Alibaba launches image generation AI 'Qw….