出典: 量子ビット> アリのオープンソース大規模モデルと新しいモデル~Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は **大規模ビジュアル言語モデル Qwen-VL** をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。 具体的には、Qwen-VL は、Tongyi Qianwen-7B をベースにしたマルチモーダル大規模モデルで、画像、テキスト、検出フレームなどの複数の入力をサポートし、テキストに加えて検出フレームの出力もサポートします。たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。 Qwen-VLは、テスト課題において「六角戦士」の強さを実証し、4種類のマルチモーダル課題(ゼロショットキャプション/VQA/DocVQA/グラウンディング)の標準英語評価においてSOTAを達成しました。 オープンソースのニュースが出るとすぐに、大きな注目を集めました。  具体的なパフォーマンスを見てみましょう〜## **中国のオープンドメインポジショニングをサポートする初の一般モデル**Qwen-VLシリーズモデル全体の特徴を見てみましょう。* 多言語ダイアログ: 多言語ダイアログをサポートし、画像内の中国語と英語両方の長文認識をエンドツーエンドでサポートします。*複数画像インターリーブダイアログ:複数画像の入力と比較をサポート、画像の質問と回答の指定、複数画像の文献作成など。* 中国語のオープンドメイン測位をサポートする初の汎用モデル: 検出フレームは中国語のオープンドメイン言語表現を通じてマークされます。つまり、画面内でターゲットオブジェクトを正確に見つけることができます。* きめ細かい認識と理解: 他のオープンソース LVLM (大規模視覚言語モデル) で使用される 224 解像度と比較して、Qwen-VL は初のオープンソース 448 解像度 LVLM モデルです。解像度が高くなると、きめ細かいテキスト認識、文書の質問応答、および検出ボックスの注釈が向上します。シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。 複数画像の入力と比較をテストしてみましょう。 彼はアルニアを認識しませんでしたが、彼の感情的な判断は確かに非常に正確でした(手動の犬の頭)。視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。 技術的な詳細に関しては、Qwen-VL はベース言語モデルとして Qwen-7B を使用し、モデル アーキテクチャにビジュアル エンコーダー ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続するため、モデルはビジュアル信号入力をサポートします。 。 具体的なトレーニング プロセスは 3 つのステップに分かれています。* 事前トレーニング: ビジュアル エンコーダーとビジュアル言語アダプターのみを最適化し、言語モデルをフリーズします。大規模な画像とテキストのペア データを使用する場合、入力画像の解像度は 224x224 です。* マルチタスク事前トレーニング: マルチタスク共同事前トレーニング用に、VQA、テキスト VQA、リファレンス理解などの高解像度 (448x448) マルチタスク視覚言語データを導入します。* 監視付き微調整: ビジュアル エンコーダーをフリーズし、言語モデルとアダプターを最適化します。プロンプト調整にダイアログ インタラクション データを使用して、インタラクティブ機能を備えた最終的な Qwen-VL-Chat モデルを取得します。研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。 結果は、Qwen-VL が同じサイズのオープンソース LVLM よりも最良の結果を達成していることを示しています。さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット **TouchStone** を構築しました。  今回の比較テストでは、Qwen-VL-Chat が SOTA を達成しました。Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。プロジェクトリンク:-チャット用紙のアドレス:
大型モデルもオープンソース化アリ!市販のTongyi Qianwen 7Bに基づいて、画像を読み取り、オブジェクトを認識できます。
出典: 量子ビット
Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。
たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。
中国のオープンドメインポジショニングをサポートする初の一般モデル
Qwen-VLシリーズモデル全体の特徴を見てみましょう。
シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。
例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。
視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。
研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。
さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット TouchStone を構築しました。
Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~
Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。
プロジェクトリンク:
-チャット
用紙のアドレス: