大型モデルもオープンソース化アリ!市販のTongyi Qianwen 7Bに基づいて、画像を読み取り、オブジェクトを認識できます。

出典: 量子ビット

アリのオープンソース大規模モデルと新しいモデル~

Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud は 大規模ビジュアル言語モデル Qwen-VL をリリースしました。これはオンラインになるとすぐに直接オープンソース化されます。

具体的には、Qwen-VL は、Tongyi Qianwen-7B をベースにしたマルチモーダル大規模モデルで、画像、テキスト、検出フレームなどの複数の入力をサポートし、テキストに加えて検出フレームの出力もサポートします。

たとえば、🌰 質問と回答の形式で Arnia の写真を入力すると、Qwen-VL-Chat は写真の内容を要約するだけでなく、写真内の Arnia の位置を特定することもできます。

Qwen-VLは、テスト課題において「六角戦士」の強さを実証し、4種類のマルチモーダル課題(ゼロショットキャプション/VQA/DocVQA/グラウンディング)の標準英語評価においてSOTAを達成しました。

オープンソースのニュースが出るとすぐに、大きな注目を集めました。

具体的なパフォーマンスを見てみましょう〜

中国のオープンドメインポジショニングをサポートする初の一般モデル

Qwen-VLシリーズモデル全体の特徴を見てみましょう。

  • 多言語ダイアログ: 多言語ダイアログをサポートし、画像内の中国語と英語両方の長文認識をエンドツーエンドでサポートします。 *複数画像インターリーブダイアログ:複数画像の入力と比較をサポート、画像の質問と回答の指定、複数画像の文献作成など。
  • 中国語のオープンドメイン測位をサポートする初の汎用モデル: 検出フレームは中国語のオープンドメイン言語表現を通じてマークされます。つまり、画面内でターゲットオブジェクトを正確に見つけることができます。
  • きめ細かい認識と理解: 他のオープンソース LVLM (大規模視覚言語モデル) で使用される 224 解像度と比較して、Qwen-VL は初のオープンソース 448 解像度 LVLM モデルです。解像度が高くなると、きめ細かいテキスト認識、文書の質問応答、および検出ボックスの注釈が向上します。

シナリオに関しては、Qwen-VL は知識質問応答、画像質問応答、文書質問応答、きめ細かい視覚的位置決めなどのシナリオで使用できます。

例えば、中国語が理解できない外国人の友人が病院に診察に行き、頭と二つの大きな地図を前にして、該当する科への行き方が分からない場合、地図を直接投げることができます。 Qwen-VL に質問し、画像情報を翻訳者として追跡させます。

複数画像の入力と比較をテストしてみましょう。

彼はアルニアを認識しませんでしたが、彼の感情的な判断は確かに非常に正確でした(手動の犬の頭)。

視覚的な位置決め能力の点では、絵が非常に複雑でキャラクターが多い場合でも、Qwen-VL は要件に応じてハルクとスパイダーマンを正確に見つけることができます。

技術的な詳細に関しては、Qwen-VL はベース言語モデルとして Qwen-7B を使用し、モデル アーキテクチャにビジュアル エンコーダー ViT を導入し、位置認識ビジュアル言語アダプターを介して 2 つを接続するため、モデルはビジュアル信号入力をサポートします。 。

具体的なトレーニング プロセスは 3 つのステップに分かれています。

  • 事前トレーニング: ビジュアル エンコーダーとビジュアル言語アダプターのみを最適化し、言語モデルをフリーズします。大規模な画像とテキストのペア データを使用する場合、入力画像の解像度は 224x224 です。
  • マルチタスク事前トレーニング: マルチタスク共同事前トレーニング用に、VQA、テキスト VQA、リファレンス理解などの高解像度 (448x448) マルチタスク視覚言語データを導入します。
  • 監視付き微調整: ビジュアル エンコーダーをフリーズし、言語モデルとアダプターを最適化します。プロンプト調整にダイアログ インタラクション データを使用して、インタラクティブ機能を備えた最終的な Qwen-VL-Chat モデルを取得します。

研究者らは、マルチモーダル タスクの 4 つのカテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング) における標準的な英語評価で Qwen-VL をテストしました。

結果は、Qwen-VL が同じサイズのオープンソース LVLM よりも最良の結果を達成していることを示しています。

さらに、研究者らは GPT-4 スコアリング メカニズムに基づいてテスト セット TouchStone を構築しました。

今回の比較テストでは、Qwen-VL-Chat が SOTA を達成しました。

Qwen-VL に興味がある場合は、Modak Community と Huggingface にデモがあり、直接試すことができます。リンクは記事の最後にあります~

Qwen-VLは研究者や開発者の二次開発をサポートしており、商用利用も可能ですが、商用利用の場合は事前にアンケート申請が必要となりますので注意してください。

プロジェクトリンク:

-チャット

用紙のアドレス:

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)