Mengikuti Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud meluncurkan model bahasa visual skala besar Qwen-VL, dan akan langsung menjadi sumber terbuka segera setelah diluncurkan secara online.
Secara khusus, Qwen-VL adalah model besar multi-modal berdasarkan Tongyi Qianwen-7B, yang mendukung banyak masukan seperti gambar, teks, dan bingkai deteksi, serta mendukung keluaran bingkai deteksi selain teks.
Misal 🌰 kita input gambar Arnia, melalui bentuk tanya jawab, Qwen-VL-Chat tidak hanya bisa merangkum isi gambar tersebut, tetapi juga menemukan lokasi Arnia yang ada di dalam gambar tersebut.
Dalam tugas pengujian, Qwen-VL mendemonstrasikan kekuatan "pejuang heksagonal" Dalam penilaian standar bahasa Inggris dari empat jenis tugas multi-modal (Zero-shot Caption/VQA/DocVQA/Grounding), ia telah mencapai SOTA.
Begitu berita open source keluar, menarik banyak perhatian.
Mari kita lihat performa spesifiknya~
Model umum pertama yang mendukung pemosisian domain terbuka Tiongkok
Mari kita lihat ciri-ciri model seri Qwen-VL secara keseluruhan:
Dialog multibahasa: mendukung dialog multibahasa, dukungan ujung ke ujung untuk pengenalan teks panjang dalam bahasa Mandarin dan Inggris dalam gambar;
Dialog interleaved multi-gambar: mendukung input dan perbandingan multi-gambar, menentukan pertanyaan dan jawaban gambar, pembuatan literatur multi-gambar, dll.;
Model tujuan umum pertama yang mendukung penentuan posisi domain terbuka Tiongkok: bingkai deteksi ditandai melalui ekspresi bahasa domain terbuka Tiongkok, yaitu, objek target dapat ditemukan secara akurat di layar;
Pengenalan dan pemahaman menyeluruh: Dibandingkan dengan resolusi 224 yang digunakan oleh LVLM sumber terbuka lainnya (model bahasa visual skala besar), Qwen-VL adalah model LVLM resolusi 448 sumber terbuka pertama. Resolusi yang lebih tinggi dapat meningkatkan pengenalan teks yang lebih detail, menjawab pertanyaan dokumen, dan anotasi kotak deteksi.
Dalam hal skenario, Qwen-VL dapat digunakan dalam skenario seperti menjawab pertanyaan pengetahuan, menjawab pertanyaan gambar, menjawab pertanyaan dokumen, dan pemosisian visual yang mendetail.
Misalnya, jika seorang teman asing yang tidak mengerti bahasa Mandarin pergi ke rumah sakit untuk menemui dokter, menghadap peta panduan dengan satu kepala dan dua kepala besar, dan tidak tahu cara menuju ke departemen terkait, ia dapat langsung melempar peta tersebut. dan pertanyaan ke Qwen-VL, dan biarkan mengikuti informasi Gambar bertindak sebagai penerjemah.
Mari kita uji masukan multi-gambar dan perbandingannya:
Meskipun dia tidak mengenali Arnia, penilaian emosinya memang cukup akurat (kepala anjing manual).
Dari segi kemampuan positioning visual, meskipun gambarnya sangat rumit dan karakternya banyak, Qwen-VL dapat menemukan Hulk dan Spiderman secara akurat sesuai kebutuhan.
Dalam hal detail teknis, Qwen-VL menggunakan Qwen-7B sebagai model bahasa dasar, memperkenalkan encoder visual ViT ke dalam arsitektur model, dan menghubungkan keduanya melalui adaptor bahasa visual yang sadar posisi, sehingga model tersebut mendukung input sinyal visual. .
Proses pelatihan khusus dibagi menjadi tiga langkah:
Pra-pelatihan: hanya mengoptimalkan encoder visual dan adaptor bahasa visual, membekukan model bahasa. Menggunakan data pasangan gambar-teks berskala besar, resolusi gambar masukan adalah 224x224.
Pra-pelatihan multi-tugas: Memperkenalkan data bahasa visual multi-tugas dengan resolusi lebih tinggi (448x448), seperti VQA, VQA teks, pemahaman referensi, dll., untuk pra-pelatihan bersama multi-tugas.
Penyempurnaan yang diawasi: membekukan encoder visual, mengoptimalkan model bahasa dan adaptor. Gunakan data interaksi dialog untuk penyetelan cepat guna mendapatkan model Qwen-VL-Chat akhir dengan kemampuan interaktif.
Para peneliti menguji Qwen-VL pada penilaian bahasa Inggris standar dalam empat kategori tugas multimodal (Zero-shot Caption/VQA/DocVQA/Grounding).
Hasilnya menunjukkan bahwa Qwen-VL mencapai hasil terbaik dari LVLM open source dengan ukuran yang sama.
Selain itu, para peneliti membuat set pengujian TouchStone berdasarkan mekanisme penilaian GPT-4.
Dalam uji perbandingan ini, Qwen-VL-Chat mencapai SOTA.
Jika anda tertarik dengan Qwen-VL, ada demo di Modak Community dan huggingface yang bisa anda coba langsung, dan linknya ada di akhir artikel~
Qwen-VL mendukung peneliti dan pengembang untuk melakukan pengembangan sekunder, dan juga memungkinkan penggunaan komersial, namun perlu diperhatikan bahwa untuk penggunaan komersial, Anda perlu mengisi aplikasi kuesioner terlebih dahulu.
Tautan proyek:
-Mengobrol
Alamat kertas:
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Model besar Ali menjadi open source lagi! Mampu membaca gambar dan mengetahui objek, berdasarkan Tongyi Qianwen 7B, tersedia secara komersial
Sumber: Qubit
Mengikuti Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud meluncurkan model bahasa visual skala besar Qwen-VL, dan akan langsung menjadi sumber terbuka segera setelah diluncurkan secara online.
Misal 🌰 kita input gambar Arnia, melalui bentuk tanya jawab, Qwen-VL-Chat tidak hanya bisa merangkum isi gambar tersebut, tetapi juga menemukan lokasi Arnia yang ada di dalam gambar tersebut.
Model umum pertama yang mendukung pemosisian domain terbuka Tiongkok
Mari kita lihat ciri-ciri model seri Qwen-VL secara keseluruhan:
Dalam hal skenario, Qwen-VL dapat digunakan dalam skenario seperti menjawab pertanyaan pengetahuan, menjawab pertanyaan gambar, menjawab pertanyaan dokumen, dan pemosisian visual yang mendetail.
Misalnya, jika seorang teman asing yang tidak mengerti bahasa Mandarin pergi ke rumah sakit untuk menemui dokter, menghadap peta panduan dengan satu kepala dan dua kepala besar, dan tidak tahu cara menuju ke departemen terkait, ia dapat langsung melempar peta tersebut. dan pertanyaan ke Qwen-VL, dan biarkan mengikuti informasi Gambar bertindak sebagai penerjemah.
Dari segi kemampuan positioning visual, meskipun gambarnya sangat rumit dan karakternya banyak, Qwen-VL dapat menemukan Hulk dan Spiderman secara akurat sesuai kebutuhan.
Para peneliti menguji Qwen-VL pada penilaian bahasa Inggris standar dalam empat kategori tugas multimodal (Zero-shot Caption/VQA/DocVQA/Grounding).
Selain itu, para peneliti membuat set pengujian TouchStone berdasarkan mekanisme penilaian GPT-4.
Jika anda tertarik dengan Qwen-VL, ada demo di Modak Community dan huggingface yang bisa anda coba langsung, dan linknya ada di akhir artikel~
Qwen-VL mendukung peneliti dan pengembang untuk melakukan pengembangan sekunder, dan juga memungkinkan penggunaan komersial, namun perlu diperhatikan bahwa untuk penggunaan komersial, Anda perlu mengisi aplikasi kuesioner terlebih dahulu.
Tautan proyek:
-Mengobrol
Alamat kertas: