Ali'nin açık kaynaklı büyük modeli ve yeni bir modeli~
Tongyi Qianwen-7B'nin (Qwen-7B) ardından Alibaba Cloud, büyük ölçekli görsel dil modeli Qwen-VL'yi piyasaya sürdü ve çevrimiçi hale gelir gelmez doğrudan açık kaynaklı olacak.
Özellikle Qwen-VL, görüntüler, metin ve algılama çerçeveleri gibi birden fazla girişi destekleyen ve metne ek olarak algılama çerçevelerinin çıktısını destekleyen Tongyi Qianwen-7B'yi temel alan çok modlu büyük bir modeldir.
Örneğin 🌰, soru-cevap şeklinde Arnia'nın bir resmini giriyoruz, Qwen-VL-Chat sadece resmin içeriğini özetlemekle kalmıyor, aynı zamanda Arnia'nın resimdeki yerini de tespit edebiliyor.
Test görevinde Qwen-VL, "altıgen savaşçının" gücünü gösterdi. Dört tür çok modlu görevin (Zero-shot Caption/VQA/DocVQA/Grounding) standart İngilizce değerlendirmesinde SOTA'yı elde etti.
Açık kaynaklı haber çıkar çıkmaz büyük ilgi gördü.
Özel performansa bir göz atalım~
Çin açık alan konumlandırmasını destekleyen ilk genel model
Gelin Qwen-VL serisi modellerin özelliklerine bir bütün olarak bakalım:
Çok dilli diyalog: çok dilli diyalog desteği, resimlerde hem Çince hem de İngilizce olarak uzun metin tanıma için uçtan uca destek;
Çok resimli serpiştirilmiş diyalog: çoklu resim girişi ve karşılaştırmayı destekler, resimli soru ve cevabı belirtir, çok resimli literatür oluşturma vb.;
Çin açık alan konumlandırmasını destekleyen ilk genel amaçlı model: algılama çerçevesi, Çin açık alan dili ifadesi aracılığıyla işaretlenir, yani hedef nesne ekranda doğru bir şekilde bulunabilir;
İnce taneli tanıma ve anlama: Diğer açık kaynaklı LVLM (büyük ölçekli görsel dil modeli) tarafından kullanılan 224 çözünürlükle karşılaştırıldığında, Qwen-VL, ilk açık kaynaklı 448 çözünürlüklü LVLM modelidir. Daha yüksek çözünürlükler, ince taneli metin tanımayı, belge sorusunu yanıtlamayı ve algılama kutusu açıklamalarını geliştirebilir.
Senaryolar açısından Qwen-VL, bilgi sorusu cevaplama, görsel soru cevaplama, belge soru cevaplama ve ayrıntılı görsel konumlandırma gibi senaryolarda kullanılabilir.
Örneğin Çince anlayamayan yabancı bir arkadaş, hastaneye doktora gitmek için gittiğinde, tek kafalı ve iki büyük olan rehber haritasına bakıyorsa ve ilgili bölüme nasıl gideceğini bilmiyorsa, haritayı doğrudan atabilir. Qwen-VL'ye sorular ve sorular yöneltin ve Görüntü bilgilerinin tercüman görevi görmesini sağlayın.
Çoklu görüntü girişini ve karşılaştırmayı test edelim:
Arnia'yı tanımasa da duygusal muhakemesi gerçekten oldukça doğruydu (manuel köpek kafası).
Görsel konumlandırma yeteneği açısından, resim çok karmaşık olsa ve çok sayıda karakter olsa bile Qwen-VL, gereksinimlere göre Hulk ve Örümcek Adam'ı doğru bir şekilde bulabiliyor.
Teknik ayrıntılar açısından, Qwen-VL, temel dil modeli olarak Qwen-7B'yi kullanıyor, model mimarisine bir görsel kodlayıcı ViT ekliyor ve ikisini konuma duyarlı bir görsel dil adaptörü aracılığıyla birbirine bağlıyor, böylece model görsel sinyal girişini destekliyor .
Spesifik eğitim süreci üç adıma ayrılmıştır:
Ön eğitim: yalnızca görsel kodlayıcıyı ve görsel dil adaptörünü optimize edin, dil modelini dondurun. Büyük ölçekli görüntü-metin eşleştirilmiş verileri kullanıldığında, giriş görüntü çözünürlüğü 224x224'tür.
Çok görevli ön eğitim: Çok görevli ortak ön eğitim için VQA, metin VQA, referans anlayışı vb. gibi daha yüksek çözünürlüklü (448x448) çok görevli görsel dil verilerini tanıtın.
Denetimli ince ayar: görsel kodlayıcıyı dondurun, dil modelini ve adaptörleri optimize edin. Etkileşimli özelliklere sahip son Qwen-VL-Chat modelini elde etmek amacıyla hızlı ayarlama için diyalog etkileşim verilerini kullanın.
Araştırmacılar, Qwen-VL'yi dört çok modlu görev kategorisinde (Zero-shot Caption/VQA/DocVQA/Grounding) standart İngilizce değerlendirmelerinde test etti.
Sonuçlar, Qwen-VL'nin aynı boyuttaki açık kaynaklı LVLM'nin en iyi sonuçlarını elde ettiğini göstermektedir.
Ayrıca araştırmacılar GPT-4 puanlama mekanizmasını temel alan bir TouchStone test seti oluşturdular.
Bu karşılaştırma testinde Qwen-VL-Chat SOTA'yı elde etti.
Qwen-VL ile ilgileniyorsanız, Modak Topluluğu'nda ve huggingface'te doğrudan deneyebileceğiniz demolar var ve bağlantı makalenin sonundadır~
Qwen-VL, araştırmacıların ve geliştiricilerin ikincil geliştirme yapmalarını destekler ve ayrıca ticari kullanıma da izin verir ancak ticari kullanım için öncelikle anket uygulamasını doldurmanız gerektiğini belirtmek gerekir.
Proje bağlantısı:
-Sohbet
Kağıt adresi:
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Ali büyük modeli yine açık kaynak! Ticari olarak temin edilebilen Tongyi Qianwen 7B'ye dayalı olarak resimleri okuyabilir ve nesneleri tanıyabilir
Kaynak: Qubit
Tongyi Qianwen-7B'nin (Qwen-7B) ardından Alibaba Cloud, büyük ölçekli görsel dil modeli Qwen-VL'yi piyasaya sürdü ve çevrimiçi hale gelir gelmez doğrudan açık kaynaklı olacak.
Örneğin 🌰, soru-cevap şeklinde Arnia'nın bir resmini giriyoruz, Qwen-VL-Chat sadece resmin içeriğini özetlemekle kalmıyor, aynı zamanda Arnia'nın resimdeki yerini de tespit edebiliyor.
Çin açık alan konumlandırmasını destekleyen ilk genel model
Gelin Qwen-VL serisi modellerin özelliklerine bir bütün olarak bakalım:
Senaryolar açısından Qwen-VL, bilgi sorusu cevaplama, görsel soru cevaplama, belge soru cevaplama ve ayrıntılı görsel konumlandırma gibi senaryolarda kullanılabilir.
Örneğin Çince anlayamayan yabancı bir arkadaş, hastaneye doktora gitmek için gittiğinde, tek kafalı ve iki büyük olan rehber haritasına bakıyorsa ve ilgili bölüme nasıl gideceğini bilmiyorsa, haritayı doğrudan atabilir. Qwen-VL'ye sorular ve sorular yöneltin ve Görüntü bilgilerinin tercüman görevi görmesini sağlayın.
Görsel konumlandırma yeteneği açısından, resim çok karmaşık olsa ve çok sayıda karakter olsa bile Qwen-VL, gereksinimlere göre Hulk ve Örümcek Adam'ı doğru bir şekilde bulabiliyor.
Araştırmacılar, Qwen-VL'yi dört çok modlu görev kategorisinde (Zero-shot Caption/VQA/DocVQA/Grounding) standart İngilizce değerlendirmelerinde test etti.
Ayrıca araştırmacılar GPT-4 puanlama mekanizmasını temel alan bir TouchStone test seti oluşturdular.
Qwen-VL ile ilgileniyorsanız, Modak Topluluğu'nda ve huggingface'te doğrudan deneyebileceğiniz demolar var ve bağlantı makalenin sonundadır~
Qwen-VL, araştırmacıların ve geliştiricilerin ikincil geliştirme yapmalarını destekler ve ayrıca ticari kullanıma da izin verir ancak ticari kullanım için öncelikle anket uygulamasını doldurmanız gerektiğini belirtmek gerekir.
Proje bağlantısı:
-Sohbet
Kağıt adresi: