ที่มา: ควิบิต> อาลีโอเพ่นซอร์สโมเดลขนาดใหญ่และอันใหม่ ~หลังจาก Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud ได้เปิดตัว **โมเดลภาษาภาพขนาดใหญ่ Qwen-VL** และจะเป็นโอเพ่นซอร์สโดยตรงทันทีที่ออนไลน์ โดยเฉพาะอย่างยิ่ง Qwen-VL เป็นโมเดลขนาดใหญ่หลายรูปแบบโดยใช้ Tongyi Qianwen-7B ซึ่งรองรับอินพุตหลายรายการ เช่น รูปภาพ ข้อความ และเฟรมการตรวจจับ และรองรับเอาต์พุตของเฟรมการตรวจจับนอกเหนือจากข้อความตัวอย่างเช่น 🌰 เราป้อนรูปภาพของ Arnia ผ่านรูปแบบคำถามและคำตอบ Qwen-VL-Chat ไม่เพียงแต่สามารถสรุปเนื้อหาของรูปภาพเท่านั้น แต่ยังค้นหาตำแหน่งของ Arnia ในภาพด้วย ในงานทดสอบ Qwen-VL แสดงให้เห็นถึงความแข็งแกร่งของ "นักรบหกเหลี่ยม" ในการประเมินภาษาอังกฤษมาตรฐานของงานหลายรูปแบบทั้งสี่ประเภท (Zero-shot Caption/VQA/DocVQA/Grounding) ผ่านการทดสอบ SOTA ทันทีที่มีข่าวโอเพ่นซอร์สออกมา ก็ได้รับความสนใจเป็นอย่างมาก  มาดูประสิทธิภาพที่เฉพาะเจาะจงกันดีกว่า~## **โมเดลทั่วไปรุ่นแรกที่รองรับการวางตำแหน่งโดเมนแบบเปิดของจีน**มาดูคุณลักษณะของรุ่นซีรีส์ Qwen-VL โดยรวมกัน:* บทสนทนาหลายภาษา: รองรับบทสนทนาหลายภาษา การสนับสนุนจากต้นทางถึงปลายทางสำหรับการรู้จำข้อความขนาดยาวทั้งภาษาจีนและภาษาอังกฤษในรูปภาพ* บทสนทนาแบบแทรกหลายภาพ: รองรับการป้อนข้อมูลและการเปรียบเทียบหลายภาพ ระบุคำถามและคำตอบเกี่ยวกับรูปภาพ การสร้างวรรณกรรมหลายภาพ ฯลฯ* โมเดลอเนกประสงค์รุ่นแรกที่รองรับการวางตำแหน่งโดเมนแบบเปิดของจีน: กรอบการตรวจจับถูกทำเครื่องหมายผ่านนิพจน์โดเมนแบบเปิดภาษาจีน กล่าวคือ วัตถุเป้าหมายสามารถพบได้บนหน้าจออย่างแม่นยำ* การจดจำและความเข้าใจที่ละเอียด: เมื่อเปรียบเทียบกับความละเอียด 224 ที่ใช้โดย LVLM โอเพ่นซอร์สอื่นๆ (โมเดลภาษาภาพขนาดใหญ่) Qwen-VL ถือเป็นโมเดล LVLM โอเพนซอร์สความละเอียด 448 รุ่นแรก ความละเอียดที่สูงขึ้นสามารถปรับปรุงการจดจำข้อความแบบละเอียด การตอบคำถามในเอกสาร และคำอธิบายประกอบของกล่องการตรวจจับในแง่ของสถานการณ์ Qwen-VL สามารถใช้ในสถานการณ์ต่างๆ เช่น การตอบคำถามความรู้ การตอบคำถามด้วยรูปภาพ การตอบคำถามเกี่ยวกับเอกสาร และการวางตำแหน่งด้วยภาพอย่างละเอียดตัวอย่างเช่น หากเพื่อนต่างชาติที่ไม่เข้าใจภาษาจีนไปโรงพยาบาลเพื่อพบแพทย์ โดยหันหน้าไปทางแผนที่นำทางด้วยหัวเดียวและสองหัวใหญ่ และไม่รู้ว่าจะไปยังแผนกที่เกี่ยวข้องได้อย่างไร เขาก็สามารถโยนแผนที่ได้โดยตรง และคำถามถึง Qwen-VL และปล่อยให้เป็นไปตามข้อมูล Image ทำหน้าที่เป็นนักแปล มาทดสอบอินพุตและการเปรียบเทียบหลายภาพกัน: แม้ว่าเขาจะจำอาร์เนียไม่ได้ แต่การตัดสินทางอารมณ์ของเขาก็ค่อนข้างแม่นยำ (ใช้หัวสุนัข)ในแง่ของความสามารถในการวางตำแหน่งภาพแม้ว่าภาพจะซับซ้อนมากและมีหลายตัวละคร Qwen-VL ก็สามารถค้นหา Hulk และ Spiderman ได้อย่างแม่นยำตามความต้องการ ในแง่ของรายละเอียดทางเทคนิค Qwen-VL ใช้ Qwen-7B เป็นโมเดลภาษาพื้นฐาน แนะนำตัวเข้ารหัสภาพ ViT ในสถาปัตยกรรมโมเดล และเชื่อมต่อทั้งสองผ่านอะแดปเตอร์ภาษาภาพที่รับรู้ตำแหน่ง เพื่อให้โมเดลรองรับอินพุตสัญญาณภาพ . กระบวนการฝึกอบรมเฉพาะแบ่งออกเป็นสามขั้นตอน:* การฝึกอบรมล่วงหน้า: ปรับเฉพาะตัวเข้ารหัสภาพและอะแดปเตอร์ภาษาภาพให้เหมาะสมเท่านั้น หยุดโมเดลภาษา การใช้ข้อมูลจับคู่ข้อความรูปภาพขนาดใหญ่ ความละเอียดของภาพที่อินพุตคือ 224x224* การฝึกอบรมล่วงหน้าแบบหลายงาน: แนะนำข้อมูลภาษาภาพแบบหลายงานที่มีความละเอียดสูงกว่า (448x448) เช่น VQA, ข้อความ VQA, ความเข้าใจอ้างอิง ฯลฯ สำหรับการฝึกอบรมล่วงหน้าร่วมแบบหลายงาน* การปรับแต่งแบบละเอียดภายใต้การดูแล: หยุดการทำงานของตัวเข้ารหัสภาพ เพิ่มประสิทธิภาพโมเดลภาษาและอะแดปเตอร์ ใช้ข้อมูลการโต้ตอบของกล่องโต้ตอบเพื่อปรับแต่งทันทีเพื่อรับโมเดล Qwen-VL-Chat สุดท้ายที่มีความสามารถเชิงโต้ตอบนักวิจัยได้ทดสอบ Qwen-VL ในการประเมินภาษาอังกฤษมาตรฐานในงานต่อเนื่องสี่ประเภท (Zero-shot Caption/VQA/DocVQA/Grounding) ผลลัพธ์แสดงให้เห็นว่า Qwen-VL บรรลุผลลัพธ์ที่ดีที่สุดของ LVLM โอเพ่นซอร์สที่มีขนาดเท่ากันนอกจากนี้ นักวิจัยได้สร้างชุดทดสอบ **TouchStone** โดยใช้กลไกการให้คะแนน GPT-4  ในการทดสอบเปรียบเทียบนี้ Qwen-VL-Chat บรรลุ SOTAหากคุณสนใจ Qwen-VL มีการสาธิตเกี่ยวกับ Modak Community และ Huggingface ที่คุณสามารถลองได้โดยตรง และลิงก์อยู่ท้ายบทความ~Qwen-VL สนับสนุนนักวิจัยและนักพัฒนาเพื่อดำเนินการพัฒนารอง และยังอนุญาตให้นำไปใช้ในเชิงพาณิชย์ได้ แต่ควรสังเกตว่าสำหรับการใช้งานเชิงพาณิชย์ คุณต้องกรอกใบสมัครแบบสอบถามก่อนลิงค์โครงการ:-แชทที่อยู่กระดาษ:
อาลีรุ่นใหญ่เป็นโอเพ่นซอร์สอีกครั้ง! สามารถอ่านรูปภาพและรู้จักวัตถุได้ โดยใช้ Tongyi Qianwen 7B ซึ่งมีวางจำหน่ายทั่วไป
ที่มา: ควิบิต
หลังจาก Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud ได้เปิดตัว โมเดลภาษาภาพขนาดใหญ่ Qwen-VL และจะเป็นโอเพ่นซอร์สโดยตรงทันทีที่ออนไลน์
ตัวอย่างเช่น 🌰 เราป้อนรูปภาพของ Arnia ผ่านรูปแบบคำถามและคำตอบ Qwen-VL-Chat ไม่เพียงแต่สามารถสรุปเนื้อหาของรูปภาพเท่านั้น แต่ยังค้นหาตำแหน่งของ Arnia ในภาพด้วย
โมเดลทั่วไปรุ่นแรกที่รองรับการวางตำแหน่งโดเมนแบบเปิดของจีน
มาดูคุณลักษณะของรุ่นซีรีส์ Qwen-VL โดยรวมกัน:
ในแง่ของสถานการณ์ Qwen-VL สามารถใช้ในสถานการณ์ต่างๆ เช่น การตอบคำถามความรู้ การตอบคำถามด้วยรูปภาพ การตอบคำถามเกี่ยวกับเอกสาร และการวางตำแหน่งด้วยภาพอย่างละเอียด
ตัวอย่างเช่น หากเพื่อนต่างชาติที่ไม่เข้าใจภาษาจีนไปโรงพยาบาลเพื่อพบแพทย์ โดยหันหน้าไปทางแผนที่นำทางด้วยหัวเดียวและสองหัวใหญ่ และไม่รู้ว่าจะไปยังแผนกที่เกี่ยวข้องได้อย่างไร เขาก็สามารถโยนแผนที่ได้โดยตรง และคำถามถึง Qwen-VL และปล่อยให้เป็นไปตามข้อมูล Image ทำหน้าที่เป็นนักแปล
ในแง่ของความสามารถในการวางตำแหน่งภาพแม้ว่าภาพจะซับซ้อนมากและมีหลายตัวละคร Qwen-VL ก็สามารถค้นหา Hulk และ Spiderman ได้อย่างแม่นยำตามความต้องการ
นักวิจัยได้ทดสอบ Qwen-VL ในการประเมินภาษาอังกฤษมาตรฐานในงานต่อเนื่องสี่ประเภท (Zero-shot Caption/VQA/DocVQA/Grounding)
นอกจากนี้ นักวิจัยได้สร้างชุดทดสอบ TouchStone โดยใช้กลไกการให้คะแนน GPT-4
หากคุณสนใจ Qwen-VL มีการสาธิตเกี่ยวกับ Modak Community และ Huggingface ที่คุณสามารถลองได้โดยตรง และลิงก์อยู่ท้ายบทความ~
Qwen-VL สนับสนุนนักวิจัยและนักพัฒนาเพื่อดำเนินการพัฒนารอง และยังอนุญาตให้นำไปใช้ในเชิงพาณิชย์ได้ แต่ควรสังเกตว่าสำหรับการใช้งานเชิงพาณิชย์ คุณต้องกรอกใบสมัครแบบสอบถามก่อน
ลิงค์โครงการ:
-แชท
ที่อยู่กระดาษ: