نموذج علي الكبير مفتوح المصدر مرة أخرى! قادر على قراءة الصور ومعرفة الأشياء، استنادًا إلى Tongyi Qianwen 7B، المتوفر تجاريًا

المصدر: كيوبيت

علي نموذج كبير مفتوح المصدر، ونموذج جديد~

بعد Tongyi Qianwen-7B (Qwen-7B)، أطلقت Alibaba Cloud نموذج اللغة المرئية واسع النطاق Qwen-VL، وسيكون مفتوح المصدر مباشرة بمجرد دخوله عبر الإنترنت.

على وجه التحديد، Qwen-VL هو نموذج كبير متعدد الوسائط يعتمد على Tongyi Qianwen-7B، الذي يدعم مدخلات متعددة مثل الصور والنص وإطارات الكشف، ويدعم إخراج إطارات الكشف بالإضافة إلى النص.

على سبيل المثال 🌰، نقوم بإدخال صورة لـ Arnia، من خلال نموذج السؤال والجواب، ولا يستطيع Qwen-VL-Chat تلخيص محتوى الصورة فحسب، بل يمكنه أيضًا تحديد موقع Arnia في الصورة.

في مهمة الاختبار، أظهر Qwen-VL قوة "المحارب السداسي". وفي تقييم اللغة الإنجليزية القياسي للأنواع الأربعة من المهام متعددة الوسائط (Zero-shot Caption/VQA/DocVQA/Grounding)، حقق SOTA.

بمجرد ظهور الأخبار مفتوحة المصدر، جذبت الكثير من الاهتمام.

دعونا نلقي نظرة على الأداء المحدد ~

النموذج العام الأول الذي يدعم تحديد المواقع في النطاق الصيني المفتوح

دعونا نلقي نظرة على خصائص نماذج سلسلة Qwen-VL ككل:

  • الحوار متعدد اللغات: دعم الحوار متعدد اللغات، والدعم الشامل للتعرف على النصوص الطويلة باللغتين الصينية والإنجليزية في الصور؛
  • حوار معشق متعدد الصور: دعم إدخال ومقارنة الصور المتعددة، وتحديد سؤال وإجابة الصورة، وإنشاء الأدبيات متعددة الصور، وما إلى ذلك؛
  • أول نموذج للأغراض العامة يدعم تحديد موضع المجال الصيني المفتوح: حدد إطار الكشف من خلال تعبير لغة المجال الصيني المفتوح، أي أنه يمكنه العثور بدقة على الكائن المستهدف في الصورة؛
  • التعرف والفهم الدقيق: بالمقارنة مع دقة 224 المستخدمة من قبل LVLM (نموذج اللغة المرئية واسع النطاق) مفتوح المصدر، فإن Qwen-VL هو أول نموذج LVLM مفتوح المصدر بدقة 448. يمكن أن تعمل الدقة الأعلى على تحسين التعرف على النص بدقة، والإجابة على أسئلة المستند، والتعليق التوضيحي لمربع الكشف.

فيما يتعلق بالسيناريوهات، يمكن استخدام Qwen-VL في سيناريوهات مثل الإجابة على أسئلة المعرفة، والإجابة على أسئلة الصور، والإجابة على أسئلة المستندات، وتحديد المواقع المرئية الدقيقة.

على سبيل المثال، إذا ذهب صديق أجنبي لا يفهم اللغة الصينية إلى المستشفى لرؤية الطبيب، ويواجه الخريطة الإرشادية برأس واحد ورأسين كبيرين، ولا يعرف كيفية الوصول إلى القسم المقابل، فيمكنه رمي الخريطة مباشرة والأسئلة إلى Qwen-VL، والسماح لها بمتابعة معلومات الصورة بمثابة مترجم.

لنختبر إدخال الصور المتعددة ومقارنتها:

على الرغم من أنه لم يتعرف على أرنيا، إلا أن حكمه العاطفي كان دقيقًا للغاية (رأس كلب يدوي).

من حيث القدرة على تحديد المواقع البصرية، حتى لو كانت الصورة معقدة للغاية وهناك العديد من الشخصيات، يمكن لـ Qwen-VL العثور بدقة على Hulk وSpiderman وفقًا للمتطلبات.

فيما يتعلق بالتفاصيل الفنية، يستخدم Qwen-VL Qwen-7B كنموذج لغة أساسي، ويقدم برنامج تشفير مرئي ViT في بنية النموذج، ويربط الاثنين من خلال محول لغة مرئية مدرك للموضع، بحيث يدعم النموذج إدخال الإشارة المرئية .

تنقسم عملية التدريب المحددة إلى ثلاث خطوات:

  • التدريب المسبق: قم فقط بتحسين برنامج التشفير المرئي ومحول اللغة المرئية، وتجميد نموذج اللغة. باستخدام البيانات المقترنة بالنص والصور على نطاق واسع، تكون دقة صورة الإدخال 224 × 224.
  • التدريب المسبق متعدد المهام: تقديم بيانات لغة مرئية متعددة المهام بدقة أعلى (448 × 448)، مثل VQA، وVQA النصي، والفهم المرجعي، وما إلى ذلك، للتدريب المسبق المشترك متعدد المهام.
  • الضبط الدقيق الخاضع للإشراف: تجميد برنامج التشفير المرئي، وتحسين نموذج اللغة والمحولات. استخدم بيانات تفاعل الحوار للضبط الفوري للحصول على نموذج Qwen-VL-Chat النهائي مع الإمكانات التفاعلية.

اختبر الباحثون Qwen-VL في تقييمات اللغة الإنجليزية القياسية في أربع فئات من المهام متعددة الوسائط (Zero-shot Caption/VQA/DocVQA/Grounding).

أظهرت النتائج أن Qwen-VL يحقق أفضل النتائج لـ LVLM مفتوح المصدر بنفس الحجم.

بالإضافة إلى ذلك، قام الباحثون ببناء مجموعة اختبار TouchStone استنادًا إلى آلية تسجيل GPT-4.

في اختبار المقارنة هذا، حقق Qwen-VL-Chat SOTA.

إذا كنت مهتمًا بـ Qwen-VL، فهناك عروض توضيحية على مجتمع Modak وhuggingface يمكنك تجربتها مباشرة، والرابط موجود في نهاية المقالة~

يدعم Qwen-VL الباحثين والمطورين لتنفيذ التطوير الثانوي، كما يسمح بالاستخدام التجاري، ولكن تجدر الإشارة إلى أنه بالنسبة للاستخدام التجاري، تحتاج إلى ملء طلب الاستبيان أولاً.

رابط المشروع:

-محادثة

عنوان الورقة:

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت
تداول العملات الرقمية في أي مكان وفي أي وقت
qrCode
امسح لتنزيل تطبيق Gate.io
المنتدى
بالعربية
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)