Велика модель Ali знову з відкритим кодом! Здатний читати зображення та знати об’єкти, на основі Tongyi Qianwen 7B, комерційно доступний

Джерело: Qubit

Алі велика модель із відкритим кодом і нова ~

Слідом за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила великомасштабну візуальну мовну модель Qwen-VL, і вона буде безпосередньо з відкритим вихідним кодом, щойно з’явиться в мережі.

Зокрема, Qwen-VL є мультимодальною великою моделлю на основі Tongyi Qianwen-7B, яка підтримує кілька вхідних даних, таких як зображення, текст і кадри виявлення, а також підтримує вихід кадрів виявлення на додаток до тексту.

Наприклад 🌰, ми вводимо зображення Арнії за допомогою форми запитання та відповіді, Qwen-VL-Chat може не лише узагальнити вміст зображення, але й знайти Арнію на зображенні.

У тестовому завданні Qwen-VL продемонстрував силу «шестикутного воїна», а в стандартному англійському оцінюванні чотирьох типів мультимодальних завдань (Zero-shot Caption/VQA/DocVQA/Grounding) досяг SOTA.

Як тільки новина з’явилася у відкритому доступі, вона привернула багато уваги.

Давайте подивимося на конкретну продуктивність~

Перша загальна модель, яка підтримує китайське позиціонування відкритого домену

Розглянемо характеристики моделей серії Qwen-VL в цілому:

  • Багатомовний діалог: підтримка багатомовного діалогу, наскрізна підтримка для розпізнавання довгого тексту китайською та англійською мовами в зображеннях;
  • Діалог із чергуванням кількох зображень: підтримка введення та порівняння кількох зображень, визначення запитання та відповіді на зображення, створення літератури з кількома зображеннями тощо;
  • Перша модель загального призначення, яка підтримує китайське позиціонування у відкритому домені: кадр виявлення позначається виразом китайської мови відкритого домену, тобто цільовий об’єкт можна точно знайти на екрані;
  • Точне розпізнавання та розуміння: порівняно з роздільною здатністю 224, яка використовується в інших LVLM з відкритим кодом (великомасштабна модель візуальної мови), Qwen-VL є першою моделлю LVLM з роздільною здатністю 448 з відкритим кодом. Вища роздільна здатність може покращити детальне розпізнавання тексту, відповіді на запитання документа та анотації поля виявлення.

З точки зору сценаріїв, Qwen-VL можна використовувати в таких сценаріях, як відповіді на запитання знань, відповіді на запитання щодо зображень, відповіді на запитання щодо документа та детальне візуальне позиціонування.

Наприклад, якщо друг-іноземець, який не розуміє китайської, йде в лікарню до лікаря, дивлячись на карту-гід з однією головою і двома великими, і не знає, як потрапити до відповідного відділення, він може прямо кинути карту і запитання до Qwen-VL, і нехай він слідує за інформацією про зображення, яка діє як перекладач.

Давайте перевіримо введення кількох зображень і порівняння:

Хоча він не впізнав Арнію, його емоційне судження справді було досить точним (ручна голова собаки).

З точки зору здатності візуального позиціонування, навіть якщо зображення дуже складне та багато персонажів, Qwen-VL може точно знайти Халка та Людину-павука відповідно до вимог.

Що стосується технічних деталей, Qwen-VL використовує Qwen-7B як базову мовну модель, вводить візуальний кодер ViT в архітектуру моделі та з’єднує їх через візуальний мовний адаптер з урахуванням позиції, щоб модель підтримувала введення візуального сигналу. .

Конкретний процес тренування ділиться на три етапи:

  • Попереднє навчання: лише оптимізуйте візуальний кодувальник і візуальний мовний адаптер, заморозьте мовну модель. Використовуючи великомасштабні парні дані зображення та тексту, роздільна здатність вхідного зображення становить 224x224.
  • Багатозадачна попередня підготовка: запровадьте багатозадачні візуальні мовні дані з високою роздільною здатністю (448x448), такі як VQA, текст VQA, розуміння посилань тощо, для багатозадачної спільної попередньої підготовки.
  • Тонка настройка під наглядом: заморозка візуального кодувальника, оптимізація мовної моделі та адаптерів. Використовуйте дані діалогової взаємодії для швидкого налаштування, щоб отримати остаточну модель Qwen-VL-Chat з інтерактивними можливостями.

Дослідники протестували Qwen-VL на стандартних тестах з англійської мови в чотирьох категоріях мультимодальних завдань (Zero-shot Caption/VQA/DocVQA/Grounding).

Результати показують, що Qwen-VL досягає найкращих результатів LVLM з відкритим кодом такого ж розміру.

Крім того, дослідники створили тестовий набір TouchStone на основі механізму оцінки GPT-4.

У цьому порівняльному тесті Qwen-VL-Chat досяг результату SOTA.

Якщо вас цікавить Qwen-VL, є демонстраційні версії на Modak Community і huggingface, які ви можете спробувати безпосередньо, а посилання знаходиться в кінці статті ~

Qwen-VL підтримує дослідників і розробників у проведенні вторинної розробки, а також дозволяє комерційне використання, але слід зазначити, що для комерційного використання вам потрібно спочатку заповнити анкету.

Посилання на проект:

-Чат

Адреса паперу:

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити