Слідом за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила великомасштабну візуальну мовну модель Qwen-VL, і вона буде безпосередньо з відкритим вихідним кодом, щойно з’явиться в мережі.
Зокрема, Qwen-VL є мультимодальною великою моделлю на основі Tongyi Qianwen-7B, яка підтримує кілька вхідних даних, таких як зображення, текст і кадри виявлення, а також підтримує вихід кадрів виявлення на додаток до тексту.
Наприклад 🌰, ми вводимо зображення Арнії за допомогою форми запитання та відповіді, Qwen-VL-Chat може не лише узагальнити вміст зображення, але й знайти Арнію на зображенні.
У тестовому завданні Qwen-VL продемонстрував силу «шестикутного воїна», а в стандартному англійському оцінюванні чотирьох типів мультимодальних завдань (Zero-shot Caption/VQA/DocVQA/Grounding) досяг SOTA.
Як тільки новина з’явилася у відкритому доступі, вона привернула багато уваги.
Давайте подивимося на конкретну продуктивність~
Перша загальна модель, яка підтримує китайське позиціонування відкритого домену
Розглянемо характеристики моделей серії Qwen-VL в цілому:
Багатомовний діалог: підтримка багатомовного діалогу, наскрізна підтримка для розпізнавання довгого тексту китайською та англійською мовами в зображеннях;
Діалог із чергуванням кількох зображень: підтримка введення та порівняння кількох зображень, визначення запитання та відповіді на зображення, створення літератури з кількома зображеннями тощо;
Перша модель загального призначення, яка підтримує китайське позиціонування у відкритому домені: кадр виявлення позначається виразом китайської мови відкритого домену, тобто цільовий об’єкт можна точно знайти на екрані;
Точне розпізнавання та розуміння: порівняно з роздільною здатністю 224, яка використовується в інших LVLM з відкритим кодом (великомасштабна модель візуальної мови), Qwen-VL є першою моделлю LVLM з роздільною здатністю 448 з відкритим кодом. Вища роздільна здатність може покращити детальне розпізнавання тексту, відповіді на запитання документа та анотації поля виявлення.
З точки зору сценаріїв, Qwen-VL можна використовувати в таких сценаріях, як відповіді на запитання знань, відповіді на запитання щодо зображень, відповіді на запитання щодо документа та детальне візуальне позиціонування.
Наприклад, якщо друг-іноземець, який не розуміє китайської, йде в лікарню до лікаря, дивлячись на карту-гід з однією головою і двома великими, і не знає, як потрапити до відповідного відділення, він може прямо кинути карту і запитання до Qwen-VL, і нехай він слідує за інформацією про зображення, яка діє як перекладач.
Давайте перевіримо введення кількох зображень і порівняння:
Хоча він не впізнав Арнію, його емоційне судження справді було досить точним (ручна голова собаки).
З точки зору здатності візуального позиціонування, навіть якщо зображення дуже складне та багато персонажів, Qwen-VL може точно знайти Халка та Людину-павука відповідно до вимог.
Що стосується технічних деталей, Qwen-VL використовує Qwen-7B як базову мовну модель, вводить візуальний кодер ViT в архітектуру моделі та з’єднує їх через візуальний мовний адаптер з урахуванням позиції, щоб модель підтримувала введення візуального сигналу. .
Конкретний процес тренування ділиться на три етапи:
Попереднє навчання: лише оптимізуйте візуальний кодувальник і візуальний мовний адаптер, заморозьте мовну модель. Використовуючи великомасштабні парні дані зображення та тексту, роздільна здатність вхідного зображення становить 224x224.
Багатозадачна попередня підготовка: запровадьте багатозадачні візуальні мовні дані з високою роздільною здатністю (448x448), такі як VQA, текст VQA, розуміння посилань тощо, для багатозадачної спільної попередньої підготовки.
Тонка настройка під наглядом: заморозка візуального кодувальника, оптимізація мовної моделі та адаптерів. Використовуйте дані діалогової взаємодії для швидкого налаштування, щоб отримати остаточну модель Qwen-VL-Chat з інтерактивними можливостями.
Дослідники протестували Qwen-VL на стандартних тестах з англійської мови в чотирьох категоріях мультимодальних завдань (Zero-shot Caption/VQA/DocVQA/Grounding).
Результати показують, що Qwen-VL досягає найкращих результатів LVLM з відкритим кодом такого ж розміру.
Крім того, дослідники створили тестовий набір TouchStone на основі механізму оцінки GPT-4.
У цьому порівняльному тесті Qwen-VL-Chat досяг результату SOTA.
Якщо вас цікавить Qwen-VL, є демонстраційні версії на Modak Community і huggingface, які ви можете спробувати безпосередньо, а посилання знаходиться в кінці статті ~
Qwen-VL підтримує дослідників і розробників у проведенні вторинної розробки, а також дозволяє комерційне використання, але слід зазначити, що для комерційного використання вам потрібно спочатку заповнити анкету.
Посилання на проект:
-Чат
Адреса паперу:
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Велика модель Ali знову з відкритим кодом! Здатний читати зображення та знати об’єкти, на основі Tongyi Qianwen 7B, комерційно доступний
Джерело: Qubit
Слідом за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила великомасштабну візуальну мовну модель Qwen-VL, і вона буде безпосередньо з відкритим вихідним кодом, щойно з’явиться в мережі.
Наприклад 🌰, ми вводимо зображення Арнії за допомогою форми запитання та відповіді, Qwen-VL-Chat може не лише узагальнити вміст зображення, але й знайти Арнію на зображенні.
Перша загальна модель, яка підтримує китайське позиціонування відкритого домену
Розглянемо характеристики моделей серії Qwen-VL в цілому:
З точки зору сценаріїв, Qwen-VL можна використовувати в таких сценаріях, як відповіді на запитання знань, відповіді на запитання щодо зображень, відповіді на запитання щодо документа та детальне візуальне позиціонування.
Наприклад, якщо друг-іноземець, який не розуміє китайської, йде в лікарню до лікаря, дивлячись на карту-гід з однією головою і двома великими, і не знає, як потрапити до відповідного відділення, він може прямо кинути карту і запитання до Qwen-VL, і нехай він слідує за інформацією про зображення, яка діє як перекладач.
З точки зору здатності візуального позиціонування, навіть якщо зображення дуже складне та багато персонажів, Qwen-VL може точно знайти Халка та Людину-павука відповідно до вимог.
Дослідники протестували Qwen-VL на стандартних тестах з англійської мови в чотирьох категоріях мультимодальних завдань (Zero-shot Caption/VQA/DocVQA/Grounding).
Крім того, дослідники створили тестовий набір TouchStone на основі механізму оцінки GPT-4.
Якщо вас цікавить Qwen-VL, є демонстраційні версії на Modak Community і huggingface, які ви можете спробувати безпосередньо, а посилання знаходиться в кінці статті ~
Qwen-VL підтримує дослідників і розробників у проведенні вторинної розробки, а також дозволяє комерційне використання, але слід зазначити, що для комерційного використання вам потрібно спочатку заповнити анкету.
Посилання на проект:
-Чат
Адреса паперу: