Большая модель Али с открытым исходным кодом и новая~
Вслед за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила крупномасштабную модель визуального языка Qwen-VL, исходный код которой будет открыт сразу после выхода в Интернет.
В частности, Qwen-VL — это мультимодальная большая модель, основанная на Tongyi Qianwen-7B, которая поддерживает несколько входных данных, таких как изображения, текст и кадры обнаружения, а также поддерживает вывод кадров обнаружения в дополнение к тексту.
Например, 🌰 мы вводим изображение Арнии в форме вопросов и ответов, Qwen-VL-Chat может не только обобщить содержание изображения, но и найти Арнию на изображении.
В тестовом задании Qwen-VL продемонстрировал силу «шестиугольного воина» и в стандартной английской оценке четырех типов мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding) достиг показателя SOTA.
Как только появилась новость об открытом исходном коде, она привлекла большое внимание.
Давайте посмотрим на конкретное выступление~
Первая универсальная модель, поддерживающая позиционирование открытого домена в Китае
Давайте посмотрим на характеристики моделей серии Qwen-VL в целом:
Многоязычный диалог: поддержка многоязычного диалога, сквозная поддержка распознавания длинного текста на китайском и английском языках в картинках;
Диалог с чередованием нескольких изображений: поддержка ввода и сравнения нескольких изображений, задание вопросов и ответов по изображениям, создание литературы из нескольких изображений и т. д.;
Первая модель общего назначения, поддерживающая позиционирование открытого домена на китайском языке: рамка обнаружения отмечается с помощью выражения языка открытого домена на китайском языке, то есть целевой объект можно точно найти на экране;
Детальное распознавание и понимание: по сравнению с разрешением 224, используемым в других LVLM с открытым исходным кодом (крупномасштабная модель визуального языка), Qwen-VL является первой моделью LVLM с открытым исходным кодом и разрешением 448. Более высокие разрешения могут улучшить детальное распознавание текста, ответы на вопросы в документе и аннотации в поле обнаружения.
Что касается сценариев, Qwen-VL можно использовать в таких сценариях, как ответы на вопросы знаний, ответы на вопросы по изображениям, ответы на вопросы по документам и детальное визуальное позиционирование.
Например, если друг-иностранец, который не понимает по-китайски, идет в больницу на прием к врачу, глядя на карту-путеводитель одной головой и двумя большими, и не знает, как добраться до соответствующего отделения, он может напрямую бросить карту. и вопросы Квен-ВЛ, и пусть он следует, информация изображения действует как переводчик.
Давайте проверим ввод и сравнение нескольких изображений:
Хотя он и не узнал Арнию, его эмоциональное суждение действительно было весьма точным (ручная собачья голова).
С точки зрения визуального позиционирования, даже если картинка очень сложная и на ней много персонажей, Квен-ВЛ может точно найти Халка и Человека-паука по требованиям.
Что касается технических деталей, Qwen-VL использует Qwen-7B в качестве базовой языковой модели, вводит визуальный кодировщик ViT в архитектуру модели и соединяет их через адаптер визуального языка с учетом положения, так что модель поддерживает ввод визуального сигнала. .
Конкретный процесс обучения разделен на три этапа:
Предварительное обучение: оптимизируйте только визуальный кодировщик и адаптер визуального языка, заморозьте языковую модель. При использовании крупномасштабных парных данных изображение-текст разрешение входного изображения составляет 224x224.
Многозадачная предварительная тренировка: вводите многозадачные визуальные языковые данные более высокого разрешения (448x448), такие как VQA, текстовый VQA, справочное понимание и т. д., для совместной многозадачной предварительной тренировки.
Контролируемая тонкая настройка: заморозка визуального кодировщика, оптимизация языковой модели и адаптеров. Используйте данные диалогового взаимодействия для оперативной настройки и получения окончательной модели Qwen-VL-Chat с интерактивными возможностями.
Исследователи протестировали Qwen-VL на стандартных тестах по английскому языку в четырех категориях мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding).
Результаты показывают, что Qwen-VL достигает лучших результатов среди LVLM с открытым исходным кодом того же размера.
Кроме того, исследователи создали набор тестов TouchStone на основе механизма оценки GPT-4.
В этом сравнительном тесте Qwen-VL-Chat достиг уровня SOTA.
Если вас интересует Qwen-VL, в сообществе Modak и Huggingface есть демоверсии, которые вы можете попробовать напрямую, ссылка находится в конце статьи~
Qwen-VL поддерживает исследователей и разработчиков для проведения вторичных разработок, а также допускает коммерческое использование, но следует отметить, что для коммерческого использования необходимо сначала заполнить анкету-заявку.
Ссылка на проект:
-Чат
Бумажный адрес:
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Большая модель Али снова в открытом исходном коде! Способен читать изображения и узнавать объекты, на основе Tongyi Qianwen 7B, имеется в продаже.
Источник: Кубит
Вслед за Tongyi Qianwen-7B (Qwen-7B) Alibaba Cloud запустила крупномасштабную модель визуального языка Qwen-VL, исходный код которой будет открыт сразу после выхода в Интернет.
Например, 🌰 мы вводим изображение Арнии в форме вопросов и ответов, Qwen-VL-Chat может не только обобщить содержание изображения, но и найти Арнию на изображении.
Первая универсальная модель, поддерживающая позиционирование открытого домена в Китае
Давайте посмотрим на характеристики моделей серии Qwen-VL в целом:
Что касается сценариев, Qwen-VL можно использовать в таких сценариях, как ответы на вопросы знаний, ответы на вопросы по изображениям, ответы на вопросы по документам и детальное визуальное позиционирование.
Например, если друг-иностранец, который не понимает по-китайски, идет в больницу на прием к врачу, глядя на карту-путеводитель одной головой и двумя большими, и не знает, как добраться до соответствующего отделения, он может напрямую бросить карту. и вопросы Квен-ВЛ, и пусть он следует, информация изображения действует как переводчик.
С точки зрения визуального позиционирования, даже если картинка очень сложная и на ней много персонажей, Квен-ВЛ может точно найти Халка и Человека-паука по требованиям.
Исследователи протестировали Qwen-VL на стандартных тестах по английскому языку в четырех категориях мультимодальных задач (Zero-shot Caption/VQA/DocVQA/Grounding).
Кроме того, исследователи создали набор тестов TouchStone на основе механизма оценки GPT-4.
Если вас интересует Qwen-VL, в сообществе Modak и Huggingface есть демоверсии, которые вы можете попробовать напрямую, ссылка находится в конце статьи~
Qwen-VL поддерживает исследователей и разработчиков для проведения вторичных разработок, а также допускает коммерческое использование, но следует отметить, что для коммерческого использования необходимо сначала заполнить анкету-заявку.
Ссылка на проект:
-Чат
Бумажный адрес: