¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente

2023-08-26 08:03:47

Fuente: Qubit

Modelo grande de código abierto de Ali y uno nuevo ~

Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.

Específicamente, Qwen-VL es un modelo grande multimodal basado en Tongyi Qianwen-7B, que admite múltiples entradas, como imágenes, texto y cuadros de detección, y admite la salida de cuadros de detección además de texto.

Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.

En la tarea de prueba, Qwen-VL demostró la fuerza del "guerrero hexagonal". En la evaluación estándar en inglés de los cuatro tipos de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), logró SOTA.

Tan pronto como salió la noticia de código abierto, llamó mucho la atención.

Echemos un vistazo al rendimiento específico ~

El primer modelo general que admite el posicionamiento de dominio abierto chino

Veamos las características de los modelos de la serie Qwen-VL en su conjunto:

Diálogo multilingüe: soporte de diálogo multilingüe, soporte de extremo a extremo para reconocimiento de texto largo tanto en chino como en inglés en imágenes;
Diálogo intercalado de múltiples imágenes: admite entrada y comparación de múltiples imágenes, especifica preguntas y respuestas con imágenes, creación de literatura con múltiples imágenes, etc.;
El primer modelo de uso general que admite el posicionamiento de dominio abierto chino: el marco de detección se marca mediante la expresión del lenguaje de dominio abierto chino, es decir, el objeto de destino se puede encontrar con precisión en la pantalla;
Reconocimiento y comprensión detallados: en comparación con la resolución 224 utilizada por otros LVLM (modelo de lenguaje visual a gran escala) de código abierto, Qwen-VL es el primer modelo LVLM de código abierto con resolución 448. Las resoluciones más altas pueden mejorar el reconocimiento de texto detallado, la respuesta a preguntas de documentos y la anotación de cuadros de detección.

En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.

Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.

Probemos la entrada y comparación de múltiples imágenes:

Aunque no reconoció a Arnia, su juicio emocional fue bastante preciso (cabeza de perro manual).

En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.

En términos de detalles técnicos, Qwen-VL utiliza Qwen-7B como modelo de lenguaje base, introduce un codificador visual ViT en la arquitectura del modelo y conecta los dos a través de un adaptador de lenguaje visual con reconocimiento de posición, de modo que el modelo admita la entrada de señales visuales. .

El proceso de formación específica se divide en tres pasos:

Entrenamiento previo: optimice solo el codificador visual y el adaptador de lenguaje visual, congele el modelo de lenguaje. Utilizando datos emparejados de imagen y texto a gran escala, la resolución de la imagen de entrada es 224x224.
Preentrenamiento multitarea: introduzca datos de lenguaje visual multitarea de mayor resolución (448x448), como VQA, VQA de texto, comprensión de referencias, etc., para un preentrenamiento conjunto de múltiples tareas.
Ajuste supervisado: congelar el codificador visual, optimizar el modelo de lenguaje y los adaptadores. Utilice los datos de interacción del diálogo para realizar un ajuste rápido y obtener el modelo Qwen-VL-Chat final con capacidades interactivas.

Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).

Los resultados muestran que Qwen-VL logra los mejores resultados que LVLM de código abierto del mismo tamaño.

Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.

En esta prueba de comparación, Qwen-VL-Chat logró SOTA.

Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~

Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.

Enlace del proyecto:

-Charlar

Dirección del papel:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#TOKEN OF LOVE IS BACK
21k Popularidad
#BTC Market Cap Tops Amazon
13k Popularidad
#Show My Alpha Points
99k Popularidad
#BTC Back To $120k
25k Popularidad
#Stablecoin Supply Tops $270B
4k Popularidad

Anclado

¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente

** El primer modelo general que admite el posicionamiento de dominio abierto chino **

El primer modelo general que admite el posicionamiento de dominio abierto chino