¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente

Fuente: Qubit

Modelo grande de código abierto de Ali y uno nuevo ~

Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.

Específicamente, Qwen-VL es un modelo grande multimodal basado en Tongyi Qianwen-7B, que admite múltiples entradas, como imágenes, texto y cuadros de detección, y admite la salida de cuadros de detección además de texto.

Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.

En la tarea de prueba, Qwen-VL demostró la fuerza del "guerrero hexagonal". En la evaluación estándar en inglés de los cuatro tipos de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), logró SOTA.

Tan pronto como salió la noticia de código abierto, llamó mucho la atención.

Echemos un vistazo al rendimiento específico ~

** El primer modelo general que admite el posicionamiento de dominio abierto chino **

Veamos las características de los modelos de la serie Qwen-VL en su conjunto:

  • Diálogo multilingüe: soporte de diálogo multilingüe, soporte de extremo a extremo para reconocimiento de texto largo tanto en chino como en inglés en imágenes;
  • Diálogo intercalado de múltiples imágenes: admite entrada y comparación de múltiples imágenes, especifica preguntas y respuestas con imágenes, creación de literatura con múltiples imágenes, etc.;
  • El primer modelo de uso general que admite el posicionamiento de dominio abierto chino: el marco de detección se marca mediante la expresión del lenguaje de dominio abierto chino, es decir, el objeto de destino se puede encontrar con precisión en la pantalla;
  • Reconocimiento y comprensión detallados: en comparación con la resolución 224 utilizada por otros LVLM (modelo de lenguaje visual a gran escala) de código abierto, Qwen-VL es el primer modelo LVLM de código abierto con resolución 448. Las resoluciones más altas pueden mejorar el reconocimiento de texto detallado, la respuesta a preguntas de documentos y la anotación de cuadros de detección.

En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.

Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.

Probemos la entrada y comparación de múltiples imágenes:

Aunque no reconoció a Arnia, su juicio emocional fue bastante preciso (cabeza de perro manual).

En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.

En términos de detalles técnicos, Qwen-VL utiliza Qwen-7B como modelo de lenguaje base, introduce un codificador visual ViT en la arquitectura del modelo y conecta los dos a través de un adaptador de lenguaje visual con reconocimiento de posición, de modo que el modelo admita la entrada de señales visuales. .

El proceso de formación específica se divide en tres pasos:

  • Entrenamiento previo: optimice solo el codificador visual y el adaptador de lenguaje visual, congele el modelo de lenguaje. Utilizando datos emparejados de imagen y texto a gran escala, la resolución de la imagen de entrada es 224x224.
  • Preentrenamiento multitarea: introduzca datos de lenguaje visual multitarea de mayor resolución (448x448), como VQA, VQA de texto, comprensión de referencias, etc., para un preentrenamiento conjunto de múltiples tareas.
  • Ajuste supervisado: congelar el codificador visual, optimizar el modelo de lenguaje y los adaptadores. Utilice los datos de interacción del diálogo para realizar un ajuste rápido y obtener el modelo Qwen-VL-Chat final con capacidades interactivas.

Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).

Los resultados muestran que Qwen-VL logra los mejores resultados que LVLM de código abierto del mismo tamaño.

Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.

En esta prueba de comparación, Qwen-VL-Chat logró SOTA.

Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~

Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.

Enlace del proyecto:

-Charlar

Dirección del papel:

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)