¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente
Modelo grande de código abierto de Ali y uno nuevo ~
Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.
Específicamente, Qwen-VL es un modelo grande multimodal basado en Tongyi Qianwen-7B, que admite múltiples entradas, como imágenes, texto y cuadros de detección, y admite la salida de cuadros de detección además de texto.
Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.
En la tarea de prueba, Qwen-VL demostró la fuerza del "guerrero hexagonal". En la evaluación estándar en inglés de los cuatro tipos de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), logró SOTA.
Tan pronto como salió la noticia de código abierto, llamó mucho la atención.
Echemos un vistazo al rendimiento específico ~
** El primer modelo general que admite el posicionamiento de dominio abierto chino **
Veamos las características de los modelos de la serie Qwen-VL en su conjunto:
Diálogo multilingüe: soporte de diálogo multilingüe, soporte de extremo a extremo para reconocimiento de texto largo tanto en chino como en inglés en imágenes;
Diálogo intercalado de múltiples imágenes: admite entrada y comparación de múltiples imágenes, especifica preguntas y respuestas con imágenes, creación de literatura con múltiples imágenes, etc.;
El primer modelo de uso general que admite el posicionamiento de dominio abierto chino: el marco de detección se marca mediante la expresión del lenguaje de dominio abierto chino, es decir, el objeto de destino se puede encontrar con precisión en la pantalla;
Reconocimiento y comprensión detallados: en comparación con la resolución 224 utilizada por otros LVLM (modelo de lenguaje visual a gran escala) de código abierto, Qwen-VL es el primer modelo LVLM de código abierto con resolución 448. Las resoluciones más altas pueden mejorar el reconocimiento de texto detallado, la respuesta a preguntas de documentos y la anotación de cuadros de detección.
En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.
Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.
Probemos la entrada y comparación de múltiples imágenes:
Aunque no reconoció a Arnia, su juicio emocional fue bastante preciso (cabeza de perro manual).
En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.
En términos de detalles técnicos, Qwen-VL utiliza Qwen-7B como modelo de lenguaje base, introduce un codificador visual ViT en la arquitectura del modelo y conecta los dos a través de un adaptador de lenguaje visual con reconocimiento de posición, de modo que el modelo admita la entrada de señales visuales. .
El proceso de formación específica se divide en tres pasos:
Entrenamiento previo: optimice solo el codificador visual y el adaptador de lenguaje visual, congele el modelo de lenguaje. Utilizando datos emparejados de imagen y texto a gran escala, la resolución de la imagen de entrada es 224x224.
Preentrenamiento multitarea: introduzca datos de lenguaje visual multitarea de mayor resolución (448x448), como VQA, VQA de texto, comprensión de referencias, etc., para un preentrenamiento conjunto de múltiples tareas.
Ajuste supervisado: congelar el codificador visual, optimizar el modelo de lenguaje y los adaptadores. Utilice los datos de interacción del diálogo para realizar un ajuste rápido y obtener el modelo Qwen-VL-Chat final con capacidades interactivas.
Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
Los resultados muestran que Qwen-VL logra los mejores resultados que LVLM de código abierto del mismo tamaño.
Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.
En esta prueba de comparación, Qwen-VL-Chat logró SOTA.
Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~
Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.
Enlace del proyecto:
-Charlar
Dirección del papel:
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¡El modelo grande de Ali vuelve a ser de código abierto! Capaz de leer imágenes y conocer objetos, basado en Tongyi Qianwen 7B, disponible comercialmente
Fuente: Qubit
Después de Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud lanzó el modelo de lenguaje visual a gran escala Qwen-VL, y será de código abierto directamente tan pronto como esté en línea.
Por ejemplo 🌰, ingresamos una imagen de Arnia, a través del formulario de preguntas y respuestas, Qwen-VL-Chat no solo puede resumir el contenido de la imagen, sino también ubicar a Arnia en la imagen.
** El primer modelo general que admite el posicionamiento de dominio abierto chino **
Veamos las características de los modelos de la serie Qwen-VL en su conjunto:
En términos de escenarios, Qwen-VL se puede utilizar en escenarios como respuesta a preguntas sobre conocimientos, respuesta a preguntas sobre imágenes, respuesta a preguntas sobre documentos y posicionamiento visual detallado.
Por ejemplo, si un amigo extranjero que no entiende chino va al hospital a ver a un médico, frente al mapa guía con una cabeza y dos grandes, y no sabe cómo llegar al departamento correspondiente, puede tirar el mapa directamente. y preguntas a Qwen-VL, y dejar que siga la información de la imagen actúa como un traductor.
En términos de capacidad de posicionamiento visual, incluso si la imagen es muy complicada y hay muchos personajes, Qwen-VL puede encontrar con precisión a Hulk y Spiderman de acuerdo con los requisitos.
Los investigadores probaron Qwen-VL en evaluaciones estándar de inglés en cuatro categorías de tareas multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
Además, los investigadores crearon un conjunto de prueba TouchStone basado en el mecanismo de puntuación GPT-4.
Si está interesado en Qwen-VL, hay demostraciones en Modak Community y huggingface que puede probar directamente y el enlace se encuentra al final del artículo ~
Qwen-VL ayuda a investigadores y desarrolladores a realizar desarrollo secundario y también permite el uso comercial, pero cabe señalar que para uso comercial, primero debe completar la solicitud del cuestionario.
Enlace del proyecto:
-Charlar
Dirección del papel: