Ali grand modèle est à nouveau open source ! Capable de lire des images et de connaître des objets, basé sur Tongyi Qianwen 7B, disponible dans le commerce
Après Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud a lancé le modèle de langage visuel à grande échelle Qwen-VL, et il sera directement open source dès sa mise en ligne.
Plus précisément, Qwen-VL est un grand modèle multimodal basé sur Tongyi Qianwen-7B, qui prend en charge plusieurs entrées telles que des images, du texte et des trames de détection, et prend en charge la sortie de trames de détection en plus du texte.
Par exemple 🌰, nous saisissons une image d'Arnia, sous forme de questions et réponses, Qwen-VL-Chat peut non seulement résumer le contenu de l'image, mais également localiser l'Arnia dans l'image.
Dans la tâche de test, Qwen-VL a démontré la force du "guerrier hexagonal". Dans l'évaluation standard en anglais des quatre types de tâches multimodales (Zero-shot Caption/VQA/DocVQA/Grounding), il a atteint SOTA.
Dès que la nouvelle de l’open source est sortie, elle a attiré beaucoup d’attention.
Jetons un coup d'œil aux performances spécifiques ~
Le premier modèle général prenant en charge le positionnement de domaine ouvert chinois
Jetons un coup d'œil aux caractéristiques des modèles de la série Qwen-VL dans leur ensemble :
Dialogue multilingue : prise en charge du dialogue multilingue, prise en charge de bout en bout de la reconnaissance de textes longs en chinois et en anglais dans les images ;
Dialogue entrelacé multi-images : prend en charge la saisie et la comparaison de plusieurs images, spécifie les questions et réponses d'images, la création de littérature multi-images, etc. ;
Le premier modèle à usage général prenant en charge le positionnement du domaine ouvert chinois : le cadre de détection est marqué via l'expression du langage chinois du domaine ouvert, c'est-à-dire que l'objet cible peut être trouvé avec précision sur l'écran ;
Reconnaissance et compréhension fines : comparé à la résolution 224 utilisée par d'autres LVLM open source (modèle de langage visuel à grande échelle), Qwen-VL est le premier modèle LVLM open source à résolution 448. Des résolutions plus élevées peuvent améliorer la reconnaissance de texte plus fine, la réponse aux questions des documents et l'annotation des zones de détection.
En termes de scénarios, Qwen-VL peut être utilisé dans des scénarios tels que la réponse à des questions de connaissances, la réponse à des questions d'images, la réponse à des questions de documents et un positionnement visuel précis.
Par exemple, si un ami étranger qui ne comprend pas le chinois se rend à l'hôpital pour voir un médecin, face à la carte guide avec une tête et deux grandes, et ne sait pas comment se rendre au service correspondant, il peut directement lancer la carte. et des questions à Qwen-VL, et laissez-le suivre les informations de l'image qui agissent comme un traducteur.
Testons la saisie et la comparaison multi-images :
Bien qu'il n'ait pas reconnu Arnia, son jugement émotionnel était en effet assez précis (tête de chien manuelle).
En termes de capacité de positionnement visuel, même si l'image est très compliquée et qu'il y a de nombreux personnages, Qwen-VL peut trouver avec précision Hulk et Spiderman selon les exigences.
En termes de détails techniques, Qwen-VL utilise Qwen-7B comme modèle de langage de base, introduit un encodeur visuel ViT dans l'architecture du modèle et connecte les deux via un adaptateur de langage visuel sensible à la position, de sorte que le modèle prenne en charge l'entrée de signal visuel. .
Le processus de formation spécifique est divisé en trois étapes :
Pré-formation : optimisez uniquement l'encodeur visuel et l'adaptateur de langage visuel, gelez le modèle de langage. En utilisant des données appariées image-texte à grande échelle, la résolution de l’image d’entrée est de 224 x 224.
Pré-formation multitâche : introduisez des données de langage visuel multitâches à plus haute résolution (448 x 448), telles que VQA, texte VQA, compréhension des références, etc., pour une pré-formation conjointe multitâche.
Mise au point supervisée : geler l'encodeur visuel, optimiser le modèle de langage et les adaptateurs. Utilisez les données d'interaction de dialogue pour un réglage rapide afin d'obtenir le modèle Qwen-VL-Chat final avec des capacités interactives.
Les chercheurs ont testé Qwen-VL sur des évaluations d'anglais standard dans quatre catégories de tâches multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
Les résultats montrent que Qwen-VL obtient les meilleurs résultats d'un LVLM open source de même taille.
De plus, les chercheurs ont construit un ensemble de tests TouchStone basé sur le mécanisme de notation GPT-4.
Dans ce test comparatif, Qwen-VL-Chat a atteint SOTA.
Si Qwen-VL vous intéresse, il y a des démos sur Modak Community et huggingface que vous pouvez essayer directement, et le lien est en fin d'article~
Qwen-VL aide les chercheurs et les développeurs à réaliser un développement secondaire, et permet également une utilisation commerciale, mais il convient de noter que pour une utilisation commerciale, vous devez d'abord remplir le questionnaire.
Lien du projet :
-Chat
Adresse papier :
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Ali grand modèle est à nouveau open source ! Capable de lire des images et de connaître des objets, basé sur Tongyi Qianwen 7B, disponible dans le commerce
Source : Qubit
Après Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud a lancé le modèle de langage visuel à grande échelle Qwen-VL, et il sera directement open source dès sa mise en ligne.
Par exemple 🌰, nous saisissons une image d'Arnia, sous forme de questions et réponses, Qwen-VL-Chat peut non seulement résumer le contenu de l'image, mais également localiser l'Arnia dans l'image.
Le premier modèle général prenant en charge le positionnement de domaine ouvert chinois
Jetons un coup d'œil aux caractéristiques des modèles de la série Qwen-VL dans leur ensemble :
En termes de scénarios, Qwen-VL peut être utilisé dans des scénarios tels que la réponse à des questions de connaissances, la réponse à des questions d'images, la réponse à des questions de documents et un positionnement visuel précis.
Par exemple, si un ami étranger qui ne comprend pas le chinois se rend à l'hôpital pour voir un médecin, face à la carte guide avec une tête et deux grandes, et ne sait pas comment se rendre au service correspondant, il peut directement lancer la carte. et des questions à Qwen-VL, et laissez-le suivre les informations de l'image qui agissent comme un traducteur.
En termes de capacité de positionnement visuel, même si l'image est très compliquée et qu'il y a de nombreux personnages, Qwen-VL peut trouver avec précision Hulk et Spiderman selon les exigences.
Les chercheurs ont testé Qwen-VL sur des évaluations d'anglais standard dans quatre catégories de tâches multimodales (Zero-shot Caption/VQA/DocVQA/Grounding).
De plus, les chercheurs ont construit un ensemble de tests TouchStone basé sur le mécanisme de notation GPT-4.
Si Qwen-VL vous intéresse, il y a des démos sur Modak Community et huggingface que vous pouvez essayer directement, et le lien est en fin d'article~
Qwen-VL aide les chercheurs et les développeurs à réaliser un développement secondaire, et permet également une utilisation commerciale, mais il convient de noter que pour une utilisation commerciale, vous devez d'abord remplir le questionnaire.
Lien du projet :
-Chat
Adresse papier :