Un article en première page d'Ars Technica aujourd'hui explore la question de savoir si les grands modèles linguistiques ont des capacités de raisonnement non linguistiques, et fait référence aux découvertes des chercheurs selon lesquelles le traitement dans un 'espace latent' peut aider l'intelligence artificielle à résoudre des problèmes logiques complexes. Qu'est-ce qui se passe exactement ? Continuons à lire.
Jusqu'à présent, les grands modèles de langage ont connu un immense succès en utilisant leur architecture de transformateur pour prédire efficacement le prochain mot (c'est-à-dire le jeton de langue) nécessaire pour répondre à une requête. Cependant, lorsqu'il s'agit de tâches de raisonnement complexe nécessitant de l'abstraction logique, certains chercheurs ont constaté que tout expliquer dans cet 'espace linguistique' peut poser des problèmes, même pour les modèles de 'raisonnement' modernes.
Maintenant, les chercheurs tentent de résoudre ces problèmes en concevant des modèles qui peuvent calculer des solutions logiques potentielles entièrement dans l'espace latent - la couche de calcul cachée avant que le convertisseur ne génère la langue. Bien que cette méthode ne conduise pas à des changements révolutionnaires dans les capacités de raisonnement des grands modèles de langage, elle améliore sensiblement l'exactitude de certains types de problèmes logiques et indique de nouvelles directions prometteuses pour la recherche.
Attendez, quel espace ?
Les modèles de raisonnement modernes (comme o1 de ChatGPT) ont tendance à fonctionner en générant une "chaîne de réflexion". Dans ces modèles, chaque étape du processus logique est représentée par une série de jetons de mots en langage naturel et renvoyée par le modèle.
Dans un nouvel article, l'équipe de recherche en intelligence artificielle de base de Meta et des chercheurs de l'Université de Californie à San Diego considèrent cette dépendance au langage naturel et aux "balises de mot" comme un "facteur limitant fondamental" de ces modèles de raisonnement. Cela est dû au fait que pour réussir une tâche de raisonnement, il est souvent nécessaire de planifier de manière complexe des balises clés spécifiques afin de trouver le bon chemin logique parmi de nombreuses options.
Le diagramme ci-dessus illustre la différence entre le modèle standard, qui passe par un convertisseur à chaque étape, et le modèle COCONUT, qui utilise un état 'latent' caché. (Source de l'image : Formation de grands modèles de langage pour raisonner dans un espace latent continu)
Les chercheurs ont écrit que dans les modèles de chaîne de pensée actuels, les balises de mots sont généralement générées pour assurer la « cohérence du texte » et la « fluidité », contribuant peu au processus de raisonnement réel. Au contraire, ils suggèrent que « l'idéal serait que de grands modèles de langage puissent raisonner librement sans aucune contrainte linguistique, puis ne traduisent leurs découvertes en langage que lorsque cela est nécessaire. »
Pour réaliser cet 'idéal', les chercheurs décrivent une méthode de 'raisonnement par modèle de langage de grande taille dans un espace latent continu', comme indiqué dans le titre de l'article. Cet 'espace latent' est essentiellement constitué d'un ensemble de poids de marqueurs intermédiaires 'cachés', qui sont précisément ce que le modèle contient avant de générer cette version en langage naturel lisible par l'homme de l'état interne du transformateur.
Dans le modèle COCONUT (chaîne de pensée continue) des chercheurs, ces états cachés sont encodés en tant que "pensées latentes", qui remplacent les étapes écrites individuelles par une séquence logique lors de l'entraînement et du traitement des requêtes. Les chercheurs ont écrit que cela évite de devoir convertir chaque étape en langage naturel et "libère le raisonnement de l'espace linguistique", ce qui donne un chemin de raisonnement optimisé qu'ils appellent "pensée continue".
Un regard plus large
Bien que le traitement logique dans l'espace latent puisse améliorer l'efficacité du modèle, la découverte la plus importante est que ce modèle peut "encoder simultanément plusieurs étapes potentielles suivantes". Le traitement logique dans l'espace latent permet une rétroaction instantanée, les chercheurs le comparent à une recherche en largeur dans un graphe. Au lieu de rechercher de manière "avide" en examinant complètement et séquentiellement toutes les options logiques.
Les chercheurs ont écrit que même si le modèle n'a pas été explicitement entraîné, cette caractéristique de traitement soudaine et synchrone se manifestera également lors des tests. "Bien que le modèle puisse ne pas prendre la bonne décision initialement, il peut maintenir de nombreuses options possibles dans une pensée continue et éliminer progressivement les chemins incorrects par le raisonnement, sous la guidance de certaines fonctions de valeur implicites," ont-ils écrit.
Ce schéma met en évidence certaines façons dont différents modèles peuvent échouer dans certains types de raisonnements logiques. (Source de l'image : Training Large Language Models to Reason in a Continuous Latent Space)
Dans les tests de raisonnement mathématique relativement simples (GSM8K) ou de raisonnement général (ProntoQA), ce raisonnement à plusieurs chemins n'a pas amélioré réellement l'exactitude de COCONUT par rapport au modèle de chaîne de pensée traditionnel. Cependant, les chercheurs ont constaté que ce modèle performait relativement bien dans un ensemble de requêtes ProntoQA générées aléatoirement, impliquant des ensembles de conditions logiques complexes et tortueux (par exemple, "chaque pomme est un fruit, chaque fruit est de la nourriture, etc.").
Pour ces tâches, le modèle standard de raisonnement en chaîne de pensée peut souvent s'enliser dans une impasse de raisonnement ou même produire des règles complètement fictives lorsqu'il tente de résoudre des problèmes logiques. Des recherches antérieures ont également suggéré que les "étapes logiques verbalisées" produites par ces modèles de chaînes de pensée pourraient en fait exploiter des processus de raisonnement sous-jacents différents de ceux partagés.
Cette nouvelle étude s'ajoute à un nombre croissant d'études visant à comprendre et à exploiter le fonctionnement des grands modèles linguistiques au niveau de leurs réseaux neuronaux sous-jacents. Bien que de telles études n'aient pas encore abouti à des percées majeures, les chercheurs estiment que les modèles pré-entraînés avec cette forme de "pensée continue" dès le départ peuvent "permettre au modèle de généraliser plus efficacement dans un éventail plus large de scénarios de raisonnement".
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Le grand modèle linguistique a-t-il la capacité de raisonnement non linguistique ?
Source: Quantum Code
Un article en première page d'Ars Technica aujourd'hui explore la question de savoir si les grands modèles linguistiques ont des capacités de raisonnement non linguistiques, et fait référence aux découvertes des chercheurs selon lesquelles le traitement dans un 'espace latent' peut aider l'intelligence artificielle à résoudre des problèmes logiques complexes. Qu'est-ce qui se passe exactement ? Continuons à lire.
Jusqu'à présent, les grands modèles de langage ont connu un immense succès en utilisant leur architecture de transformateur pour prédire efficacement le prochain mot (c'est-à-dire le jeton de langue) nécessaire pour répondre à une requête. Cependant, lorsqu'il s'agit de tâches de raisonnement complexe nécessitant de l'abstraction logique, certains chercheurs ont constaté que tout expliquer dans cet 'espace linguistique' peut poser des problèmes, même pour les modèles de 'raisonnement' modernes.
Maintenant, les chercheurs tentent de résoudre ces problèmes en concevant des modèles qui peuvent calculer des solutions logiques potentielles entièrement dans l'espace latent - la couche de calcul cachée avant que le convertisseur ne génère la langue. Bien que cette méthode ne conduise pas à des changements révolutionnaires dans les capacités de raisonnement des grands modèles de langage, elle améliore sensiblement l'exactitude de certains types de problèmes logiques et indique de nouvelles directions prometteuses pour la recherche.
Attendez, quel espace ?
Les modèles de raisonnement modernes (comme o1 de ChatGPT) ont tendance à fonctionner en générant une "chaîne de réflexion". Dans ces modèles, chaque étape du processus logique est représentée par une série de jetons de mots en langage naturel et renvoyée par le modèle.
Dans un nouvel article, l'équipe de recherche en intelligence artificielle de base de Meta et des chercheurs de l'Université de Californie à San Diego considèrent cette dépendance au langage naturel et aux "balises de mot" comme un "facteur limitant fondamental" de ces modèles de raisonnement. Cela est dû au fait que pour réussir une tâche de raisonnement, il est souvent nécessaire de planifier de manière complexe des balises clés spécifiques afin de trouver le bon chemin logique parmi de nombreuses options.
Le diagramme ci-dessus illustre la différence entre le modèle standard, qui passe par un convertisseur à chaque étape, et le modèle COCONUT, qui utilise un état 'latent' caché. (Source de l'image : Formation de grands modèles de langage pour raisonner dans un espace latent continu)
Les chercheurs ont écrit que dans les modèles de chaîne de pensée actuels, les balises de mots sont généralement générées pour assurer la « cohérence du texte » et la « fluidité », contribuant peu au processus de raisonnement réel. Au contraire, ils suggèrent que « l'idéal serait que de grands modèles de langage puissent raisonner librement sans aucune contrainte linguistique, puis ne traduisent leurs découvertes en langage que lorsque cela est nécessaire. »
Pour réaliser cet 'idéal', les chercheurs décrivent une méthode de 'raisonnement par modèle de langage de grande taille dans un espace latent continu', comme indiqué dans le titre de l'article. Cet 'espace latent' est essentiellement constitué d'un ensemble de poids de marqueurs intermédiaires 'cachés', qui sont précisément ce que le modèle contient avant de générer cette version en langage naturel lisible par l'homme de l'état interne du transformateur.
Dans le modèle COCONUT (chaîne de pensée continue) des chercheurs, ces états cachés sont encodés en tant que "pensées latentes", qui remplacent les étapes écrites individuelles par une séquence logique lors de l'entraînement et du traitement des requêtes. Les chercheurs ont écrit que cela évite de devoir convertir chaque étape en langage naturel et "libère le raisonnement de l'espace linguistique", ce qui donne un chemin de raisonnement optimisé qu'ils appellent "pensée continue".
Un regard plus large
Bien que le traitement logique dans l'espace latent puisse améliorer l'efficacité du modèle, la découverte la plus importante est que ce modèle peut "encoder simultanément plusieurs étapes potentielles suivantes". Le traitement logique dans l'espace latent permet une rétroaction instantanée, les chercheurs le comparent à une recherche en largeur dans un graphe. Au lieu de rechercher de manière "avide" en examinant complètement et séquentiellement toutes les options logiques.
Les chercheurs ont écrit que même si le modèle n'a pas été explicitement entraîné, cette caractéristique de traitement soudaine et synchrone se manifestera également lors des tests. "Bien que le modèle puisse ne pas prendre la bonne décision initialement, il peut maintenir de nombreuses options possibles dans une pensée continue et éliminer progressivement les chemins incorrects par le raisonnement, sous la guidance de certaines fonctions de valeur implicites," ont-ils écrit.
Ce schéma met en évidence certaines façons dont différents modèles peuvent échouer dans certains types de raisonnements logiques. (Source de l'image : Training Large Language Models to Reason in a Continuous Latent Space)
Dans les tests de raisonnement mathématique relativement simples (GSM8K) ou de raisonnement général (ProntoQA), ce raisonnement à plusieurs chemins n'a pas amélioré réellement l'exactitude de COCONUT par rapport au modèle de chaîne de pensée traditionnel. Cependant, les chercheurs ont constaté que ce modèle performait relativement bien dans un ensemble de requêtes ProntoQA générées aléatoirement, impliquant des ensembles de conditions logiques complexes et tortueux (par exemple, "chaque pomme est un fruit, chaque fruit est de la nourriture, etc.").
Pour ces tâches, le modèle standard de raisonnement en chaîne de pensée peut souvent s'enliser dans une impasse de raisonnement ou même produire des règles complètement fictives lorsqu'il tente de résoudre des problèmes logiques. Des recherches antérieures ont également suggéré que les "étapes logiques verbalisées" produites par ces modèles de chaînes de pensée pourraient en fait exploiter des processus de raisonnement sous-jacents différents de ceux partagés.
Cette nouvelle étude s'ajoute à un nombre croissant d'études visant à comprendre et à exploiter le fonctionnement des grands modèles linguistiques au niveau de leurs réseaux neuronaux sous-jacents. Bien que de telles études n'aient pas encore abouti à des percées majeures, les chercheurs estiment que les modèles pré-entraînés avec cette forme de "pensée continue" dès le départ peuvent "permettre au modèle de généraliser plus efficacement dans un éventail plus large de scénarios de raisonnement".