Hallucinations fatales, développement d'alternatives GPU, les grands modèles sont toujours confrontés à ces 10 défis majeurs

2023-08-28 01:50:24

La sortie de ChatGPT, GPT-4, etc., nous laisse voir le charme du grand modèle (LLM), accompagné des différents défis auxquels il est confronté.

Source de l'image : générée par Unbounded AI

Comment améliorer le LLM ? Face aux grands modèles, quels problèmes faut-il résoudre ? C’est devenu un sujet de recherche important dans le domaine de l’IA.

Dans cet article, l'informaticien Chip Huyen part de 10 aspects et expose de manière exhaustive les défis rencontrés par LLM. Plus précisément, les deux premiers aspects concernent les hallucinations et l'apprentissage du contexte, et plusieurs autres aspects incluent, sans s'y limiter, la multimodalité, l'architecture, la recherche d'alternatives GPU, etc.

Adresse d'origine :

Ce qui suit est une traduction du texte original.

1. Comment réduire les hallucinations

Le problème des hallucinations survient lorsque le texte généré par le LLM est fluide et naturel, mais non fidèle à la source du contenu (problème intrinsèque) et/ou incertain (problème extrinsèque). Ce problème existe largement en LLM.

Par conséquent, il est très important d’atténuer les hallucinations et de développer des indicateurs pour mesurer les hallucinations, et de nombreuses entreprises et institutions prêtent attention à cette question. Chip Huyen a déclaré qu'il existe de nombreuses façons de réduire les hallucinations à ce stade, comme ajouter plus de contexte à l'invite, utiliser des chaînes de pensée ou rendre la réponse du modèle plus concise.

Les documents pouvant être référencés comprennent :

Une revue des recherches sur les hallucinations dans la génération du langage naturel :
Comment l'illusion des modèles de langage fait boule de neige :
Évaluation ChatGPT sur le raisonnement, les hallucinations et l'interactivité :
L'apprentissage contrastif réduit les hallucinations dans les conversations :
L'autocohérence améliore la capacité de raisonnement en chaîne de pensée du modèle de langage :
Détection d'hallucinations par boîte noire pour les grands modèles de langage génératifs :

2. Optimiser la longueur et la structure du contexte

Un autre objectif de recherche de LLM est la longueur du contexte, car les grands modèles doivent faire référence au contexte lorsqu'ils répondent aux questions des utilisateurs, et plus la longueur pouvant être traitée est longue, plus elle est utile pour LLM. Par exemple, nous avons demandé à ChatGPT « Quel est le meilleur restaurant vietnamien ? » Face à cette question, ChatGPT doit se référer au contexte pour déterminer si l'utilisateur demande quel est le meilleur restaurant vietnamien au Vietnam ou le meilleur restaurant vietnamien aux États-Unis. États, pas pareil.

Dans cette sous-section, Chip Huyen présente plusieurs articles connexes.

Le premier est « SITUATEDQA : Incorporating Extra-Linguistic Contexts into QA », les deux auteurs sont issus de l’Université du Texas à Austin. L'article présente un ensemble de données d'assurance qualité à récupération ouverte SITUATEDQA, et les lecteurs intéressés peuvent le consulter pour en savoir plus.

Chip Huyen a déclaré que parce que le modèle apprend du contexte fourni, ce processus est appelé apprentissage contextuel.

Le deuxième article est "Génération Retri-Augmentée pour les tâches PNL à forte intensité de connaissances". Cet article propose RAG (Génération Retri-Augmentée), qui peut combiner des modèles de langage pré-entraînés et des connaissances externes pour réaliser des réponses génératives aux questions et d'autres connaissances dans un domaine ouvert. Tâches intensives.

Le processus opérationnel RGA est divisé en deux phases : la phase de segmentation (également appelée récupération) et la phase de requête :

Beaucoup de gens pensent, sur la base de cette recherche, que plus le contexte est long, plus le modèle stockera d'informations et meilleure sera sa réponse. Chip Huyen pense que cette affirmation n'est pas entièrement vraie.

La quantité de contexte qu'un modèle peut utiliser et l'efficacité avec laquelle un modèle utilise le contexte sont deux questions complètement différentes. Ce que nous devons faire est d'augmenter l'efficacité du contexte de traitement du modèle en parallèle tout en augmentant la longueur du contexte du modèle. Par exemple, dans l'article « Lost in the Middle : How Language Models Use Long Contexts », l'article décrit comment le modèle peut mieux comprendre les informations au début et à la fin de l'index, plutôt que les informations du milieu.

3. Multimodal

Chip Huyen estime que la multimodalité est très importante.

Premièrement, des domaines tels que la santé, la robotique, le commerce électronique, la vente au détail, les jeux, le divertissement, etc. nécessitent des données multimodales. Par exemple, la prédiction médicale nécessite du contenu textuel tel que des notes du médecin et des questionnaires destinés aux patients, ainsi que des informations d'image telles que des tomodensitométries, des radiographies et des IRM.

Deuxièmement, la multimodalité promet d’améliorer considérablement les performances des modèles, les modèles capables de comprendre à la fois le texte et les images étant plus performants que les modèles capables de comprendre uniquement le texte. Pourtant, les modèles basés sur du texte sont si exigeants en matière de texte que les gens commencent à craindre que nous soyons bientôt à court de données Internet pour entraîner les modèles. Une fois le texte épuisé, il faut envisager d’autres modalités de données.

Diagramme d'architecture Flamingo

Concernant la multimodalité, vous pouvez vous référer aux contenus suivants :

论文 1《Apprentissage de modèles visuels transférables à partir de la supervision du langage naturel》：
Article 2《Flamingo : un modèle de langage visuel pour un apprentissage en quelques étapes》 :
Article 3《BLIP-2 : Pré-entraînement langage-image d'amorçage avec des encodeurs d'images gelées et de grands modèles de langage》 :
Article 4《Le langage n’est pas tout ce dont vous avez besoin : aligner la perception sur les modèles linguistiques》：
Papier 5 « Réglage des instructions visuelles » :
Google PaLM-E :
NVIDIA NeVA :

4. Rendre le LLM plus rapide et moins cher

GPT-3.5 est publié pour la première fois fin novembre 2022 et de nombreuses personnes s'inquiètent du coût d'utilisation élevé. Cependant, en seulement six mois, la communauté a trouvé un modèle proche du GPT-3.5 en termes de performances, et l'empreinte mémoire requise n'est que de 2 % de GPT-3.5.

Chip Huyen a déclaré que si vous créez quelque chose d'assez bon, les gens trouveront bientôt un moyen de le rendre rapide et bon marché.

Ce qui suit est une comparaison des performances du Guanaco 7B avec des modèles tels que ChatGPT et GPT-4. Mais il faut souligner qu’il est très difficile d’évaluer le LLM.

Ensuite, Chip Huyen a répertorié les techniques d'optimisation et de compression du modèle :

Quantification : La méthode la plus générale d'optimisation de modèle à ce jour. La quantification utilise moins de bits pour représenter les paramètres, réduisant ainsi la taille du modèle. Par exemple, quelqu'un change un nombre à virgule flottante de 32 bits en une représentation à virgule flottante de 16 bits, voire 4 bits ;
Distillation des connaissances : méthode de formation d'un petit modèle (étudiant) à imiter un modèle plus grand ou un ensemble de modèles (enseignant) ;
Décomposition de bas rang : L'idée clé est de remplacer les tenseurs de grande dimension par des tenseurs de basse dimension pour réduire le nombre de paramètres. Par exemple, les utilisateurs peuvent décomposer un tenseur 3x3 en un produit de tenseurs 3x1 et 1x3, de sorte qu'il n'y ait que 6 paramètres au lieu de 9 ;
Taille.

Les quatre méthodes ci-dessus sont toujours populaires, telles que la formation d'Alpaca avec distillation des connaissances et QLoRA combinant décomposition et quantification de bas rang.

5. Concevoir une nouvelle architecture de modèle

Depuis la sortie d'AlexNet en 2012, de nombreuses architectures dont LSTM, seq2seq sont devenues populaires puis sont devenues obsolètes. Contrairement à cela, Transformer est incroyablement collant. Il existe depuis 2017 et est encore largement utilisé jusqu’à présent. Il est difficile d’estimer combien de temps cette architecture sera populaire.

Cependant, il n’est pas facile de développer une architecture complètement nouvelle pour surpasser Transformer. Au cours des 6 dernières années, les chercheurs ont apporté de nombreuses optimisations à Transformer. En plus de l'architecture du modèle, cela inclut également l'optimisation au niveau matériel.

Le laboratoire dirigé par l'informaticien américain Chris Ré a mené de nombreuses recherches autour de S4 en 2021. Pour plus d'informations, veuillez vous référer à l'article "Modélisation efficace de longues séquences avec des espaces d'états structurés". De plus, le laboratoire Chris Ré a beaucoup investi dans le développement de nouvelles architectures et s'est récemment associé à la startup Together pour développer l'architecture Monarch Mixer.

Leur idée clé est que pour l'architecture Transformer existante, la complexité de l'attention est le quadratique de la longueur de la séquence, tandis que la complexité du MLP est le quadratique de la dimension du modèle, et l'architecture à faible complexité sera plus efficace.

6. Développer des alternatives GPU

Les GPU dominent l’apprentissage profond depuis la sortie d’AlexNet en 2012. En fait, l'une des raisons bien connues de la popularité d'AlexNet est qu'il s'agit du premier article à réussir à entraîner un réseau neuronal à l'aide de GPU. Avant l’émergence des GPU, si l’on voulait entraîner un modèle de la taille d’AlexNet, il fallait utiliser des milliers de CPU, et quelques GPU pouvaient le faire.

Au cours de la dernière décennie, les grandes entreprises et les startups ont tenté de créer de nouveaux matériels pour l’intelligence artificielle. Les plus représentatifs incluent, sans s'y limiter, le TPU de Google, l'IPU de Graphcore et la société de puces AI Cerebras. De plus, la start-up de puces IA SambaNova a levé plus d'un milliard de dollars pour développer de nouvelles puces IA.

Une autre direction intéressante est celle des puces photoniques, qui utilisent des photons pour déplacer les données, permettant ainsi des calculs plus rapides et plus efficaces. Plusieurs startups dans ce domaine ont levé des centaines de millions de dollars, notamment Lightmatter (270 millions de dollars), Ayar Labs (220 millions de dollars), Lightelligence (200 millions de dollars et plus) et Luminous Compute (115 millions de dollars).

Ce qui suit est une chronologie des progrès des trois principales approches en matière de calcul matriciel photonique, tirée de l'article « La multiplication matricielle photonique éclaire l'accélérateur photonique et au-delà ». Les trois méthodes sont la conversion de lumière planaire (PLC), l'interféromètre Mach-Zehnder (MZI) et le multiplexage par répartition en longueur d'onde (WDM).

7. Rendre les agents plus utilisables

Les agents sont des LLM qui peuvent effectuer des actions telles que naviguer sur Internet, envoyer des e-mails, réserver une chambre, etc. Comparée aux autres directions de recherche présentées dans cet article, cette direction est apparue relativement tardivement et est très nouvelle pour tout le monde.

C’est en raison de sa nouveauté et de son grand potentiel que tout le monde a une folle obsession pour les agents intelligents. Auto-GPT est actuellement le 25ème projet le plus populaire sur GitHub. GPT-Engineering est un autre projet très populaire.

Bien que cela soit attendu et passionnant, il reste douteux que LLM soit suffisamment fiable et performant pour avoir le droit d’agir.

Cependant, un cas d'application déjà apparu consiste à appliquer des agents à la recherche sociale. Il y a quelque temps, Stanford a ouvert la "ville virtuelle" Smallville. 25 agents d'IA vivaient dans la ville. Ils ont un emploi, peuvent bavarder et organiser des activités sociales. activités. , faites-vous de nouveaux amis et organisez même une fête pour la Saint-Valentin, chaque citadin a une personnalité et une histoire uniques.

Pour plus de détails, veuillez vous référer aux documents suivants.

Adresse papier :

La startup la plus célèbre dans ce domaine est probablement Adept, fondée par deux co-auteurs de Transformer et un ancien vice-président d'OpenAI, et qui a levé près de 500 millions de dollars à ce jour. L'année dernière, ils ont réalisé une démonstration montrant comment leur agent pouvait naviguer sur Internet et ajouter un nouveau compte à Salesforce.

, durée 03h30

8. Apprentissage amélioré à partir des préférences humaines

RLHF signifie Apprentissage par Renforcement à partir des Préférences Humaines. Il ne serait pas surprenant que les gens trouvent d'autres moyens de former des LLM, après tout, le RLHF a encore beaucoup de problèmes à résoudre. Chip Huyen a énuméré les 3 points suivants.

**Comment représenter mathématiquement les préférences humaines ? **

Actuellement, les préférences humaines sont déterminées par comparaison : les annotateurs humains déterminent si la réponse A est meilleure que la réponse B, mais ne considèrent pas dans quelle mesure la réponse A est meilleure que la réponse B.

**Quelles sont les préférences humaines ? **

Anthropic mesure la qualité de réponse de ses modèles selon trois axes : l'utilité, l'honnêteté et l'innocence.

Adresse papier :

DeepMind essaie également de générer des réponses qui satisfont la majorité. Voir cet article ci-dessous.

Adresse papier :

Mais pour être clair, voulons-nous une IA capable de prendre position, ou une IA générique qui évite tout sujet potentiellement controversé ?

**À qui appartiennent les préférences des « personnes » ? **

Compte tenu des différences de culture, de religion, etc., il existe de nombreux défis pour obtenir des données de formation qui représentent adéquatement tous les utilisateurs potentiels.

Par exemple, dans les données InstructGPT d'OpenAI, les étiqueteurs sont principalement des Philippins et des Bangladais, ce qui peut entraîner des écarts en raison de différences géographiques.

Source:

La communauté des chercheurs y travaille également, mais les biais dans les données persistent. Par exemple, dans la répartition démographique de l'ensemble de données OpenAssistant, 201 des 222 répondants (90,5 %) étaient des hommes.

9. Améliorer l'efficacité de l'interface de chat

Depuis ChatGPT, de nombreuses discussions ont eu lieu pour savoir si le chat est adapté à diverses tâches. Par exemple ces discussions :

Le langage naturel est une interface utilisateur paresseuse *Pourquoi les chatbots ne sont pas l'avenir :
À quels types de questions il faut répondre par un dialogue ?
L'interface de chat AI peut devenir l'interface utilisateur principale pour la lecture de la documentation :
Interagissez avec LLM avec un minimum de chat :

Ces discussions ne sont cependant pas nouvelles. De nombreux pays, notamment en Asie, utilisent le chat comme interface pour des super applications depuis environ une décennie.

*Chat comme interface commune pour les applications chinoises

En 2016, alors que beaucoup pensaient que les applications étaient mortes et que les chatbots étaient l’avenir, la discussion est redevenue tendue :

À propos de l'interface de discussion :
La tendance des chatbots est-elle une énorme idée fausse :
Les robots ne remplaceront pas les applications, de meilleures applications :

Chip Huyen a déclaré qu'il aimait vraiment l'interface de chat pour les raisons suivantes :

Le chat est une interface que tout le monde peut rapidement apprendre à utiliser, même ceux qui n'ont jamais eu accès à un ordinateur ou à Internet auparavant.
Il n'y a aucun obstacle dans l'interface de chat, même lorsque vous êtes pressé, vous pouvez utiliser la voix au lieu du texte.
Le chat est aussi une interface très puissante, vous pouvez lui faire n'importe quelle demande, même si la réponse n'est pas bonne, il vous répondra.

Cependant, Chip Huyen pense que l'interface de chat laisse place à des améliorations dans certains domaines. Il a les suggestions suivantes

Plusieurs messages par tour

Actuellement, on pense généralement qu’un seul message peut être envoyé par tour. Mais ce n’est pas ainsi que les gens envoient des SMS dans la vraie vie. Habituellement, plusieurs informations sont nécessaires pour compléter l'idée d'un individu, car différentes données (telles que des images, des emplacements, des liens) doivent être insérées dans le processus, et l'utilisateur peut avoir manqué quelque chose dans les informations précédentes, ou tout simplement ne pas le faire. voulez tout inclure. Écrivez-le dans un long paragraphe.

Entrée multimodale

Dans le domaine des applications multimodales, la plupart des efforts sont consacrés à la création de meilleurs modèles et peu à la création de meilleures interfaces. Dans le cas du chatbot NeVA de Nvidia, il est peut-être possible d'améliorer l'expérience utilisateur.

adresse:

Incorporer l'IA générative dans les flux de travail

Linus Lee l'exprime bien dans son exposé « Les interfaces générées par l'IA au-delà du chat ». Par exemple, si vous souhaitez poser une question sur une colonne d'un graphique sur lequel vous travaillez, vous devriez pouvoir simplement pointer vers cette colonne et poser la question.

Adresse vidéo :

Modification et suppression d'informations

Il vaut la peine de réfléchir à la façon dont la modification ou la suppression des entrées utilisateur peut modifier le flux d’une conversation avec un chatbot.

10. Créer un LLM pour les langues autres que l'anglais

Les LLM actuels pour l'anglais comme première langue ne s'adaptent pas bien aux autres langues en termes de performances, de latence et de vitesse. Le contenu connexe peut lire les articles suivants :

Adresse papier :

Adresse de l'article :

Chip Huyen a déclaré que plusieurs des premiers lecteurs de cet article lui avaient dit qu'ils pensaient que cette orientation ne devrait pas être incluse pour deux raisons.

Il ne s’agit pas tant d’une question de recherche que d’une question de logistique. Nous savons déjà comment faire, il suffit que quelqu'un investisse de l'argent et de l'énergie, ce qui n'est pas tout à fait vrai. La plupart des langues sont considérées comme des langues à faibles ressources, par exemple, elles contiennent des données de bien moindre qualité que l'anglais ou le chinois et peuvent donc nécessiter des techniques différentes pour former de grands modèles linguistiques. Consultez les articles suivants :

Adresse papier :

Les pessimistes pensent que de nombreuses langues disparaîtront à l'avenir et que le futur Internet sera composé de deux langues : l'anglais et le chinois.

L’impact des outils d’IA, tels que la traduction automatique et les chatbots, sur l’apprentissage des langues n’est pas clair. On ne sait pas s’ils aident les gens à apprendre de nouvelles langues plus rapidement ou s’ils éliminent complètement le besoin d’apprendre de nouvelles langues.

Résumer

Les problèmes mentionnés dans cet article ont également différents niveaux de difficulté, comme le dernier problème, si vous trouvez suffisamment de ressources et de temps, il est réalisable de construire un LLM pour des langues non anglaises.

L’un des premiers problèmes est de réduire les hallucinations, ce qui sera beaucoup plus difficile, car les hallucinations ne sont que des LLM faisant des choses probabilistes.

Le quatrième problème est de rendre le LLM plus rapide et moins cher, et il ne sera pas complètement résolu. Certains progrès ont été réalisés dans ce domaine, et il y en aura encore à l'avenir, mais nous n'atteindrons jamais la perfection.

Les cinquième et sixième problèmes concernent les nouvelles architectures et le nouveau matériel, ce qui représente un défi considérable, mais inévitable au fil du temps. En raison de la relation symbiotique entre l'architecture et le matériel, dans laquelle les nouvelles architectures doivent être optimisées pour le matériel à usage général et le matériel doit prendre en charge les architectures à usage général, ce problème pourrait potentiellement être résolu par la même entreprise.

Il existe également des problèmes qui ne peuvent être résolus par les seules connaissances techniques. Par exemple, le huitième problème, à savoir l’amélioration des méthodes permettant d’apprendre à partir des préférences humaines, pourrait être davantage une question politique que technique. En parlant de la neuvième question, l'amélioration de l'efficacité de l'interface, cela ressemble davantage à un problème d'expérience utilisateur, et davantage de personnes ayant une formation non technique sont nécessaires pour résoudre ce problème ensemble.

Si vous souhaitez examiner ces problèmes sous d’autres angles, Chip Huyen vous recommande de lire l’article suivant.

Adresse papier :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Show My Alpha Points
105k Popularité
#ETH Breaks $4,600
8k Popularité
#CPI Data Coming
21k Popularité
#TOKEN OF LOVE IS BACK
24k Popularité
#Circle Launches ARC
769 Popularité

Épingler