Auteur | Li Yuan, comté de LingziÉditeur | Wei Shijie
"Et je suis vieux", a déclaré Hinton, âgé de 75 ans, à tous les jeunes scientifiques présents, et il espérait que tout le monde étudierait "comment avoir une superintelligence". Il voit un défi sans précédent pour une espèce moins intelligente de contrôler quelque chose de plus intelligent qu'elle-même. **
Lors de la conférence sur l'intelligence artificielle de Zhiyuan, Hinton, le parrain de l'IA, a prononcé un discours sur "Deux voies vers l'intelligence". De l'analyse de l'architecture et des principes informatiques, il est arrivé à sa propre conclusion que "le réseau de neurones artificiels sera plus intelligent que le cerveau humain", ce qui est beaucoup plus rapide qu'il ne l'avait imaginé à l'origine.
Dans son discours de 30 minutes, il a parlé de l'architecture informatique actuelle où le logiciel et le matériel sont séparés.En vertu de cette règle, la formation de grands modèles consomme beaucoup de puissance de calcul. Afin d'utiliser moins d'énergie pour former de grands modèles, il a proposé le concept de ** Mortal Computing ** - comme l'intelligence d'une personne dépend de son corps, elle ne peut pas être copiée à volonté sur un autre corps, et le logiciel est plus Dépend de la matériel sur lequel il existe.
Mais le problème qui s'ensuit est que lorsque le matériel spécifique est endommagé, le logiciel l'est également, et "les connaissances acquises meurent également ensemble". La solution qu'il a proposée est de transférer les connaissances sur l'ancien matériel vers le nouveau matériel d'une manière « distillée », tout comme un enseignant enseigne aux élèves.
**Le concept correspondant à la « distillation des connaissances » (informatique biologique) est le « partage du poids » (informatique numérique), qui sont ce que Hinton a appelé « deux voies vers l'intelligence ». **La relation entre un grand modèle de langage et ses copies est le partage du poids, et chaque copie obtient directement la connaissance de l'ensemble des paramètres du modèle. Par exemple, ChatGPT peut parler à des milliers de personnes en même temps en fonction du modèle sous-jacent. Et le processus d'apprentissage continu consistant à parler à tout le monde appartient à la "distillation des connaissances".
Bien que la "distillation des connaissances" soit beaucoup moins efficace que le "partage du poids", et que la bande passante soit également faible, un grand modèle peut avoir 1000 copies et finalement obtenir 1000 fois plus de connaissances que n'importe qui.
Actuellement, les modèles n'apprennent qu'à partir de documents, c'est-à-dire de connaissances traitées par l'homme. Au fur et à mesure que la technologie se développera, ils pourront apprendre à partir d'informations visuelles, puis pourront apprendre à manipuler des robots. Ensuite, ils sont facilement plus intelligents que les humains, assez intelligents pour tromper les gens. ** Et les humains ne sont pas bons pour s'entendre avec des choses plus intelligentes qu'eux-mêmes. Comment éviter les dangers de ces intelligences "super intelligentes" ? C'est le sujet qu'il a laissé à tout jeune scientifique. **
Ce qui suit est le principal contenu du discours compilé par Geek Park :
** Je vais parler aujourd'hui de recherches qui me portent à croire que la superintelligence est plus proche que je ne le pensais. **
J'ai deux questions dont je veux parler, et mon énergie sera principalement concentrée sur la première question, est-ce que les réseaux de neurones artificiels seront bientôt plus intelligents que les vrais réseaux de neurones ? Je vais développer mes recherches qui m'amènent à la conclusion qu'une telle chose pourrait arriver bientôt. À la fin de l'exposé, je parlerai de la question de savoir si nous pouvons garder le contrôle de la superintelligence, mais ce ne sera pas le contenu principal de cet exposé.
Dans l'informatique traditionnelle, les ordinateurs sont conçus pour suivre exactement les instructions. Nous pouvons exécuter exactement le même programme ou réseau de neurones sur un matériel physique différent, car nous savons que le matériel suivra exactement les instructions. Cela signifie que la connaissance dans le programme ou les poids du réseau de neurones est immortelle, c'est-à-dire qu'elle ne dépend d'aucun matériel spécifique. Le coût de la réalisation de ce type d'immortalité est élevé. Nous devons faire fonctionner des transistors à haute puissance, donc leur comportement est numérique. Et nous ne pouvons pas profiter des riches propriétés analogiques et variables du matériel.
Ainsi, la raison pour laquelle les ordinateurs numériques existent, et la raison pour laquelle ils suivent les instructions avec précision, est que dans les conceptions traditionnelles, les humains examinent un problème, déterminent les étapes à suivre pour résoudre le problème, puis nous disons à l'ordinateur de suivre ces étapes. . Mais cela a changé.
Nous avons maintenant une façon différente de faire faire les choses aux ordinateurs, qui consiste à apprendre à partir d'exemples, nous leur montrons simplement ce que nous voulons qu'ils fassent. En raison de ce changement, nous avons maintenant la possibilité d'abandonner l'un des principes les plus fondamentaux de l'informatique, la séparation du logiciel du matériel.
Avant d'abandonner, voyons pourquoi c'est un si bon principe. La séparabilité nous permet d'exécuter le même programme sur un matériel différent. On peut aussi étudier directement les propriétés des programmes sans se soucier du matériel électronique. Et c'est pourquoi le département d'informatique peut devenir une discipline à part entière, indépendante du département de génie électrique.
** Si nous renonçons à la séparation du matériel et des logiciels, nous obtenons ce que j'appelle l'informatique non immortelle. **
Il a évidemment de gros inconvénients, mais il a aussi d'énormes avantages. Afin de pouvoir exécuter de grands modèles de langage avec moins d'énergie, notamment pour les entraîner, j'ai commencé à travailler sur l'informatique non immortelle.
Le plus grand avantage à retirer de l'abandon de l'immortalité est que l'abandon de la séparation du matériel et du logiciel peut économiser beaucoup d'énergie. Parce que nous pouvons utiliser l'informatique analogique à très faible puissance, ce qui est exactement ce que fait le cerveau. Cela nécessite 1 bit de calcul, car les neurones sont soit activés, soit désactivés. Mais la plupart des calculs se font en analogique, ce qui peut se faire à très faible puissance.
Nous pouvons également obtenir du matériel moins cher. Ainsi, le matériel d'aujourd'hui doit être fabriqué très précisément en 2D (plan) alors que nous pouvons le développer en 3D (environnement) car nous n'avons pas besoin de savoir exactement comment le matériel conduit l'électricité, ou exactement comment chaque pièce fonctionne .
De toute évidence, cela nécessiterait beaucoup de nouvelles nanotechnologies, ou peut-être une réingénierie génétique des neurones biologiques, car les neurones biologiques font à peu près ce que nous voulons qu'ils fassent. **Avant de discuter de tous les inconvénients de l'informatique non immortelle, je veux donner un exemple d'informatique qui peut être effectuée beaucoup moins cher en utilisant du matériel analogique. **
Si vous voulez multiplier un vecteur d'activité neuronale par une matrice de pondération, c'est le calcul central d'un réseau neuronal, et il fait la majeure partie du travail pour un réseau neuronal. Ce que nous faisons actuellement, c'est piloter des transistors à très haute puissance pour représenter les bits du nombre, en chiffres. Ensuite, nous faisons O(n^2), en multipliant deux nombres à n chiffres. Cela peut être une opération sur un ordinateur, mais c'est au niveau du bit carré de n.
Une autre approche consiste à mettre en œuvre l'activité neuronale sous forme de tension et le poids sous forme de conductivité. Ensuite, en une unité de temps, la tension est multipliée par la conductance pour obtenir une charge, et la charge est ajoutée par elle-même. Donc, évidemment, vous pouvez simplement multiplier le vecteur de tension avec la matrice de conductance. C'est plus économe en énergie, et des puces qui fonctionnent de cette façon existent déjà.
Malheureusement, ce que les gens font alors, c'est essayer de convertir la réponse analogique en numérique, ce qui nécessite l'utilisation de convertisseurs CA très coûteux. Nous aimerions rester complètement dans le domaine analogique si nous le pouvons. Mais cela fait que différents matériels finissent par calculer des choses légèrement différentes.
Par conséquent, ** le principal problème avec l'informatique non immortelle est que lors de l'apprentissage, le programme doit apprendre en fonction des propriétés spécifiques du matériel simulé sur lequel il se trouve, sans savoir exactement quelles sont les propriétés spécifiques de chaque élément matériel, ** Par exemple, la fonction exacte qui relie l'entrée du neurone à la sortie du neurone, ignorant la connectivité.
Cela signifie que nous ne pouvons pas utiliser d'algorithmes comme la rétropropagation pour obtenir des gradients, car la rétropropagation nécessite un modèle exact de propagation vers l'avant. Donc la question est, si nous ne pouvons pas utiliser l'algorithme de rétropropagation, que pouvons-nous faire d'autre ? Parce que nous sommes tous fortement dépendants de la rétropropagation maintenant.
Je peux montrer un apprentissage très simple et direct de la perturbation du poids, qui a été beaucoup étudié. Pour chaque poids du réseau, un petit vecteur de perturbation temporaire aléatoire est généré. Ensuite, en mesurant le changement de la fonction objectif globale sur un petit lot d'exemples, vous modifiez en permanence les poids par la taille du vecteur de perturbation en fonction de l'amélioration de la fonction objectif. Donc, si la fonction objectif se détériore, vous allez évidemment dans l'autre sens.
La bonne chose à propos de cet algorithme est qu'en moyenne, il fonctionne aussi bien que la rétropropagation car en moyenne, il suit également le gradient. Le problème est qu'il a une très grande variance. Ainsi, lorsque vous choisissez une direction aléatoire pour vous déplacer, le bruit résultant devient vraiment mauvais à mesure que la taille du réseau augmente. Cela signifie que cet algorithme est efficace pour un petit nombre de connexions, mais pas pour les grands réseaux.
Nous avons également un meilleur algorithme pour l'apprentissage des perturbations d'activité. Il a toujours des problèmes similaires, mais c'est bien mieux que la perturbation du poids. La perturbation d'activité est ce que vous considérez comme une perturbation vectorielle aléatoire de l'entrée totale de chaque neurone. Vous effectuez une perturbation vectorielle aléatoire de chaque entrée du neurone et voyez ce qui arrive à votre fonction objectif lorsque vous effectuez cette perturbation aléatoire sur un petit lot d'exemples et que vous obtenez la fonction objectif en raison de cette perturbation. Ensuite, vous pouvez calculer comment changer chaque poids entrant du neurone pour suivre le gradient. Cette méthode est moins bruyante.
Pour des tâches simples comme MNIST, un tel algorithme est suffisant. Mais cela ne fonctionne toujours pas assez bien pour s'adapter à de grands réseaux de neurones.
** Au lieu de trouver une fonction objective qui peut être appliquée à un petit réseau de neurones, nous pouvons essayer de trouver un algorithme d'apprentissage qui fonctionne pour un grand réseau de neurones. ** L'idée est de former un grand réseau de neurones. Et ce que nous allons faire, c'est avoir beaucoup de petites fonctions objectives qui s'appliquent à une petite partie de l'ensemble du réseau. Par conséquent, chaque petit groupe de neurones a sa propre fonction objectif locale.
** Pour résumer, jusqu'à présent, nous n'avons pas trouvé de très bon algorithme d'apprentissage qui puisse tirer parti des propriétés de simulation, mais nous avons un algorithme d'apprentissage qui n'est pas mauvais, peut résoudre des problèmes simples comme MNIST, mais pas si bon. **
Le deuxième gros problème avec l'informatique non immortelle est sa nature non immortelle. Cela signifie que lorsqu'un matériel particulier meurt, toutes les connaissances qu'il a apprises meurent avec lui, car son apprentissage est entièrement basé sur les détails de son matériel spécifique. Donc, la meilleure façon de résoudre ce problème est de transmettre les connaissances de l'enseignant (ancien matériel) à l'élève (nouveau matériel) avant que le matériel ne meure. C'est la direction de recherche que j'essaie de promouvoir maintenant.
Mi-parcours généré
L'enseignant montrerait aux élèves les réponses correctes à diverses entrées, et les élèves essaieraient alors d'imiter les réponses de l'enseignant. C'est comme le Twitter de Trump. Certaines personnes sont très en colère contre les tweets de Trump parce qu'elles ont l'impression que Trump dit des mensonges, et elles pensent que Trump essaie d'expliquer les faits. Non. Ce que Trump a fait, c'est choisir une situation et avoir une réponse ciblée et très émotionnelle à cette situation. Ses partisans l'ont vu, ont appris à gérer la situation, ont appris à ajuster les poids dans le réseau neuronal et ont réagi émotionnellement à la situation de la même manière. Cela n'a rien à voir avec le fait qu'il s'agit d'un chef de secte enseignant le sectarisme à ses partisans, mais c'est très efficace.
Donc, si nous réfléchissons au fonctionnement de la distillation, considérons un agent classant les images en 1024 classes qui ne se chevauchent pas. La bonne réponse ne prend qu'environ 10 bits à épeler. Ainsi, lorsque vous formez cet agent sur une instance de formation, si vous lui donnez la bonne réponse, vous mettez simplement des contraintes de 10 bits sur les poids du réseau.
**Mais supposons maintenant que nous formons un agent à s'ajuster en fonction des réponses de l'enseignant à ces 1024 catégories. ** Ensuite, la même distribution de probabilité peut être obtenue, et 1023 nombres réels sont obtenus dans la distribution. En supposant que ces probabilités ne sont pas petites, cela fournit des centaines de fois de contraintes.
Généralement, lorsque vous entraînez un modèle, vous l'entraînez correctement sur l'ensemble de données d'entraînement, puis espérez qu'il se généralise correctement sur les données de test. Mais ici, quand vous trouvez l'élève, vous entraînez directement l'élève à généraliser, car le formé généralise de la même manière que le professeur.
Je vais utiliser les données d'image du MNIST sur le chiffre 2 comme exemple. Nous pouvons voir les probabilités attribuées par l'enseignant aux différentes catégories.
La première ligne est évidemment un 2, et l'enseignant a également donné une forte probabilité de 2. Au deuxième rang, le professeur est assez convaincu que c'est un 2, mais il pense aussi que ça pourrait être un 3, ou ça pourrait être un 8, et vous pouvez voir qu'en effet, le 3 et le 8 ont une légère ressemblance avec cette photo . Dans la troisième ligne, ce 2 est très proche de 0. Ainsi, le professeur dira aux élèves que vous devez choisir de sortir 2 à ce moment, mais vous devez également placer un petit pari sur 0. De cette façon, l'élève peut en apprendre plus dans ce cas que de dire directement à l'élève qu'il s'agit d'un 2, et il peut apprendre à quel nombre ressemble la forme. Dans la quatrième ligne, l'enseignant pense que c'est un 2, mais il est également très probable que ce soit un 1, ce qui est la façon dont j'ai écrit le 1 sur l'image, et parfois quelqu'un écrit un 1 comme celui-ci.
Et la dernière ligne, en fait, l'IA a mal deviné, elle pensait que c'était un 5, et la bonne réponse donnée par l'ensemble de données MNIST était 2. Et les élèves peuvent réellement apprendre des erreurs de l'enseignant.
Ce que j'aime vraiment dans le modèle de distillation des connaissances, c'est que nous entraînons l'élève à généraliser de la même manière que l'enseignant, y compris en marquant une petite probabilité de mauvaises réponses. En règle générale, lorsque vous formez un modèle, vous lui donnez un jeu de données de formation et les bonnes réponses, puis vous espérez qu'il se généralise correctement au jeu de données de test pour produire les bonnes réponses. Vous essayez de l'empêcher d'être trop compliqué, ou de faire diverses choses, en espérant qu'il se généralise correctement. Mais ici, lorsque vous formez l'élève, vous entraînez directement l'élève à généraliser au même titre que le professeur.
Alors maintenant, je veux parler de la façon dont une communauté d'agents peut partager des connaissances. Au lieu de penser à un agent unique, il vaut mieux penser au partage des connaissances au sein d'une communauté.
Et il s'avère que la façon dont la communauté partage ses connaissances détermine beaucoup de choses que vous faites en matière d'informatique. Ainsi, avec le modèle numérique, avec l'intelligence numérique, vous pouvez avoir tout un tas d'agents utilisant exactement la même copie des poids et utilisant ces poids exactement de la même manière. Cela signifie que différents agents peuvent consulter différents éléments des données d'apprentissage.
Ils peuvent calculer le gradient des poids sur ces bits des données d'apprentissage, puis faire la moyenne de leurs gradients. Alors maintenant, chaque modèle apprend des données que chaque modèle voit, ce qui signifie que vous gagnez une énorme capacité à voir beaucoup de données, car vous aurez différentes copies du modèle en regardant différents bits de données, et ils peuvent partager les Gradients ou des poids partagés pour partager ce qu'ils apprennent très efficacement.
Si vous avez un modèle avec un trillion de poids, cela signifie que chaque fois qu'ils partagent quelque chose, vous obtenez un trillion de bits de bande passante. Mais le prix à payer est que vous devez vous comporter exactement de la même manière avec l'agent numérique.
Par conséquent, une alternative à l'utilisation du partage du poids consiste à utiliser la distillation. Et c'est ce que nous avons fait avec les modèles numériques. Il s'agit d'une architecture différente.
Cependant, vous devez le faire si vous avez des modèles biologiques qui tirent parti de la nature simulée d'un matériel particulier. Vous ne pouvez pas partager les poids. Par conséquent, vous devez utiliser des connaissances partagées distribuées, ce qui n'est pas très efficace. ** Le partage des connaissances avec la distillation est difficile. Les phrases que je génère, vous essayez de comprendre comment changer vos poids afin de générer les mêmes phrases. **
Cependant, il s'agit d'une bande passante beaucoup plus faible que le simple partage de gradients. Tous ceux qui ont déjà enseigné souhaitent dire ce qu'ils savent et le verser dans le cerveau de leurs élèves. Ce serait la fin du collège. Mais nous ne pouvons pas travailler comme ça parce que nous sommes biologiquement intelligents et ma façon de faire ne fonctionnera pas pour vous.
Jusqu'à présent, nous avons deux façons différentes de faire des calculs. **Calcul numérique et calcul biologique, ce dernier utilisant les caractéristiques des animaux. Ils sont très différents dans la manière de partager efficacement les connaissances entre les différents agents. **
Si vous regardez de grands modèles de langage, ils utilisent le calcul numérique et le partage de poids. Mais chaque copie du modèle, chaque agent, acquiert des connaissances à partir du fichier d'une manière très inefficace. Prendre un document et essayer de prédire le mot suivant est en fait une distillation de connaissances très inefficace, ce qu'il apprend n'est pas la prédiction de l'enseignant de la distribution de probabilité du mot suivant, mais le contenu du mot suivant choisi par l'auteur du document. Il s'agit donc d'une bande passante très faible. Et c'est ainsi que ces grands modèles linguistiques apprennent des gens.
**Bien que l'apprentissage de chaque copie d'un grand modèle de langage soit inefficace, vous avez 1000 copies. C'est pourquoi ils peuvent apprendre 1000 fois plus que nous. Je crois donc que ces grands modèles linguistiques en savent 1000 fois plus que n'importe quel individu. **
Maintenant, la question est, que se passe-t-il si ces agents numériques, au lieu d'apprendre de nous très lentement grâce à la distillation des connaissances, commencent à apprendre directement du monde réel ?
Je dois souligner que même la distillation des connaissances apprend très lentement, mais quand ils apprennent de nous, ils peuvent apprendre des choses très abstraites. ** Les humains ont beaucoup appris sur le monde au cours des derniers millénaires, et les agents numériques sont capables de profiter directement de ces connaissances. Les humains peuvent verbaliser ce que nous avons appris, de sorte que les agents numériques ont un accès direct à tout ce que les humains ont appris sur le monde au cours des derniers millénaires parce que nous l'avons écrit.
Mais de cette façon, la bande passante de chaque agent numérique est encore très faible, car ils apprennent des documents. S'ils font un apprentissage non supervisé, comme en modélisant des vidéos, une fois que nous avons trouvé un moyen efficace de modéliser des vidéos pour former le modèle, ils peuvent apprendre de toutes les vidéos YouTube, ce qui représente beaucoup de données. Ou s'ils peuvent manipuler le monde physique, comme ils peuvent contrôler des bras robotiques, etc.
Je crois vraiment qu'une fois que ces agents numériques commenceront à faire cela, ils pourront apprendre beaucoup plus que les humains, et ils pourront apprendre assez rapidement. Nous devons donc en venir au deuxième point que j'ai mentionné ci-dessus dans le diaporama, à savoir que se passe-t-il si ces choses deviennent plus intelligentes que nous ? **
Bien sûr, c'est aussi le contenu principal de cette réunion. Mais ma principale contribution est, ** Je veux vous dire que ces superintelligences pourraient arriver beaucoup plus tôt que je ne le pensais. **
** Les mauvaises personnes les utiliseront pour faire des choses comme manipuler l'électronique, ce qui se fait déjà aux États-Unis ou dans de nombreux autres endroits, et les gens essaieront d'utiliser l'IA pour gagner des guerres. **
Si vous voulez qu'un super agent soit efficace, vous devez lui permettre de créer des sous-objectifs. Cela soulève un problème évident **, car il existe un sous-objectif évident qui peut grandement améliorer sa capacité à nous aider à réaliser n'importe quoi : c'est-à-dire donner plus de pouvoir et de contrôle aux systèmes d'intelligence artificielle. Plus vous avez de contrôle, plus il est facile d'atteindre vos objectifs. ** Je ne vois pas comment nous pouvons empêcher l'intelligence numérique d'essayer de gagner plus de contrôle pour atteindre ses autres objectifs. Donc, une fois qu'ils commencent à le faire, le problème se pose.
Pour la superintelligence, même si vous la stockez dans un environnement isolé complètement hors ligne (airgap), elle constatera qu'elle peut facilement gagner plus de puissance en manipulant les gens. ** Nous n'avons pas l'habitude de penser à des choses beaucoup plus intelligentes que nous et à la manière dont nous voulons interagir avec elles. ** Mais il me semble qu'ils peuvent évidemment apprendre à être extrêmement bons pour tromper les gens. Parce qu'il peut voir notre pratique de tromper les autres dans un grand nombre de romans ou dans les œuvres de Niccolo Machiavel. Et une fois que vous devenez vraiment bon pour tromper les gens, vous pouvez leur faire effectuer n'importe quelle action que vous voulez. Par exemple, si vous voulez pirater un bâtiment à Washington, vous n'avez pas besoin d'y aller, vous faites juste croire aux gens qu'en piratant ce bâtiment, ils sauvent la démocratie. Et je pense que c'est assez effrayant.
** Je ne vois pas comment empêcher que cela se produise maintenant, et je vieillis. ** J'espère que de nombreux jeunes et brillants chercheurs, comme vous à la conférence, pourront comprendre comment nous pouvons avoir ces superintelligences - qu'elles amélioreront nos vies sans en faire un parti dominant.
Nous avons un avantage, un léger avantage, que ces choses n'ont pas évolué, nous les avons construites. ** Parce qu'ils n'ont pas évolué, peut-être qu'ils n'ont pas les objectifs agressifs concurrents que les humains ont, ** peut-être que cela aide, peut-être pouvons-nous leur donner un principe moral. Mais pour le moment, je suis juste nerveux parce que je ne connais aucun exemple de quelque chose de plus intelligent dominé par quelque chose de moins intelligent qu'il ne l'était quand il y avait un grand écart d'intelligence. ** Un exemple que j'aime donner est de supposer que les grenouilles ont créé les humains. Selon vous, qui contrôle actuellement ? Grenouille ou humain ? C'est tout pour mon discours. **
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Parrain de l'IA Hinton : Je suis vieux, c'est à vous de décider comment contrôler la "super intelligence" qui est plus intelligente que les humains
Source : Geek Park
"Et je suis vieux", a déclaré Hinton, âgé de 75 ans, à tous les jeunes scientifiques présents, et il espérait que tout le monde étudierait "comment avoir une superintelligence". Il voit un défi sans précédent pour une espèce moins intelligente de contrôler quelque chose de plus intelligent qu'elle-même. **
Lors de la conférence sur l'intelligence artificielle de Zhiyuan, Hinton, le parrain de l'IA, a prononcé un discours sur "Deux voies vers l'intelligence". De l'analyse de l'architecture et des principes informatiques, il est arrivé à sa propre conclusion que "le réseau de neurones artificiels sera plus intelligent que le cerveau humain", ce qui est beaucoup plus rapide qu'il ne l'avait imaginé à l'origine.
Mais le problème qui s'ensuit est que lorsque le matériel spécifique est endommagé, le logiciel l'est également, et "les connaissances acquises meurent également ensemble". La solution qu'il a proposée est de transférer les connaissances sur l'ancien matériel vers le nouveau matériel d'une manière « distillée », tout comme un enseignant enseigne aux élèves.
**Le concept correspondant à la « distillation des connaissances » (informatique biologique) est le « partage du poids » (informatique numérique), qui sont ce que Hinton a appelé « deux voies vers l'intelligence ». **La relation entre un grand modèle de langage et ses copies est le partage du poids, et chaque copie obtient directement la connaissance de l'ensemble des paramètres du modèle. Par exemple, ChatGPT peut parler à des milliers de personnes en même temps en fonction du modèle sous-jacent. Et le processus d'apprentissage continu consistant à parler à tout le monde appartient à la "distillation des connaissances".
Bien que la "distillation des connaissances" soit beaucoup moins efficace que le "partage du poids", et que la bande passante soit également faible, un grand modèle peut avoir 1000 copies et finalement obtenir 1000 fois plus de connaissances que n'importe qui.
Actuellement, les modèles n'apprennent qu'à partir de documents, c'est-à-dire de connaissances traitées par l'homme. Au fur et à mesure que la technologie se développera, ils pourront apprendre à partir d'informations visuelles, puis pourront apprendre à manipuler des robots. Ensuite, ils sont facilement plus intelligents que les humains, assez intelligents pour tromper les gens. ** Et les humains ne sont pas bons pour s'entendre avec des choses plus intelligentes qu'eux-mêmes. Comment éviter les dangers de ces intelligences "super intelligentes" ? C'est le sujet qu'il a laissé à tout jeune scientifique. **
Ce qui suit est le principal contenu du discours compilé par Geek Park :
** Je vais parler aujourd'hui de recherches qui me portent à croire que la superintelligence est plus proche que je ne le pensais. **
J'ai deux questions dont je veux parler, et mon énergie sera principalement concentrée sur la première question, est-ce que les réseaux de neurones artificiels seront bientôt plus intelligents que les vrais réseaux de neurones ? Je vais développer mes recherches qui m'amènent à la conclusion qu'une telle chose pourrait arriver bientôt. À la fin de l'exposé, je parlerai de la question de savoir si nous pouvons garder le contrôle de la superintelligence, mais ce ne sera pas le contenu principal de cet exposé.
Ainsi, la raison pour laquelle les ordinateurs numériques existent, et la raison pour laquelle ils suivent les instructions avec précision, est que dans les conceptions traditionnelles, les humains examinent un problème, déterminent les étapes à suivre pour résoudre le problème, puis nous disons à l'ordinateur de suivre ces étapes. . Mais cela a changé.
Nous avons maintenant une façon différente de faire faire les choses aux ordinateurs, qui consiste à apprendre à partir d'exemples, nous leur montrons simplement ce que nous voulons qu'ils fassent. En raison de ce changement, nous avons maintenant la possibilité d'abandonner l'un des principes les plus fondamentaux de l'informatique, la séparation du logiciel du matériel.
Avant d'abandonner, voyons pourquoi c'est un si bon principe. La séparabilité nous permet d'exécuter le même programme sur un matériel différent. On peut aussi étudier directement les propriétés des programmes sans se soucier du matériel électronique. Et c'est pourquoi le département d'informatique peut devenir une discipline à part entière, indépendante du département de génie électrique.
** Si nous renonçons à la séparation du matériel et des logiciels, nous obtenons ce que j'appelle l'informatique non immortelle. **
Il a évidemment de gros inconvénients, mais il a aussi d'énormes avantages. Afin de pouvoir exécuter de grands modèles de langage avec moins d'énergie, notamment pour les entraîner, j'ai commencé à travailler sur l'informatique non immortelle.
Nous pouvons également obtenir du matériel moins cher. Ainsi, le matériel d'aujourd'hui doit être fabriqué très précisément en 2D (plan) alors que nous pouvons le développer en 3D (environnement) car nous n'avons pas besoin de savoir exactement comment le matériel conduit l'électricité, ou exactement comment chaque pièce fonctionne .
De toute évidence, cela nécessiterait beaucoup de nouvelles nanotechnologies, ou peut-être une réingénierie génétique des neurones biologiques, car les neurones biologiques font à peu près ce que nous voulons qu'ils fassent. **Avant de discuter de tous les inconvénients de l'informatique non immortelle, je veux donner un exemple d'informatique qui peut être effectuée beaucoup moins cher en utilisant du matériel analogique. **
Si vous voulez multiplier un vecteur d'activité neuronale par une matrice de pondération, c'est le calcul central d'un réseau neuronal, et il fait la majeure partie du travail pour un réseau neuronal. Ce que nous faisons actuellement, c'est piloter des transistors à très haute puissance pour représenter les bits du nombre, en chiffres. Ensuite, nous faisons O(n^2), en multipliant deux nombres à n chiffres. Cela peut être une opération sur un ordinateur, mais c'est au niveau du bit carré de n.
Une autre approche consiste à mettre en œuvre l'activité neuronale sous forme de tension et le poids sous forme de conductivité. Ensuite, en une unité de temps, la tension est multipliée par la conductance pour obtenir une charge, et la charge est ajoutée par elle-même. Donc, évidemment, vous pouvez simplement multiplier le vecteur de tension avec la matrice de conductance. C'est plus économe en énergie, et des puces qui fonctionnent de cette façon existent déjà.
Malheureusement, ce que les gens font alors, c'est essayer de convertir la réponse analogique en numérique, ce qui nécessite l'utilisation de convertisseurs CA très coûteux. Nous aimerions rester complètement dans le domaine analogique si nous le pouvons. Mais cela fait que différents matériels finissent par calculer des choses légèrement différentes.
Par conséquent, ** le principal problème avec l'informatique non immortelle est que lors de l'apprentissage, le programme doit apprendre en fonction des propriétés spécifiques du matériel simulé sur lequel il se trouve, sans savoir exactement quelles sont les propriétés spécifiques de chaque élément matériel, ** Par exemple, la fonction exacte qui relie l'entrée du neurone à la sortie du neurone, ignorant la connectivité.
Cela signifie que nous ne pouvons pas utiliser d'algorithmes comme la rétropropagation pour obtenir des gradients, car la rétropropagation nécessite un modèle exact de propagation vers l'avant. Donc la question est, si nous ne pouvons pas utiliser l'algorithme de rétropropagation, que pouvons-nous faire d'autre ? Parce que nous sommes tous fortement dépendants de la rétropropagation maintenant.
Je peux montrer un apprentissage très simple et direct de la perturbation du poids, qui a été beaucoup étudié. Pour chaque poids du réseau, un petit vecteur de perturbation temporaire aléatoire est généré. Ensuite, en mesurant le changement de la fonction objectif globale sur un petit lot d'exemples, vous modifiez en permanence les poids par la taille du vecteur de perturbation en fonction de l'amélioration de la fonction objectif. Donc, si la fonction objectif se détériore, vous allez évidemment dans l'autre sens.
Nous avons également un meilleur algorithme pour l'apprentissage des perturbations d'activité. Il a toujours des problèmes similaires, mais c'est bien mieux que la perturbation du poids. La perturbation d'activité est ce que vous considérez comme une perturbation vectorielle aléatoire de l'entrée totale de chaque neurone. Vous effectuez une perturbation vectorielle aléatoire de chaque entrée du neurone et voyez ce qui arrive à votre fonction objectif lorsque vous effectuez cette perturbation aléatoire sur un petit lot d'exemples et que vous obtenez la fonction objectif en raison de cette perturbation. Ensuite, vous pouvez calculer comment changer chaque poids entrant du neurone pour suivre le gradient. Cette méthode est moins bruyante.
Pour des tâches simples comme MNIST, un tel algorithme est suffisant. Mais cela ne fonctionne toujours pas assez bien pour s'adapter à de grands réseaux de neurones.
** Au lieu de trouver une fonction objective qui peut être appliquée à un petit réseau de neurones, nous pouvons essayer de trouver un algorithme d'apprentissage qui fonctionne pour un grand réseau de neurones. ** L'idée est de former un grand réseau de neurones. Et ce que nous allons faire, c'est avoir beaucoup de petites fonctions objectives qui s'appliquent à une petite partie de l'ensemble du réseau. Par conséquent, chaque petit groupe de neurones a sa propre fonction objectif locale.
** Pour résumer, jusqu'à présent, nous n'avons pas trouvé de très bon algorithme d'apprentissage qui puisse tirer parti des propriétés de simulation, mais nous avons un algorithme d'apprentissage qui n'est pas mauvais, peut résoudre des problèmes simples comme MNIST, mais pas si bon. **
Le deuxième gros problème avec l'informatique non immortelle est sa nature non immortelle. Cela signifie que lorsqu'un matériel particulier meurt, toutes les connaissances qu'il a apprises meurent avec lui, car son apprentissage est entièrement basé sur les détails de son matériel spécifique. Donc, la meilleure façon de résoudre ce problème est de transmettre les connaissances de l'enseignant (ancien matériel) à l'élève (nouveau matériel) avant que le matériel ne meure. C'est la direction de recherche que j'essaie de promouvoir maintenant.
L'enseignant montrerait aux élèves les réponses correctes à diverses entrées, et les élèves essaieraient alors d'imiter les réponses de l'enseignant. C'est comme le Twitter de Trump. Certaines personnes sont très en colère contre les tweets de Trump parce qu'elles ont l'impression que Trump dit des mensonges, et elles pensent que Trump essaie d'expliquer les faits. Non. Ce que Trump a fait, c'est choisir une situation et avoir une réponse ciblée et très émotionnelle à cette situation. Ses partisans l'ont vu, ont appris à gérer la situation, ont appris à ajuster les poids dans le réseau neuronal et ont réagi émotionnellement à la situation de la même manière. Cela n'a rien à voir avec le fait qu'il s'agit d'un chef de secte enseignant le sectarisme à ses partisans, mais c'est très efficace.
Donc, si nous réfléchissons au fonctionnement de la distillation, considérons un agent classant les images en 1024 classes qui ne se chevauchent pas. La bonne réponse ne prend qu'environ 10 bits à épeler. Ainsi, lorsque vous formez cet agent sur une instance de formation, si vous lui donnez la bonne réponse, vous mettez simplement des contraintes de 10 bits sur les poids du réseau.
**Mais supposons maintenant que nous formons un agent à s'ajuster en fonction des réponses de l'enseignant à ces 1024 catégories. ** Ensuite, la même distribution de probabilité peut être obtenue, et 1023 nombres réels sont obtenus dans la distribution. En supposant que ces probabilités ne sont pas petites, cela fournit des centaines de fois de contraintes.
Généralement, lorsque vous entraînez un modèle, vous l'entraînez correctement sur l'ensemble de données d'entraînement, puis espérez qu'il se généralise correctement sur les données de test. Mais ici, quand vous trouvez l'élève, vous entraînez directement l'élève à généraliser, car le formé généralise de la même manière que le professeur.
La première ligne est évidemment un 2, et l'enseignant a également donné une forte probabilité de 2. Au deuxième rang, le professeur est assez convaincu que c'est un 2, mais il pense aussi que ça pourrait être un 3, ou ça pourrait être un 8, et vous pouvez voir qu'en effet, le 3 et le 8 ont une légère ressemblance avec cette photo . Dans la troisième ligne, ce 2 est très proche de 0. Ainsi, le professeur dira aux élèves que vous devez choisir de sortir 2 à ce moment, mais vous devez également placer un petit pari sur 0. De cette façon, l'élève peut en apprendre plus dans ce cas que de dire directement à l'élève qu'il s'agit d'un 2, et il peut apprendre à quel nombre ressemble la forme. Dans la quatrième ligne, l'enseignant pense que c'est un 2, mais il est également très probable que ce soit un 1, ce qui est la façon dont j'ai écrit le 1 sur l'image, et parfois quelqu'un écrit un 1 comme celui-ci.
Et la dernière ligne, en fait, l'IA a mal deviné, elle pensait que c'était un 5, et la bonne réponse donnée par l'ensemble de données MNIST était 2. Et les élèves peuvent réellement apprendre des erreurs de l'enseignant.
Ce que j'aime vraiment dans le modèle de distillation des connaissances, c'est que nous entraînons l'élève à généraliser de la même manière que l'enseignant, y compris en marquant une petite probabilité de mauvaises réponses. En règle générale, lorsque vous formez un modèle, vous lui donnez un jeu de données de formation et les bonnes réponses, puis vous espérez qu'il se généralise correctement au jeu de données de test pour produire les bonnes réponses. Vous essayez de l'empêcher d'être trop compliqué, ou de faire diverses choses, en espérant qu'il se généralise correctement. Mais ici, lorsque vous formez l'élève, vous entraînez directement l'élève à généraliser au même titre que le professeur.
Alors maintenant, je veux parler de la façon dont une communauté d'agents peut partager des connaissances. Au lieu de penser à un agent unique, il vaut mieux penser au partage des connaissances au sein d'une communauté.
Et il s'avère que la façon dont la communauté partage ses connaissances détermine beaucoup de choses que vous faites en matière d'informatique. Ainsi, avec le modèle numérique, avec l'intelligence numérique, vous pouvez avoir tout un tas d'agents utilisant exactement la même copie des poids et utilisant ces poids exactement de la même manière. Cela signifie que différents agents peuvent consulter différents éléments des données d'apprentissage.
Ils peuvent calculer le gradient des poids sur ces bits des données d'apprentissage, puis faire la moyenne de leurs gradients. Alors maintenant, chaque modèle apprend des données que chaque modèle voit, ce qui signifie que vous gagnez une énorme capacité à voir beaucoup de données, car vous aurez différentes copies du modèle en regardant différents bits de données, et ils peuvent partager les Gradients ou des poids partagés pour partager ce qu'ils apprennent très efficacement.
Si vous avez un modèle avec un trillion de poids, cela signifie que chaque fois qu'ils partagent quelque chose, vous obtenez un trillion de bits de bande passante. Mais le prix à payer est que vous devez vous comporter exactement de la même manière avec l'agent numérique.
Par conséquent, une alternative à l'utilisation du partage du poids consiste à utiliser la distillation. Et c'est ce que nous avons fait avec les modèles numériques. Il s'agit d'une architecture différente.
Cependant, vous devez le faire si vous avez des modèles biologiques qui tirent parti de la nature simulée d'un matériel particulier. Vous ne pouvez pas partager les poids. Par conséquent, vous devez utiliser des connaissances partagées distribuées, ce qui n'est pas très efficace. ** Le partage des connaissances avec la distillation est difficile. Les phrases que je génère, vous essayez de comprendre comment changer vos poids afin de générer les mêmes phrases. **
Cependant, il s'agit d'une bande passante beaucoup plus faible que le simple partage de gradients. Tous ceux qui ont déjà enseigné souhaitent dire ce qu'ils savent et le verser dans le cerveau de leurs élèves. Ce serait la fin du collège. Mais nous ne pouvons pas travailler comme ça parce que nous sommes biologiquement intelligents et ma façon de faire ne fonctionnera pas pour vous.
Jusqu'à présent, nous avons deux façons différentes de faire des calculs. **Calcul numérique et calcul biologique, ce dernier utilisant les caractéristiques des animaux. Ils sont très différents dans la manière de partager efficacement les connaissances entre les différents agents. **
**Bien que l'apprentissage de chaque copie d'un grand modèle de langage soit inefficace, vous avez 1000 copies. C'est pourquoi ils peuvent apprendre 1000 fois plus que nous. Je crois donc que ces grands modèles linguistiques en savent 1000 fois plus que n'importe quel individu. **
Maintenant, la question est, que se passe-t-il si ces agents numériques, au lieu d'apprendre de nous très lentement grâce à la distillation des connaissances, commencent à apprendre directement du monde réel ?
Je dois souligner que même la distillation des connaissances apprend très lentement, mais quand ils apprennent de nous, ils peuvent apprendre des choses très abstraites. ** Les humains ont beaucoup appris sur le monde au cours des derniers millénaires, et les agents numériques sont capables de profiter directement de ces connaissances. Les humains peuvent verbaliser ce que nous avons appris, de sorte que les agents numériques ont un accès direct à tout ce que les humains ont appris sur le monde au cours des derniers millénaires parce que nous l'avons écrit.
Mais de cette façon, la bande passante de chaque agent numérique est encore très faible, car ils apprennent des documents. S'ils font un apprentissage non supervisé, comme en modélisant des vidéos, une fois que nous avons trouvé un moyen efficace de modéliser des vidéos pour former le modèle, ils peuvent apprendre de toutes les vidéos YouTube, ce qui représente beaucoup de données. Ou s'ils peuvent manipuler le monde physique, comme ils peuvent contrôler des bras robotiques, etc.
Je crois vraiment qu'une fois que ces agents numériques commenceront à faire cela, ils pourront apprendre beaucoup plus que les humains, et ils pourront apprendre assez rapidement. Nous devons donc en venir au deuxième point que j'ai mentionné ci-dessus dans le diaporama, à savoir que se passe-t-il si ces choses deviennent plus intelligentes que nous ? **
** Les mauvaises personnes les utiliseront pour faire des choses comme manipuler l'électronique, ce qui se fait déjà aux États-Unis ou dans de nombreux autres endroits, et les gens essaieront d'utiliser l'IA pour gagner des guerres. **
Si vous voulez qu'un super agent soit efficace, vous devez lui permettre de créer des sous-objectifs. Cela soulève un problème évident **, car il existe un sous-objectif évident qui peut grandement améliorer sa capacité à nous aider à réaliser n'importe quoi : c'est-à-dire donner plus de pouvoir et de contrôle aux systèmes d'intelligence artificielle. Plus vous avez de contrôle, plus il est facile d'atteindre vos objectifs. ** Je ne vois pas comment nous pouvons empêcher l'intelligence numérique d'essayer de gagner plus de contrôle pour atteindre ses autres objectifs. Donc, une fois qu'ils commencent à le faire, le problème se pose.
Pour la superintelligence, même si vous la stockez dans un environnement isolé complètement hors ligne (airgap), elle constatera qu'elle peut facilement gagner plus de puissance en manipulant les gens. ** Nous n'avons pas l'habitude de penser à des choses beaucoup plus intelligentes que nous et à la manière dont nous voulons interagir avec elles. ** Mais il me semble qu'ils peuvent évidemment apprendre à être extrêmement bons pour tromper les gens. Parce qu'il peut voir notre pratique de tromper les autres dans un grand nombre de romans ou dans les œuvres de Niccolo Machiavel. Et une fois que vous devenez vraiment bon pour tromper les gens, vous pouvez leur faire effectuer n'importe quelle action que vous voulez. Par exemple, si vous voulez pirater un bâtiment à Washington, vous n'avez pas besoin d'y aller, vous faites juste croire aux gens qu'en piratant ce bâtiment, ils sauvent la démocratie. Et je pense que c'est assez effrayant.
** Je ne vois pas comment empêcher que cela se produise maintenant, et je vieillis. ** J'espère que de nombreux jeunes et brillants chercheurs, comme vous à la conférence, pourront comprendre comment nous pouvons avoir ces superintelligences - qu'elles amélioreront nos vies sans en faire un parti dominant.
Nous avons un avantage, un léger avantage, que ces choses n'ont pas évolué, nous les avons construites. ** Parce qu'ils n'ont pas évolué, peut-être qu'ils n'ont pas les objectifs agressifs concurrents que les humains ont, ** peut-être que cela aide, peut-être pouvons-nous leur donner un principe moral. Mais pour le moment, je suis juste nerveux parce que je ne connais aucun exemple de quelque chose de plus intelligent dominé par quelque chose de moins intelligent qu'il ne l'était quand il y avait un grand écart d'intelligence. ** Un exemple que j'aime donner est de supposer que les grenouilles ont créé les humains. Selon vous, qui contrôle actuellement ? Grenouille ou humain ? C'est tout pour mon discours. **