Autor | Li Yuan, Condado de LingziEditor | Wei Shijie
"E eu estou velho", disse Hinton, de 75 anos, a todos os jovens cientistas presentes, e esperava que todos estudassem "como ter superinteligência". Ele vê um desafio sem precedentes para uma espécie menos inteligente controlar algo mais inteligente do que ela. **
Na Conferência de Inteligência Artificial de Zhiyuan, Hinton, o padrinho da IA, fez um discurso sobre "Dois caminhos para a inteligência". A partir da análise da arquitetura e dos princípios da computação, ele chegou à sua própria conclusão de que "a rede neural artificial será mais inteligente que o cérebro humano", que é muito mais rápido do que ele imaginava originalmente.
Em seu discurso de 30 minutos, ele falou sobre a atual arquitetura de computação onde software e hardware são separados. Sob esta regra, treinar grandes modelos consome muito poder computacional. Para treinar grandes modelos com menos energia, ele propôs o conceito de Computação Mortal - como a inteligência de uma pessoa depende de seu corpo, ela não pode ser copiada para outro corpo à vontade, e o software é mais Depende do hardware existe em.
Mas o problema resultante é que, quando o hardware específico é danificado, o software também é danificado e "o conhecimento aprendido também morre junto". A solução que ele propôs é transferir o conhecimento do hardware antigo para o novo hardware de forma "destilada", como um professor ensinando aos alunos.
**O conceito correspondente à "destilação de conhecimento" (computação biológica) é "compartilhamento de peso" (computação digital), que é o que Hinton chamou de "dois caminhos para a inteligência". **A relação entre um grande modelo de linguagem e suas cópias é o compartilhamento de peso, e cada cópia obtém diretamente o conhecimento de todos os parâmetros do modelo - por exemplo, o ChatGPT pode falar com milhares de pessoas ao mesmo tempo com base no modelo por trás dele. E o processo de aprendizado contínuo de falar com todos pertence à "destilação de conhecimento".
Embora a "destilação de conhecimento" seja muito menos eficiente do que o "compartilhamento de peso" e a largura de banda também seja baixa, um modelo grande pode ter 1.000 cópias e, eventualmente, obter 1.000 vezes mais conhecimento do que qualquer pessoa.
Atualmente, os modelos aprendem apenas com documentos, ou seja, conhecimento processado por humanos.Com o desenvolvimento da tecnologia, eles serão capazes de aprender com informações visuais e, então, aprender a manipular robôs. Então eles são facilmente mais espertos que os humanos, espertos o suficiente para serem bons em enganar as pessoas. ** E os humanos não são bons em lidar com coisas mais inteligentes do que eles. Como evitar os perigos dessas inteligências "superinteligentes"? Este é o assunto que ele deixou para todo jovem cientista. **
A seguir está o conteúdo principal do discurso compilado pelo Geek Park:
**Vou falar hoje sobre pesquisas que me levam a acreditar que a superinteligência está mais próxima do que eu pensava. **
Eu tenho duas perguntas sobre as quais quero falar, e minha energia será focada principalmente na primeira pergunta, se as redes neurais artificiais serão em breve mais inteligentes do que as redes neurais reais? Vou elaborar minha pesquisa que me leva à conclusão de que tal coisa pode acontecer em breve. No final da palestra, falarei se podemos manter o controle da superinteligência, mas esse não será o conteúdo principal desta palestra.
Na computação tradicional, os computadores são projetados para seguir exatamente as instruções. Podemos executar exatamente o mesmo programa ou rede neural em hardware físico diferente, porque sabemos que o hardware seguirá exatamente as instruções. Isso significa que o conhecimento do programa ou dos pesos da rede neural é imortal, ou seja, não depende de nenhum hardware específico. O custo de alcançar esse tipo de imortalidade é alto. Temos que operar transistores em alta potência, então seu comportamento é digital. E não podemos tirar proveito das ricas propriedades analógicas e variáveis do hardware.
Portanto, a razão pela qual os computadores digitais existem, e a razão pela qual eles seguem as instruções com precisão, é porque nos projetos tradicionais, os humanos olham para um problema, descobrem quais etapas precisam ser executadas para resolvê-lo e, em seguida, dizemos ao computador para executar essas etapas. . Mas isso mudou.
Agora temos uma maneira diferente de fazer os computadores fazerem coisas, que é aprender com exemplos, apenas mostramos a eles o que queremos que eles façam. Por causa dessa mudança, agora temos a oportunidade de abandonar um dos princípios mais fundamentais da ciência da computação, a separação entre software e hardware.
Antes de desistirmos dele, vamos dar uma olhada em por que é um princípio tão bom. A separabilidade nos permite executar o mesmo programa em hardware diferente. Também podemos estudar diretamente as propriedades dos programas sem nos preocuparmos com o hardware eletrônico. E é por isso que o departamento de ciência da computação pode se tornar uma disciplina própria, independente do departamento de engenharia elétrica.
**Se desistirmos da separação de hardware e software, obteremos o que chamo de computação não imortal. **
Obviamente, tem grandes desvantagens, mas também tem grandes vantagens. Para poder executar grandes modelos de linguagem com menos energia, especialmente para treiná-los, comecei a trabalhar em computação não imortal.
O maior benefício de desistir da imortalidade é que desistir da separação de hardware e software pode economizar muita energia. Porque podemos usar computação analógica com potência muito baixa, que é exatamente o que o cérebro está fazendo. Requer 1 bit de computação, já que os neurônios estão ligados ou desligados. Mas a maioria dos cálculos é feita em analógico, o que pode ser feito com baixíssima potência.
Também podemos obter hardware mais barato. Portanto, o hardware de hoje tem que ser fabricado com muita precisão em 2D (plano), enquanto podemos desenvolvê-lo em 3D (ambiente) porque não precisamos saber exatamente como o hardware conduz eletricidade, ou exatamente como cada peça funciona .
Obviamente, fazer isso exigiria muita nanotecnologia nova, ou talvez reengenharia genética de neurônios biológicos, porque os neurônios biológicos fazem mais ou menos o que queremos que eles façam. **Antes de discutirmos todas as desvantagens da computação não imortal, quero dar um exemplo de computação que pode ser feito muito mais barato usando hardware analógico. **
Se você deseja multiplicar um vetor de atividade neural por uma matriz de peso, esse é o cálculo central de uma rede neural e faz a maior parte do trabalho para uma rede neural. O que estamos fazendo atualmente é acionar transistores em potência muito alta para representar os bits do número, em números. Então fazemos O(n^2), multiplicando dois números de n dígitos. Isso pode ser uma operação em um computador, mas está no nível de bit quadrado de n.
Outra abordagem é implementar a atividade neuronal como uma voltagem e o peso como uma condutividade. Então, em uma unidade de tempo, a tensão é multiplicada pela condutância para obter uma carga, e a carga é adicionada por si só. Então, obviamente, você pode apenas multiplicar o vetor de tensão com a matriz de condutância. Isso é mais eficiente em termos de energia e já existem chips que funcionam dessa maneira.
Infelizmente, o que as pessoas fazem é tentar converter a resposta analógica para digital, o que requer o uso de conversores AC muito caros. Gostaríamos de ficar completamente no reino analógico, se pudermos. Mas fazer isso faz com que diferentes hardwares acabem computando coisas ligeiramente diferentes.
Portanto, o principal problema da computação não imortal é que, ao aprender, o programa deve aprender de acordo com as propriedades específicas do hardware simulado em que está, sem saber exatamente quais são as propriedades específicas de cada peça de hardware, por exemplo, a função exata que conecta a entrada do neurônio à saída do neurônio, desconhecendo a conectividade.
Isso significa que não podemos usar algoritmos como backpropagation para obter gradientes, porque backpropagation requer um modelo exato de propagação direta. Então a questão é, se não podemos usar o algoritmo de retropropagação, o que mais podemos fazer? Porque todos nós somos altamente dependentes da retropropagação agora.
Posso mostrar um aprendizado muito simples e direto da perturbação do peso, que tem sido muito estudado. Para cada peso na rede, um pequeno vetor aleatório de perturbação temporária é gerado. Em seguida, medindo a alteração na função objetivo global em um pequeno lote de exemplos, você altera permanentemente os pesos pelo tamanho do vetor de perturbação de acordo com a melhoria da função objetivo. Portanto, se a função objetivo piorar, obviamente você está indo na outra direção.
O bom desse algoritmo é que, em média, ele funciona tão bem quanto a retropropagação porque, em média, também segue o gradiente. O problema é que tem uma variação muito grande. Portanto, quando você escolhe uma direção aleatória para se mover, o ruído resultante fica muito ruim à medida que o tamanho da rede aumenta. Isso significa que esse algoritmo é eficaz para um pequeno número de conexões, mas não para grandes redes.
Também temos um algoritmo melhor para aprendizado de perturbação de atividade. Ainda tem problemas semelhantes, mas é muito melhor do que a perturbação de peso. A perturbação da atividade é o que você considera uma perturbação vetorial aleatória da entrada total para cada neurônio. Você faz uma perturbação vetorial aleatória de cada entrada para o neurônio e vê o que acontece com sua função objetivo quando você faz essa perturbação aleatória em um pequeno lote de exemplos e obtém a função objetivo devido a essa perturbação Então você pode calcular como alterar cada peso de entrada do neurônio para seguir o gradiente. Este método é menos ruidoso.
Para tarefas simples como MNIST, esse algoritmo é bom o suficiente. Mas ainda não funciona bem o suficiente para escalar grandes redes neurais.
** Em vez de encontrar uma função objetivo que possa ser aplicada a uma pequena rede neural, podemos tentar encontrar um algoritmo de aprendizado que funcione para uma grande rede neural. **A ideia é treinar uma grande rede neural. E o que vamos fazer é ter várias pequenas funções objetivas que se aplicam a uma pequena parte de toda a rede. Portanto, cada pequeno grupo de neurônios tem sua própria função objetivo local.
**Para resumir, até agora não encontramos um algoritmo de aprendizado realmente bom que possa aproveitar as propriedades da simulação, mas temos um algoritmo de aprendizado que não é ruim, pode resolver problemas simples como o MNIST, mas não tão bom. **
O segundo grande problema com a computação não imortal é sua natureza não imortal. Isso significa que quando uma determinada peça de hardware morre, todo o conhecimento que ela aprendeu morre com ela, porque seu aprendizado é todo baseado nos detalhes de sua peça específica de hardware. Portanto, a melhor maneira de resolver esse problema é destilar o conhecimento do professor (hardware antigo) para o aluno (novo hardware) antes que o hardware morra. Esta é a direção de pesquisa que estou tentando promover agora.
Midjourney gerado
O professor mostrava aos alunos as respostas corretas para várias entradas e os alunos tentavam imitar as respostas do professor. É como o Twitter de Trump. Algumas pessoas estão muito zangadas com os tweets de Trump porque acham que Trump está mentindo e acham que Trump está tentando explicar os fatos. não. O que Trump fez foi escolher uma situação e ter uma resposta direcionada e muito emocional a essa situação. Seus seguidores viram, aprenderam a lidar com a situação, aprenderam a ajustar os pesos na rede neural e responderam emocionalmente à situação da mesma maneira. Não tem nada a ver com o fato de ser um líder de culto ensinando fanatismo a seus seguidores, mas é muito eficaz.
Então, se pensarmos em como funciona a destilação, considere um agente classificando imagens em 1024 classes não sobrepostas. A resposta correta leva apenas cerca de 10 bits para soletrar. Portanto, quando você treina esse agente em uma instância de treinamento, se você der a resposta correta, estará apenas colocando restrições de 10 bits nos pesos da rede.
**Mas agora suponha que treinamos um agente para se ajustar de acordo com as respostas do professor a essas 1024 categorias. ** Então a mesma distribuição de probabilidade pode ser obtida, e 1023 números reais são obtidos na distribuição.Assumindo que essas probabilidades não são pequenas, isso fornece centenas de vezes de restrições.
Normalmente, ao treinar um modelo, você o treina corretamente no conjunto de dados de treinamento e espera que ele generalize corretamente nos dados de teste. Mas aqui, quando você encontra o aluno, você treina diretamente o aluno para generalizar, porque o treinado generaliza da mesma forma que o professor.
Vou usar os dados de imagem do MNIST no dígito 2 como exemplo. Podemos ver as probabilidades atribuídas pelo professor a várias categorias.
A primeira linha é obviamente um 2, e o professor também deu uma alta probabilidade de 2. Na segunda linha, o professor está bastante confiante de que é um 2, mas também acha que pode ser um 3, ou pode ser um 8, e você pode ver que, de fato, o 3 e o 8 têm uma leve semelhança com esta imagem . Na terceira linha, este 2 está muito próximo de 0. Assim, o professor dirá aos alunos que você deve optar por produzir 2 neste momento, mas também deve fazer uma pequena aposta em 0. Desta forma, o aluno pode aprender mais neste caso do que dizer diretamente ao aluno que este é um 2, e pode aprender com que número a forma se parece. Na quarta linha, o professor pensa que é um 2, mas também é muito provável que seja um 1, que é a forma como escrevi o 1 na imagem, e ocasionalmente alguém escreve um 1 assim.
E a última linha, de fato, a IA adivinhou errado, achou que era um 5, e a resposta correta dada pelo conjunto de dados MNIST foi 2. E os alunos podem realmente aprender com os erros do professor.
O que eu realmente gosto no modelo de destilação do conhecimento é que estamos treinando o aluno para generalizar da mesma forma que o professor, inclusive marcando uma pequena probabilidade de respostas erradas. Normalmente, ao treinar um modelo, você fornece a ele um conjunto de dados de treinamento e as respostas corretas e espera que ele generalize corretamente para o conjunto de dados de teste para produzir as respostas corretas. Você está tentando evitar que seja muito complicado ou fazer várias coisas, esperando que generalize corretamente. Mas aqui, quando você treina o aluno, você treina diretamente o aluno para generalizar da mesma forma que o professor.
Agora quero falar sobre como uma comunidade de agentes pode compartilhar conhecimento. Em vez de pensar em um único agente, é melhor pensar em compartilhar o conhecimento dentro de uma comunidade.
E acontece que a maneira como a comunidade compartilha conhecimento determina muitas coisas que você faz sobre computação. Portanto, com o modelo digital, com a inteligência digital, você pode ter um monte de agentes usando exatamente a mesma cópia dos pesos e usando esses pesos exatamente da mesma maneira. Isso significa que diferentes agentes podem examinar diferentes bits dos dados de treinamento.
Eles podem calcular o gradiente dos pesos nesses bits dos dados de treinamento e, em seguida, podem calcular a média de seus gradientes. Agora, cada modelo aprende com os dados que cada modelo vê, o que significa que você ganha uma tremenda capacidade de ver muitos dados, porque você terá diferentes cópias do modelo olhando para diferentes bits de dados e eles podem compartilhar os Gradientes ou pesos compartilhados para compartilhar o que aprenderam de forma muito eficiente.
Se você tem um modelo com um trilhão de pesos, isso significa que toda vez que eles compartilham algo, você obtém um trilhão de bits de largura de banda. Mas o preço de fazer isso é que você tem que comportar o agente digital exatamente da mesma forma.
Portanto, uma alternativa ao uso de divisão de peso é usar a destilação. E foi isso que fizemos com os modelos digitais. Esta é uma arquitetura diferente.
No entanto, você deve fazer isso se tiver modelos biológicos que estão aproveitando a natureza simulada de uma determinada peça de hardware. Você não pode compartilhar pesos. Portanto, você tem que usar o conhecimento compartilhado distribuído, o que não é muito eficiente. **Compartilhar conhecimento com destilação é difícil. As sentenças que eu gero, você está tentando descobrir como alterar seus pesos para gerar as mesmas sentenças. **
No entanto, isso é uma largura de banda muito menor do que apenas compartilhar gradientes. Todos os que já ensinaram desejam dizer o que sabem e despejar isso no cérebro de seus alunos. Isso seria o fim da faculdade. Mas não podemos trabalhar assim porque somos biologicamente inteligentes e meu método não funcionará para você.
Até agora, temos duas maneiras diferentes de fazer cálculos. **Computação numérica e computação biológica, esta última utilizando as características dos animais. Eles são muito diferentes em como efetivamente compartilhar conhecimento entre diferentes agentes. **
Se você olhar para grandes modelos de linguagem, eles usam computação numérica e compartilhamento de peso. Mas cada cópia do modelo, cada agente, está adquirindo conhecimento do arquivo de forma muito ineficiente. Pegar um documento e tentar prever a próxima palavra é, na verdade, uma destilação de conhecimento muito ineficiente, o que ele aprende não é a previsão do professor sobre a distribuição de probabilidade da próxima palavra, mas o conteúdo da próxima palavra escolhida pelo autor do documento. Portanto, esta é uma largura de banda muito baixa. E é assim que esses grandes modelos de linguagem aprendem com as pessoas.
**Embora aprender cada cópia de um grande modelo de linguagem seja ineficiente, você tem 1000 cópias. É por isso que eles podem aprender 1000 vezes mais do que nós. Portanto, acredito que esses grandes modelos de linguagem sabem 1.000 vezes mais do que qualquer pessoa individual. **
Agora, a questão é: o que acontece se esses agentes digitais, em vez de aprender conosco muito lentamente por meio da destilação do conhecimento, começarem a aprender diretamente do mundo real?
Devo enfatizar que mesmo a destilação do conhecimento aprende muito lentamente, mas quando eles aprendem conosco, eles podem aprender coisas muito abstratas. ** Os humanos aprenderam muito sobre o mundo nos últimos milênios, e os agentes digitais podem aproveitar esse conhecimento diretamente. Os humanos podem verbalizar o que aprenderam, então os agentes digitais têm acesso direto a tudo o que os humanos aprenderam sobre o mundo nos últimos milênios porque nós escrevemos.
Mas dessa forma, a largura de banda de cada agente digital ainda é muito baixa, pois eles aprendem com os documentos. Se eles fizerem aprendizado não supervisionado, como modelar vídeos, assim que encontrarmos uma maneira eficiente de modelar vídeos para treinar o modelo, eles poderão aprender com todos os vídeos do YouTube, que são muitos dados. Ou se eles podem manipular o mundo físico, como podem controlar braços robóticos e assim por diante.
Eu realmente acredito que, uma vez que esses agentes digitais comecem a fazer isso, eles serão capazes de aprender muito mais do que os humanos e serão capazes de aprender rapidamente. Portanto, precisamos chegar ao segundo ponto que mencionei acima na apresentação de slides, que é o que acontece se essas coisas se tornarem mais inteligentes do que nós? **
Claro, este também é o conteúdo principal desta reunião. Mas minha principal contribuição é: **Quero dizer a vocês que essas superinteligências podem chegar muito antes do que eu pensava. **
**Pessoas más vão usá-los para fazer coisas como manipular eletrônicos, o que já é feito nos EUA ou em muitos outros lugares, e as pessoas vão tentar usar IA para vencer guerras. **
Se você deseja que um superagente seja eficiente, precisa permitir que ele crie submetas. Isso traz um problema óbvio**, porque há um subobjetivo óbvio que pode aumentar muito sua capacidade de nos ajudar a alcançar qualquer coisa: dar mais poder e controle aos sistemas de inteligência artificial. Quanto mais controle você tiver, mais fácil será atingir seus objetivos. **Não vejo como podemos impedir que a inteligência digital tente obter mais controle para atingir seus outros objetivos. Então, quando eles começam a fazer isso, surge o problema.
Para a superinteligência, mesmo se você armazená-la em um ambiente isolado completamente offline (airgap), ela descobrirá que pode facilmente ganhar mais poder manipulando as pessoas. **Não estamos acostumados a pensar em coisas muito mais inteligentes do que nós e como queremos interagir com elas. **Mas parece-me que eles obviamente podem aprender a ser extremamente bons em enganar as pessoas. Porque pode ver nossa prática de enganar os outros em um grande número de romances ou nas obras de Nicolau Maquiavel. E quando você ficar realmente bom em enganar as pessoas, poderá fazê-las realizar qualquer ação que desejar. Por exemplo, se você quiser hackear um prédio em Washington, não precisa ir até lá, apenas induzir as pessoas a pensar que, ao hackear aquele prédio, elas estão salvando a democracia. E eu acho que é bem assustador.
** Não consigo ver como evitar que isso aconteça agora e estou ficando velho. **Espero que muitos pesquisadores jovens e brilhantes, como você na conferência, possam descobrir como podemos ter essas superinteligências - que elas tornarão nossas vidas melhores sem torná-las parte dominante.
Temos uma vantagem, uma pequena vantagem, de que essas coisas não evoluíram, nós as construímos. Porque eles não evoluíram, talvez eles não tenham os objetivos agressivos competitivos que os humanos têm, talvez isso ajude, talvez possamos dar a eles um princípio moral. Mas, no momento, estou apenas nervoso porque não conheço nenhum exemplo de algo mais inteligente sendo dominado por algo menos inteligente do que quando havia uma grande lacuna na inteligência. **Um exemplo que gosto de dar é assumir que os sapos criaram os humanos. Quem você acha que está no controle agora? Sapo ou Humano? Isso é tudo para o meu discurso. **
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Padrinho da IA Hinton: Estou velho, como controlar a "super inteligência" que é mais inteligente que os humanos depende de você
Fonte: Geek Park See More
"E eu estou velho", disse Hinton, de 75 anos, a todos os jovens cientistas presentes, e esperava que todos estudassem "como ter superinteligência". Ele vê um desafio sem precedentes para uma espécie menos inteligente controlar algo mais inteligente do que ela. **
Na Conferência de Inteligência Artificial de Zhiyuan, Hinton, o padrinho da IA, fez um discurso sobre "Dois caminhos para a inteligência". A partir da análise da arquitetura e dos princípios da computação, ele chegou à sua própria conclusão de que "a rede neural artificial será mais inteligente que o cérebro humano", que é muito mais rápido do que ele imaginava originalmente.
Mas o problema resultante é que, quando o hardware específico é danificado, o software também é danificado e "o conhecimento aprendido também morre junto". A solução que ele propôs é transferir o conhecimento do hardware antigo para o novo hardware de forma "destilada", como um professor ensinando aos alunos.
**O conceito correspondente à "destilação de conhecimento" (computação biológica) é "compartilhamento de peso" (computação digital), que é o que Hinton chamou de "dois caminhos para a inteligência". **A relação entre um grande modelo de linguagem e suas cópias é o compartilhamento de peso, e cada cópia obtém diretamente o conhecimento de todos os parâmetros do modelo - por exemplo, o ChatGPT pode falar com milhares de pessoas ao mesmo tempo com base no modelo por trás dele. E o processo de aprendizado contínuo de falar com todos pertence à "destilação de conhecimento".
Embora a "destilação de conhecimento" seja muito menos eficiente do que o "compartilhamento de peso" e a largura de banda também seja baixa, um modelo grande pode ter 1.000 cópias e, eventualmente, obter 1.000 vezes mais conhecimento do que qualquer pessoa.
Atualmente, os modelos aprendem apenas com documentos, ou seja, conhecimento processado por humanos.Com o desenvolvimento da tecnologia, eles serão capazes de aprender com informações visuais e, então, aprender a manipular robôs. Então eles são facilmente mais espertos que os humanos, espertos o suficiente para serem bons em enganar as pessoas. ** E os humanos não são bons em lidar com coisas mais inteligentes do que eles. Como evitar os perigos dessas inteligências "superinteligentes"? Este é o assunto que ele deixou para todo jovem cientista. **
A seguir está o conteúdo principal do discurso compilado pelo Geek Park:
**Vou falar hoje sobre pesquisas que me levam a acreditar que a superinteligência está mais próxima do que eu pensava. **
Eu tenho duas perguntas sobre as quais quero falar, e minha energia será focada principalmente na primeira pergunta, se as redes neurais artificiais serão em breve mais inteligentes do que as redes neurais reais? Vou elaborar minha pesquisa que me leva à conclusão de que tal coisa pode acontecer em breve. No final da palestra, falarei se podemos manter o controle da superinteligência, mas esse não será o conteúdo principal desta palestra.
Portanto, a razão pela qual os computadores digitais existem, e a razão pela qual eles seguem as instruções com precisão, é porque nos projetos tradicionais, os humanos olham para um problema, descobrem quais etapas precisam ser executadas para resolvê-lo e, em seguida, dizemos ao computador para executar essas etapas. . Mas isso mudou.
Agora temos uma maneira diferente de fazer os computadores fazerem coisas, que é aprender com exemplos, apenas mostramos a eles o que queremos que eles façam. Por causa dessa mudança, agora temos a oportunidade de abandonar um dos princípios mais fundamentais da ciência da computação, a separação entre software e hardware.
Antes de desistirmos dele, vamos dar uma olhada em por que é um princípio tão bom. A separabilidade nos permite executar o mesmo programa em hardware diferente. Também podemos estudar diretamente as propriedades dos programas sem nos preocuparmos com o hardware eletrônico. E é por isso que o departamento de ciência da computação pode se tornar uma disciplina própria, independente do departamento de engenharia elétrica.
**Se desistirmos da separação de hardware e software, obteremos o que chamo de computação não imortal. **
Obviamente, tem grandes desvantagens, mas também tem grandes vantagens. Para poder executar grandes modelos de linguagem com menos energia, especialmente para treiná-los, comecei a trabalhar em computação não imortal.
Também podemos obter hardware mais barato. Portanto, o hardware de hoje tem que ser fabricado com muita precisão em 2D (plano), enquanto podemos desenvolvê-lo em 3D (ambiente) porque não precisamos saber exatamente como o hardware conduz eletricidade, ou exatamente como cada peça funciona .
Obviamente, fazer isso exigiria muita nanotecnologia nova, ou talvez reengenharia genética de neurônios biológicos, porque os neurônios biológicos fazem mais ou menos o que queremos que eles façam. **Antes de discutirmos todas as desvantagens da computação não imortal, quero dar um exemplo de computação que pode ser feito muito mais barato usando hardware analógico. **
Se você deseja multiplicar um vetor de atividade neural por uma matriz de peso, esse é o cálculo central de uma rede neural e faz a maior parte do trabalho para uma rede neural. O que estamos fazendo atualmente é acionar transistores em potência muito alta para representar os bits do número, em números. Então fazemos O(n^2), multiplicando dois números de n dígitos. Isso pode ser uma operação em um computador, mas está no nível de bit quadrado de n.
Outra abordagem é implementar a atividade neuronal como uma voltagem e o peso como uma condutividade. Então, em uma unidade de tempo, a tensão é multiplicada pela condutância para obter uma carga, e a carga é adicionada por si só. Então, obviamente, você pode apenas multiplicar o vetor de tensão com a matriz de condutância. Isso é mais eficiente em termos de energia e já existem chips que funcionam dessa maneira.
Infelizmente, o que as pessoas fazem é tentar converter a resposta analógica para digital, o que requer o uso de conversores AC muito caros. Gostaríamos de ficar completamente no reino analógico, se pudermos. Mas fazer isso faz com que diferentes hardwares acabem computando coisas ligeiramente diferentes.
Portanto, o principal problema da computação não imortal é que, ao aprender, o programa deve aprender de acordo com as propriedades específicas do hardware simulado em que está, sem saber exatamente quais são as propriedades específicas de cada peça de hardware, por exemplo, a função exata que conecta a entrada do neurônio à saída do neurônio, desconhecendo a conectividade.
Isso significa que não podemos usar algoritmos como backpropagation para obter gradientes, porque backpropagation requer um modelo exato de propagação direta. Então a questão é, se não podemos usar o algoritmo de retropropagação, o que mais podemos fazer? Porque todos nós somos altamente dependentes da retropropagação agora.
Posso mostrar um aprendizado muito simples e direto da perturbação do peso, que tem sido muito estudado. Para cada peso na rede, um pequeno vetor aleatório de perturbação temporária é gerado. Em seguida, medindo a alteração na função objetivo global em um pequeno lote de exemplos, você altera permanentemente os pesos pelo tamanho do vetor de perturbação de acordo com a melhoria da função objetivo. Portanto, se a função objetivo piorar, obviamente você está indo na outra direção.
Também temos um algoritmo melhor para aprendizado de perturbação de atividade. Ainda tem problemas semelhantes, mas é muito melhor do que a perturbação de peso. A perturbação da atividade é o que você considera uma perturbação vetorial aleatória da entrada total para cada neurônio. Você faz uma perturbação vetorial aleatória de cada entrada para o neurônio e vê o que acontece com sua função objetivo quando você faz essa perturbação aleatória em um pequeno lote de exemplos e obtém a função objetivo devido a essa perturbação Então você pode calcular como alterar cada peso de entrada do neurônio para seguir o gradiente. Este método é menos ruidoso.
Para tarefas simples como MNIST, esse algoritmo é bom o suficiente. Mas ainda não funciona bem o suficiente para escalar grandes redes neurais.
** Em vez de encontrar uma função objetivo que possa ser aplicada a uma pequena rede neural, podemos tentar encontrar um algoritmo de aprendizado que funcione para uma grande rede neural. **A ideia é treinar uma grande rede neural. E o que vamos fazer é ter várias pequenas funções objetivas que se aplicam a uma pequena parte de toda a rede. Portanto, cada pequeno grupo de neurônios tem sua própria função objetivo local.
**Para resumir, até agora não encontramos um algoritmo de aprendizado realmente bom que possa aproveitar as propriedades da simulação, mas temos um algoritmo de aprendizado que não é ruim, pode resolver problemas simples como o MNIST, mas não tão bom. **
O segundo grande problema com a computação não imortal é sua natureza não imortal. Isso significa que quando uma determinada peça de hardware morre, todo o conhecimento que ela aprendeu morre com ela, porque seu aprendizado é todo baseado nos detalhes de sua peça específica de hardware. Portanto, a melhor maneira de resolver esse problema é destilar o conhecimento do professor (hardware antigo) para o aluno (novo hardware) antes que o hardware morra. Esta é a direção de pesquisa que estou tentando promover agora.
O professor mostrava aos alunos as respostas corretas para várias entradas e os alunos tentavam imitar as respostas do professor. É como o Twitter de Trump. Algumas pessoas estão muito zangadas com os tweets de Trump porque acham que Trump está mentindo e acham que Trump está tentando explicar os fatos. não. O que Trump fez foi escolher uma situação e ter uma resposta direcionada e muito emocional a essa situação. Seus seguidores viram, aprenderam a lidar com a situação, aprenderam a ajustar os pesos na rede neural e responderam emocionalmente à situação da mesma maneira. Não tem nada a ver com o fato de ser um líder de culto ensinando fanatismo a seus seguidores, mas é muito eficaz.
Então, se pensarmos em como funciona a destilação, considere um agente classificando imagens em 1024 classes não sobrepostas. A resposta correta leva apenas cerca de 10 bits para soletrar. Portanto, quando você treina esse agente em uma instância de treinamento, se você der a resposta correta, estará apenas colocando restrições de 10 bits nos pesos da rede.
**Mas agora suponha que treinamos um agente para se ajustar de acordo com as respostas do professor a essas 1024 categorias. ** Então a mesma distribuição de probabilidade pode ser obtida, e 1023 números reais são obtidos na distribuição.Assumindo que essas probabilidades não são pequenas, isso fornece centenas de vezes de restrições.
Normalmente, ao treinar um modelo, você o treina corretamente no conjunto de dados de treinamento e espera que ele generalize corretamente nos dados de teste. Mas aqui, quando você encontra o aluno, você treina diretamente o aluno para generalizar, porque o treinado generaliza da mesma forma que o professor.
A primeira linha é obviamente um 2, e o professor também deu uma alta probabilidade de 2. Na segunda linha, o professor está bastante confiante de que é um 2, mas também acha que pode ser um 3, ou pode ser um 8, e você pode ver que, de fato, o 3 e o 8 têm uma leve semelhança com esta imagem . Na terceira linha, este 2 está muito próximo de 0. Assim, o professor dirá aos alunos que você deve optar por produzir 2 neste momento, mas também deve fazer uma pequena aposta em 0. Desta forma, o aluno pode aprender mais neste caso do que dizer diretamente ao aluno que este é um 2, e pode aprender com que número a forma se parece. Na quarta linha, o professor pensa que é um 2, mas também é muito provável que seja um 1, que é a forma como escrevi o 1 na imagem, e ocasionalmente alguém escreve um 1 assim.
E a última linha, de fato, a IA adivinhou errado, achou que era um 5, e a resposta correta dada pelo conjunto de dados MNIST foi 2. E os alunos podem realmente aprender com os erros do professor.
O que eu realmente gosto no modelo de destilação do conhecimento é que estamos treinando o aluno para generalizar da mesma forma que o professor, inclusive marcando uma pequena probabilidade de respostas erradas. Normalmente, ao treinar um modelo, você fornece a ele um conjunto de dados de treinamento e as respostas corretas e espera que ele generalize corretamente para o conjunto de dados de teste para produzir as respostas corretas. Você está tentando evitar que seja muito complicado ou fazer várias coisas, esperando que generalize corretamente. Mas aqui, quando você treina o aluno, você treina diretamente o aluno para generalizar da mesma forma que o professor.
Agora quero falar sobre como uma comunidade de agentes pode compartilhar conhecimento. Em vez de pensar em um único agente, é melhor pensar em compartilhar o conhecimento dentro de uma comunidade.
E acontece que a maneira como a comunidade compartilha conhecimento determina muitas coisas que você faz sobre computação. Portanto, com o modelo digital, com a inteligência digital, você pode ter um monte de agentes usando exatamente a mesma cópia dos pesos e usando esses pesos exatamente da mesma maneira. Isso significa que diferentes agentes podem examinar diferentes bits dos dados de treinamento.
Eles podem calcular o gradiente dos pesos nesses bits dos dados de treinamento e, em seguida, podem calcular a média de seus gradientes. Agora, cada modelo aprende com os dados que cada modelo vê, o que significa que você ganha uma tremenda capacidade de ver muitos dados, porque você terá diferentes cópias do modelo olhando para diferentes bits de dados e eles podem compartilhar os Gradientes ou pesos compartilhados para compartilhar o que aprenderam de forma muito eficiente.
Se você tem um modelo com um trilhão de pesos, isso significa que toda vez que eles compartilham algo, você obtém um trilhão de bits de largura de banda. Mas o preço de fazer isso é que você tem que comportar o agente digital exatamente da mesma forma.
Portanto, uma alternativa ao uso de divisão de peso é usar a destilação. E foi isso que fizemos com os modelos digitais. Esta é uma arquitetura diferente.
No entanto, você deve fazer isso se tiver modelos biológicos que estão aproveitando a natureza simulada de uma determinada peça de hardware. Você não pode compartilhar pesos. Portanto, você tem que usar o conhecimento compartilhado distribuído, o que não é muito eficiente. **Compartilhar conhecimento com destilação é difícil. As sentenças que eu gero, você está tentando descobrir como alterar seus pesos para gerar as mesmas sentenças. **
No entanto, isso é uma largura de banda muito menor do que apenas compartilhar gradientes. Todos os que já ensinaram desejam dizer o que sabem e despejar isso no cérebro de seus alunos. Isso seria o fim da faculdade. Mas não podemos trabalhar assim porque somos biologicamente inteligentes e meu método não funcionará para você.
Até agora, temos duas maneiras diferentes de fazer cálculos. **Computação numérica e computação biológica, esta última utilizando as características dos animais. Eles são muito diferentes em como efetivamente compartilhar conhecimento entre diferentes agentes. **
**Embora aprender cada cópia de um grande modelo de linguagem seja ineficiente, você tem 1000 cópias. É por isso que eles podem aprender 1000 vezes mais do que nós. Portanto, acredito que esses grandes modelos de linguagem sabem 1.000 vezes mais do que qualquer pessoa individual. **
Agora, a questão é: o que acontece se esses agentes digitais, em vez de aprender conosco muito lentamente por meio da destilação do conhecimento, começarem a aprender diretamente do mundo real?
Devo enfatizar que mesmo a destilação do conhecimento aprende muito lentamente, mas quando eles aprendem conosco, eles podem aprender coisas muito abstratas. ** Os humanos aprenderam muito sobre o mundo nos últimos milênios, e os agentes digitais podem aproveitar esse conhecimento diretamente. Os humanos podem verbalizar o que aprenderam, então os agentes digitais têm acesso direto a tudo o que os humanos aprenderam sobre o mundo nos últimos milênios porque nós escrevemos.
Mas dessa forma, a largura de banda de cada agente digital ainda é muito baixa, pois eles aprendem com os documentos. Se eles fizerem aprendizado não supervisionado, como modelar vídeos, assim que encontrarmos uma maneira eficiente de modelar vídeos para treinar o modelo, eles poderão aprender com todos os vídeos do YouTube, que são muitos dados. Ou se eles podem manipular o mundo físico, como podem controlar braços robóticos e assim por diante.
Eu realmente acredito que, uma vez que esses agentes digitais comecem a fazer isso, eles serão capazes de aprender muito mais do que os humanos e serão capazes de aprender rapidamente. Portanto, precisamos chegar ao segundo ponto que mencionei acima na apresentação de slides, que é o que acontece se essas coisas se tornarem mais inteligentes do que nós? **
**Pessoas más vão usá-los para fazer coisas como manipular eletrônicos, o que já é feito nos EUA ou em muitos outros lugares, e as pessoas vão tentar usar IA para vencer guerras. **
Se você deseja que um superagente seja eficiente, precisa permitir que ele crie submetas. Isso traz um problema óbvio**, porque há um subobjetivo óbvio que pode aumentar muito sua capacidade de nos ajudar a alcançar qualquer coisa: dar mais poder e controle aos sistemas de inteligência artificial. Quanto mais controle você tiver, mais fácil será atingir seus objetivos. **Não vejo como podemos impedir que a inteligência digital tente obter mais controle para atingir seus outros objetivos. Então, quando eles começam a fazer isso, surge o problema.
Para a superinteligência, mesmo se você armazená-la em um ambiente isolado completamente offline (airgap), ela descobrirá que pode facilmente ganhar mais poder manipulando as pessoas. **Não estamos acostumados a pensar em coisas muito mais inteligentes do que nós e como queremos interagir com elas. **Mas parece-me que eles obviamente podem aprender a ser extremamente bons em enganar as pessoas. Porque pode ver nossa prática de enganar os outros em um grande número de romances ou nas obras de Nicolau Maquiavel. E quando você ficar realmente bom em enganar as pessoas, poderá fazê-las realizar qualquer ação que desejar. Por exemplo, se você quiser hackear um prédio em Washington, não precisa ir até lá, apenas induzir as pessoas a pensar que, ao hackear aquele prédio, elas estão salvando a democracia. E eu acho que é bem assustador.
** Não consigo ver como evitar que isso aconteça agora e estou ficando velho. **Espero que muitos pesquisadores jovens e brilhantes, como você na conferência, possam descobrir como podemos ter essas superinteligências - que elas tornarão nossas vidas melhores sem torná-las parte dominante.
Temos uma vantagem, uma pequena vantagem, de que essas coisas não evoluíram, nós as construímos. Porque eles não evoluíram, talvez eles não tenham os objetivos agressivos competitivos que os humanos têm, talvez isso ajude, talvez possamos dar a eles um princípio moral. Mas, no momento, estou apenas nervoso porque não conheço nenhum exemplo de algo mais inteligente sendo dominado por algo menos inteligente do que quando havia uma grande lacuna na inteligência. **Um exemplo que gosto de dar é assumir que os sapos criaram os humanos. Quem você acha que está no controle agora? Sapo ou Humano? Isso é tudo para o meu discurso. **