Desafie a hegemonia da Nvidia H100! IBM simula o chip de rede neural artificial do cérebro humano, que melhora a eficiência em 14 vezes e resolve o problema de consumo de energia do modelo de IA

Fonte original: Xinzhiyuan

Fonte da imagem: gerada por Unbounded AI

Recentemente, a IBM lançou um novo chip analógico de IA de 14 nm, que é 14 vezes mais eficiente do que a GPU líder, o que pode fazer o H100 valer o dinheiro gasto.

Endereço do papel:

Atualmente, o maior obstáculo no desenvolvimento da IA generativa é o seu surpreendente consumo de energia. Os recursos necessários para a IA não podem crescer de forma sustentável.

A IBM, por outro lado, tem pesquisado maneiras de remodelar a computação de IA. Uma de suas conquistas é o método de computação de memória simulada/inteligência artificial simulada, que pode reduzir o consumo de energia usando os principais recursos das redes neurais executadas em cérebros biológicos.

Essa abordagem minimiza o tempo e o esforço que gastamos em computação.

O monopólio da Nvidia está prestes a ser subvertido?

## O mais recente projeto da IBM para o futuro da IA: os chips analógicos de IA são 14 vezes mais eficientes em termos de energia

De acordo com um relatório da mídia estrangeira Insider, Dylan Patel, analista-chefe da empresa de pesquisa de semicondutores SemiAnalysis, analisou que o custo operacional diário do ChatGPT ultrapassou 700.000 dólares americanos.

ChatGPT requer muito poder de computação para gerar respostas com base nas solicitações do usuário. A maioria dos custos ocorre em servidores caros.

No futuro, o custo dos modelos de formação e da infra-estrutura operacional aumentará cada vez mais.

A IBM publicou na Nature que este novo chip pode reduzir a pressão de construção e operação de empresas generativas de IA, como Midjourney ou GPT-4, reduzindo o consumo de energia.

Esses chips analógicos são construídos de forma diferente dos chips digitais, que podem manipular sinais analógicos e compreender gradientes entre 0 e 1, mas apenas para sinais binários diferentes.

Computação de memória simulada/IA simulada

E a nova abordagem da IBM é simular a computação de memória ou, abreviadamente, simular IA. Reduz o consumo de energia explorando uma característica fundamental das redes neurais que operam em cérebros biológicos.

Nos cérebros de humanos e de outros animais, a força (ou “peso”) das sinapses determina a comunicação entre os neurônios.

Para sistemas analógicos de IA, a IBM armazena esses pesos sinápticos nos valores de condutância de dispositivos de memória resistiva em escala nanométrica (como memória de mudança de fase PCM) e usa as leis dos circuitos para reduzir a necessidade de enviar dados constantemente entre memória e processador, execute a operação Multiply-accumulate (MAC) - a operação principal em DNN.

Agora, alimentando muitas plataformas generativas de IA estão o H100 e o A100 da Nvidia.

No entanto, se a IBM repetir o protótipo do chip e empurrá-lo com sucesso para o mercado de massa, este novo chip poderá muito bem substituir a Nvidia como um novo pilar.

Este chip AI analógico de 14 nm pode codificar 35 milhões de dispositivos de memória de mudança de fase para cada componente e pode simular até 17 milhões de parâmetros.

E o chip imita a forma como o cérebro humano funciona, com o microchip realizando cálculos diretamente na memória.

O sistema do chip pode obter reconhecimento e transcrição de fala eficientes, com precisão próxima à do hardware digital.

Este chip atinge cerca de 14 vezes, e simulações anteriores mostram que a eficiência energética deste hardware é até 40 a 140 vezes maior que a das GPUs líderes atuais.

Matriz de barra transversal PCM, programação e processamento de sinal digital

Esta revolução generativa da IA apenas começou. Redes Neurais Profundas (DNNs) revolucionaram o campo da IA, ganhando destaque com o desenvolvimento de modelos fundamentais e IA generativa.

No entanto, a execução desses modelos em arquiteturas de computação matemática tradicionais limita seu desempenho e eficiência energética.

Embora tenha havido progresso no desenvolvimento de hardware para inferência de IA, muitas dessas arquiteturas separam fisicamente a memória e as unidades de processamento.

Isso significa que os modelos de IA são normalmente armazenados em locais de memória discretos e as tarefas de computação exigem um embaralhamento constante de dados entre a memória e as unidades de processamento. Este processo pode retardar significativamente os cálculos, limitando a eficiência energética máxima que pode ser alcançada.

Características de desempenho de dispositivos PCM, usando configuração de fase e admitância para armazenar pesos sinápticos de estilo analógico

O chip de aceleração de inteligência artificial baseado em memória de mudança de fase (PCM) da IBM elimina essa limitação.

A memória de mudança de fase (PCM) pode realizar a integração de cálculo e armazenamento, e realizar diretamente a multiplicação de matrizes-vetores na memória, evitando o problema de transmissão de dados.

Ao mesmo tempo, o chip analógico de IA da IBM realiza aceleração eficiente do raciocínio da inteligência artificial por meio de computação em nível de hardware e integração de armazenamento, o que é um progresso importante neste campo.

Dois principais desafios da simulação de IA

Para dar vida ao conceito de IA simulada, dois desafios principais precisam ser superados:

  1. A precisão computacional do conjunto de memória deve ser comparável à dos sistemas digitais existentes

  2. O conjunto de memória pode interagir perfeitamente com outras unidades de computação digital e a estrutura de comunicação digital no chip analógico de inteligência artificial

A IBM fabrica o chip acelerador de inteligência artificial baseado em memória de mudança de fase em seu centro de tecnologia em Albany Nano.

O chip consiste em 64 núcleos de computação de memória analógica e cada núcleo contém 256×256 unidades sinápticas de faixa cruzada.

E, integrado em cada chip está um conversor analógico-digital compacto baseado em tempo para conversão entre os mundos analógico e digital.

A unidade leve de processamento digital no chip também pode executar funções simples de ativação de neurônios não lineares e operações de escalonamento.

Cada núcleo pode ser pensado como um bloco que pode realizar multiplicação de vetores de matriz e outras operações associadas a uma camada (como uma camada convolucional) de um modelo de rede neural profunda (DNN).

A matriz de peso é codificada no valor de condutância simulado do dispositivo PCM e armazenada no chip.

Uma unidade de processamento digital global é integrada no meio da matriz central do chip para implementar algumas operações mais complexas do que a multiplicação de vetores de matrizes, o que é crítico para certos tipos de execução de redes neurais (como LSTM).

Os caminhos de comunicação digital são integrados no chip entre todos os núcleos e unidades globais de processamento digital para transferência de dados entre núcleos e entre núcleos e unidades globais.

a: instantâneo de automação de design eletrônico e micrografia de chip, você pode ver 64 núcleos e 5616 pads

b: Diagrama esquemático dos diferentes componentes do chip, incluindo 64 núcleos, 8 unidades globais de processamento digital e links de dados entre núcleos

c: Estrutura de um único núcleo de computação na memória baseado em PCM

d: A estrutura da unidade de processamento digital global para cálculos relacionados ao LSTM

Usando o chip, a IBM conduziu um estudo abrangente sobre a precisão computacional da computação de memória analógica e alcançou uma precisão de 92,81% no conjunto de dados de imagens CIFAR-10.

a: Estrutura de rede ResNet-9 para CIFAR-10

b: a maneira de mapear esta rede no chip

c: precisão do teste CIFAR-10 implementado em hardware

Esta é a maior precisão relatada até agora para um chip que usa tecnologia semelhante.

A IBM também combina perfeitamente a computação analógica em memória com diversas unidades de processamento digital e estruturas de comunicação digital.

A multiplicação da matriz de entrada-saída de 8 bits do chip tem uma taxa de transferência de área unitária de 400 GOPS/mm2, que é mais de 15 vezes maior do que os chips de computação de memória multi-core anteriores baseados em memória resistiva, ao mesmo tempo em que alcança uma eficiência energética considerável.

Na tarefa de previsão de caracteres e na tarefa de geração de anotação de imagem, a IBM comparou os resultados medidos no hardware com outros métodos e demonstrou a estrutura da rede, programação de peso e resultados de medição de tarefas relacionadas executadas no chip de IA simulado.

Medições LSTM para previsão de caracteres

Medições de rede LSTM para geração de anotação de imagem

processo de programação de peso

**O fosso da Nvidia não tem fundo? **

O monopólio da Nvidia é tão fácil de quebrar?

Naveen Rao é um empreendedor de neurociência que virou tecnologia e tentou competir com a Nvidia, fabricante líder mundial de inteligência artificial.

"Todo mundo está desenvolvendo na Nvidia", disse Rao."Se você quiser lançar um novo hardware, terá que acompanhar e competir com a Nvidia."

Rao trabalhou em chips projetados para substituir as GPUs da Nvidia em uma startup adquirida pela Intel, mas depois de deixar a Intel, ele usou os chips da Nvidia na MosaicML, uma startup de software que ele liderou.

Rao disse que a Nvidia não apenas abriu uma enorme lacuna com outros produtos no chip, mas também alcançou diferenciação fora do chip ao criar uma grande comunidade de programadores de IA ——

Os programadores de IA têm usado a tecnologia da empresa para inovar.

Por mais de uma década, a Nvidia construiu uma liderança quase incontestável na produção de chips que podem executar tarefas complexas de IA, como reconhecimento de imagem, facial e fala, bem como gerar texto para chatbots como o ChatGPT.

A empresa que já foi iniciante na indústria conseguiu alcançar o domínio na fabricação de chips de IA porque reconheceu as tendências em IA desde o início, construiu chips personalizados para essas tarefas e desenvolveu software crítico que facilitou o desenvolvimento de IA.

Desde então, o cofundador e CEO da Nvidia, Jensen Huang, tem elevado o nível da Nvidia.

Isso torna a Nvidia um fornecedor completo para o desenvolvimento de IA.

Embora Google, Amazon, Meta, IBM e outros também fabricem chips de IA, a Nvidia atualmente é responsável por mais de 70% das vendas de chips de IA, de acordo com a empresa de pesquisa Omdia.

Em junho deste ano, o valor de mercado da Nvidia ultrapassou US$ 1 trilhão, tornando-a a fabricante de chips mais valiosa do mundo.

“Os clientes vão esperar 18 meses para comprar sistemas Nvidia em vez de comprar chips prontos para uso de startups ou outros concorrentes. É incrível”, disseram analistas do FuturumGroup.

NVIDIA, remodelando métodos de computação

Jensen Huang foi cofundador da Nvidia em 1993, fabricando chips que renderizam imagens em videogames. Os microprocessadores padrão da época eram bons para realizar cálculos complexos em sequência, mas a Nvidia fabricava GPUs que podiam lidar com várias tarefas simples simultaneamente.

Em 2006, Jensen Huang levou o processo um passo adiante. Ele lançou uma tecnologia de software chamada CUDA que ajuda as GPUs a serem programadas para novas tarefas, transformando GPUs de chips de uso único em chips de uso mais geral que podem realizar outras tarefas em áreas como simulações de física e química.

Em 2012, os pesquisadores usaram GPUs para obter precisão semelhante à humana em tarefas como a identificação de gatos em imagens, um grande avanço e um precursor de desenvolvimentos recentes, como a geração de imagens a partir de pistas de texto.

O esforço, que a Nvidia estima ter custado mais de US$ 30 bilhões ao longo de uma década, faz da Nvidia mais do que apenas um fornecedor de peças. Além de colaborar com cientistas e start-ups de ponta, a empresa montou uma equipe que está diretamente envolvida em atividades de IA, como criação e treinamento de modelos de linguagem.

Além disso, as necessidades dos profissionais levaram a Nvidia a desenvolver múltiplas camadas de software chave além do CUDA, que também incluía bibliotecas de centenas de linhas de código pré-construído.

No lado do hardware, a Nvidia ganhou a reputação de fornecer consistentemente chips mais rápidos a cada dois ou três anos. Em 2017, a Nvidia começou a ajustar GPUs para lidar com cálculos específicos de IA.

Em setembro passado, a Nvidia anunciou que estava produzindo um novo chip chamado H100, que foi aprimorado para lidar com as chamadas operações Transformer. Esses cálculos estão provando ser a base de serviços como o ChatGPT, que Huang chamou de “momento iPhone” da inteligência artificial generativa.

Hoje, a menos que os produtos de outros fabricantes possam formar uma competição positiva com a GPU da Nvidia, é possível quebrar o atual monopólio da Nvidia no poder de computação da IA.

É possível para o chip analógico de IA da IBM?

Referências:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)