Originalquelle: Xinzhiyuan
Bildquelle: Erstellt von Unbounded AI
Kürzlich hat IBM einen brandneuen analogen 14-nm-KI-Chip auf den Markt gebracht, der 14-mal effizienter ist als die führende GPU, wodurch H100 sein Geld wert sein kann.
Papieradresse:
Das derzeit größte Hindernis bei der Entwicklung generativer KI ist ihr erstaunlicher Stromverbrauch. Die für KI benötigten Ressourcen können nicht nachhaltig wachsen.
IBM hingegen hat nach Möglichkeiten gesucht, das KI-Computing neu zu gestalten. Eine ihrer Errungenschaften ist die Methode des simulierten Speicherrechnens/simulierten künstlichen Intelligenz, die den Energieverbrauch senken kann, indem sie die Schlüsselfunktionen neuronaler Netze nutzt, die in biologischen Gehirnen laufen.
Dieser Ansatz minimiert den Zeit- und Arbeitsaufwand, den wir für die Berechnung aufwenden.
Steht Nvidias Monopol kurz davor, untergraben zu werden?
## IBMs neuester Entwurf für die Zukunft der KI: Analoge KI-Chips sind 14-mal energieeffizienter
Laut einem Bericht der ausländischen Medien Insider analysierte Dylan Patel, Chefanalyst des Halbleiterforschungsunternehmens SemiAnalysis, dass die täglichen Betriebskosten von ChatGPT 700.000 US-Dollar überstiegen.
ChatGPT erfordert viel Rechenleistung, um Antworten basierend auf Benutzereingaben zu generieren. Der Großteil der Kosten entsteht auf teuren Servern.
In Zukunft werden die Kosten für Schulungsmodelle und den Betrieb der Infrastruktur immer weiter steigen.
IBM veröffentlichte in Nature, dass dieser neue Chip den Druck beim Aufbau und Betrieb generativer KI-Unternehmen wie Midjourney oder GPT-4 verringern kann, indem er den Energieverbrauch senkt.
Diese analogen Chips sind anders aufgebaut als digitale Chips, die analoge Signale manipulieren und Verläufe zwischen 0 und 1 verstehen können, allerdings nur für unterschiedliche binäre Signale.
Und der neue Ansatz von IBM besteht darin, Memory Computing, kurz KI, zu simulieren. Es reduziert den Energieverbrauch, indem es eine Schlüsselfunktion neuronaler Netze nutzt, die in biologischen Gehirnen funktionieren.
Im Gehirn von Menschen und anderen Tieren bestimmt die Stärke (oder das „Gewicht“) der Synapsen die Kommunikation zwischen Neuronen.
Für analoge KI-Systeme speichert IBM diese synaptischen Gewichte in den Leitfähigkeitswerten von nanometergroßen Widerstandsspeichergeräten (z. B. Phasenwechselspeicher PCM) und nutzt die Gesetze von Schaltkreisen, um die Notwendigkeit zu reduzieren, ständig Daten zwischen Speicher und Speicher zu senden Prozessor, führt die Multiply-Accumulate (MAC)-Operation aus – die Hauptoperation in DNN.
Viele generative KI-Plattformen werden mittlerweile von Nvidias H100 und A100 angetrieben.
Wenn IBM jedoch den Chip-Prototyp überarbeitet und ihn erfolgreich auf den Massenmarkt bringt, könnte dieser neue Chip sehr wohl Nvidia als neues Standbein ersetzen.
Dieser analoge 14-nm-KI-Chip kann 35 Millionen Phasenwechselspeichergeräte für jede Komponente kodieren und bis zu 17 Millionen Parameter simulieren.
Und der Chip ahmt die Funktionsweise des menschlichen Gehirns nach, indem der Mikrochip Berechnungen direkt im Speicher durchführt.
Das System des Chips kann eine effiziente Spracherkennung und -transkription mit einer Genauigkeit erreichen, die der von digitaler Hardware nahe kommt.
Dieser Chip erreicht etwa das 14-fache und frühere Simulationen zeigen, dass die Energieeffizienz dieser Hardware sogar 40- bis 140-mal höher ist als die der heute führenden GPUs.
PCM-Crossbar-Array, Programmierung und digitale Signalverarbeitung
Diese generative KI-Revolution hat gerade erst begonnen. Deep Neural Networks (DNNs) haben den Bereich der KI revolutioniert und mit der Entwicklung grundlegender Modelle und generativer KI an Bedeutung gewonnen.
Die Ausführung dieser Modelle auf traditionellen mathematischen Computerarchitekturen schränkt jedoch ihre Leistung und Energieeffizienz ein.
Während bei der Entwicklung von Hardware für die KI-Inferenz Fortschritte erzielt wurden, trennen viele dieser Architekturen Speicher- und Verarbeitungseinheiten physisch.
Das bedeutet, dass KI-Modelle typischerweise an diskreten Speicherorten gespeichert werden und Rechenaufgaben ein ständiges Mischen von Daten zwischen Speicher und Verarbeitungseinheiten erfordern. Dieser Prozess kann die Berechnungen erheblich verlangsamen und die maximal erreichbare Energieeffizienz einschränken.
Leistungsmerkmale von PCM-Geräten unter Verwendung von Phasenkonfiguration und Admittanz zur Speicherung analoger synaptischer Gewichte
Der auf Phasenwechselspeicher (PCM) basierende Beschleunigungschip für künstliche Intelligenz von IBM beseitigt diese Einschränkung.
Phasenwechselspeicher (PCM) können die Integration von Berechnung und Speicherung realisieren und eine Matrix-Vektor-Multiplikation direkt im Speicher durchführen, wodurch das Problem der Datenübertragung vermieden wird.
Gleichzeitig realisiert der analoge KI-Chip von IBM eine effiziente Beschleunigung des Denkens künstlicher Intelligenz durch Computer- und Speicherintegration auf Hardwareebene, was einen wichtigen Fortschritt in diesem Bereich darstellt.
Um das Konzept der simulierten KI zum Leben zu erwecken, müssen zwei zentrale Herausforderungen bewältigt werden:
Die Rechengenauigkeit des Speicherarrays muss mit der von bestehenden digitalen Systemen vergleichbar sein
Das Speicherarray kann nahtlos mit anderen digitalen Recheneinheiten und der digitalen Kommunikationsstruktur auf dem analogen Chip für künstliche Intelligenz verbunden werden
IBM stellt den auf Phasenwechselspeicher basierenden Beschleunigerchip für künstliche Intelligenz in seinem Technologiezentrum in Albany Nano her.
Der Chip besteht aus 64 analogen Speicher-Rechenkernen, und jeder Kern enthält 256×256 Cross-Strip-synaptische Einheiten.
Und in jedem Chip ist ein kompakter zeitbasierter Analog-Digital-Wandler für die Konvertierung zwischen der analogen und digitalen Welt integriert.
Die leichte digitale Verarbeitungseinheit im Chip kann auch einfache nichtlineare Neuronenaktivierungsfunktionen und Skalierungsoperationen ausführen.
Jeder Kern kann als Kachel betrachtet werden, die eine Matrix-Vektor-Multiplikation und andere Operationen durchführen kann, die einer Schicht (z. B. einer Faltungsschicht) eines DNN-Modells (Deep Neural Network) zugeordnet sind.
Die Gewichtsmatrix wird in den simulierten Leitwert des PCM-Geräts kodiert und auf dem Chip gespeichert.
In der Mitte des Kernarrays des Chips ist eine globale digitale Verarbeitungseinheit integriert, um einige komplexere Operationen als die Matrix-Vektor-Multiplikation zu implementieren, die für die Ausführung bestimmter Arten neuronaler Netzwerke (z. B. LSTM) von entscheidender Bedeutung ist.
Digitale Kommunikationspfade sind auf dem Chip zwischen allen Kernen und globalen digitalen Verarbeitungseinheiten für die Datenübertragung zwischen Kernen sowie zwischen Kernen und globalen Einheiten integriert.
a: Schnappschuss der elektronischen Designautomatisierung und Mikroaufnahme des Chips, Sie sehen 64 Kerne und 5616 Pads
b: Schematische Darstellung der verschiedenen Komponenten des Chips, einschließlich 64 Kernen, 8 globalen digitalen Verarbeitungseinheiten und Datenverbindungen zwischen Kernen
c: Struktur eines einzelnen PCM-basierten In-Memory-Computing-Kerns
d: Die Struktur der globalen digitalen Verarbeitungseinheit für LSTM-bezogene Berechnungen
Mithilfe des Chips führte IBM eine umfassende Studie zur Rechengenauigkeit analoger Speicherberechnungen durch und erreichte eine Genauigkeit von 92,81 % für den CIFAR-10-Bilddatensatz.
a: ResNet-9-Netzwerkstruktur für CIFAR-10
b: die Art und Weise, dieses Netzwerk auf dem Chip abzubilden
c: Hardware-implementierte CIFAR-10-Testgenauigkeit
Dies ist die höchste Genauigkeit, die bisher für einen Chip mit ähnlicher Technologie gemeldet wurde.
IBM kombiniert außerdem analoges In-Memory-Computing nahtlos mit mehreren digitalen Verarbeitungseinheiten und digitalen Kommunikationsstrukturen.
Die 8-Bit-Eingabe-Ausgabe-Matrixmultiplikation des Chips hat einen Einheitsflächendurchsatz von 400 GOPS/mm2, was mehr als 15-mal höher ist als bei früheren Multi-Core-Speicher-Computing-Chips, die auf Widerstandsspeicher basieren, und erzielt gleichzeitig eine beträchtliche Energieeffizienz.
Bei der Aufgabe zur Zeichenvorhersage und zur Generierung von Bildanmerkungen verglich IBM die auf der Hardware gemessenen Ergebnisse mit anderen Methoden und demonstrierte die Netzwerkstruktur, die Gewichtsprogrammierung und die Messergebnisse verwandter Aufgaben, die auf dem simulierten KI-Chip ausgeführt wurden.
LSTM-Messungen zur Zeichenvorhersage
LSTM-Netzwerkmessungen zur Generierung von Bildanmerkungen
Gewichtsprogrammierungsprozess
**Nvidias Graben ist bodenlos? **
Ist Nvidias Monopol so leicht zu brechen?
Naveen Rao ist ein Neurowissenschaftler und Technologieunternehmer, der versuchte, mit Nvidia, dem weltweit führenden Hersteller künstlicher Intelligenz, zu konkurrieren.
„Jeder entwickelt auf Nvidia“, sagte Rao. „Wenn Sie neue Hardware auf den Markt bringen wollen, müssen Sie aufholen und mit Nvidia konkurrieren.“
Rao arbeitete bei einem von Intel übernommenen Start-up an Chips, die die GPUs von Nvidia ersetzen sollten, aber nachdem er Intel verlassen hatte, verwendete er Nvidia-Chips in MosaikML, einem Software-Startup, das er leitete.
Rao sagte, dass Nvidia nicht nur eine große Lücke zu anderen Produkten auf dem Chip geöffnet habe, sondern durch die Schaffung einer großen Community von KI-Programmierern auch eine Differenzierung außerhalb des Chips erreicht habe –
KI-Programmierer nutzen die Technologie des Unternehmens für Innovationen.
Seit mehr als einem Jahrzehnt hat sich Nvidia einen nahezu uneinholbaren Vorsprung bei der Herstellung von Chips erarbeitet, die komplexe KI-Aufgaben wie Bild-, Gesichts- und Spracherkennung ausführen sowie Texte für Chatbots wie ChatGPT generieren können.
Der einstige Branchenneuling konnte die Vorherrschaft in der KI-Chipherstellung erlangen, weil er KI-Trends frühzeitig erkannte, maßgeschneiderte Chips für diese Aufgaben anfertigte und entscheidende Software entwickelte, die die KI-Entwicklung erleichterte.
Seitdem legt Nvidia-Mitbegründer und CEO Jensen Huang die Messlatte für Nvidia höher.
Damit ist Nvidia ein Komplettanbieter für die KI-Entwicklung.
Während Google, Amazon, Meta, IBM und andere ebenfalls KI-Chips herstellen, macht Nvidia laut dem Forschungsunternehmen Omdia derzeit mehr als 70 % des KI-Chip-Umsatzes aus.
Im Juni dieses Jahres hatte Nvidia einen Marktwert von über einer Billion US-Dollar und war damit der wertvollste Chiphersteller der Welt.
„Kunden werden 18 Monate warten, um Nvidia-Systeme zu kaufen, anstatt handelsübliche Chips von Startups oder anderen Wettbewerbern zu kaufen. Das ist unglaublich“, sagten die Analysten der FuturumGroup.
NVIDIA revolutioniert Computermethoden
Jensen Huang war 1993 Mitbegründer von Nvidia und stellte Chips her, die Bilder in Videospielen rendern. Standard-Mikroprozessoren waren damals gut darin, komplexe Berechnungen nacheinander durchzuführen, aber Nvidia stellte GPUs her, die mehrere einfache Aufgaben gleichzeitig bewältigen konnten.
Im Jahr 2006 ging Jensen Huang noch einen Schritt weiter. Er veröffentlichte eine Softwaretechnologie namens CUDA, die dabei hilft, GPUs für neue Aufgaben zu programmieren und GPUs von Einzweck-Chips in Allzweck-Chips umzuwandeln, die andere Aufgaben in Bereichen wie Physik- und Chemiesimulationen übernehmen können.
Im Jahr 2012 verwendeten Forscher GPUs, um bei Aufgaben wie der Identifizierung von Katzen in Bildern eine menschenähnliche Genauigkeit zu erreichen. Dies war ein großer Durchbruch und ein Vorläufer neuer Entwicklungen wie der Generierung von Bildern aus Texthinweisen.
Der Aufwand, der nach Schätzungen von Nvidia in einem Jahrzehnt mehr als 30 Milliarden US-Dollar gekostet hat, macht Nvidia zu mehr als nur einem Teilelieferanten. Neben der Zusammenarbeit mit Top-Wissenschaftlern und Start-ups hat das Unternehmen ein Team zusammengestellt, das direkt an KI-Aktivitäten wie der Erstellung und dem Training von Sprachmodellen beteiligt ist.
Darüber hinaus veranlassten die Bedürfnisse von Praktikern Nvidia dazu, über CUDA hinaus mehrere Schichten wichtiger Software zu entwickeln, die auch Bibliotheken mit Hunderten von Zeilen vorgefertigten Codes umfassten.
Was die Hardware angeht, hat sich Nvidia den Ruf erworben, durchgängig alle zwei bis drei Jahre schnellere Chips zu liefern. Im Jahr 2017 begann Nvidia damit, GPUs für bestimmte KI-Berechnungen zu optimieren.
Im vergangenen September kündigte Nvidia die Produktion eines neuen Chips namens H100 an, der für sogenannte Transformer-Operationen verbessert wurde. Solche Berechnungen erweisen sich als Grundlage für Dienste wie ChatGPT, den Huang als „iPhone-Moment“ der generativen künstlichen Intelligenz bezeichnete.
Heute ist es möglich, das derzeitige Monopol von Nvidia auf KI-Rechenleistung zu brechen, es sei denn, die Produkte anderer Hersteller können einen positiven Wettbewerb mit Nvidias GPU bilden.
Ist es für den analogen KI-Chip von IBM möglich?
Verweise: