Todo el mundo está luchando por obtener poder de cómputo, y las grandes empresas chinas son más urgentes.
En la segunda mitad de 2022, mientras la IA generativa está en auge, a16z, un famoso capital de riesgo en Silicon Valley, visitó docenas de nuevas empresas de IA y grandes empresas de tecnología. Descubrieron que las nuevas empresas dieron entre el 80 % y el 90 % de sus fondos de financiación iniciales a las plataformas de computación en la nube para entrenar sus propios modelos. Estiman que incluso si los productos de estas empresas están maduros, tienen que dar entre el 10 % y el 20 % de sus ingresos a las empresas de computación en la nube cada año. Es equivalente a un "impuesto AI".
Esto ha generado un gran mercado para proporcionar capacidades de modelos y servicios de capacitación en la nube, y alquilar potencia informática a otros clientes y nuevas empresas. Solo en China, al menos docenas de empresas emergentes y pequeñas y medianas empresas están creando sus propios modelos complejos de lenguaje grande, y todas tienen que alquilar GPU de plataformas de computación en la nube. Según los cálculos de a16z, el gasto anual en computación de IA de una empresa solo supera los 50 millones de dólares estadounidenses antes de que tenga la escala suficiente para respaldar su compra por lotes de GPU.
Según "LatePost", después del Festival de Primavera de este año, todas las principales empresas de Internet en China con servicios de computación en la nube han realizado grandes pedidos con Nvidia. Byte ha pedido más de 1.000 millones de dólares en GPU de Nvidia este año, y otra gran empresa ha pedido al menos más de 1.000 millones de yuanes.
Byte solo puede haber realizado pedidos este año cerca del número total de GPU comerciales que Nvidia vendió en China el año pasado. En septiembre del año pasado, cuando el gobierno de EE. UU. impuso restricciones a la exportación de A100 y H100 (la última GPU comercial de centro de datos de dos generaciones de NVIDIA), Nvidia respondió que esto podría afectar sus 400 millones de dólares (alrededor de 2.800 millones de yuanes) en el mercado chino. en el cuarto trimestre del año pasado. RMB) ventas potenciales. Según este cálculo, las ventas de GPU para centros de datos de Nvidia en China en 2022 serán de unos 10.000 millones de yuanes.
En comparación con los gigantes extranjeros, las grandes empresas de tecnología de China son más urgentes para comprar GPU. En la reducción de costos y el aumento de la eficiencia en los últimos dos años, algunas plataformas de computación en la nube han reducido las compras de GPU y tienen reservas insuficientes. Además, nadie puede garantizar que la GPU de alto rendimiento que se puede comprar hoy esté sujeta a nuevas restricciones mañana.
Desde cortar pedidos hasta agregar compras, mientras se mueve internamente
Antes de principios de este año, la demanda de GPU de las grandes empresas tecnológicas de China era tibia.
Las GPU tienen dos usos principales en las grandes empresas de tecnología de Internet de China: uno es apoyar a las empresas internamente y realizar investigaciones de IA de vanguardia, y el otro es vender GPU en plataformas de computación en la nube.
Una persona de Byte le dijo a "LatePost" que después de que OpenAI lanzó GPT-3 en junio de 2020, Byte había entrenado un gran modelo de lenguaje generativo con miles de millones de parámetros. En ese momento, la GPU utilizada principalmente era la predecesora de A100.V100. Debido a la escala limitada de parámetros, la capacidad de generación de este modelo es media, y Byte no pudo ver su posibilidad de comercialización en ese momento, "El ROI (retorno de la inversión) no se puede calcular", esta vez el intento fue en vano. .
Ali también compró GPU de forma activa en 2018-2019. Según una fuente en la nube de Alibaba, las compras de Ali en ese momento alcanzaron al menos decenas de miles de yuanes, y los modelos comprados fueron principalmente V100 y T4 lanzados anteriormente por Nvidia. Sin embargo, solo alrededor de una décima parte de estas GPU se entregaron a DAMO Academy para investigación y desarrollo de tecnología de IA. Después del lanzamiento del modelo grande M6 de un billón de parámetros en 2021, Dharma Academy reveló que se usaron 480 V100 para entrenar M6.
Más de las GPU compradas por Alibaba en ese momento se entregaron a Alibaba Cloud para arrendamiento externo. Sin embargo, incluido Alibaba Cloud, un grupo de empresas chinas de computación en la nube ha sobreestimado la demanda de IA en el mercado chino. Un inversor en tecnología dijo que antes del auge de los modelos a gran escala, la potencia informática de la GPU en los principales proveedores nacionales de la nube no escaseaba, pero les preocupaba vender, y los proveedores de la nube incluso tenían que reducir los precios para vender recursos. El año pasado, Alibaba Cloud redujo los precios seis veces y los precios de alquiler de GPU cayeron más del 20%.
En el contexto de la reducción de costos y el aumento de la eficiencia, y la búsqueda del "crecimiento de calidad" y las ganancias, se entiende que Ali redujo la escala de adquisición de GPU después de 2020, y Tencent también eliminó un solo lote de GPU Nvidia a fines del año pasado. .
Sin embargo, no mucho después, a principios de 2022, ChatGPT cambió la opinión de todos y rápidamente se llegó a un consenso: un modelo grande es una gran oportunidad que no se puede perder.
Los fundadores de cada empresa prestaron atención personalmente al progreso del modelo grande: Zhang Yiming, el fundador de ByteDance, comenzó a leer documentos de inteligencia artificial; Zhang Yong, presidente de la junta directiva de Alibaba, se hizo cargo de Alibaba Cloud y anunció vale la pena rehacer el progreso del modelo grande de Alibaba en Alibaba Cloud Summit, el software y los servicios en función de las capacidades del modelo grande”.
Una persona de Byte dijo que en el pasado, al solicitar la compra de GPU dentro de Byte, era necesario explicar la relación de entrada-salida, la prioridad comercial y la importancia. Pero ahora el negocio modelo a gran escala es un negocio nuevo en el nivel estratégico de la empresa, y el ROI no se puede calcular por el momento, y se debe hacer una inversión.
Desarrollar sus propios modelos a gran escala de propósito general es solo el primer paso. El objetivo principal de cada empresa es lanzar servicios en la nube que proporcionen capacidades de modelos a gran escala. Este es un mercado verdaderamente grande que puede igualar la inversión.
Azure, el servicio en la nube de Microsoft, no tiene una fuerte presencia en el mercado de computación en la nube de China, sino que ha servido principalmente al negocio chino de empresas multinacionales en China durante diez años. Pero ahora los clientes tienen que hacer fila porque es el único corredor en la nube para la comercialización de OpenAI.
En la cumbre de la nube en abril, Ali enfatizó una vez más que MaaS (Modelo como servicio) es la tendencia futura de la computación en la nube. Además de la prueba del modelo básico general abierto y autodesarrollado "Tongyi Qianwen", también lanzó una serie de ayudar a los clientes en la nube Herramientas para entrenar y usar modelos grandes. Poco después, Tencent y Byte Volcano Engine también lanzaron sus propias versiones nuevas de servicios de clúster de capacitación. Tencent dijo que al usar una nueva generación de clústeres para entrenar un modelo grande con billones de parámetros, el tiempo se puede comprimir a 4 días, Byte dijo que su nuevo clúster admite el entrenamiento de modelos a gran escala a nivel de Wanka. empresas en China, la mayoría de ellas ya utilizan el motor volcán.
Todas estas plataformas usan GPU Nvidia A100 y H100, o las versiones reducidas especialmente lanzadas por Nvidia de A800 y H800 después de la prohibición el año pasado. El ancho de banda de estos dos procesadores es aproximadamente 3/4 y aproximadamente la mitad de la versión original, evitando altos criterios de limitación. para GPU de rendimiento.
Alrededor del H800 y A800, las principales empresas de tecnología de China han comenzado una nueva ronda de competencia de pedidos.
Una persona de un fabricante de nubes dijo que las grandes empresas como Byte y Ali negocian principalmente directamente con la fábrica original de Nvidia para la adquisición, y los agentes y los mercados de segunda mano son difíciles de satisfacer sus enormes necesidades.
Nvidia negociará un descuento basado en el precio de lista y la escala de compra. Según el sitio web oficial de Nvidia, el precio de A100 es de 10 000 dólares estadounidenses por pieza (alrededor de 71 000 yuanes) y el precio de H100 es de 36 000 dólares estadounidenses por pieza (alrededor de 257 000 yuanes); se entiende que el precio de A800 y H800 es ligeramente inferior que la versión original. .
El hecho de que una empresa china pueda obtener una tarjeta depende más de las relaciones comerciales, como si fue un cliente importante de Nvidia en el pasado. "Hace una diferencia si hablas con Nvidia en China o vas a los Estados Unidos para hablar directamente con Lao Huang (Huang Renxun, fundador y CEO de Nvidia)", dijo una persona de un proveedor de la nube.
Algunas empresas también llevarán a cabo una "cooperación comercial" con Nvidia. Al comprar GPU populares para centros de datos, también compran otros productos para luchar por el suministro prioritario. Esto es como la distribución de Hermès: si quieres comprar un bolso popular, a menudo tienes que combinarlo con ropa y zapatos que valen decenas de miles de yuanes.
Según la información de la industria que hemos obtenido, los nuevos pedidos de Byte este año son relativamente agresivos y superan el nivel de $ 1 mil millones.
Según una persona cercana a Nvidia, hay un total de 100.000 piezas de A100 y H800 que han llegado y no han llegado. Entre ellos, el H800 recién comenzó la producción en marzo de este año, y esta parte de los chips debería provenir de compras adicionales este año. Se entiende que con el programa de producción actual, algunos H800 no se entregarán hasta finales de este año.
ByteDance comenzó a construir su propio centro de datos en 2017. Los centros de datos solían depender más de las CPU para todos los cálculos. Hasta 2020, Byte gastaba más en CPU Intel que en GPU Nvidia. Los cambios en las compras de bytes también reflejan que, en las necesidades informáticas de las grandes empresas de tecnología de la actualidad, la informática inteligente se está poniendo al día con la informática general.
Se entiende que una importante empresa de Internet ha realizado al menos un pedido de nivel 10,000 con Nvidia este año, con un valor estimado de más de mil millones de yuanes según el precio del catálogo.
Tencent tomó la delantera al anunciar que ha utilizado el H800. Tencent Cloud ya ha utilizado el H800 en la nueva versión de los servicios informáticos de alto rendimiento lanzados en marzo de este año, diciendo que este es el primer lanzamiento nacional. En la actualidad, este servicio se ha abierto a clientes empresariales para probar aplicaciones, lo cual es más rápido que el progreso de la mayoría de las empresas chinas.
Se entiende que Alibaba Cloud también propuso internamente en mayo de este año tomar la "Batalla de computación inteligente" como la batalla número uno de este año y establecer tres objetivos: escala de máquina, escala de cliente y escala de ingresos; entre ellos, el indicador importante de la escala de la máquina es el número de GPU.
Ante la llegada de la nueva GPU, las empresas también están realizando movimientos internos para dar prioridad al apoyo al desarrollo de modelos de gran tamaño.
La forma de liberar más recursos a la vez es cortar algunas direcciones menos importantes, o direcciones donde no hay una perspectiva clara a corto plazo. "Las grandes empresas tienen muchos negocios medio muertos que ocupan recursos", dijo un profesional de IA en una importante empresa de Internet.
En mayo de este año, Ali Dharma Institute abolió el laboratorio de conducción autónoma: aproximadamente 1/3 de los más de 300 empleados fueron asignados al equipo técnico novato y el resto fue despedido. Dharma Institute ya no conserva el negocio de conducción autónoma. El desarrollo de la conducción autónoma también requiere GPU de alto rendimiento para el entrenamiento. Es posible que este ajuste no esté directamente relacionado con el modelo grande, pero le permitió a Ali obtener un lote de "GPU gratuitas".
Byte y Meituan comparten directamente las GPU del equipo de tecnología comercial que aporta ingresos publicitarios a la empresa.
Según "LatePost", poco después del Festival de Primavera de este año, Byte distribuyó un lote de A100 que originalmente se planeó agregar al equipo de tecnología de comercialización de Byte a Zhu Wenjia, el jefe de tecnología de productos de TikTok. Zhu Wenjia lidera la investigación y el desarrollo de modelos de gran tamaño. El equipo técnico de comercialización es el departamento comercial central que respalda el algoritmo de recomendación de publicidad de Douyin.
Meituan comenzó a desarrollar modelos grandes alrededor del primer trimestre de este año. Se entiende que Meituan transfirió recientemente un lote de la versión superior A100 de memoria de video de 80G de varios departamentos, dando prioridad al suministro de modelos grandes, para que estos departamentos puedan cambiar a GPU con configuraciones más bajas.
Bilibili, cuyos recursos financieros son mucho menos abundantes que las grandes plataformas, también tiene planes para modelos grandes. Se entiende que la Estación B ha reservado previamente cientos de GPU. Este año, por un lado, Bilibili continúa comprando GPU adicionales y, por otro lado, también está coordinando varios departamentos para distribuir tarjetas de manera uniforme a modelos grandes. "Algunos departamentos dan 10 boletos y algunos departamentos dan 20 boletos", dijo una persona cercana a la estación B.
Las empresas de Internet como Byte, Meituan y Station B generalmente tienen algunos recursos de GPU redundantes en los departamentos técnicos que originalmente admitían la búsqueda y la recomendación.
Sin embargo, la cantidad de GPU que se puede obtener mediante este método de desmantelar el este y complementar el oeste es limitada, y las GPU grandes requeridas para entrenar modelos grandes todavía tienen que depender de la acumulación pasada de cada empresa y esperar la llegada de nuevas GPU.
El mundo entero está luchando por poder de cómputo
La carrera por las GPU para centros de datos de Nvidia también se está dando en todo el mundo. Sin embargo, los gigantes extranjeros compraron una gran cantidad de GPU antes, el volumen de compra es mayor y la inversión en los últimos años ha sido relativamente continua.
En 2022, Meta y Oracle ya han invertido mucho en A100. Meta se asoció con Nvidia para construir el clúster de supercomputación RSC en enero pasado, que contiene 16 000 A100. En noviembre del mismo año, Oracle anunció la compra de decenas de miles de A100 y H100 para construir un nuevo centro de cómputo. Ahora, el centro de cómputo ha implementado más de 32,700 A100 y se han lanzado nuevos H100 uno tras otro.
Desde que Microsoft invirtió por primera vez en OpenAI en 2019, ha proporcionado decenas de miles de GPU a OpenAI. En marzo de este año, Microsoft anunció que había ayudado a OpenAI a construir un nuevo centro informático, que incluía decenas de miles de A100. En mayo de este año, Google lanzó Compute Engine A3, un clúster de computación con 26 000 H100, al servicio de las empresas que desean entrenar modelos grandes por sí mismas.
Las acciones y la mentalidad actuales de las principales empresas chinas son más urgentes que las de los gigantes extranjeros. Tomando a Baidu como ejemplo, este año realizó decenas de miles de nuevos pedidos de GPU con Nvidia. El orden de magnitud es comparable al de empresas como Google, aunque el volumen de Baidu es mucho menor: sus ingresos el año pasado fueron de 123.600 millones de yuanes, solo el 6% de los de Google.
Se entiende que Byte, Tencent, Ali y Baidu, las cuatro empresas tecnológicas chinas que más han invertido en inteligencia artificial y computación en la nube, han acumulado decenas de miles de A100 en el pasado. Entre ellos, A100 tiene el número más absoluto de bytes. Excluyendo los nuevos pedidos de este año, el número total de Byte A100 y su predecesor V100 se acerca a los 100.000.
Entre las empresas en crecimiento, Shangtang también anunció este año que se han implementado un total de 27 000 GPU en su clúster de computación de "dispositivos grandes de IA", incluidos 10 000 A100. Incluso Magic Square, una empresa de inversión cuantitativa que parece no tener nada que ver con la IA, compró 10.000 A100 antes.
Solo mirando el número total, estas GPU parecen ser más que suficientes para que las empresas entrenen modelos grandes.Según el caso en el sitio web oficial de Nvidia, OpenAI usó 10,000 V100 al entrenar GPT-3 con 175 mil millones de parámetros.Para entrenar GPT-3 , se necesitan 1024 bloques de A100 para 1 mes de entrenamiento En comparación con V100, A100 tiene una mejora de rendimiento de 4,3 veces. Sin embargo, una gran cantidad de GPU compradas por grandes empresas chinas en el pasado deben respaldar negocios existentes o venderse en plataformas de computación en la nube, y no pueden usarse libremente para el desarrollo de modelos a gran escala y soporte externo para las necesidades de modelos a gran escala de los clientes.
Esto también explica la gran diferencia en la estimación de los recursos informáticos por parte de los profesionales chinos de IA. Zhang Yaqin, decano del Instituto de Investigación de la Industria Inteligente de Tsinghua, dijo en el Foro de Tsinghua a fines de abril: "Si se agrega una parte de la potencia informática de China, equivale a 500 000 A100, y no hay problema para entrenar cinco modelos. Yin Qi, CEO de la empresa de IA Megvii Technology, aceptó "Caixin", dijo en una entrevista: China actualmente solo tiene un total de alrededor de 40,000 A100 que pueden usarse para entrenamiento de modelos a gran escala.
Refleja principalmente el gasto de capital en inversiones en activos fijos como chips, servidores y centros de datos, y puede ilustrar intuitivamente la brecha de orden de magnitud en los recursos informáticos de las grandes empresas chinas y extranjeras.
Baidu, que fue el primero en probar productos similares a ChatGPT, tiene un gasto de capital anual de entre 800 millones y 2 mil millones de dólares desde 2020, el de Ali entre 6 mil y 8 mil millones de dólares, y el de Tencent entre 7 mil y 11 mil millones de dólares. . Durante el mismo período, los gastos de capital anuales de Amazon, Meta, Google y Microsoft, las cuatro empresas tecnológicas estadounidenses con centros de datos autoconstruidos, superaron al menos los 15.000 millones de dólares estadounidenses.
Durante los tres años de la epidemia, los gastos de capital de las empresas extranjeras siguieron aumentando. El gasto de capital de Amazon el año pasado alcanzó los 58 mil millones de dólares estadounidenses, Meta y Google son ambos de 31,4 mil millones de dólares estadounidenses y Microsoft está cerca de los 24 mil millones de dólares estadounidenses. Las inversiones de las empresas chinas se están reduciendo después de 2021. Los gastos de capital de Tencent y Baidu cayeron más de un 25% interanual el año pasado.
Las GPU para entrenar modelos grandes ya no son suficientes, si las empresas chinas realmente quieren invertir en modelos grandes durante mucho tiempo y ganar dinero para "vender palas" para las necesidades de otros modelos, deberán continuar aumentando los recursos de GPU en el futuro.
Ir más rápido OpenAI ha superado este desafío. A mediados de mayo, el CEO de OpenAI, SamAltman, dijo en una comunicación a pequeña escala con un grupo de desarrolladores que, debido a la insuficiencia de GPU, el servicio de API actual de OpenAI no es lo suficientemente estable y la velocidad no es lo suficientemente rápida. Las capacidades multimodales de 4 no se pueden extender a todos los usuarios, y no planean lanzar nuevos productos de consumo en un futuro cercano. Según un informe publicado por la agencia de consultoría técnica TrendForce en junio de este año, OpenAI necesita alrededor de 30 000 A100 para optimizar y comercializar continuamente ChatGPT.
Microsoft, que tiene una estrecha cooperación con OpenAI, también se enfrenta a una situación similar: en mayo de este año, algunos usuarios se quejaron de que la velocidad de respuesta de New Bing era lenta y Microsoft respondió que esto se debía a que la velocidad de recarga de la GPU no podía mantenerse. con la tasa de crecimiento de usuarios. Microsoft Office 365 Copilot, que está integrado con capacidades de modelo a gran escala, actualmente no está abierto a gran escala. La cifra más reciente es que más de 600 empresas lo están probando: el número total de usuarios de Office 365 en todo el mundo es cercano a los 300. millón.
Si una gran empresa china no solo tiene como objetivo entrenar y lanzar un modelo grande, sino que realmente quiere usar el modelo grande para crear productos que sirvan a más usuarios y apoyar aún más a otros clientes para entrenar modelos más grandes en la nube, necesitan reserve más por adelantado Múltiples GPU.
**¿Por qué solo esas cuatro cartas? **
En términos de entrenamiento de modelos grandes de IA, no hay sustitutos para A100, H100 y la versión reducida A800 y H800 suministrada especialmente a China. Según el fondo de cobertura cuantitativo Khaveen Investments, la cuota de mercado de GPU del centro de datos de Nvidia alcanzará el 88 % en 2022, y AMD e Intel dividirán el resto.
En la conferencia GTC de 2020, Huang Renxun hizo su debut con el A100.
La insustituibilidad actual de la GPU Nvidia proviene del mecanismo de entrenamiento de modelos grandes. Sus pasos principales son el entrenamiento previo y el ajuste fino. El primero es sentar las bases, lo que equivale a recibir educación general para graduarse de la universidad; el segundo está optimizado para escenarios y tareas específicas para mejorar el rendimiento laboral.
El enlace de preentrenamiento es particularmente intensivo desde el punto de vista computacional y tiene requisitos extremadamente altos en el rendimiento de una sola GPU y la capacidad de transmisión de datos entre varias tarjetas.
Ahora solo A100 y H100 pueden proporcionar la eficiencia informática necesaria para el preentrenamiento. Parecen caros, pero son la opción más económica. Hoy en día, la IA aún se encuentra en las primeras etapas de uso comercial y el costo afecta directamente si un servicio está disponible.
Algunos modelos en el pasado, como VGG16, que puede reconocer a los gatos como gatos, tienen solo 130 millones de parámetros.En ese momento, algunas empresas usarían tarjetas gráficas de consumo de la serie RTX para jugar y ejecutar modelos de IA. La escala de parámetros de GPT-3 lanzada hace más de dos años ha alcanzado los 175 mil millones.
Bajo los enormes requisitos informáticos de los modelos grandes, ya no es factible utilizar más GPU de bajo rendimiento para generar potencia informática. Debido a que cuando se usan varias GPU para el entrenamiento, es necesario transmitir datos y sincronizar la información de parámetros entre los chips. En este momento, algunas GPU estarán inactivas y no podrán saturarse todo el tiempo. Por lo tanto, cuanto menor sea el rendimiento de una sola tarjeta, más tarjetas se utilizan y mayor es la pérdida de potencia informática. Cuando OpenAI usa 10 000 V100 para entrenar GPT-3, la tasa de utilización de la potencia informática es inferior al 50 %.
A100 y H100 tienen una alta potencia informática de una sola tarjeta y un gran ancho de banda para mejorar la transmisión de datos entre tarjetas. El FP32 del A100 (que se refiere a la codificación de 4 bytes y los cálculos de almacenamiento) tiene una potencia informática de 19,5 TFLOPS (1 TFLOPS significa un billón de operaciones de coma flotante por segundo), y la potencia informática del FP32 del H100 alcanza los 134 TFLOPS. veces la de MI250.
A100 y H100 también brindan capacidades de transmisión de datos eficientes para minimizar la potencia informática inactiva. Los trucos exclusivos de Nvidia son las tecnologías de protocolo de comunicación como NVLink y NVSwitch que se lanzaron desde 2014. El NVLink de cuarta generación utilizado en el H100 puede aumentar el ancho de banda de comunicación bidireccional de las GPU dentro del mismo servidor a 900 GB/s (900 GB de datos por segundo), que es 7 veces mayor que la última generación de PCle (un punto -a-punto estándar de transmisión en serie de alta velocidad) muchos.
El año pasado, las regulaciones del Departamento de Comercio de EE. UU. sobre la exportación de GPU también se atascaron en las dos líneas de potencia informática y ancho de banda: la potencia informática superior era 4800 TOPS y el ancho de banda superior era 600 GB/s.
A800 y H800 tienen la misma potencia informática que la versión original, pero se descuenta el ancho de banda. El ancho de banda del A800 se ha reducido de 600 GB/s del A100 a 400 GB/s. Los parámetros específicos del H800 no se han revelado. Según Bloomberg, su ancho de banda es solo aproximadamente la mitad que el del H100 (900 GB/s). Al realizar la misma tarea de IA, el H800 tardará entre un 10 % y un 30 % más que el H100. Un ingeniero de inteligencia artificial especuló que el efecto de entrenamiento del H800 puede no ser tan bueno como el del A100, pero es más caro.
Aun así, el rendimiento del A800 y el H800 aún supera a productos similares de otras grandes empresas y nuevas empresas. Limitados por el rendimiento y las arquitecturas más dedicadas, los chips de IA o los chips de GPU lanzados por varias empresas ahora se utilizan principalmente para el razonamiento de IA, lo cual es difícil para el entrenamiento previo de modelos a gran escala. En pocas palabras, el entrenamiento de IA es hacer un modelo, el razonamiento de IA es usar el modelo y el entrenamiento requiere un mayor rendimiento del chip.
Además de la brecha de rendimiento, el foso más profundo de Nvidia es la ecología del software.
Ya en 2006, Nvidia lanzó la plataforma de cómputo CUDA, que es un motor de software de cómputo paralelo.Los desarrolladores pueden usar CUDA para realizar entrenamiento y razonamiento de IA de manera más eficiente y hacer un buen uso de la potencia de cómputo de la GPU. CUDA se ha convertido en la infraestructura de IA actual, y los principales marcos, bibliotecas y herramientas de IA se desarrollan en base a CUDA.
Si las GPU y los chips de IA que no sean Nvidia quieren conectarse a CUDA, deben proporcionar su propio software de adaptación, pero solo parte del rendimiento de CUDA, y la iteración de actualización es más lenta. Los marcos de IA como PyTorch están tratando de romper el monopolio ecológico del software de CUDA y proporcionar más capacidades de software para admitir las GPU de otros fabricantes, pero esto tiene un atractivo limitado para los desarrolladores.
Un profesional de IA dijo que su empresa se había puesto en contacto con un fabricante de GPU que no era de NVIDIA, que ofrecía chips y servicios a precios más bajos que los de Nvidia, y prometía brindar servicios más oportunos, pero consideró que la capacitación y el desarrollo general con otras GPU El costo será será superior a la de Nvidia, y tendrá que soportar la incertidumbre de los resultados y llevar más tiempo.
"Aunque el A100 es caro, en realidad es el más barato de usar", dijo. Para las grandes empresas de tecnología y las empresas emergentes líderes que tienen la intención de aprovechar la oportunidad de los grandes modelos, el dinero a menudo no es un problema y el tiempo es un recurso más preciado.
A corto plazo, lo único que afectará las ventas de GPU del centro de datos de Nvidia puede ser la capacidad de producción de TSMC.
El H100/800 es un proceso de 4 nm y el A100/800 es un proceso de 7 nm Estos cuatro chips son producidos por TSMC. Según los informes de los medios chinos de Taiwán, Nvidia agregó 10,000 nuevos pedidos de GPU para centros de datos a TSMC este año y realizó un pedido súper urgente, que puede acortar el tiempo de producción hasta en un 50%. Normalmente, TSMC tardaría varios meses en producir el A100. El cuello de botella de producción actual se debe principalmente a la capacidad de producción insuficiente de envases avanzados, con una brecha del 10 al 20 por ciento, que tardará entre 3 y 6 meses en aumentar gradualmente.
Desde que se introdujeron las GPU adecuadas para la computación paralela en el aprendizaje profundo, durante más de diez años, la fuerza impulsora del desarrollo de la IA ha sido el hardware y el software, y la superposición de la potencia informática de la GPU y los modelos y algoritmos ha avanzado: el desarrollo de modelos impulsa la potencia informática. demanda; la potencia informática crece, También hace posible la formación a mayor escala que originalmente era difícil de lograr.
En la última ola del auge del aprendizaje profundo representado por el reconocimiento de imágenes, las capacidades del software de inteligencia artificial de China son comparables al nivel más avanzado del mundo; la potencia informática es la dificultad actual: diseñar y fabricar chips requiere una acumulación más larga, lo que implica una larga cadena de suministro y numerosas patentes barrera.
El modelo grande es otro gran avance en la capa de modelos y algoritmos. No hay tiempo para tomarlo con calma. Las empresas que desean construir modelos grandes o proporcionar capacidades de computación en la nube para modelos grandes deben obtener suficiente poder de cómputo avanzado lo antes posible. La batalla por las GPU no se detendrá hasta que la ola anime o decepcione a las primeras empresas.
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Compitiendo por boletos de IA: las grandes empresas chinas compiten por las GPU
Fuente丨Later LatePost
Texto丨Zhang Jiahao
En la segunda mitad de 2022, mientras la IA generativa está en auge, a16z, un famoso capital de riesgo en Silicon Valley, visitó docenas de nuevas empresas de IA y grandes empresas de tecnología. Descubrieron que las nuevas empresas dieron entre el 80 % y el 90 % de sus fondos de financiación iniciales a las plataformas de computación en la nube para entrenar sus propios modelos. Estiman que incluso si los productos de estas empresas están maduros, tienen que dar entre el 10 % y el 20 % de sus ingresos a las empresas de computación en la nube cada año. Es equivalente a un "impuesto AI".
Esto ha generado un gran mercado para proporcionar capacidades de modelos y servicios de capacitación en la nube, y alquilar potencia informática a otros clientes y nuevas empresas. Solo en China, al menos docenas de empresas emergentes y pequeñas y medianas empresas están creando sus propios modelos complejos de lenguaje grande, y todas tienen que alquilar GPU de plataformas de computación en la nube. Según los cálculos de a16z, el gasto anual en computación de IA de una empresa solo supera los 50 millones de dólares estadounidenses antes de que tenga la escala suficiente para respaldar su compra por lotes de GPU.
Según "LatePost", después del Festival de Primavera de este año, todas las principales empresas de Internet en China con servicios de computación en la nube han realizado grandes pedidos con Nvidia. Byte ha pedido más de 1.000 millones de dólares en GPU de Nvidia este año, y otra gran empresa ha pedido al menos más de 1.000 millones de yuanes.
Byte solo puede haber realizado pedidos este año cerca del número total de GPU comerciales que Nvidia vendió en China el año pasado. En septiembre del año pasado, cuando el gobierno de EE. UU. impuso restricciones a la exportación de A100 y H100 (la última GPU comercial de centro de datos de dos generaciones de NVIDIA), Nvidia respondió que esto podría afectar sus 400 millones de dólares (alrededor de 2.800 millones de yuanes) en el mercado chino. en el cuarto trimestre del año pasado. RMB) ventas potenciales. Según este cálculo, las ventas de GPU para centros de datos de Nvidia en China en 2022 serán de unos 10.000 millones de yuanes.
En comparación con los gigantes extranjeros, las grandes empresas de tecnología de China son más urgentes para comprar GPU. En la reducción de costos y el aumento de la eficiencia en los últimos dos años, algunas plataformas de computación en la nube han reducido las compras de GPU y tienen reservas insuficientes. Además, nadie puede garantizar que la GPU de alto rendimiento que se puede comprar hoy esté sujeta a nuevas restricciones mañana.
Desde cortar pedidos hasta agregar compras, mientras se mueve internamente
Antes de principios de este año, la demanda de GPU de las grandes empresas tecnológicas de China era tibia.
Las GPU tienen dos usos principales en las grandes empresas de tecnología de Internet de China: uno es apoyar a las empresas internamente y realizar investigaciones de IA de vanguardia, y el otro es vender GPU en plataformas de computación en la nube.
Una persona de Byte le dijo a "LatePost" que después de que OpenAI lanzó GPT-3 en junio de 2020, Byte había entrenado un gran modelo de lenguaje generativo con miles de millones de parámetros. En ese momento, la GPU utilizada principalmente era la predecesora de A100.V100. Debido a la escala limitada de parámetros, la capacidad de generación de este modelo es media, y Byte no pudo ver su posibilidad de comercialización en ese momento, "El ROI (retorno de la inversión) no se puede calcular", esta vez el intento fue en vano. .
Ali también compró GPU de forma activa en 2018-2019. Según una fuente en la nube de Alibaba, las compras de Ali en ese momento alcanzaron al menos decenas de miles de yuanes, y los modelos comprados fueron principalmente V100 y T4 lanzados anteriormente por Nvidia. Sin embargo, solo alrededor de una décima parte de estas GPU se entregaron a DAMO Academy para investigación y desarrollo de tecnología de IA. Después del lanzamiento del modelo grande M6 de un billón de parámetros en 2021, Dharma Academy reveló que se usaron 480 V100 para entrenar M6.
Más de las GPU compradas por Alibaba en ese momento se entregaron a Alibaba Cloud para arrendamiento externo. Sin embargo, incluido Alibaba Cloud, un grupo de empresas chinas de computación en la nube ha sobreestimado la demanda de IA en el mercado chino. Un inversor en tecnología dijo que antes del auge de los modelos a gran escala, la potencia informática de la GPU en los principales proveedores nacionales de la nube no escaseaba, pero les preocupaba vender, y los proveedores de la nube incluso tenían que reducir los precios para vender recursos. El año pasado, Alibaba Cloud redujo los precios seis veces y los precios de alquiler de GPU cayeron más del 20%.
En el contexto de la reducción de costos y el aumento de la eficiencia, y la búsqueda del "crecimiento de calidad" y las ganancias, se entiende que Ali redujo la escala de adquisición de GPU después de 2020, y Tencent también eliminó un solo lote de GPU Nvidia a fines del año pasado. .
Sin embargo, no mucho después, a principios de 2022, ChatGPT cambió la opinión de todos y rápidamente se llegó a un consenso: un modelo grande es una gran oportunidad que no se puede perder.
Los fundadores de cada empresa prestaron atención personalmente al progreso del modelo grande: Zhang Yiming, el fundador de ByteDance, comenzó a leer documentos de inteligencia artificial; Zhang Yong, presidente de la junta directiva de Alibaba, se hizo cargo de Alibaba Cloud y anunció vale la pena rehacer el progreso del modelo grande de Alibaba en Alibaba Cloud Summit, el software y los servicios en función de las capacidades del modelo grande”.
Una persona de Byte dijo que en el pasado, al solicitar la compra de GPU dentro de Byte, era necesario explicar la relación de entrada-salida, la prioridad comercial y la importancia. Pero ahora el negocio modelo a gran escala es un negocio nuevo en el nivel estratégico de la empresa, y el ROI no se puede calcular por el momento, y se debe hacer una inversión.
Desarrollar sus propios modelos a gran escala de propósito general es solo el primer paso. El objetivo principal de cada empresa es lanzar servicios en la nube que proporcionen capacidades de modelos a gran escala. Este es un mercado verdaderamente grande que puede igualar la inversión.
Azure, el servicio en la nube de Microsoft, no tiene una fuerte presencia en el mercado de computación en la nube de China, sino que ha servido principalmente al negocio chino de empresas multinacionales en China durante diez años. Pero ahora los clientes tienen que hacer fila porque es el único corredor en la nube para la comercialización de OpenAI.
En la cumbre de la nube en abril, Ali enfatizó una vez más que MaaS (Modelo como servicio) es la tendencia futura de la computación en la nube. Además de la prueba del modelo básico general abierto y autodesarrollado "Tongyi Qianwen", también lanzó una serie de ayudar a los clientes en la nube Herramientas para entrenar y usar modelos grandes. Poco después, Tencent y Byte Volcano Engine también lanzaron sus propias versiones nuevas de servicios de clúster de capacitación. Tencent dijo que al usar una nueva generación de clústeres para entrenar un modelo grande con billones de parámetros, el tiempo se puede comprimir a 4 días, Byte dijo que su nuevo clúster admite el entrenamiento de modelos a gran escala a nivel de Wanka. empresas en China, la mayoría de ellas ya utilizan el motor volcán.
Todas estas plataformas usan GPU Nvidia A100 y H100, o las versiones reducidas especialmente lanzadas por Nvidia de A800 y H800 después de la prohibición el año pasado. El ancho de banda de estos dos procesadores es aproximadamente 3/4 y aproximadamente la mitad de la versión original, evitando altos criterios de limitación. para GPU de rendimiento.
Alrededor del H800 y A800, las principales empresas de tecnología de China han comenzado una nueva ronda de competencia de pedidos.
Una persona de un fabricante de nubes dijo que las grandes empresas como Byte y Ali negocian principalmente directamente con la fábrica original de Nvidia para la adquisición, y los agentes y los mercados de segunda mano son difíciles de satisfacer sus enormes necesidades.
Nvidia negociará un descuento basado en el precio de lista y la escala de compra. Según el sitio web oficial de Nvidia, el precio de A100 es de 10 000 dólares estadounidenses por pieza (alrededor de 71 000 yuanes) y el precio de H100 es de 36 000 dólares estadounidenses por pieza (alrededor de 257 000 yuanes); se entiende que el precio de A800 y H800 es ligeramente inferior que la versión original. .
El hecho de que una empresa china pueda obtener una tarjeta depende más de las relaciones comerciales, como si fue un cliente importante de Nvidia en el pasado. "Hace una diferencia si hablas con Nvidia en China o vas a los Estados Unidos para hablar directamente con Lao Huang (Huang Renxun, fundador y CEO de Nvidia)", dijo una persona de un proveedor de la nube.
Algunas empresas también llevarán a cabo una "cooperación comercial" con Nvidia. Al comprar GPU populares para centros de datos, también compran otros productos para luchar por el suministro prioritario. Esto es como la distribución de Hermès: si quieres comprar un bolso popular, a menudo tienes que combinarlo con ropa y zapatos que valen decenas de miles de yuanes.
Según la información de la industria que hemos obtenido, los nuevos pedidos de Byte este año son relativamente agresivos y superan el nivel de $ 1 mil millones.
Según una persona cercana a Nvidia, hay un total de 100.000 piezas de A100 y H800 que han llegado y no han llegado. Entre ellos, el H800 recién comenzó la producción en marzo de este año, y esta parte de los chips debería provenir de compras adicionales este año. Se entiende que con el programa de producción actual, algunos H800 no se entregarán hasta finales de este año.
ByteDance comenzó a construir su propio centro de datos en 2017. Los centros de datos solían depender más de las CPU para todos los cálculos. Hasta 2020, Byte gastaba más en CPU Intel que en GPU Nvidia. Los cambios en las compras de bytes también reflejan que, en las necesidades informáticas de las grandes empresas de tecnología de la actualidad, la informática inteligente se está poniendo al día con la informática general.
Se entiende que una importante empresa de Internet ha realizado al menos un pedido de nivel 10,000 con Nvidia este año, con un valor estimado de más de mil millones de yuanes según el precio del catálogo.
Tencent tomó la delantera al anunciar que ha utilizado el H800. Tencent Cloud ya ha utilizado el H800 en la nueva versión de los servicios informáticos de alto rendimiento lanzados en marzo de este año, diciendo que este es el primer lanzamiento nacional. En la actualidad, este servicio se ha abierto a clientes empresariales para probar aplicaciones, lo cual es más rápido que el progreso de la mayoría de las empresas chinas.
Se entiende que Alibaba Cloud también propuso internamente en mayo de este año tomar la "Batalla de computación inteligente" como la batalla número uno de este año y establecer tres objetivos: escala de máquina, escala de cliente y escala de ingresos; entre ellos, el indicador importante de la escala de la máquina es el número de GPU.
Ante la llegada de la nueva GPU, las empresas también están realizando movimientos internos para dar prioridad al apoyo al desarrollo de modelos de gran tamaño.
La forma de liberar más recursos a la vez es cortar algunas direcciones menos importantes, o direcciones donde no hay una perspectiva clara a corto plazo. "Las grandes empresas tienen muchos negocios medio muertos que ocupan recursos", dijo un profesional de IA en una importante empresa de Internet.
En mayo de este año, Ali Dharma Institute abolió el laboratorio de conducción autónoma: aproximadamente 1/3 de los más de 300 empleados fueron asignados al equipo técnico novato y el resto fue despedido. Dharma Institute ya no conserva el negocio de conducción autónoma. El desarrollo de la conducción autónoma también requiere GPU de alto rendimiento para el entrenamiento. Es posible que este ajuste no esté directamente relacionado con el modelo grande, pero le permitió a Ali obtener un lote de "GPU gratuitas".
Byte y Meituan comparten directamente las GPU del equipo de tecnología comercial que aporta ingresos publicitarios a la empresa.
Según "LatePost", poco después del Festival de Primavera de este año, Byte distribuyó un lote de A100 que originalmente se planeó agregar al equipo de tecnología de comercialización de Byte a Zhu Wenjia, el jefe de tecnología de productos de TikTok. Zhu Wenjia lidera la investigación y el desarrollo de modelos de gran tamaño. El equipo técnico de comercialización es el departamento comercial central que respalda el algoritmo de recomendación de publicidad de Douyin.
Meituan comenzó a desarrollar modelos grandes alrededor del primer trimestre de este año. Se entiende que Meituan transfirió recientemente un lote de la versión superior A100 de memoria de video de 80G de varios departamentos, dando prioridad al suministro de modelos grandes, para que estos departamentos puedan cambiar a GPU con configuraciones más bajas.
Bilibili, cuyos recursos financieros son mucho menos abundantes que las grandes plataformas, también tiene planes para modelos grandes. Se entiende que la Estación B ha reservado previamente cientos de GPU. Este año, por un lado, Bilibili continúa comprando GPU adicionales y, por otro lado, también está coordinando varios departamentos para distribuir tarjetas de manera uniforme a modelos grandes. "Algunos departamentos dan 10 boletos y algunos departamentos dan 20 boletos", dijo una persona cercana a la estación B.
Las empresas de Internet como Byte, Meituan y Station B generalmente tienen algunos recursos de GPU redundantes en los departamentos técnicos que originalmente admitían la búsqueda y la recomendación.
Sin embargo, la cantidad de GPU que se puede obtener mediante este método de desmantelar el este y complementar el oeste es limitada, y las GPU grandes requeridas para entrenar modelos grandes todavía tienen que depender de la acumulación pasada de cada empresa y esperar la llegada de nuevas GPU.
El mundo entero está luchando por poder de cómputo
La carrera por las GPU para centros de datos de Nvidia también se está dando en todo el mundo. Sin embargo, los gigantes extranjeros compraron una gran cantidad de GPU antes, el volumen de compra es mayor y la inversión en los últimos años ha sido relativamente continua.
En 2022, Meta y Oracle ya han invertido mucho en A100. Meta se asoció con Nvidia para construir el clúster de supercomputación RSC en enero pasado, que contiene 16 000 A100. En noviembre del mismo año, Oracle anunció la compra de decenas de miles de A100 y H100 para construir un nuevo centro de cómputo. Ahora, el centro de cómputo ha implementado más de 32,700 A100 y se han lanzado nuevos H100 uno tras otro.
Desde que Microsoft invirtió por primera vez en OpenAI en 2019, ha proporcionado decenas de miles de GPU a OpenAI. En marzo de este año, Microsoft anunció que había ayudado a OpenAI a construir un nuevo centro informático, que incluía decenas de miles de A100. En mayo de este año, Google lanzó Compute Engine A3, un clúster de computación con 26 000 H100, al servicio de las empresas que desean entrenar modelos grandes por sí mismas.
Las acciones y la mentalidad actuales de las principales empresas chinas son más urgentes que las de los gigantes extranjeros. Tomando a Baidu como ejemplo, este año realizó decenas de miles de nuevos pedidos de GPU con Nvidia. El orden de magnitud es comparable al de empresas como Google, aunque el volumen de Baidu es mucho menor: sus ingresos el año pasado fueron de 123.600 millones de yuanes, solo el 6% de los de Google.
Se entiende que Byte, Tencent, Ali y Baidu, las cuatro empresas tecnológicas chinas que más han invertido en inteligencia artificial y computación en la nube, han acumulado decenas de miles de A100 en el pasado. Entre ellos, A100 tiene el número más absoluto de bytes. Excluyendo los nuevos pedidos de este año, el número total de Byte A100 y su predecesor V100 se acerca a los 100.000.
Entre las empresas en crecimiento, Shangtang también anunció este año que se han implementado un total de 27 000 GPU en su clúster de computación de "dispositivos grandes de IA", incluidos 10 000 A100. Incluso Magic Square, una empresa de inversión cuantitativa que parece no tener nada que ver con la IA, compró 10.000 A100 antes.
Solo mirando el número total, estas GPU parecen ser más que suficientes para que las empresas entrenen modelos grandes.Según el caso en el sitio web oficial de Nvidia, OpenAI usó 10,000 V100 al entrenar GPT-3 con 175 mil millones de parámetros.Para entrenar GPT-3 , se necesitan 1024 bloques de A100 para 1 mes de entrenamiento En comparación con V100, A100 tiene una mejora de rendimiento de 4,3 veces. Sin embargo, una gran cantidad de GPU compradas por grandes empresas chinas en el pasado deben respaldar negocios existentes o venderse en plataformas de computación en la nube, y no pueden usarse libremente para el desarrollo de modelos a gran escala y soporte externo para las necesidades de modelos a gran escala de los clientes.
Esto también explica la gran diferencia en la estimación de los recursos informáticos por parte de los profesionales chinos de IA. Zhang Yaqin, decano del Instituto de Investigación de la Industria Inteligente de Tsinghua, dijo en el Foro de Tsinghua a fines de abril: "Si se agrega una parte de la potencia informática de China, equivale a 500 000 A100, y no hay problema para entrenar cinco modelos. Yin Qi, CEO de la empresa de IA Megvii Technology, aceptó "Caixin", dijo en una entrevista: China actualmente solo tiene un total de alrededor de 40,000 A100 que pueden usarse para entrenamiento de modelos a gran escala.
Refleja principalmente el gasto de capital en inversiones en activos fijos como chips, servidores y centros de datos, y puede ilustrar intuitivamente la brecha de orden de magnitud en los recursos informáticos de las grandes empresas chinas y extranjeras.
Baidu, que fue el primero en probar productos similares a ChatGPT, tiene un gasto de capital anual de entre 800 millones y 2 mil millones de dólares desde 2020, el de Ali entre 6 mil y 8 mil millones de dólares, y el de Tencent entre 7 mil y 11 mil millones de dólares. . Durante el mismo período, los gastos de capital anuales de Amazon, Meta, Google y Microsoft, las cuatro empresas tecnológicas estadounidenses con centros de datos autoconstruidos, superaron al menos los 15.000 millones de dólares estadounidenses.
Durante los tres años de la epidemia, los gastos de capital de las empresas extranjeras siguieron aumentando. El gasto de capital de Amazon el año pasado alcanzó los 58 mil millones de dólares estadounidenses, Meta y Google son ambos de 31,4 mil millones de dólares estadounidenses y Microsoft está cerca de los 24 mil millones de dólares estadounidenses. Las inversiones de las empresas chinas se están reduciendo después de 2021. Los gastos de capital de Tencent y Baidu cayeron más de un 25% interanual el año pasado.
Ir más rápido OpenAI ha superado este desafío. A mediados de mayo, el CEO de OpenAI, SamAltman, dijo en una comunicación a pequeña escala con un grupo de desarrolladores que, debido a la insuficiencia de GPU, el servicio de API actual de OpenAI no es lo suficientemente estable y la velocidad no es lo suficientemente rápida. Las capacidades multimodales de 4 no se pueden extender a todos los usuarios, y no planean lanzar nuevos productos de consumo en un futuro cercano. Según un informe publicado por la agencia de consultoría técnica TrendForce en junio de este año, OpenAI necesita alrededor de 30 000 A100 para optimizar y comercializar continuamente ChatGPT.
Microsoft, que tiene una estrecha cooperación con OpenAI, también se enfrenta a una situación similar: en mayo de este año, algunos usuarios se quejaron de que la velocidad de respuesta de New Bing era lenta y Microsoft respondió que esto se debía a que la velocidad de recarga de la GPU no podía mantenerse. con la tasa de crecimiento de usuarios. Microsoft Office 365 Copilot, que está integrado con capacidades de modelo a gran escala, actualmente no está abierto a gran escala. La cifra más reciente es que más de 600 empresas lo están probando: el número total de usuarios de Office 365 en todo el mundo es cercano a los 300. millón.
Si una gran empresa china no solo tiene como objetivo entrenar y lanzar un modelo grande, sino que realmente quiere usar el modelo grande para crear productos que sirvan a más usuarios y apoyar aún más a otros clientes para entrenar modelos más grandes en la nube, necesitan reserve más por adelantado Múltiples GPU.
**¿Por qué solo esas cuatro cartas? **
En términos de entrenamiento de modelos grandes de IA, no hay sustitutos para A100, H100 y la versión reducida A800 y H800 suministrada especialmente a China. Según el fondo de cobertura cuantitativo Khaveen Investments, la cuota de mercado de GPU del centro de datos de Nvidia alcanzará el 88 % en 2022, y AMD e Intel dividirán el resto.
La insustituibilidad actual de la GPU Nvidia proviene del mecanismo de entrenamiento de modelos grandes. Sus pasos principales son el entrenamiento previo y el ajuste fino. El primero es sentar las bases, lo que equivale a recibir educación general para graduarse de la universidad; el segundo está optimizado para escenarios y tareas específicas para mejorar el rendimiento laboral.
El enlace de preentrenamiento es particularmente intensivo desde el punto de vista computacional y tiene requisitos extremadamente altos en el rendimiento de una sola GPU y la capacidad de transmisión de datos entre varias tarjetas.
Ahora solo A100 y H100 pueden proporcionar la eficiencia informática necesaria para el preentrenamiento. Parecen caros, pero son la opción más económica. Hoy en día, la IA aún se encuentra en las primeras etapas de uso comercial y el costo afecta directamente si un servicio está disponible.
Algunos modelos en el pasado, como VGG16, que puede reconocer a los gatos como gatos, tienen solo 130 millones de parámetros.En ese momento, algunas empresas usarían tarjetas gráficas de consumo de la serie RTX para jugar y ejecutar modelos de IA. La escala de parámetros de GPT-3 lanzada hace más de dos años ha alcanzado los 175 mil millones.
Bajo los enormes requisitos informáticos de los modelos grandes, ya no es factible utilizar más GPU de bajo rendimiento para generar potencia informática. Debido a que cuando se usan varias GPU para el entrenamiento, es necesario transmitir datos y sincronizar la información de parámetros entre los chips. En este momento, algunas GPU estarán inactivas y no podrán saturarse todo el tiempo. Por lo tanto, cuanto menor sea el rendimiento de una sola tarjeta, más tarjetas se utilizan y mayor es la pérdida de potencia informática. Cuando OpenAI usa 10 000 V100 para entrenar GPT-3, la tasa de utilización de la potencia informática es inferior al 50 %.
A100 y H100 tienen una alta potencia informática de una sola tarjeta y un gran ancho de banda para mejorar la transmisión de datos entre tarjetas. El FP32 del A100 (que se refiere a la codificación de 4 bytes y los cálculos de almacenamiento) tiene una potencia informática de 19,5 TFLOPS (1 TFLOPS significa un billón de operaciones de coma flotante por segundo), y la potencia informática del FP32 del H100 alcanza los 134 TFLOPS. veces la de MI250.
A100 y H100 también brindan capacidades de transmisión de datos eficientes para minimizar la potencia informática inactiva. Los trucos exclusivos de Nvidia son las tecnologías de protocolo de comunicación como NVLink y NVSwitch que se lanzaron desde 2014. El NVLink de cuarta generación utilizado en el H100 puede aumentar el ancho de banda de comunicación bidireccional de las GPU dentro del mismo servidor a 900 GB/s (900 GB de datos por segundo), que es 7 veces mayor que la última generación de PCle (un punto -a-punto estándar de transmisión en serie de alta velocidad) muchos.
El año pasado, las regulaciones del Departamento de Comercio de EE. UU. sobre la exportación de GPU también se atascaron en las dos líneas de potencia informática y ancho de banda: la potencia informática superior era 4800 TOPS y el ancho de banda superior era 600 GB/s.
A800 y H800 tienen la misma potencia informática que la versión original, pero se descuenta el ancho de banda. El ancho de banda del A800 se ha reducido de 600 GB/s del A100 a 400 GB/s. Los parámetros específicos del H800 no se han revelado. Según Bloomberg, su ancho de banda es solo aproximadamente la mitad que el del H100 (900 GB/s). Al realizar la misma tarea de IA, el H800 tardará entre un 10 % y un 30 % más que el H100. Un ingeniero de inteligencia artificial especuló que el efecto de entrenamiento del H800 puede no ser tan bueno como el del A100, pero es más caro.
Aun así, el rendimiento del A800 y el H800 aún supera a productos similares de otras grandes empresas y nuevas empresas. Limitados por el rendimiento y las arquitecturas más dedicadas, los chips de IA o los chips de GPU lanzados por varias empresas ahora se utilizan principalmente para el razonamiento de IA, lo cual es difícil para el entrenamiento previo de modelos a gran escala. En pocas palabras, el entrenamiento de IA es hacer un modelo, el razonamiento de IA es usar el modelo y el entrenamiento requiere un mayor rendimiento del chip.
Además de la brecha de rendimiento, el foso más profundo de Nvidia es la ecología del software.
Ya en 2006, Nvidia lanzó la plataforma de cómputo CUDA, que es un motor de software de cómputo paralelo.Los desarrolladores pueden usar CUDA para realizar entrenamiento y razonamiento de IA de manera más eficiente y hacer un buen uso de la potencia de cómputo de la GPU. CUDA se ha convertido en la infraestructura de IA actual, y los principales marcos, bibliotecas y herramientas de IA se desarrollan en base a CUDA.
Si las GPU y los chips de IA que no sean Nvidia quieren conectarse a CUDA, deben proporcionar su propio software de adaptación, pero solo parte del rendimiento de CUDA, y la iteración de actualización es más lenta. Los marcos de IA como PyTorch están tratando de romper el monopolio ecológico del software de CUDA y proporcionar más capacidades de software para admitir las GPU de otros fabricantes, pero esto tiene un atractivo limitado para los desarrolladores.
Un profesional de IA dijo que su empresa se había puesto en contacto con un fabricante de GPU que no era de NVIDIA, que ofrecía chips y servicios a precios más bajos que los de Nvidia, y prometía brindar servicios más oportunos, pero consideró que la capacitación y el desarrollo general con otras GPU El costo será será superior a la de Nvidia, y tendrá que soportar la incertidumbre de los resultados y llevar más tiempo.
"Aunque el A100 es caro, en realidad es el más barato de usar", dijo. Para las grandes empresas de tecnología y las empresas emergentes líderes que tienen la intención de aprovechar la oportunidad de los grandes modelos, el dinero a menudo no es un problema y el tiempo es un recurso más preciado.
A corto plazo, lo único que afectará las ventas de GPU del centro de datos de Nvidia puede ser la capacidad de producción de TSMC.
El H100/800 es un proceso de 4 nm y el A100/800 es un proceso de 7 nm Estos cuatro chips son producidos por TSMC. Según los informes de los medios chinos de Taiwán, Nvidia agregó 10,000 nuevos pedidos de GPU para centros de datos a TSMC este año y realizó un pedido súper urgente, que puede acortar el tiempo de producción hasta en un 50%. Normalmente, TSMC tardaría varios meses en producir el A100. El cuello de botella de producción actual se debe principalmente a la capacidad de producción insuficiente de envases avanzados, con una brecha del 10 al 20 por ciento, que tardará entre 3 y 6 meses en aumentar gradualmente.
Desde que se introdujeron las GPU adecuadas para la computación paralela en el aprendizaje profundo, durante más de diez años, la fuerza impulsora del desarrollo de la IA ha sido el hardware y el software, y la superposición de la potencia informática de la GPU y los modelos y algoritmos ha avanzado: el desarrollo de modelos impulsa la potencia informática. demanda; la potencia informática crece, También hace posible la formación a mayor escala que originalmente era difícil de lograr.
En la última ola del auge del aprendizaje profundo representado por el reconocimiento de imágenes, las capacidades del software de inteligencia artificial de China son comparables al nivel más avanzado del mundo; la potencia informática es la dificultad actual: diseñar y fabricar chips requiere una acumulación más larga, lo que implica una larga cadena de suministro y numerosas patentes barrera.
El modelo grande es otro gran avance en la capa de modelos y algoritmos. No hay tiempo para tomarlo con calma. Las empresas que desean construir modelos grandes o proporcionar capacidades de computación en la nube para modelos grandes deben obtener suficiente poder de cómputo avanzado lo antes posible. La batalla por las GPU no se detendrá hasta que la ola anime o decepcione a las primeras empresas.