Весь мир борется за вычислительные мощности, а крупные китайские компании более актуальны.
Во второй половине 2022 года, когда генеративный ИИ переживает бум, a16z, известный венчурный капитал в Силиконовой долине, посетил десятки стартапов ИИ и крупных технологических компаний. Они обнаружили, что стартапы отдавали 80-90% своих средств на раннем этапе облачным вычислениям для обучения своих собственных моделей. По их оценкам, даже если продукты этих компаний являются зрелыми, они должны ежегодно отдавать 10-20% своего дохода компаниям, занимающимся облачными вычислениями. Это эквивалентно «налогу на ИИ».
Это привело к появлению большого рынка для предоставления возможностей моделирования и услуг обучения в облаке, а также для сдачи в аренду вычислительной мощности другим клиентам и стартапам. Только в Китае по меньшей мере десятки начинающих компаний, а также малых и средних компаний создают свои собственные сложные большие языковые модели, и всем им приходится арендовать графические процессоры у платформ облачных вычислений. Согласно расчетам a16z, ежегодные расходы компании на вычисления ИИ превышают всего 50 миллионов долларов США, прежде чем у нее будет достаточно масштаба для поддержки пакетной закупки графических процессоров.
По данным «LatePost», после Весеннего фестиваля в этом году все крупные интернет-компании Китая, предоставляющие услуги облачных вычислений, разместили у Nvidia крупные заказы. В этом году Byte заказала у Nvidia графические процессоры на сумму более 1 миллиарда долларов США, а другая крупная компания заказала как минимум более 1 миллиарда юаней.
Только Byte, возможно, разместил заказы в этом году, близкие к общему количеству коммерческих графических процессоров, проданных Nvidia в Китае в прошлом году. В сентябре прошлого года, когда правительство США ввело ограничения на экспорт A100 и H100 (последний коммерческий графический процессор NVIDIA для центров обработки данных двух поколений), Nvidia ответила, что это может повлиять на ее 400 миллионов долларов США (около 2,8 миллиарда юаней) на китайском рынке в четвертый квартал прошлого года (юаней) потенциальных продаж. Исходя из этого расчета, продажи графических процессоров Nvidia для центров обработки данных в Китае в 2022 году составят около 10 млрд юаней.
По сравнению с зарубежными гигантами, крупные технологические компании Китая более настойчиво покупают графические процессоры. В связи с сокращением затрат и повышением эффективности за последние два года некоторые платформы облачных вычислений сократили закупки графических процессоров и имеют недостаточные резервы. Кроме того, никто не может гарантировать, что высокопроизводительный GPU, который можно купить сегодня, завтра будет подпадать под новые ограничения.
От сокращения заказов до добавления покупок при внутреннем перемещении
До начала этого года спрос на графические процессоры со стороны крупных технологических компаний Китая был невысоким.
В крупных китайских компаниях, занимающихся интернет-технологиями, графические процессоры используются двумя основными способами: во-первых, для внутренней поддержки бизнеса и проведения передовых исследований в области искусственного интеллекта, а во-вторых, для продажи графических процессоров на платформах облачных вычислений.
Представитель Byte сообщил «LatePost», что после того, как OpenAI выпустила GPT-3 в июне 2020 года, Byte обучила большую генеративную языковую модель с миллиардами параметров.В то время в основном использовался графический процессор, предшественник A100.V100. Из-за ограниченного масштаба параметров генерирующая способность этой модели средняя, и Байт не мог видеть возможности ее коммерциализации в то время, «ROI (возврат инвестиций) не может быть рассчитан», на этот раз попытка была напрасной. .
Али также активно закупал графические процессоры в 2018-2019 годах. По данным облачного источника Alibaba, закупки Али в то время достигали как минимум десятков тысяч юаней, а купленными были в основном модели V100 и T4, выпущенные ранее Nvidia. Однако только одна десятая часть этих графических процессоров была передана Академии DAMO для исследований и разработок в области технологий искусственного интеллекта. После выпуска большой модели M6 с триллионами параметров в 2021 году Академия Дхармы сообщила, что для обучения M6 использовалось 480 V100.
Большая часть графических процессоров, купленных Alibaba в то время, была передана Alibaba Cloud во внешний лизинг. Однако, в том числе Alibaba Cloud, группа китайских компаний, занимающихся облачными вычислениями, переоценила спрос на ИИ на китайском рынке. Технологический инвестор сказал, что до появления крупномасштабных моделей вычислительная мощность GPU у крупных отечественных поставщиков облачных услуг не была в дефиците, но беспокоилась о продаже, и поставщикам облачных услуг даже приходилось снижать цены для продажи ресурсов. В прошлом году Alibaba Cloud снизила цены в шесть раз, а стоимость аренды GPU упала более чем на 20%.
В контексте снижения затрат и повышения эффективности, а также стремления к «качественному росту» и прибыли, понимается, что Ali сократила масштабы закупок графических процессоров после 2020 года, а Tencent также сократила одну партию графических процессоров Nvidia в конце прошлого года. .
Однако вскоре после этого, в начале 2022 года, ChatGPT изменил все взгляды, и быстро был достигнут консенсус: большая модель — это большая возможность, которую нельзя упускать.
Основатели каждой компании лично уделяли пристальное внимание развитию большой модели: Чжан Имин, основатель ByteDance, начал читать статьи об искусственном интеллекте, Чжан Юн, председатель совета директоров Alibaba, взял на себя управление Alibaba Cloud и объявил о прогрессе крупной модели Alibaba на саммите Alibaba Cloud Summit. Программное обеспечение и услуги заслуживают того, чтобы их переделывать, основываясь на возможностях крупной модели».
Человек из Byte сказал, что в прошлом при подаче заявки на покупку графических процессоров внутри Byte необходимо было объяснить соотношение ввода-вывода, бизнес-приоритет и важность. Но сейчас масштабный модельный бизнес — это новый бизнес на стратегическом уровне компании, и окупаемость инвестиций пока нельзя рассчитать, а нужно вкладывать деньги.
Разработка собственных крупномасштабных моделей общего назначения — это только первый шаг.Большая цель каждой компании — запустить облачные сервисы, обеспечивающие возможности крупномасштабных моделей.Это действительно большой рынок, который может соответствовать инвестициям.
Облачный сервис Microsoft Azure не имеет сильного присутствия на китайском рынке облачных вычислений, поскольку в течение десяти лет он в основном обслуживал китайский бизнес транснациональных компаний в Китае. Но теперь клиентам приходится ждать в очереди, потому что это единственный облачный брокер для коммерциализации OpenAI.
На саммите по облачным технологиям в апреле Али еще раз подчеркнул, что MaaS (модель как услуга) является будущей тенденцией облачных вычислений.В дополнение к открытому и самостоятельно разработанному тесту общей базовой модели «Tongyi Qianwen» он также выпустил серию помощи клиентам в облаке.Инструменты для обучения и использования больших моделей. Вскоре после этого Tencent и Byte Volcano Engine также выпустили собственные новые версии сервисов обучающих кластеров. Tencent заявила, что используя кластеры нового поколения для обучения большой модели с триллионами параметров, время можно сократить до 4 дней, а Byte заявила, что их новый кластер поддерживает обучение крупномасштабной модели на уровне Ванки. компаний в Китае, большинство из них уже используют двигатель вулкана.
Все эти платформы используют либо графические процессоры Nvidia A100 и H100, либо специально выпущенные Nvidia уменьшенные версии A800 и H800 после запрета в прошлом году.Пропускная способность этих двух процессоров составляет около 3/4 и примерно половину от исходной версии, что позволяет избежать высоких ограничивающих критериев. для производительных графических процессоров.
Вокруг H800 и A800 крупные технологические компании Китая начали новый раунд конкурса заказов.
Представитель производителя облачных вычислений сказал, что крупные компании, такие как Byte и Ali, в основном ведут переговоры о закупках напрямую с первоначальным заводом Nvidia, а агентам и рынкам подержанных товаров трудно удовлетворить их огромные потребности.
Nvidia договорится о скидке в зависимости от прейскурантной цены и масштаба покупки. Согласно официальному сайту Nvidia, цена A100 составляет 10 000 долларов США за штуку (около 71 000 юаней), а цена H100 составляет 36 000 долларов США за штуку (около 257 000 юаней); понятно, что цена A800 и H800 немного ниже. чем в исходной версии. .
Сможет ли китайская компания получить карту, больше зависит от деловых отношений, например, была ли она крупным клиентом Nvidia в прошлом. «Имеет значение, говорите ли вы с Nvidia в Китае или едете в Соединенные Штаты, чтобы поговорить напрямую с Лао Хуаном (Хуанг Ренсюнь, основатель и генеральный директор Nvidia)», — сказал представитель поставщика облачных услуг.
Некоторые компании также будут вести «деловое сотрудничество» с Nvidia.При покупке популярных графических процессоров для центров обработки данных они также покупают другие продукты, чтобы стремиться к приоритетным поставкам. Это похоже на дистрибуцию Hermès: если вы хотите купить популярную сумку, вам часто приходится сочетать ее с одеждой и обувью стоимостью в десятки тысяч юаней.
Согласно полученной нами отраслевой информации, новые заказы Byte в этом году относительно агрессивны и превышают уровень в 1 миллиард долларов.
По словам человека, близкого к Nvidia, всего прибыло и не прибыло 100 000 штук A100 и H800. Среди них производство H800 началось только в марте этого года, и эта часть чипов должна поступить за счет дополнительных закупок в этом году. Понятно, что при текущем графике производства некоторые H800 не будут поставлены до конца этого года.
ByteDance начала строительство собственного дата-центра в 2017 году. Центры обработки данных раньше больше полагались на ЦП для всех вычислений.До 2020 года Byte тратил больше на ЦП Intel, чем на графические процессоры Nvidia. Изменения в покупке байтов также отражают то, что сегодня в вычислительных потребностях крупных технологических компаний интеллектуальные вычисления догоняют обычные вычисления.
Понятно, что в этом году крупная интернет-компания разместила у Nvidia заказ как минимум на 10 000 уровней с оценочной стоимостью более 1 миллиарда юаней, исходя из каталожной цены.
Tencent объявила об использовании H800.Tencent Cloud уже использовала H800 в новой версии высокопроизводительных вычислительных услуг, выпущенной в марте этого года, заявив, что это первый отечественный запуск. В настоящее время эта услуга открыта для корпоративных клиентов для тестирования приложений, что опережает прогресс большинства китайских компаний.
Понятно, что Alibaba Cloud также предложила внутри компании в мае этого года сделать «битву интеллектуальных вычислений» битвой номер один в этом году и поставила три цели: масштаб машины, масштаб клиента и масштаб дохода; среди них важный показатель Масштаб машины — это количество графических процессоров.
Перед появлением нового графического процессора компании также предпринимают внутренние шаги, чтобы отдать приоритет поддержке разработки больших моделей.
Способ высвободить больше ресурсов за один раз — это отрезать какие-то менее важные направления или направления, где нет ясной перспективы в краткосрочной перспективе. «У крупных компаний есть много полумертвых предприятий, которые занимают ресурсы», — сказал специалист по ИИ в крупной интернет-компании.
В мае этого года Институт Али Дхарма упразднил лабораторию автономного вождения: около 1/3 из более чем 300 сотрудников были переведены в команду новичков, а остальные были уволены.Институт Дхармы больше не поддерживает бизнес автономного вождения. Развитие автономного вождения также требует высокопроизводительных графических процессоров для обучения. Эта корректировка может не иметь прямого отношения к большой модели, но она позволила Али получить партию «бесплатных графических процессоров».
Byte и Meituan напрямую делятся графическими процессорами от коммерческой технологической команды, которая приносит компании доход от рекламы.
Согласно «LatePost», вскоре после Весеннего фестиваля в этом году Byte распространила партию A100, которые изначально планировалось добавить в технологическую группу Byte, Чжу Вэньцзя, главе отдела технологий продуктов TikTok. Чжу Вэньцзя руководит исследованиями и разработками моделей с большим объемом байтов. Техническая группа по коммерциализации — это основной бизнес-отдел, который поддерживает алгоритм рекомендации рекламы Douyin.
Meituan начала разрабатывать большие модели примерно в первом квартале этого года. Понятно, что Meituan недавно передала партию 80G видеопамяти верхней версии A100 из нескольких отделов, отдавая приоритет поставке больших моделей, чтобы эти отделы могли переключиться на графические процессоры с более низкими конфигурациями.
У Bilibili, чьи финансовые ресурсы гораздо меньше, чем у крупных платформ, также есть планы на большие модели. Понятно, что Station B ранее зарезервировала сотни графических процессоров. В этом году, с одной стороны, Bilibili продолжает закупать дополнительные графические процессоры, а с другой стороны, также координирует работу различных отделов для равномерного распределения карт по крупным моделям. «Некоторые отделы дают 10 билетов, а некоторые отделы дают 20 билетов», — сказал человек, близкий к Станции Б.
Интернет-компании, такие как Byte, Meituan и Station B, как правило, имеют некоторые избыточные ресурсы графических процессоров в технических отделах, которые изначально поддерживали поиск и рекомендации.
Однако количество GPU, которые можно получить таким методом демонтажа востока и дополнения запада, ограничено, а большие GPU, необходимые для обучения больших моделей, по-прежнему приходится полагаться на прошлые накопления каждой компании и ждать прихода новые графические процессоры.
Весь мир борется за вычислительную мощность
Гонка за графическими процессорами Nvidia для центров обработки данных также происходит по всему миру. Однако зарубежные гиганты ранее приобрели большое количество графических процессоров, и объем закупок больше, а инвестиции в последние годы были относительно непрерывными.
В 2022 году Meta и Oracle уже вложили значительные средства в A100. В январе прошлого года Meta заключила партнерское соглашение с Nvidia для создания суперкомпьютерного кластера RSC, который содержит 16 000 компьютеров A100. В ноябре того же года Oracle объявила о закупке десятков тысяч A100 и H100 для строительства нового вычислительного центра. Сейчас в вычислительном центре развернуто более 32 700 A100, и один за другим запускались новые H100.
С тех пор как Microsoft впервые инвестировала в OpenAI в 2019 году, она предоставила OpenAI десятки тысяч графических процессоров. В марте этого года Microsoft объявила, что помогла OpenAI построить новый вычислительный центр, включающий десятки тысяч A100. В мае этого года Google запустил Compute Engine A3, вычислительный кластер с 26 000 H100, обслуживающий компании, которые хотят самостоятельно обучать большие модели.
Нынешние действия и менталитет крупных китайских компаний более актуальны, чем у зарубежных гигантов. Возьмем, к примеру, Baidu: в этом году компания разместила у Nvidia десятки тысяч заказов на новые графические процессоры. По порядку величины сопоставимы с такими компаниями, как Google, хотя объем Baidu намного меньше: ее доход в прошлом году составил 123,6 млрд юаней, что составляет всего 6% от выручки Google.
Понятно, что Byte, Tencent, Ali и Baidu, четыре китайские технологические компании, которые больше всего инвестировали в ИИ и облачные вычисления, в прошлом накопили десятки тысяч A100. Среди них A100 имеет наибольшее абсолютное количество байтов. За исключением новых заказов в этом году, общее количество Byte A100 и его предшественника V100 приближается к 100 000 штук.
Среди растущих компаний Shangtang также объявила в этом году, что в ее вычислительном кластере «большие устройства ИИ» было развернуто в общей сложности 27 000 графических процессоров, включая 10 000 A100. Даже Magic Square, инвестиционная компания, которая, похоже, не имеет ничего общего с ИИ, раньше купила 10 000 A100.
Просто глядя на общее количество, этих графических процессоров кажется более чем достаточно для обучения больших моделей компаний.Согласно кейсу на официальном сайте Nvidia, OpenAI использовал 10 000 V100 при обучении GPT-3 со 175 миллиардами параметров.Для обучения GPT-3 , на 1 месяц обучения необходимо 1024 блока А100.По сравнению с В100, А100 имеет улучшение производительности в 4,3 раза. Тем не менее, большое количество графических процессоров, приобретенных крупными китайскими компаниями в прошлом, должны поддерживать существующие предприятия или продаваться на платформах облачных вычислений, и их нельзя свободно использовать для крупномасштабной разработки моделей и внешней поддержки для крупномасштабных моделей. потребности клиентов.
Это также объясняет огромную разницу в оценке вычислительных ресурсов китайскими специалистами по ИИ. Чжан Яцинь, декан Научно-исследовательского института интеллектуальной промышленности Цинхуа, заявил на Форуме Цинхуа в конце апреля: «Если добавить одну часть вычислительной мощности Китая, это будет эквивалентно 500 000 A100, и обучение пяти моделей не составит труда. Инь Ци, генеральный директор компании Megvii Technology, занимающейся искусственным интеллектом, сказал в интервью Caixin: «В настоящее время в Китае всего около 40 000 самолетов A100, которые можно использовать для крупномасштабного обучения моделей.
Он в основном отражает капитальные затраты на инвестиции в основные средства, такие как микросхемы, серверы и центры обработки данных, и может наглядно иллюстрировать разрыв в вычислительных ресурсах крупных китайских и зарубежных компаний на порядок.
Baidu, которая первой протестировала продукты, подобные ChatGPT, с 2020 года имеет ежегодные капитальные затраты в размере от 800 до 2 миллиардов долларов США, Ali — от 6 до 8 миллиардов долларов США, а Tencent — от 7 до 11 миллиардов долларов США. . За тот же период годовые капиталовложения Amazon, Meta, Google и Microsoft, четырех американских технологических компаний с собственными центрами обработки данных, превысили как минимум 15 миллиардов долларов США.
В течение трех лет эпидемии капитальные затраты зарубежных компаний продолжали расти. Капитальные затраты Amazon в прошлом году достигли 58 миллиардов долларов США, Meta и Google — 31,4 миллиарда долларов США, а Microsoft — около 24 миллиардов долларов США. Инвестиции китайских компаний сокращаются после 2021 года. Капитальные затраты Tencent и Baidu упали более чем на 25% в годовом исчислении в прошлом году.
Графических процессоров для обучения больших моделей уже недостаточно.Если китайские компании действительно хотят вкладываться в большие модели в течение длительного времени и зарабатывать деньги на «продаже лопат» для других модельных нужд, им необходимо будет продолжать наращивать ресурсы графических процессоров в будущем.
Идти быстрее OpenAI справился с этой задачей. В середине мая генеральный директор OpenAI Сэм Альтман заявил в небольшом общении с группой разработчиков, что из-за нехватки графических процессоров текущая служба API OpenAI недостаточно стабильна, а скорость недостаточно высока. Мультимодальность 4's Возможности не могут быть расширены для каждого пользователя, и они не планируют выпуск новых потребительских продуктов в ближайшем будущем. Согласно отчету, опубликованному техническим консалтинговым агентством TrendForce в июне этого года, OpenAI требуется около 30 000 A100 для постоянной оптимизации и коммерциализации ChatGPT.
Microsoft, тесно сотрудничающая с OpenAI, также столкнулась с похожей ситуацией: в мае этого года некоторые пользователи жаловались на низкую скорость ответа New Bing, а Microsoft ответила, что это связано с тем, что скорость пополнения графического процессора не успевает. с темпом роста пользователей. Microsoft Office 365 Copilot со встроенными возможностями крупномасштабного моделирования в настоящее время не запущен в больших масштабах.По последним данным, его тестируют более 600 компаний — общее количество пользователей Office 365 во всем мире приближается к 300. млн.
Если крупная китайская компания не только стремится обучить и выпустить большую модель, но действительно хочет использовать большую модель для создания продуктов, которые обслуживают больше пользователей, и в дальнейшем поддерживать других клиентов для обучения большего количества больших моделей в облаке, ей необходимо зарезервируйте больше заранее Несколько графических процессоров.
**Почему только эти четыре карты? **
С точки зрения обучения больших моделей ИИ нет заменителей A100, H100 и уменьшенной версии A800 и H800, специально поставляемых в Китай. По данным количественного хедж-фонда Khaveen Investments, доля Nvidia на рынке графических процессоров для центров обработки данных достигнет 88% в 2022 году, а оставшуюся часть поделят между собой AMD и Intel.
На конференции GTC в 2020 году Хуан Ренсюнь дебютировал с A100.
Нынешняя незаменимость графического процессора Nvidia связана с механизмом обучения больших моделей. Его основными этапами являются предварительное обучение и тонкая настройка. Первое заключается в закладке фундамента, что эквивалентно получению общего образования для окончания университета. оптимизирован для конкретных сценариев и задач для повышения производительности труда.
Канал предварительного обучения особенно требователен к вычислительным ресурсам и предъявляет чрезвычайно высокие требования к производительности одного графического процессора и возможности передачи данных между несколькими картами.
Сейчас только A100 и H100 могут обеспечить вычислительную эффективность, необходимую для предобучения, они кажутся дорогими, но являются самым дешевым вариантом. Сегодня ИИ все еще находится на ранних стадиях коммерческого использования, и стоимость напрямую влияет на доступность услуги.
Некоторые модели в прошлом, такие как VGG16, которые могут распознавать кошек как кошек, имеют только 130 миллионов параметров.В то время некоторые компании использовали графические карты потребительского уровня серии RTX для игр для запуска моделей ИИ. Шкала параметров GPT-3, выпущенная более двух лет назад, достигла 175 миллиардов.
В условиях огромных вычислительных требований больших моделей уже невозможно использовать более низкопроизводительные графические процессоры для формирования вычислительной мощности. Поскольку при использовании нескольких графических процессоров для обучения необходимо передавать данные и синхронизировать информацию о параметрах между чипами, в это время некоторые графические процессоры будут простаивать и не могут быть насыщены все время. Следовательно, чем ниже производительность одной карты, тем больше карт используется и тем больше потери вычислительной мощности. Когда OpenAI использует 10 000 V100 для обучения GPT-3, коэффициент использования вычислительной мощности составляет менее 50%.
A100 и H100 обладают как высокой вычислительной мощностью одной карты, так и высокой пропускной способностью для улучшения передачи данных между картами. Вычислительная мощность FP32 A100 (имеется в виду 4-байтное кодирование и вычисление хранилища) имеет вычислительную мощность 19,5 TFLOPS (1 TFLOPS означает один триллион операций с плавающей запятой в секунду), а вычислительная мощность FP32 H100 достигает 134 TFLOPS, что примерно в 4 раза больше. МИ250.
A100 и H100 также обеспечивают эффективную передачу данных, сводя к минимуму вычислительную мощность бездействия. Эксклюзивные читы Nvidia — это технологии протоколов связи, такие как NVLink и NVSwitch, запущенные с 2014 года. NVLink четвертого поколения, используемый на H100, может увеличить пропускную способность двусторонней связи графических процессоров на одном сервере до 900 ГБ/с (900 ГБ данных в секунду), что в 7 раз больше, чем у последнего поколения PCle (точка стандарт высокоскоростной последовательной передачи в точку) многие.
В прошлом году правила Министерства торговли США по экспорту графических процессоров также застряли на двух линиях вычислительной мощности и пропускной способности: максимальная вычислительная мощность составляла 4800 TOPS, а максимальная пропускная способность — 600 ГБ/с.
A800 и H800 имеют ту же вычислительную мощность, что и исходная версия, но пропускная способность снижена. Пропускная способность A800 снижена с 600 ГБ/с у A100 до 400 ГБ/с. Конкретные параметры H800 не разглашаются. По данным Bloomberg, его пропускная способность составляет примерно половину пропускной способности H100 (900 ГБ/с). s) При выполнении одной и той же задачи ИИ H800 займет на 10-30% больше времени, чем H100. Инженер по искусственному интеллекту предположил, что тренировочный эффект H800 может быть не таким хорошим, как у A100, но он дороже.
Несмотря на это, производительность A800 и H800 по-прежнему превосходит аналогичные продукты других крупных компаний и стартапов. Ограниченные производительностью и более специализированными архитектурами, чипы ИИ или чипы графических процессоров, выпущенные различными компаниями, в настоящее время в основном используются для рассуждений ИИ, что сложно для предварительного обучения крупномасштабных моделей. Проще говоря, обучение ИИ заключается в создании модели, логика ИИ заключается в использовании модели, а для обучения требуется более высокая производительность чипа.
Помимо разрыва в производительности, более глубоким рвом Nvidia является экология программного обеспечения.
Еще в 2006 году Nvidia запустила вычислительную платформу CUDA, которая представляет собой программный движок для параллельных вычислений. Разработчики могут использовать CUDA для более эффективного обучения и рассуждений ИИ и более эффективного использования вычислительной мощности графического процессора. Сегодня CUDA стала инфраструктурой ИИ, и все основные фреймворки, библиотеки и инструменты ИИ разрабатываются на основе CUDA.
Если графические процессоры и микросхемы искусственного интеллекта, отличные от Nvidia, хотят подключиться к CUDA, им необходимо предоставить собственное программное обеспечение для адаптации, но только часть производительности CUDA, а итерация обновления выполняется медленнее. Фреймворки искусственного интеллекта, такие как PyTorch, пытаются разрушить экологическую монополию CUDA на программное обеспечение и предоставить больше программных возможностей для поддержки графических процессоров других производителей, но это ограничивает привлекательность для разработчиков.
Практикующий ИИ сказал, что его компания связалась с производителем графических процессоров, не относящимся к NVIDIA, который предложил более низкие цены на чипы и услуги, чем Nvidia, и пообещал предоставлять более своевременные услуги, но они решили, что общая стоимость обучения и развития с использованием других графических процессоров будет быть выше, чем у Nvidia, и ей придется терпеть неопределенность результатов и занимать больше времени.
«Хотя A100 стоит дорого, на самом деле он самый дешевый в использовании», — сказал он. Для крупных технологических компаний и ведущих стартапов, которые намерены воспользоваться возможностью крупных моделей, деньги зачастую не проблема, а время — более ценный ресурс.
В краткосрочной перспективе единственным фактором, влияющим на продажи графических процессоров Nvidia для центров обработки данных, могут быть производственные мощности TSMC.
H100/800 — это техпроцесс 4 нм, а A100/800 — техпроцесс 7 нм Все эти четыре чипа произведены TSMC. Согласно сообщениям китайских тайваньских СМИ, в этом году Nvidia добавила TSMC 10 000 новых заказов на GPU для центров обработки данных и разместила сверхсрочный заказ, который может сократить время производства до 50%. Обычно TSMC требуется несколько месяцев, чтобы произвести A100. Текущее узкое место в производстве в основном связано с недостаточными производственными мощностями современной упаковки с разрывом от 10 до 20 процентов, для постепенного увеличения которого потребуется 3-6 месяцев.
С тех пор, как графические процессоры, подходящие для параллельных вычислений, были введены в глубокое обучение, более десяти лет движущей силой развития ИИ было аппаратное и программное обеспечение, и перекрытие вычислительной мощности графических процессоров, моделей и алгоритмов продвинулось вперед: разработка моделей стимулирует вычислительную мощность. спрос; вычислительная мощность растет, это также делает возможным более крупномасштабное обучение, которое изначально было труднодостижимым.
В последней волне бума глубокого обучения, представленного распознаванием изображений, возможности программного обеспечения искусственного интеллекта в Китае сопоставимы с самым передовым уровнем в мире; вычислительная мощность является текущей проблемой - проектирование и производство чипов требует более длительного накопления, включая длинную цепочку поставок и барьер многочисленных патентов.
Большая модель — это еще один большой прогресс на уровне моделей и алгоритмов. Нет времени медлить с этим. Компании, которые хотят создавать большие модели или предоставлять возможности облачных вычислений для больших моделей, должны как можно скорее получить достаточную передовую вычислительную мощность. Битва за графические процессоры не остановится, пока волна не поднимет настроение или не разочарует первые компании.
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Конкуренция за билеты на ИИ: крупные китайские компании соревнуются за GPU
Источник丨Later LatePost
Текст 丨 Чжан Цзяхао
Во второй половине 2022 года, когда генеративный ИИ переживает бум, a16z, известный венчурный капитал в Силиконовой долине, посетил десятки стартапов ИИ и крупных технологических компаний. Они обнаружили, что стартапы отдавали 80-90% своих средств на раннем этапе облачным вычислениям для обучения своих собственных моделей. По их оценкам, даже если продукты этих компаний являются зрелыми, они должны ежегодно отдавать 10-20% своего дохода компаниям, занимающимся облачными вычислениями. Это эквивалентно «налогу на ИИ».
Это привело к появлению большого рынка для предоставления возможностей моделирования и услуг обучения в облаке, а также для сдачи в аренду вычислительной мощности другим клиентам и стартапам. Только в Китае по меньшей мере десятки начинающих компаний, а также малых и средних компаний создают свои собственные сложные большие языковые модели, и всем им приходится арендовать графические процессоры у платформ облачных вычислений. Согласно расчетам a16z, ежегодные расходы компании на вычисления ИИ превышают всего 50 миллионов долларов США, прежде чем у нее будет достаточно масштаба для поддержки пакетной закупки графических процессоров.
По данным «LatePost», после Весеннего фестиваля в этом году все крупные интернет-компании Китая, предоставляющие услуги облачных вычислений, разместили у Nvidia крупные заказы. В этом году Byte заказала у Nvidia графические процессоры на сумму более 1 миллиарда долларов США, а другая крупная компания заказала как минимум более 1 миллиарда юаней.
Только Byte, возможно, разместил заказы в этом году, близкие к общему количеству коммерческих графических процессоров, проданных Nvidia в Китае в прошлом году. В сентябре прошлого года, когда правительство США ввело ограничения на экспорт A100 и H100 (последний коммерческий графический процессор NVIDIA для центров обработки данных двух поколений), Nvidia ответила, что это может повлиять на ее 400 миллионов долларов США (около 2,8 миллиарда юаней) на китайском рынке в четвертый квартал прошлого года (юаней) потенциальных продаж. Исходя из этого расчета, продажи графических процессоров Nvidia для центров обработки данных в Китае в 2022 году составят около 10 млрд юаней.
По сравнению с зарубежными гигантами, крупные технологические компании Китая более настойчиво покупают графические процессоры. В связи с сокращением затрат и повышением эффективности за последние два года некоторые платформы облачных вычислений сократили закупки графических процессоров и имеют недостаточные резервы. Кроме того, никто не может гарантировать, что высокопроизводительный GPU, который можно купить сегодня, завтра будет подпадать под новые ограничения.
От сокращения заказов до добавления покупок при внутреннем перемещении
До начала этого года спрос на графические процессоры со стороны крупных технологических компаний Китая был невысоким.
В крупных китайских компаниях, занимающихся интернет-технологиями, графические процессоры используются двумя основными способами: во-первых, для внутренней поддержки бизнеса и проведения передовых исследований в области искусственного интеллекта, а во-вторых, для продажи графических процессоров на платформах облачных вычислений.
Представитель Byte сообщил «LatePost», что после того, как OpenAI выпустила GPT-3 в июне 2020 года, Byte обучила большую генеративную языковую модель с миллиардами параметров.В то время в основном использовался графический процессор, предшественник A100.V100. Из-за ограниченного масштаба параметров генерирующая способность этой модели средняя, и Байт не мог видеть возможности ее коммерциализации в то время, «ROI (возврат инвестиций) не может быть рассчитан», на этот раз попытка была напрасной. .
Али также активно закупал графические процессоры в 2018-2019 годах. По данным облачного источника Alibaba, закупки Али в то время достигали как минимум десятков тысяч юаней, а купленными были в основном модели V100 и T4, выпущенные ранее Nvidia. Однако только одна десятая часть этих графических процессоров была передана Академии DAMO для исследований и разработок в области технологий искусственного интеллекта. После выпуска большой модели M6 с триллионами параметров в 2021 году Академия Дхармы сообщила, что для обучения M6 использовалось 480 V100.
Большая часть графических процессоров, купленных Alibaba в то время, была передана Alibaba Cloud во внешний лизинг. Однако, в том числе Alibaba Cloud, группа китайских компаний, занимающихся облачными вычислениями, переоценила спрос на ИИ на китайском рынке. Технологический инвестор сказал, что до появления крупномасштабных моделей вычислительная мощность GPU у крупных отечественных поставщиков облачных услуг не была в дефиците, но беспокоилась о продаже, и поставщикам облачных услуг даже приходилось снижать цены для продажи ресурсов. В прошлом году Alibaba Cloud снизила цены в шесть раз, а стоимость аренды GPU упала более чем на 20%.
В контексте снижения затрат и повышения эффективности, а также стремления к «качественному росту» и прибыли, понимается, что Ali сократила масштабы закупок графических процессоров после 2020 года, а Tencent также сократила одну партию графических процессоров Nvidia в конце прошлого года. .
Однако вскоре после этого, в начале 2022 года, ChatGPT изменил все взгляды, и быстро был достигнут консенсус: большая модель — это большая возможность, которую нельзя упускать.
Основатели каждой компании лично уделяли пристальное внимание развитию большой модели: Чжан Имин, основатель ByteDance, начал читать статьи об искусственном интеллекте, Чжан Юн, председатель совета директоров Alibaba, взял на себя управление Alibaba Cloud и объявил о прогрессе крупной модели Alibaba на саммите Alibaba Cloud Summit. Программное обеспечение и услуги заслуживают того, чтобы их переделывать, основываясь на возможностях крупной модели».
Человек из Byte сказал, что в прошлом при подаче заявки на покупку графических процессоров внутри Byte необходимо было объяснить соотношение ввода-вывода, бизнес-приоритет и важность. Но сейчас масштабный модельный бизнес — это новый бизнес на стратегическом уровне компании, и окупаемость инвестиций пока нельзя рассчитать, а нужно вкладывать деньги.
Разработка собственных крупномасштабных моделей общего назначения — это только первый шаг.Большая цель каждой компании — запустить облачные сервисы, обеспечивающие возможности крупномасштабных моделей.Это действительно большой рынок, который может соответствовать инвестициям.
Облачный сервис Microsoft Azure не имеет сильного присутствия на китайском рынке облачных вычислений, поскольку в течение десяти лет он в основном обслуживал китайский бизнес транснациональных компаний в Китае. Но теперь клиентам приходится ждать в очереди, потому что это единственный облачный брокер для коммерциализации OpenAI.
На саммите по облачным технологиям в апреле Али еще раз подчеркнул, что MaaS (модель как услуга) является будущей тенденцией облачных вычислений.В дополнение к открытому и самостоятельно разработанному тесту общей базовой модели «Tongyi Qianwen» он также выпустил серию помощи клиентам в облаке.Инструменты для обучения и использования больших моделей. Вскоре после этого Tencent и Byte Volcano Engine также выпустили собственные новые версии сервисов обучающих кластеров. Tencent заявила, что используя кластеры нового поколения для обучения большой модели с триллионами параметров, время можно сократить до 4 дней, а Byte заявила, что их новый кластер поддерживает обучение крупномасштабной модели на уровне Ванки. компаний в Китае, большинство из них уже используют двигатель вулкана.
Все эти платформы используют либо графические процессоры Nvidia A100 и H100, либо специально выпущенные Nvidia уменьшенные версии A800 и H800 после запрета в прошлом году.Пропускная способность этих двух процессоров составляет около 3/4 и примерно половину от исходной версии, что позволяет избежать высоких ограничивающих критериев. для производительных графических процессоров.
Вокруг H800 и A800 крупные технологические компании Китая начали новый раунд конкурса заказов.
Представитель производителя облачных вычислений сказал, что крупные компании, такие как Byte и Ali, в основном ведут переговоры о закупках напрямую с первоначальным заводом Nvidia, а агентам и рынкам подержанных товаров трудно удовлетворить их огромные потребности.
Nvidia договорится о скидке в зависимости от прейскурантной цены и масштаба покупки. Согласно официальному сайту Nvidia, цена A100 составляет 10 000 долларов США за штуку (около 71 000 юаней), а цена H100 составляет 36 000 долларов США за штуку (около 257 000 юаней); понятно, что цена A800 и H800 немного ниже. чем в исходной версии. .
Сможет ли китайская компания получить карту, больше зависит от деловых отношений, например, была ли она крупным клиентом Nvidia в прошлом. «Имеет значение, говорите ли вы с Nvidia в Китае или едете в Соединенные Штаты, чтобы поговорить напрямую с Лао Хуаном (Хуанг Ренсюнь, основатель и генеральный директор Nvidia)», — сказал представитель поставщика облачных услуг.
Некоторые компании также будут вести «деловое сотрудничество» с Nvidia.При покупке популярных графических процессоров для центров обработки данных они также покупают другие продукты, чтобы стремиться к приоритетным поставкам. Это похоже на дистрибуцию Hermès: если вы хотите купить популярную сумку, вам часто приходится сочетать ее с одеждой и обувью стоимостью в десятки тысяч юаней.
Согласно полученной нами отраслевой информации, новые заказы Byte в этом году относительно агрессивны и превышают уровень в 1 миллиард долларов.
По словам человека, близкого к Nvidia, всего прибыло и не прибыло 100 000 штук A100 и H800. Среди них производство H800 началось только в марте этого года, и эта часть чипов должна поступить за счет дополнительных закупок в этом году. Понятно, что при текущем графике производства некоторые H800 не будут поставлены до конца этого года.
ByteDance начала строительство собственного дата-центра в 2017 году. Центры обработки данных раньше больше полагались на ЦП для всех вычислений.До 2020 года Byte тратил больше на ЦП Intel, чем на графические процессоры Nvidia. Изменения в покупке байтов также отражают то, что сегодня в вычислительных потребностях крупных технологических компаний интеллектуальные вычисления догоняют обычные вычисления.
Понятно, что в этом году крупная интернет-компания разместила у Nvidia заказ как минимум на 10 000 уровней с оценочной стоимостью более 1 миллиарда юаней, исходя из каталожной цены.
Tencent объявила об использовании H800.Tencent Cloud уже использовала H800 в новой версии высокопроизводительных вычислительных услуг, выпущенной в марте этого года, заявив, что это первый отечественный запуск. В настоящее время эта услуга открыта для корпоративных клиентов для тестирования приложений, что опережает прогресс большинства китайских компаний.
Понятно, что Alibaba Cloud также предложила внутри компании в мае этого года сделать «битву интеллектуальных вычислений» битвой номер один в этом году и поставила три цели: масштаб машины, масштаб клиента и масштаб дохода; среди них важный показатель Масштаб машины — это количество графических процессоров.
Перед появлением нового графического процессора компании также предпринимают внутренние шаги, чтобы отдать приоритет поддержке разработки больших моделей.
Способ высвободить больше ресурсов за один раз — это отрезать какие-то менее важные направления или направления, где нет ясной перспективы в краткосрочной перспективе. «У крупных компаний есть много полумертвых предприятий, которые занимают ресурсы», — сказал специалист по ИИ в крупной интернет-компании.
В мае этого года Институт Али Дхарма упразднил лабораторию автономного вождения: около 1/3 из более чем 300 сотрудников были переведены в команду новичков, а остальные были уволены.Институт Дхармы больше не поддерживает бизнес автономного вождения. Развитие автономного вождения также требует высокопроизводительных графических процессоров для обучения. Эта корректировка может не иметь прямого отношения к большой модели, но она позволила Али получить партию «бесплатных графических процессоров».
Byte и Meituan напрямую делятся графическими процессорами от коммерческой технологической команды, которая приносит компании доход от рекламы.
Согласно «LatePost», вскоре после Весеннего фестиваля в этом году Byte распространила партию A100, которые изначально планировалось добавить в технологическую группу Byte, Чжу Вэньцзя, главе отдела технологий продуктов TikTok. Чжу Вэньцзя руководит исследованиями и разработками моделей с большим объемом байтов. Техническая группа по коммерциализации — это основной бизнес-отдел, который поддерживает алгоритм рекомендации рекламы Douyin.
Meituan начала разрабатывать большие модели примерно в первом квартале этого года. Понятно, что Meituan недавно передала партию 80G видеопамяти верхней версии A100 из нескольких отделов, отдавая приоритет поставке больших моделей, чтобы эти отделы могли переключиться на графические процессоры с более низкими конфигурациями.
У Bilibili, чьи финансовые ресурсы гораздо меньше, чем у крупных платформ, также есть планы на большие модели. Понятно, что Station B ранее зарезервировала сотни графических процессоров. В этом году, с одной стороны, Bilibili продолжает закупать дополнительные графические процессоры, а с другой стороны, также координирует работу различных отделов для равномерного распределения карт по крупным моделям. «Некоторые отделы дают 10 билетов, а некоторые отделы дают 20 билетов», — сказал человек, близкий к Станции Б.
Интернет-компании, такие как Byte, Meituan и Station B, как правило, имеют некоторые избыточные ресурсы графических процессоров в технических отделах, которые изначально поддерживали поиск и рекомендации.
Однако количество GPU, которые можно получить таким методом демонтажа востока и дополнения запада, ограничено, а большие GPU, необходимые для обучения больших моделей, по-прежнему приходится полагаться на прошлые накопления каждой компании и ждать прихода новые графические процессоры.
Весь мир борется за вычислительную мощность
Гонка за графическими процессорами Nvidia для центров обработки данных также происходит по всему миру. Однако зарубежные гиганты ранее приобрели большое количество графических процессоров, и объем закупок больше, а инвестиции в последние годы были относительно непрерывными.
В 2022 году Meta и Oracle уже вложили значительные средства в A100. В январе прошлого года Meta заключила партнерское соглашение с Nvidia для создания суперкомпьютерного кластера RSC, который содержит 16 000 компьютеров A100. В ноябре того же года Oracle объявила о закупке десятков тысяч A100 и H100 для строительства нового вычислительного центра. Сейчас в вычислительном центре развернуто более 32 700 A100, и один за другим запускались новые H100.
С тех пор как Microsoft впервые инвестировала в OpenAI в 2019 году, она предоставила OpenAI десятки тысяч графических процессоров. В марте этого года Microsoft объявила, что помогла OpenAI построить новый вычислительный центр, включающий десятки тысяч A100. В мае этого года Google запустил Compute Engine A3, вычислительный кластер с 26 000 H100, обслуживающий компании, которые хотят самостоятельно обучать большие модели.
Нынешние действия и менталитет крупных китайских компаний более актуальны, чем у зарубежных гигантов. Возьмем, к примеру, Baidu: в этом году компания разместила у Nvidia десятки тысяч заказов на новые графические процессоры. По порядку величины сопоставимы с такими компаниями, как Google, хотя объем Baidu намного меньше: ее доход в прошлом году составил 123,6 млрд юаней, что составляет всего 6% от выручки Google.
Понятно, что Byte, Tencent, Ali и Baidu, четыре китайские технологические компании, которые больше всего инвестировали в ИИ и облачные вычисления, в прошлом накопили десятки тысяч A100. Среди них A100 имеет наибольшее абсолютное количество байтов. За исключением новых заказов в этом году, общее количество Byte A100 и его предшественника V100 приближается к 100 000 штук.
Среди растущих компаний Shangtang также объявила в этом году, что в ее вычислительном кластере «большие устройства ИИ» было развернуто в общей сложности 27 000 графических процессоров, включая 10 000 A100. Даже Magic Square, инвестиционная компания, которая, похоже, не имеет ничего общего с ИИ, раньше купила 10 000 A100.
Просто глядя на общее количество, этих графических процессоров кажется более чем достаточно для обучения больших моделей компаний.Согласно кейсу на официальном сайте Nvidia, OpenAI использовал 10 000 V100 при обучении GPT-3 со 175 миллиардами параметров.Для обучения GPT-3 , на 1 месяц обучения необходимо 1024 блока А100.По сравнению с В100, А100 имеет улучшение производительности в 4,3 раза. Тем не менее, большое количество графических процессоров, приобретенных крупными китайскими компаниями в прошлом, должны поддерживать существующие предприятия или продаваться на платформах облачных вычислений, и их нельзя свободно использовать для крупномасштабной разработки моделей и внешней поддержки для крупномасштабных моделей. потребности клиентов.
Это также объясняет огромную разницу в оценке вычислительных ресурсов китайскими специалистами по ИИ. Чжан Яцинь, декан Научно-исследовательского института интеллектуальной промышленности Цинхуа, заявил на Форуме Цинхуа в конце апреля: «Если добавить одну часть вычислительной мощности Китая, это будет эквивалентно 500 000 A100, и обучение пяти моделей не составит труда. Инь Ци, генеральный директор компании Megvii Technology, занимающейся искусственным интеллектом, сказал в интервью Caixin: «В настоящее время в Китае всего около 40 000 самолетов A100, которые можно использовать для крупномасштабного обучения моделей.
Он в основном отражает капитальные затраты на инвестиции в основные средства, такие как микросхемы, серверы и центры обработки данных, и может наглядно иллюстрировать разрыв в вычислительных ресурсах крупных китайских и зарубежных компаний на порядок.
Baidu, которая первой протестировала продукты, подобные ChatGPT, с 2020 года имеет ежегодные капитальные затраты в размере от 800 до 2 миллиардов долларов США, Ali — от 6 до 8 миллиардов долларов США, а Tencent — от 7 до 11 миллиардов долларов США. . За тот же период годовые капиталовложения Amazon, Meta, Google и Microsoft, четырех американских технологических компаний с собственными центрами обработки данных, превысили как минимум 15 миллиардов долларов США.
В течение трех лет эпидемии капитальные затраты зарубежных компаний продолжали расти. Капитальные затраты Amazon в прошлом году достигли 58 миллиардов долларов США, Meta и Google — 31,4 миллиарда долларов США, а Microsoft — около 24 миллиардов долларов США. Инвестиции китайских компаний сокращаются после 2021 года. Капитальные затраты Tencent и Baidu упали более чем на 25% в годовом исчислении в прошлом году.
Идти быстрее OpenAI справился с этой задачей. В середине мая генеральный директор OpenAI Сэм Альтман заявил в небольшом общении с группой разработчиков, что из-за нехватки графических процессоров текущая служба API OpenAI недостаточно стабильна, а скорость недостаточно высока. Мультимодальность 4's Возможности не могут быть расширены для каждого пользователя, и они не планируют выпуск новых потребительских продуктов в ближайшем будущем. Согласно отчету, опубликованному техническим консалтинговым агентством TrendForce в июне этого года, OpenAI требуется около 30 000 A100 для постоянной оптимизации и коммерциализации ChatGPT.
Microsoft, тесно сотрудничающая с OpenAI, также столкнулась с похожей ситуацией: в мае этого года некоторые пользователи жаловались на низкую скорость ответа New Bing, а Microsoft ответила, что это связано с тем, что скорость пополнения графического процессора не успевает. с темпом роста пользователей. Microsoft Office 365 Copilot со встроенными возможностями крупномасштабного моделирования в настоящее время не запущен в больших масштабах.По последним данным, его тестируют более 600 компаний — общее количество пользователей Office 365 во всем мире приближается к 300. млн.
Если крупная китайская компания не только стремится обучить и выпустить большую модель, но действительно хочет использовать большую модель для создания продуктов, которые обслуживают больше пользователей, и в дальнейшем поддерживать других клиентов для обучения большего количества больших моделей в облаке, ей необходимо зарезервируйте больше заранее Несколько графических процессоров.
**Почему только эти четыре карты? **
С точки зрения обучения больших моделей ИИ нет заменителей A100, H100 и уменьшенной версии A800 и H800, специально поставляемых в Китай. По данным количественного хедж-фонда Khaveen Investments, доля Nvidia на рынке графических процессоров для центров обработки данных достигнет 88% в 2022 году, а оставшуюся часть поделят между собой AMD и Intel.
Нынешняя незаменимость графического процессора Nvidia связана с механизмом обучения больших моделей. Его основными этапами являются предварительное обучение и тонкая настройка. Первое заключается в закладке фундамента, что эквивалентно получению общего образования для окончания университета. оптимизирован для конкретных сценариев и задач для повышения производительности труда.
Канал предварительного обучения особенно требователен к вычислительным ресурсам и предъявляет чрезвычайно высокие требования к производительности одного графического процессора и возможности передачи данных между несколькими картами.
Сейчас только A100 и H100 могут обеспечить вычислительную эффективность, необходимую для предобучения, они кажутся дорогими, но являются самым дешевым вариантом. Сегодня ИИ все еще находится на ранних стадиях коммерческого использования, и стоимость напрямую влияет на доступность услуги.
Некоторые модели в прошлом, такие как VGG16, которые могут распознавать кошек как кошек, имеют только 130 миллионов параметров.В то время некоторые компании использовали графические карты потребительского уровня серии RTX для игр для запуска моделей ИИ. Шкала параметров GPT-3, выпущенная более двух лет назад, достигла 175 миллиардов.
В условиях огромных вычислительных требований больших моделей уже невозможно использовать более низкопроизводительные графические процессоры для формирования вычислительной мощности. Поскольку при использовании нескольких графических процессоров для обучения необходимо передавать данные и синхронизировать информацию о параметрах между чипами, в это время некоторые графические процессоры будут простаивать и не могут быть насыщены все время. Следовательно, чем ниже производительность одной карты, тем больше карт используется и тем больше потери вычислительной мощности. Когда OpenAI использует 10 000 V100 для обучения GPT-3, коэффициент использования вычислительной мощности составляет менее 50%.
A100 и H100 обладают как высокой вычислительной мощностью одной карты, так и высокой пропускной способностью для улучшения передачи данных между картами. Вычислительная мощность FP32 A100 (имеется в виду 4-байтное кодирование и вычисление хранилища) имеет вычислительную мощность 19,5 TFLOPS (1 TFLOPS означает один триллион операций с плавающей запятой в секунду), а вычислительная мощность FP32 H100 достигает 134 TFLOPS, что примерно в 4 раза больше. МИ250.
A100 и H100 также обеспечивают эффективную передачу данных, сводя к минимуму вычислительную мощность бездействия. Эксклюзивные читы Nvidia — это технологии протоколов связи, такие как NVLink и NVSwitch, запущенные с 2014 года. NVLink четвертого поколения, используемый на H100, может увеличить пропускную способность двусторонней связи графических процессоров на одном сервере до 900 ГБ/с (900 ГБ данных в секунду), что в 7 раз больше, чем у последнего поколения PCle (точка стандарт высокоскоростной последовательной передачи в точку) многие.
В прошлом году правила Министерства торговли США по экспорту графических процессоров также застряли на двух линиях вычислительной мощности и пропускной способности: максимальная вычислительная мощность составляла 4800 TOPS, а максимальная пропускная способность — 600 ГБ/с.
A800 и H800 имеют ту же вычислительную мощность, что и исходная версия, но пропускная способность снижена. Пропускная способность A800 снижена с 600 ГБ/с у A100 до 400 ГБ/с. Конкретные параметры H800 не разглашаются. По данным Bloomberg, его пропускная способность составляет примерно половину пропускной способности H100 (900 ГБ/с). s) При выполнении одной и той же задачи ИИ H800 займет на 10-30% больше времени, чем H100. Инженер по искусственному интеллекту предположил, что тренировочный эффект H800 может быть не таким хорошим, как у A100, но он дороже.
Несмотря на это, производительность A800 и H800 по-прежнему превосходит аналогичные продукты других крупных компаний и стартапов. Ограниченные производительностью и более специализированными архитектурами, чипы ИИ или чипы графических процессоров, выпущенные различными компаниями, в настоящее время в основном используются для рассуждений ИИ, что сложно для предварительного обучения крупномасштабных моделей. Проще говоря, обучение ИИ заключается в создании модели, логика ИИ заключается в использовании модели, а для обучения требуется более высокая производительность чипа.
Помимо разрыва в производительности, более глубоким рвом Nvidia является экология программного обеспечения.
Еще в 2006 году Nvidia запустила вычислительную платформу CUDA, которая представляет собой программный движок для параллельных вычислений. Разработчики могут использовать CUDA для более эффективного обучения и рассуждений ИИ и более эффективного использования вычислительной мощности графического процессора. Сегодня CUDA стала инфраструктурой ИИ, и все основные фреймворки, библиотеки и инструменты ИИ разрабатываются на основе CUDA.
Если графические процессоры и микросхемы искусственного интеллекта, отличные от Nvidia, хотят подключиться к CUDA, им необходимо предоставить собственное программное обеспечение для адаптации, но только часть производительности CUDA, а итерация обновления выполняется медленнее. Фреймворки искусственного интеллекта, такие как PyTorch, пытаются разрушить экологическую монополию CUDA на программное обеспечение и предоставить больше программных возможностей для поддержки графических процессоров других производителей, но это ограничивает привлекательность для разработчиков.
Практикующий ИИ сказал, что его компания связалась с производителем графических процессоров, не относящимся к NVIDIA, который предложил более низкие цены на чипы и услуги, чем Nvidia, и пообещал предоставлять более своевременные услуги, но они решили, что общая стоимость обучения и развития с использованием других графических процессоров будет быть выше, чем у Nvidia, и ей придется терпеть неопределенность результатов и занимать больше времени.
«Хотя A100 стоит дорого, на самом деле он самый дешевый в использовании», — сказал он. Для крупных технологических компаний и ведущих стартапов, которые намерены воспользоваться возможностью крупных моделей, деньги зачастую не проблема, а время — более ценный ресурс.
В краткосрочной перспективе единственным фактором, влияющим на продажи графических процессоров Nvidia для центров обработки данных, могут быть производственные мощности TSMC.
H100/800 — это техпроцесс 4 нм, а A100/800 — техпроцесс 7 нм Все эти четыре чипа произведены TSMC. Согласно сообщениям китайских тайваньских СМИ, в этом году Nvidia добавила TSMC 10 000 новых заказов на GPU для центров обработки данных и разместила сверхсрочный заказ, который может сократить время производства до 50%. Обычно TSMC требуется несколько месяцев, чтобы произвести A100. Текущее узкое место в производстве в основном связано с недостаточными производственными мощностями современной упаковки с разрывом от 10 до 20 процентов, для постепенного увеличения которого потребуется 3-6 месяцев.
С тех пор, как графические процессоры, подходящие для параллельных вычислений, были введены в глубокое обучение, более десяти лет движущей силой развития ИИ было аппаратное и программное обеспечение, и перекрытие вычислительной мощности графических процессоров, моделей и алгоритмов продвинулось вперед: разработка моделей стимулирует вычислительную мощность. спрос; вычислительная мощность растет, это также делает возможным более крупномасштабное обучение, которое изначально было труднодостижимым.
В последней волне бума глубокого обучения, представленного распознаванием изображений, возможности программного обеспечения искусственного интеллекта в Китае сопоставимы с самым передовым уровнем в мире; вычислительная мощность является текущей проблемой - проектирование и производство чипов требует более длительного накопления, включая длинную цепочку поставок и барьер многочисленных патентов.
Большая модель — это еще один большой прогресс на уровне моделей и алгоритмов. Нет времени медлить с этим. Компании, которые хотят создавать большие модели или предоставлять возможности облачных вычислений для больших моделей, должны как можно скорее получить достаточную передовую вычислительную мощность. Битва за графические процессоры не остановится, пока волна не поднимет настроение или не разочарует первые компании.