Весь світ бореться за обчислювальну потужність, і великі китайські компанії є більш актуальними.
У другій половині 2022 року, коли генеративний ШІ процвітає, a16z, відомий венчурний капітал у Кремнієвій долині, відвідав десятки стартапів ШІ та великих технологічних компаній. Вони виявили, що стартапи віддавали 80%-90% своїх ранніх фінансових коштів на платформи хмарних обчислень для навчання власних моделей. За їхніми оцінками, навіть якщо продукти цих компаній є зрілими, вони повинні віддавати 10%-20% свого доходу компаніям хмарних обчислень щороку. Це еквівалентно «податку на ШІ».
Це створило великий ринок для надання можливостей моделей і послуг навчання в хмарі, а також оренди обчислювальної потужності іншим клієнтам і стартапам. Тільки в Китаї принаймні десятки компаній-початківців, малих і середніх компаній створюють власні складні великі мовні моделі, і всі вони змушені орендувати графічні процесори з платформ хмарних обчислень. Згідно з підрахунками a16z, щорічні витрати компанії на обчислення зі штучним інтелектом перевищують лише 50 мільйонів доларів США, перш ніж вона досягне достатнього масштабу для підтримки серійної закупівлі графічних процесорів.
За даними «LatePost», після Фестивалю весни цього року всі великі інтернет-компанії Китаю, що пропонують послуги хмарних обчислень, розмістили великі замовлення в Nvidia. Цього року Byte замовила у Nvidia графічних процесорів на суму понад 1 мільярд доларів США, а інша велика компанія замовила щонайменше понад 1 мільярд юанів.
Один тільки Byte, можливо, розмістив замовлення цього року приблизно до загальної кількості комерційних графічних процесорів Nvidia, проданих у Китаї минулого року. У вересні минулого року, коли уряд США ввів обмеження на експорт A100 і H100 (останнього комерційного графічного процесора NVIDIA для центрів обробки даних двох поколінь), Nvidia відповіла, що це може вплинути на її 400 мільйонів доларів США (приблизно 2,8 мільярда юанів) на китайському ринку. у четвертому кварталі минулого року (юань) потенційні продажі. Виходячи з цього розрахунку, продажі графічних процесорів центрів обробки даних Nvidia в Китаї в 2022 році складуть близько 10 мільярдів юанів.
Порівняно із закордонними гігантами, великі технологічні компанії Китаю потребують більшої необхідності придбати графічні процесори. З огляду на скорочення витрат і підвищення ефективності за останні два роки, деякі платформи хмарних обчислень скоротили закупівлі графічних процесорів і мають недостатні резерви. Крім того, ніхто не може гарантувати, що високопродуктивний графічний процесор, який можна купити сьогодні, завтра потрапить під нові обмеження.
Від скорочення замовлень до додавання покупок під час внутрішнього переміщення
До початку цього року попит на графічні процесори з боку великих технологічних компаній Китаю був прохолодним.
Графічні процесори мають два основні призначення у великих китайських компаніях, що займаються інтернет-технологіями: одне – це внутрішня підтримка бізнесу та проведення деяких передових досліджень ШІ, а інше – продаж графічних процесорів на платформах хмарних обчислень.
Співробітник Byte розповів LatePost, що після того, як OpenAI випустив GPT-3 у червні 2020 року, Byte навчив велику модель генеративної мови з мільярдами параметрів. На той час використовувався в основному GPU попередник A100.V100. Через обмежений масштаб параметрів здатність генерації цієї моделі є середньою, і Byte не міг побачити можливість її комерціалізації на той час, «ROI (повернення інвестицій) не може бути розраховано», цього разу спроба була марною .
Алі також активно закуповував відеокарти в 2018-2019 роках. За даними хмарного джерела Alibaba, покупки Алі на той час досягли щонайменше десятків тисяч юанів, і придбані в основному моделі V100 і T4, випущені Nvidia раніше. Однак лише близько однієї десятої цих графічних процесорів було передано Академії DAMO для дослідження та розробки технології ШІ. Після випуску великої моделі M6 з трильйонами параметрів у 2021 році Dharma Academy розкрила, що для навчання M6 було використано 480 V100.
Більшість графічних процесорів, придбаних Alibaba на той час, були передані Alibaba Cloud у зовнішній лізинг. Однак група китайських хмарних компаній, включаючи Alibaba Cloud, переоцінила попит на штучний інтелект на китайському ринку. Технологічний інвестор сказав, що перед появою великомасштабних моделей обчислювальна потужність GPU у великих вітчизняних постачальників хмарних технологій не була дефіцитом, але вони хвилювалися щодо продажу, і постачальникам хмарних технологій навіть доводилося знижувати ціни, щоб продавати ресурси. Минулого року Alibaba Cloud знижувала ціни шість разів, а ціни на оренду GPU впали більш ніж на 20%.
У контексті скорочення витрат і підвищення ефективності, а також досягнення «зростання якості» та прибутку, розуміється, що Ali зменшив масштаби закупівель графічних процесорів після 2020 року, а Tencent також скоротив одну партію графічних процесорів Nvidia наприкінці минулого року. .
Однак незабаром, на початку 2022 року, ChatGPT змінив погляди всіх, і швидко було досягнуто консенсусу: велика модель — це велика можливість, яку не можна втрачати.
Засновники кожної компанії особисто приділяли пильну увагу прогресу великої моделі: Чжан Імін, засновник ByteDance, почав читати статті про штучний інтелект; Чжан Йонг, голова ради директорів Alibaba, очолив Alibaba Cloud і оголосив про прогрес великої моделі Alibaba на Alibaba Cloud Summit. , програмне забезпечення та послуги варто переробити на основі можливостей великої моделі».
Співробітник Byte сказав, що раніше, коли подавали заявку на купівлю графічних процесорів у Byte, необхідно було пояснити співвідношення витрат і випуску, пріоритет і важливість бізнесу. Але зараз масштабний модельний бізнес є новим бізнесом на стратегічному рівні компанії, і рентабельність інвестицій поки що неможливо розрахувати, і потрібно робити інвестиції.
Розробка власних великомасштабних моделей загального призначення — це лише перший крок. Більша мета кожної компанії — запустити хмарні сервіси, які надають можливості великомасштабних моделей. Це справді великий ринок, який може відповідати інвестиціям.
Хмарний сервіс Azure від Microsoft не має сильної присутності на ринку хмарних обчислень Китаю. Протягом десяти років він переважно обслуговував китайський бізнес транснаціональних компаній у Китаї. Але тепер клієнтам доводиться чекати в черзі, оскільки це єдиний хмарний брокер для комерціалізації OpenAI.
На хмарному саміті в квітні Алі ще раз підкреслив, що MaaS (модель як послуга) — це майбутній тренд хмарних обчислень.На додаток до відкритої та самостійно розробленої загальної базової моделі тесту «Tongyi Qianwen», він також випустив серію допомоги клієнтам у хмарі Інструменти для навчання та використання великих моделей. Незабаром після цього Tencent і Byte Volcano Engine також випустили власні нові версії навчальних кластерних служб. Tencent сказав, що за допомогою кластерів нового покоління для навчання великої моделі з трильйонами параметрів час можна стиснути до 4 днів; Byte сказав, що їхній новий кластер підтримує навчання великомасштабної моделі на рівні Wanka. Десятки великомасштабних моделей компаній у Китаї, більшість із яких уже використовують вулканічний двигун.
Усі ці платформи використовують або графічні процесори Nvidia A100 і H100, або спеціально випущені Nvidia скорочені версії A800 і H800 після заборони минулого року.Пропускна здатність цих двох процесорів становить приблизно 3/4 і приблизно половину вихідної версії, уникаючи високих критеріїв обмеження. для продуктивних графічних процесорів.
Навколо H800 і A800 великі технологічні компанії Китаю розпочали новий раунд конкуренції за замовлення.
Представник виробника хмарних технологій сказав, що такі великі компанії, як Byte і Ali, здебільшого ведуть переговори безпосередньо з оригінальним заводом Nvidia щодо закупівель, а агентам і ринкам вживаних товарів важко задовольнити їхні величезні потреби.
Nvidia домовиться про знижку на основі прейскурантної ціни та масштабу покупки. Згідно з офіційним веб-сайтом Nvidia, ціна A100 становить 10 000 доларів США за штуку (приблизно 71 000 юанів), а ціна H100 становить 36 000 доларів США за штуку (приблизно 257 000 юанів); розуміється, що ціна A800 і H800 трохи нижча. ніж оригінальна версія..
Чи зможе китайська компанія отримати картку, більше залежить від ділових стосунків, наприклад, чи була вона головним клієнтом Nvidia в минулому. «Це має значення, спілкуєтеся ви з Nvidia в Китаї чи їдете до Сполучених Штатів, щоб поговорити безпосередньо з Лао Хуангом (Хуан Реньсюнь, засновник і генеральний директор Nvidia)», — сказав представник хмарного постачальника.
Деякі компанії також будуть вести «ділову співпрацю» з Nvidia. Купуючи популярні графічні процесори для центрів обробки даних, вони також купують інші продукти, щоб прагнути до пріоритетних поставок. Це як дистрибуція Hermès.Якщо ви хочете купити популярну сумку, вам часто доводиться підбирати до неї одяг і взуття вартістю десятки тисяч юанів.
Виходячи з галузевої інформації, яку ми отримали, нові замовлення Byte цього року є відносно агресивними, перевищуючи рівень 1 мільярда доларів.
За словами людини, близької до Nvidia, загалом є 100 000 штук A100 і H800, які прибули і не прибули. Серед них H800 почав виробництво тільки в березні цього року, і ця частина чіпів повинна бути отримана від додаткових закупівель цього року. Зрозуміло, що з поточним графіком виробництва деякі H800 не будуть поставлені до кінця цього року.
ByteDance почав будувати власний дата-центр у 2017 році. Раніше центри обробки даних більше покладалися на процесори для всіх обчислень. До 2020 року Byte витрачав більше на процесори Intel, ніж на графічні процесори Nvidia. Зміни в купівлі байтів також вказують на те, що в обчислювальних потребах великих технологічних компаній сьогодні інтелектуальні обчислення наздоганяють загальні обчислення.
Відомо, що цього року велика інтернет-компанія розмістила в Nvidia замовлення щонайменше на 10 000 рівнів, орієнтовна вартість якого перевищує 1 мільярд юанів, виходячи з ціни каталогу.
Tencent оголосив про те, що використовує H800. Tencent Cloud вже використовував H800 у новій версії високопродуктивних обчислювальних служб, випущеній у березні цього року, заявивши, що це перший домашній запуск. В даний час ця послуга відкрита для корпоративних клієнтів для тестування додатків, що швидше, ніж прогрес більшості китайських компаній.
Зрозуміло, що в травні цього року Alibaba Cloud також запропонувала всередині країни прийняти «Битву за розумні обчислення» як битву номер один цього року та поставити три цілі: масштаб машини, масштаб споживача та масштаб доходу; серед них важливий показник масштаб машини - це кількість графічних процесорів.
Перед появою нового графічного процесора компанії також роблять внутрішні кроки, щоб віддати пріоритет підтримці розробки великих моделей.
Спосіб вивільнити більше ресурсів одночасно – це відрізати деякі менш важливі напрямки, або напрямки, де немає чіткої перспективи в короткостроковій перспективі. «Великі компанії мають багато напівмертвих підприємств, які займають ресурси», — сказав фахівець зі штучного інтелекту у великій інтернет-компанії.
У травні цього року Інститут Алі Дхарма скасував лабораторію автономного водіння: близько 1/3 з понад 300 співробітників було направлено до нової технічної групи, а решту звільнили. Інститут Дхарми більше не займається бізнесом автономного водіння. Розвиток автономного водіння також вимагає високопродуктивних графічних процесорів для навчання. Можливо, це налаштування не має прямого відношення до великої моделі, але воно дозволило Алі отримати партію «безкоштовних графічних процесорів».
Byte і Meituan напряму діляться графічним процесором від команди комерційних технологій, яка приносить компанії дохід від реклами.
За даними «LatePost», невдовзі після Весняного фестивалю цього року Byte розповсюдила партію A100, які спочатку планувалося додати до команди з комерціалізації технологій Byte, Чжу Веньцзя, голові технологічного відділу TikTok. Чжу Веньцзя очолює дослідження та розробку моделей великого розміру. Технічна команда з комерціалізації є основним бізнес-відділом, який підтримує алгоритм рекламних рекомендацій Douyin.
Meituan почав розробляти великі моделі приблизно в першому кварталі цього року. Зрозуміло, що Meituan нещодавно передав партію топової версії A100 80 ГБ відеопам’яті з кількох відділів, надаючи пріоритет постачанню великих моделей, щоб ці відділи могли перейти на графічні процесори з нижчою конфігурацією.
Bilibili, чиї фінансові ресурси набагато менші, ніж великі платформи, також має плани щодо великих моделей. Зрозуміло, що станція B раніше зарезервувала сотні графічних процесорів. Цього року, з одного боку, Bilibili продовжує закуповувати додаткові графічні процесори, а з іншого — також координує різні відділи, щоб рівномірно розподілити карти для великих моделей. "Деякі відділи дають 10 квитків, а деякі відділи дають 20 квитків", - сказала людина, близька до станції B.
Такі інтернет-компанії, як Byte, Meituan і Station B, як правило, мають деякі надлишкові ресурси GPU в технічних відділах, які спочатку підтримували пошук і рекомендації.
Однак кількість графічних процесорів, які можна отримати за допомогою цього методу демонтажу сходу та доповнення заходу, обмежена, а великі графічні процесори, необхідні для навчання великих моделей, все ще повинні покладатися на минулі накопичення кожної компанії та чекати прибуття нові графічні процесори.
Весь світ бореться за обчислювальну потужність
Гонка за графічні процесори центрів обробки даних Nvidia також відбувається по всьому світу. Однак закордонні гіганти придбали велику кількість графічних процесорів раніше, і обсяг закупівлі більший, а інвестиції в останні роки були відносно постійними.
У 2022 році Meta та Oracle вже вклали значні кошти в A100. Meta співпрацювала з Nvidia в січні минулого року для створення суперкомп’ютерного кластера RSC, який містить 16 000 A100. У листопаді того ж року Oracle оголосила про закупівлю десятків тисяч A100 і H100 для будівництва нового обчислювального центру. Зараз обчислювальний центр розгорнув понад 32 700 A100, і нові H100 були запущені один за одним.
Відколи Microsoft вперше інвестувала в OpenAI у 2019 році, вона надала OpenAI десятки тисяч графічних процесорів. У березні цього року Microsoft оголосила, що допомогла OpenAI створити новий обчислювальний центр, включаючи десятки тисяч A100. У травні цього року Google запустив Compute Engine A3, обчислювальний кластер із 26 000 H100, який обслуговує компанії, які хочуть навчати великі моделі самостійно.
Поточні дії та менталітет великих китайських компаній є більш актуальними, ніж дії закордонних гігантів. Візьмемо Baidu як приклад, цього року він розмістив десятки тисяч нових графічних процесорів у Nvidia. Порядок величини порівнянний з такими компаніями, як Google, хоча обсяг Baidu набагато менший.Її дохід минулого року склав 123,6 мільярда юанів, лише 6% доходу Google.
Зрозуміло, що Byte, Tencent, Ali і Baidu, чотири китайські технологічні компанії, які найбільше інвестували в ШІ та хмарні обчислення, накопичили десятки тисяч A100 у минулому. Серед них A100 має найбільшу абсолютну кількість байтів. Без урахування нових замовлень цього року загальна кількість Byte A100 і його попередника V100 наближається до 100 000.
Серед компаній, що розвиваються, цього року Shangtang також оголосила, що в її обчислювальному кластері «великих пристроїв зі штучним інтелектом» було розгорнуто загалом 27 000 GPU, включаючи 10 000 A100. Навіть Magic Square, кількісна інвестиційна компанія, яка, здається, не має нічого спільного з ШІ, купила 10 000 A100 раніше.
Дивлячись на загальну кількість, цих графічних процесорів, здається, більш ніж достатньо для компаній, щоб навчати великі моделі.Згідно з випадком на офіційному веб-сайті Nvidia, OpenAI використовував 10 000 V100 для навчання GPT-3 із 175 мільярдами параметрів.Для навчання GPT-3 , для 1 місяця навчання потрібно 1024 блоки A100.Порівняно з V100, A100 покращує продуктивність у 4,3 рази. Однак велика кількість графічних процесорів, придбаних великими китайськими компаніями в минулому, повинні підтримувати існуючий бізнес або продаватися на платформах хмарних обчислень і не можуть вільно використовуватися для розробки великомасштабних моделей і зовнішньої підтримки для потреб клієнтів у великомасштабних моделях.
Це також пояснює величезну різницю в оцінках обчислювальних ресурсів китайськими фахівцями зі штучного інтелекту. Чжан Яцінь, декан науково-дослідного інституту інтелектуальної промисловості Цінхуа, сказав на Форумі Цінхуа наприкінці квітня: «Якщо додати одну частину обчислювальної потужності Китаю, це еквівалентно 500 000 A100, і не проблема навчити п’ять моделей. «Інь Ці, генеральний директор компанії Megvii Technology, що займається штучним інтелектом, сказав в інтерв’ю Caixin: Китай наразі має лише близько 40 000 A100, які можна використовувати для навчання великомасштабних моделей.
Він в основному відображає капітальні витрати на інвестиції в основні засоби, такі як мікросхеми, сервери та центри обробки даних, і може інтуїтивно проілюструвати розрив порядку величини в обчислювальних ресурсах великих китайських та іноземних компаній.
Baidu, яка першою протестувала продукти, подібні до ChatGPT, має щорічні капітальні витрати від 800 до 2 мільярдів доларів США з 2020 року, Ali — від 6 до 8 мільярдів доларів США, а Tencent — від 7 до 11 мільярдів доларів США. . У той же період річні капіталовкладення Amazon, Meta, Google і Microsoft, чотирьох американських технологічних компаній, які самостійно побудували центри обробки даних, перевищили щонайменше 15 мільярдів доларів США.
Протягом трьох років епідемії капітальні витрати закордонних компаній продовжували зростати. Капітальні витрати Amazon минулого року досягли 58 мільярдів доларів США, Meta і Google – 31,4 мільярда доларів США, а Microsoft – близько 24 мільярдів доларів США. Інвестиції китайських компаній скорочуються після 2021 року. Капітальні витрати Tencent і Baidu минулого року впали більш ніж на 25% порівняно з минулим роком.
Графічних процесорів для навчання великих моделей вже недостатньо.Якщо китайські компанії дійсно хочуть інвестувати у великі моделі протягом тривалого часу та заробляти гроші, щоб «продавати лопати» для інших потреб моделей, їм потрібно буде продовжувати збільшувати ресурси GPU в майбутньому.
Going Faster OpenAI впорався з цим завданням. У середині травня генеральний директор OpenAI СамАльтман заявив під час невеликого спілкування з групою розробників, що через недостатню кількість графічних процесорів поточна служба API OpenAI недостатньо стабільна, а швидкість недостатньо висока. До появи нових графічних процесорів GPT- 4's multimodal. Можливості не можна розширити для кожного користувача, і вони не планують випускати нові споживчі продукти найближчим часом. Відповідно до звіту, опублікованого технічним консалтинговим агентством TrendForce у червні цього року, OpenAI потрібно близько 30 000 A100 для постійної оптимізації та комерціалізації ChatGPT.
Microsoft, яка тісно співпрацює з OpenAI, також стикається з подібною ситуацією: у травні цього року деякі користувачі скаржилися, що швидкість відповіді New Bing низька, і Microsoft відповіла, що це тому, що швидкість поповнення графічного процесора не витримала. зі зростанням кількості користувачів. Microsoft Office 365 Copilot, який має вбудовані можливості великомасштабної моделі, наразі не працює у великому масштабі.Останні дані свідчать про те, що понад 600 компаній випробовують його – загальна кількість користувачів Office 365 у всьому світі наближається до 300 мільйон.
Якщо велика китайська компанія прагне не лише навчити та випустити велику модель, але й справді хоче використовувати велику модель для створення продуктів, які обслуговуватимуть більше користувачів, і додатково підтримувати інших клієнтів у навчанні більших моделей у хмарі, їм потрібно резервуйте більше заздалегідь Кілька GPU.
**Чому тільки ці чотири картки? **
З точки зору навчання великої моделі штучного інтелекту, немає заміни для A100, H100 і скороченої версії A800 і H800, спеціально поставлених до Китаю. Згідно з кількісним хедж-фондом Khaveen Investments, у 2022 році частка ринку GPU центрів обробки даних Nvidia досягне 88%, а AMD і Intel поділять решту.
На конференції GTC у 2020 році Хуан Реньсюнь дебютував з A100.
Поточна незамінність графічного процесора Nvidia походить від механізму навчання великих моделей. Його основними кроками є попереднє навчання та тонке налаштування. Перше полягає в тому, щоб закласти фундамент, який еквівалентний отриманню загальної освіти для закінчення університету. ; другий оптимізовано для конкретних сценаріїв і завдань для підвищення ефективності роботи.
Лінія попереднього навчання потребує особливо великих обчислень і має надзвичайно високі вимоги до продуктивності одного графічного процесора та можливості передачі даних між кількома картами.
Зараз тільки A100 і H100 можуть забезпечити обчислювальну ефективність, необхідну для попереднього навчання.Вони здаються дорогими, але це найдешевший варіант. Сьогодні ШІ все ще знаходиться на ранніх стадіях комерційного використання, і вартість безпосередньо впливає на доступність послуги.
Деякі моделі в минулому, такі як VGG16, які можуть розпізнавати котів як котів, мають лише 130 мільйонів параметрів.У той час деякі компанії використовували відеокарти споживчого класу серії RTX для ігор для запуску моделей ШІ. Шкала параметрів GPT-3, випущеного більше двох років тому, досягла 175 мільярдів.
Зважаючи на величезні вимоги до обчислень великих моделей, більше неможливо використовувати більше низькопродуктивних графічних процесорів для формування обчислювальної потужності. Оскільки при використанні кількох графічних процесорів для навчання необхідно передавати дані та синхронізувати інформацію про параметри між мікросхемами.У цей час деякі графічні процесори будуть простоювати і не можуть бути насиченими весь час. Таким чином, чим нижча продуктивність однієї картки, тим більше карток використовується і тим більша втрата обчислювальної потужності. Коли OpenAI використовує 10 000 V100 для навчання GPT-3, коефіцієнт використання обчислювальної потужності становить менше 50%.
A100 і H100 мають високу обчислювальну потужність однієї карти та високу пропускну здатність для покращення передачі даних між картами. FP32 A100 (що стосується 4-байтового кодування та обчислення пам’яті) має обчислювальну потужність 19,5 TFLOPS (1 TFLOPS означає один трильйон операцій з плаваючою комою в секунду), а обчислювальна потужність FP32 H100 становить 134 TFLOPS. Приблизно в 4 рази більше MI250.
A100 і H100 також забезпечують ефективні можливості передачі даних для мінімізації простою обчислювальної потужності. Ексклюзивні чіти від Nvidia – це технології комунікаційних протоколів, такі як NVLink і NVSwitch, які були запущені з 2014 року. NVLink четвертого покоління, який використовується на H100, може збільшити пропускну здатність двостороннього зв’язку графічних процесорів на одному сервері до 900 ГБ/с (900 ГБ даних на секунду), що в 7 разів більше, ніж у останнього покоління PCle (бал -до точки високошвидкісний послідовний стандарт передачі) багато.
Минулого року положення Міністерства торгівлі США щодо експорту графічних процесорів також застрягли на двох лініях обчислювальної потужності та пропускної здатності: верхня лінія обчислювальної потужності становила 4800 TOPS, а верхня лінія пропускної здатності становила 600 ГБ/с.
A800 і H800 мають таку ж обчислювальну потужність, як і оригінальна версія, але пропускна здатність знижена. Пропускна здатність A800 була зменшена з 600 ГБ/с у A100 до 400 ГБ/с Конкретні параметри H800 не розголошуються.За даними Bloomberg, його пропускна здатність становить лише приблизно половину від пропускної здатності H100 (900 ГБ/с). s). Виконуючи те саме завдання ШІ, H800 займе на 10%-30% більше часу, ніж H100. Інженер штучного інтелекту припустив, що тренувальний ефект H800 може бути не таким хорошим, як A100, але він дорожчий.
Незважаючи на це, продуктивність A800 і H800 все одно перевершує аналогічні продукти інших великих компаній і стартапів. Обмежені продуктивністю та більш спеціалізованою архітектурою, чіпи AI або чіпи GPU, запущені різними компаніями, зараз в основному використовуються для міркувань AI, що є складним для попереднього навчання великомасштабної моделі. Простіше кажучи, навчання штучному інтелекту полягає у створенні моделі, міркування штучного інтелекту полягає у використанні моделі, а навчання вимагає більшої продуктивності чіпа.
На додаток до розриву в продуктивності, глибшим ровом Nvidia є екологічність програмного забезпечення.
Ще в 2006 році Nvidia запустила обчислювальну платформу CUDA, яка є програмним механізмом паралельних обчислень.Розробники можуть використовувати CUDA для більш ефективного навчання штучного інтелекту та міркувань, а також ефективного використання обчислювальної потужності GPU. Сьогодні CUDA стала інфраструктурою штучного інтелекту, і на основі CUDA розробляються основні фреймворки штучного інтелекту, бібліотеки та інструменти.
Якщо графічні процесори та мікросхеми штучного інтелекту, крім Nvidia, хочуть підключитися до CUDA, їм потрібно надати власне програмне забезпечення для адаптації, але лише частину продуктивності CUDA, а ітерація оновлення відбувається повільніше. Фреймворки штучного інтелекту, такі як PyTorch, намагаються порушити екологічну монополію програмного забезпечення CUDA та надати більше програмних можливостей для підтримки графічних процесорів інших виробників, але це мало привабливість для розробників.
Спеціаліст зі штучного інтелекту сказав, що його компанія зв’язалася з виробником GPU не від NVIDIA, який запропонував нижчі ціни на чіпи та послуги, ніж Nvidia, і пообіцяв надати більш своєчасні послуги, але вони вирішили, що загальне навчання та розвиток з використанням інших GPU коштуватимуть бути вищим, ніж у Nvidia, і йому доведеться витримувати невизначеність результатів і займати більше часу.
«Хоч A100 дорогий, він насправді найдешевший у використанні», — сказав він. Для великих технологічних компаній і провідних стартапів, які мають намір скористатися можливістю великих моделей, гроші часто не є проблемою, а час є більш дорогоцінним ресурсом.
У короткостроковій перспективі єдиним, що впливає на продаж графічних процесорів Nvidia для центрів обробки даних, можуть бути виробничі потужності TSMC.
H100/800 — це техпроцес 4 нм, а A100/800 — техпроцес 7 нм Усі ці чотири чіпи виробляє TSMC. Згідно з повідомленнями китайсько-тайванських ЗМІ, цього року Nvidia додала до TSMC 10 000 нових замовлень на GPU центрів обробки даних і розмістила надтермінове замовлення, яке може скоротити час виробництва до 50%. Зазвичай TSMC займає кілька місяців, щоб виготовити A100. Нинішнє вузьке місце у виробництві в основному пов’язане з недостатньою виробничою потужністю вдосконаленої упаковки з розривом від 10 до 20 відсотків, для поступового збільшення якого знадобиться 3-6 місяців.
Оскільки графічні процесори, придатні для паралельних обчислень, були введені в глибоке навчання, протягом більше десяти років рушійною силою розробки штучного інтелекту було апаратне та програмне забезпечення, а перекриття обчислювальної потужності графічного процесора, моделей і алгоритмів просунулося вперед: розробка моделей стимулює обчислювальну потужність. попит, обчислювальна потужність зростає, це також робить можливим більш масштабне навчання, яке спочатку було важко здійснити.
Під час останньої хвилі буму глибокого навчання, представленого розпізнаванням зображень, можливості китайського програмного забезпечення зі штучним інтелектом можна порівняти з найсучаснішим рівнем у світі; обчислювальна потужність є нинішньою складністю – проектування та виробництво чіпів потребує більш тривалого накопичення, що включає довгий ланцюжок поставок і численні патенти бар'єр.
Велика модель є ще одним великим прогресом на рівні моделей і алгоритмів. Немає часу робити це повільно. Компанії, які хочуть створювати великі моделі або надавати можливості хмарних обчислень для великих моделей, повинні отримати достатню передову обчислювальну потужність якомога швидше. Битва за графічні процесори не припиниться, поки хвиля не підбадьорить або не розчарує перші компанії.
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Змагання за квитки ШІ: великі китайські компанії змагаються за графічні процесори
Джерело丨Later LatePost
Текст 丨Zhang Jiahao
У другій половині 2022 року, коли генеративний ШІ процвітає, a16z, відомий венчурний капітал у Кремнієвій долині, відвідав десятки стартапів ШІ та великих технологічних компаній. Вони виявили, що стартапи віддавали 80%-90% своїх ранніх фінансових коштів на платформи хмарних обчислень для навчання власних моделей. За їхніми оцінками, навіть якщо продукти цих компаній є зрілими, вони повинні віддавати 10%-20% свого доходу компаніям хмарних обчислень щороку. Це еквівалентно «податку на ШІ».
Це створило великий ринок для надання можливостей моделей і послуг навчання в хмарі, а також оренди обчислювальної потужності іншим клієнтам і стартапам. Тільки в Китаї принаймні десятки компаній-початківців, малих і середніх компаній створюють власні складні великі мовні моделі, і всі вони змушені орендувати графічні процесори з платформ хмарних обчислень. Згідно з підрахунками a16z, щорічні витрати компанії на обчислення зі штучним інтелектом перевищують лише 50 мільйонів доларів США, перш ніж вона досягне достатнього масштабу для підтримки серійної закупівлі графічних процесорів.
За даними «LatePost», після Фестивалю весни цього року всі великі інтернет-компанії Китаю, що пропонують послуги хмарних обчислень, розмістили великі замовлення в Nvidia. Цього року Byte замовила у Nvidia графічних процесорів на суму понад 1 мільярд доларів США, а інша велика компанія замовила щонайменше понад 1 мільярд юанів.
Один тільки Byte, можливо, розмістив замовлення цього року приблизно до загальної кількості комерційних графічних процесорів Nvidia, проданих у Китаї минулого року. У вересні минулого року, коли уряд США ввів обмеження на експорт A100 і H100 (останнього комерційного графічного процесора NVIDIA для центрів обробки даних двох поколінь), Nvidia відповіла, що це може вплинути на її 400 мільйонів доларів США (приблизно 2,8 мільярда юанів) на китайському ринку. у четвертому кварталі минулого року (юань) потенційні продажі. Виходячи з цього розрахунку, продажі графічних процесорів центрів обробки даних Nvidia в Китаї в 2022 році складуть близько 10 мільярдів юанів.
Порівняно із закордонними гігантами, великі технологічні компанії Китаю потребують більшої необхідності придбати графічні процесори. З огляду на скорочення витрат і підвищення ефективності за останні два роки, деякі платформи хмарних обчислень скоротили закупівлі графічних процесорів і мають недостатні резерви. Крім того, ніхто не може гарантувати, що високопродуктивний графічний процесор, який можна купити сьогодні, завтра потрапить під нові обмеження.
Від скорочення замовлень до додавання покупок під час внутрішнього переміщення
До початку цього року попит на графічні процесори з боку великих технологічних компаній Китаю був прохолодним.
Графічні процесори мають два основні призначення у великих китайських компаніях, що займаються інтернет-технологіями: одне – це внутрішня підтримка бізнесу та проведення деяких передових досліджень ШІ, а інше – продаж графічних процесорів на платформах хмарних обчислень.
Співробітник Byte розповів LatePost, що після того, як OpenAI випустив GPT-3 у червні 2020 року, Byte навчив велику модель генеративної мови з мільярдами параметрів. На той час використовувався в основному GPU попередник A100.V100. Через обмежений масштаб параметрів здатність генерації цієї моделі є середньою, і Byte не міг побачити можливість її комерціалізації на той час, «ROI (повернення інвестицій) не може бути розраховано», цього разу спроба була марною .
Алі також активно закуповував відеокарти в 2018-2019 роках. За даними хмарного джерела Alibaba, покупки Алі на той час досягли щонайменше десятків тисяч юанів, і придбані в основному моделі V100 і T4, випущені Nvidia раніше. Однак лише близько однієї десятої цих графічних процесорів було передано Академії DAMO для дослідження та розробки технології ШІ. Після випуску великої моделі M6 з трильйонами параметрів у 2021 році Dharma Academy розкрила, що для навчання M6 було використано 480 V100.
Більшість графічних процесорів, придбаних Alibaba на той час, були передані Alibaba Cloud у зовнішній лізинг. Однак група китайських хмарних компаній, включаючи Alibaba Cloud, переоцінила попит на штучний інтелект на китайському ринку. Технологічний інвестор сказав, що перед появою великомасштабних моделей обчислювальна потужність GPU у великих вітчизняних постачальників хмарних технологій не була дефіцитом, але вони хвилювалися щодо продажу, і постачальникам хмарних технологій навіть доводилося знижувати ціни, щоб продавати ресурси. Минулого року Alibaba Cloud знижувала ціни шість разів, а ціни на оренду GPU впали більш ніж на 20%.
У контексті скорочення витрат і підвищення ефективності, а також досягнення «зростання якості» та прибутку, розуміється, що Ali зменшив масштаби закупівель графічних процесорів після 2020 року, а Tencent також скоротив одну партію графічних процесорів Nvidia наприкінці минулого року. .
Однак незабаром, на початку 2022 року, ChatGPT змінив погляди всіх, і швидко було досягнуто консенсусу: велика модель — це велика можливість, яку не можна втрачати.
Засновники кожної компанії особисто приділяли пильну увагу прогресу великої моделі: Чжан Імін, засновник ByteDance, почав читати статті про штучний інтелект; Чжан Йонг, голова ради директорів Alibaba, очолив Alibaba Cloud і оголосив про прогрес великої моделі Alibaba на Alibaba Cloud Summit. , програмне забезпечення та послуги варто переробити на основі можливостей великої моделі».
Співробітник Byte сказав, що раніше, коли подавали заявку на купівлю графічних процесорів у Byte, необхідно було пояснити співвідношення витрат і випуску, пріоритет і важливість бізнесу. Але зараз масштабний модельний бізнес є новим бізнесом на стратегічному рівні компанії, і рентабельність інвестицій поки що неможливо розрахувати, і потрібно робити інвестиції.
Розробка власних великомасштабних моделей загального призначення — це лише перший крок. Більша мета кожної компанії — запустити хмарні сервіси, які надають можливості великомасштабних моделей. Це справді великий ринок, який може відповідати інвестиціям.
Хмарний сервіс Azure від Microsoft не має сильної присутності на ринку хмарних обчислень Китаю. Протягом десяти років він переважно обслуговував китайський бізнес транснаціональних компаній у Китаї. Але тепер клієнтам доводиться чекати в черзі, оскільки це єдиний хмарний брокер для комерціалізації OpenAI.
На хмарному саміті в квітні Алі ще раз підкреслив, що MaaS (модель як послуга) — це майбутній тренд хмарних обчислень.На додаток до відкритої та самостійно розробленої загальної базової моделі тесту «Tongyi Qianwen», він також випустив серію допомоги клієнтам у хмарі Інструменти для навчання та використання великих моделей. Незабаром після цього Tencent і Byte Volcano Engine також випустили власні нові версії навчальних кластерних служб. Tencent сказав, що за допомогою кластерів нового покоління для навчання великої моделі з трильйонами параметрів час можна стиснути до 4 днів; Byte сказав, що їхній новий кластер підтримує навчання великомасштабної моделі на рівні Wanka. Десятки великомасштабних моделей компаній у Китаї, більшість із яких уже використовують вулканічний двигун.
Усі ці платформи використовують або графічні процесори Nvidia A100 і H100, або спеціально випущені Nvidia скорочені версії A800 і H800 після заборони минулого року.Пропускна здатність цих двох процесорів становить приблизно 3/4 і приблизно половину вихідної версії, уникаючи високих критеріїв обмеження. для продуктивних графічних процесорів.
Навколо H800 і A800 великі технологічні компанії Китаю розпочали новий раунд конкуренції за замовлення.
Представник виробника хмарних технологій сказав, що такі великі компанії, як Byte і Ali, здебільшого ведуть переговори безпосередньо з оригінальним заводом Nvidia щодо закупівель, а агентам і ринкам вживаних товарів важко задовольнити їхні величезні потреби.
Nvidia домовиться про знижку на основі прейскурантної ціни та масштабу покупки. Згідно з офіційним веб-сайтом Nvidia, ціна A100 становить 10 000 доларів США за штуку (приблизно 71 000 юанів), а ціна H100 становить 36 000 доларів США за штуку (приблизно 257 000 юанів); розуміється, що ціна A800 і H800 трохи нижча. ніж оригінальна версія..
Чи зможе китайська компанія отримати картку, більше залежить від ділових стосунків, наприклад, чи була вона головним клієнтом Nvidia в минулому. «Це має значення, спілкуєтеся ви з Nvidia в Китаї чи їдете до Сполучених Штатів, щоб поговорити безпосередньо з Лао Хуангом (Хуан Реньсюнь, засновник і генеральний директор Nvidia)», — сказав представник хмарного постачальника.
Деякі компанії також будуть вести «ділову співпрацю» з Nvidia. Купуючи популярні графічні процесори для центрів обробки даних, вони також купують інші продукти, щоб прагнути до пріоритетних поставок. Це як дистрибуція Hermès.Якщо ви хочете купити популярну сумку, вам часто доводиться підбирати до неї одяг і взуття вартістю десятки тисяч юанів.
Виходячи з галузевої інформації, яку ми отримали, нові замовлення Byte цього року є відносно агресивними, перевищуючи рівень 1 мільярда доларів.
За словами людини, близької до Nvidia, загалом є 100 000 штук A100 і H800, які прибули і не прибули. Серед них H800 почав виробництво тільки в березні цього року, і ця частина чіпів повинна бути отримана від додаткових закупівель цього року. Зрозуміло, що з поточним графіком виробництва деякі H800 не будуть поставлені до кінця цього року.
ByteDance почав будувати власний дата-центр у 2017 році. Раніше центри обробки даних більше покладалися на процесори для всіх обчислень. До 2020 року Byte витрачав більше на процесори Intel, ніж на графічні процесори Nvidia. Зміни в купівлі байтів також вказують на те, що в обчислювальних потребах великих технологічних компаній сьогодні інтелектуальні обчислення наздоганяють загальні обчислення.
Відомо, що цього року велика інтернет-компанія розмістила в Nvidia замовлення щонайменше на 10 000 рівнів, орієнтовна вартість якого перевищує 1 мільярд юанів, виходячи з ціни каталогу.
Tencent оголосив про те, що використовує H800. Tencent Cloud вже використовував H800 у новій версії високопродуктивних обчислювальних служб, випущеній у березні цього року, заявивши, що це перший домашній запуск. В даний час ця послуга відкрита для корпоративних клієнтів для тестування додатків, що швидше, ніж прогрес більшості китайських компаній.
Зрозуміло, що в травні цього року Alibaba Cloud також запропонувала всередині країни прийняти «Битву за розумні обчислення» як битву номер один цього року та поставити три цілі: масштаб машини, масштаб споживача та масштаб доходу; серед них важливий показник масштаб машини - це кількість графічних процесорів.
Перед появою нового графічного процесора компанії також роблять внутрішні кроки, щоб віддати пріоритет підтримці розробки великих моделей.
Спосіб вивільнити більше ресурсів одночасно – це відрізати деякі менш важливі напрямки, або напрямки, де немає чіткої перспективи в короткостроковій перспективі. «Великі компанії мають багато напівмертвих підприємств, які займають ресурси», — сказав фахівець зі штучного інтелекту у великій інтернет-компанії.
У травні цього року Інститут Алі Дхарма скасував лабораторію автономного водіння: близько 1/3 з понад 300 співробітників було направлено до нової технічної групи, а решту звільнили. Інститут Дхарми більше не займається бізнесом автономного водіння. Розвиток автономного водіння також вимагає високопродуктивних графічних процесорів для навчання. Можливо, це налаштування не має прямого відношення до великої моделі, але воно дозволило Алі отримати партію «безкоштовних графічних процесорів».
Byte і Meituan напряму діляться графічним процесором від команди комерційних технологій, яка приносить компанії дохід від реклами.
За даними «LatePost», невдовзі після Весняного фестивалю цього року Byte розповсюдила партію A100, які спочатку планувалося додати до команди з комерціалізації технологій Byte, Чжу Веньцзя, голові технологічного відділу TikTok. Чжу Веньцзя очолює дослідження та розробку моделей великого розміру. Технічна команда з комерціалізації є основним бізнес-відділом, який підтримує алгоритм рекламних рекомендацій Douyin.
Meituan почав розробляти великі моделі приблизно в першому кварталі цього року. Зрозуміло, що Meituan нещодавно передав партію топової версії A100 80 ГБ відеопам’яті з кількох відділів, надаючи пріоритет постачанню великих моделей, щоб ці відділи могли перейти на графічні процесори з нижчою конфігурацією.
Bilibili, чиї фінансові ресурси набагато менші, ніж великі платформи, також має плани щодо великих моделей. Зрозуміло, що станція B раніше зарезервувала сотні графічних процесорів. Цього року, з одного боку, Bilibili продовжує закуповувати додаткові графічні процесори, а з іншого — також координує різні відділи, щоб рівномірно розподілити карти для великих моделей. "Деякі відділи дають 10 квитків, а деякі відділи дають 20 квитків", - сказала людина, близька до станції B.
Такі інтернет-компанії, як Byte, Meituan і Station B, як правило, мають деякі надлишкові ресурси GPU в технічних відділах, які спочатку підтримували пошук і рекомендації.
Однак кількість графічних процесорів, які можна отримати за допомогою цього методу демонтажу сходу та доповнення заходу, обмежена, а великі графічні процесори, необхідні для навчання великих моделей, все ще повинні покладатися на минулі накопичення кожної компанії та чекати прибуття нові графічні процесори.
Весь світ бореться за обчислювальну потужність
Гонка за графічні процесори центрів обробки даних Nvidia також відбувається по всьому світу. Однак закордонні гіганти придбали велику кількість графічних процесорів раніше, і обсяг закупівлі більший, а інвестиції в останні роки були відносно постійними.
У 2022 році Meta та Oracle вже вклали значні кошти в A100. Meta співпрацювала з Nvidia в січні минулого року для створення суперкомп’ютерного кластера RSC, який містить 16 000 A100. У листопаді того ж року Oracle оголосила про закупівлю десятків тисяч A100 і H100 для будівництва нового обчислювального центру. Зараз обчислювальний центр розгорнув понад 32 700 A100, і нові H100 були запущені один за одним.
Відколи Microsoft вперше інвестувала в OpenAI у 2019 році, вона надала OpenAI десятки тисяч графічних процесорів. У березні цього року Microsoft оголосила, що допомогла OpenAI створити новий обчислювальний центр, включаючи десятки тисяч A100. У травні цього року Google запустив Compute Engine A3, обчислювальний кластер із 26 000 H100, який обслуговує компанії, які хочуть навчати великі моделі самостійно.
Поточні дії та менталітет великих китайських компаній є більш актуальними, ніж дії закордонних гігантів. Візьмемо Baidu як приклад, цього року він розмістив десятки тисяч нових графічних процесорів у Nvidia. Порядок величини порівнянний з такими компаніями, як Google, хоча обсяг Baidu набагато менший.Її дохід минулого року склав 123,6 мільярда юанів, лише 6% доходу Google.
Зрозуміло, що Byte, Tencent, Ali і Baidu, чотири китайські технологічні компанії, які найбільше інвестували в ШІ та хмарні обчислення, накопичили десятки тисяч A100 у минулому. Серед них A100 має найбільшу абсолютну кількість байтів. Без урахування нових замовлень цього року загальна кількість Byte A100 і його попередника V100 наближається до 100 000.
Серед компаній, що розвиваються, цього року Shangtang також оголосила, що в її обчислювальному кластері «великих пристроїв зі штучним інтелектом» було розгорнуто загалом 27 000 GPU, включаючи 10 000 A100. Навіть Magic Square, кількісна інвестиційна компанія, яка, здається, не має нічого спільного з ШІ, купила 10 000 A100 раніше.
Дивлячись на загальну кількість, цих графічних процесорів, здається, більш ніж достатньо для компаній, щоб навчати великі моделі.Згідно з випадком на офіційному веб-сайті Nvidia, OpenAI використовував 10 000 V100 для навчання GPT-3 із 175 мільярдами параметрів.Для навчання GPT-3 , для 1 місяця навчання потрібно 1024 блоки A100.Порівняно з V100, A100 покращує продуктивність у 4,3 рази. Однак велика кількість графічних процесорів, придбаних великими китайськими компаніями в минулому, повинні підтримувати існуючий бізнес або продаватися на платформах хмарних обчислень і не можуть вільно використовуватися для розробки великомасштабних моделей і зовнішньої підтримки для потреб клієнтів у великомасштабних моделях.
Це також пояснює величезну різницю в оцінках обчислювальних ресурсів китайськими фахівцями зі штучного інтелекту. Чжан Яцінь, декан науково-дослідного інституту інтелектуальної промисловості Цінхуа, сказав на Форумі Цінхуа наприкінці квітня: «Якщо додати одну частину обчислювальної потужності Китаю, це еквівалентно 500 000 A100, і не проблема навчити п’ять моделей. «Інь Ці, генеральний директор компанії Megvii Technology, що займається штучним інтелектом, сказав в інтерв’ю Caixin: Китай наразі має лише близько 40 000 A100, які можна використовувати для навчання великомасштабних моделей.
Він в основному відображає капітальні витрати на інвестиції в основні засоби, такі як мікросхеми, сервери та центри обробки даних, і може інтуїтивно проілюструвати розрив порядку величини в обчислювальних ресурсах великих китайських та іноземних компаній.
Baidu, яка першою протестувала продукти, подібні до ChatGPT, має щорічні капітальні витрати від 800 до 2 мільярдів доларів США з 2020 року, Ali — від 6 до 8 мільярдів доларів США, а Tencent — від 7 до 11 мільярдів доларів США. . У той же період річні капіталовкладення Amazon, Meta, Google і Microsoft, чотирьох американських технологічних компаній, які самостійно побудували центри обробки даних, перевищили щонайменше 15 мільярдів доларів США.
Протягом трьох років епідемії капітальні витрати закордонних компаній продовжували зростати. Капітальні витрати Amazon минулого року досягли 58 мільярдів доларів США, Meta і Google – 31,4 мільярда доларів США, а Microsoft – близько 24 мільярдів доларів США. Інвестиції китайських компаній скорочуються після 2021 року. Капітальні витрати Tencent і Baidu минулого року впали більш ніж на 25% порівняно з минулим роком.
Going Faster OpenAI впорався з цим завданням. У середині травня генеральний директор OpenAI СамАльтман заявив під час невеликого спілкування з групою розробників, що через недостатню кількість графічних процесорів поточна служба API OpenAI недостатньо стабільна, а швидкість недостатньо висока. До появи нових графічних процесорів GPT- 4's multimodal. Можливості не можна розширити для кожного користувача, і вони не планують випускати нові споживчі продукти найближчим часом. Відповідно до звіту, опублікованого технічним консалтинговим агентством TrendForce у червні цього року, OpenAI потрібно близько 30 000 A100 для постійної оптимізації та комерціалізації ChatGPT.
Microsoft, яка тісно співпрацює з OpenAI, також стикається з подібною ситуацією: у травні цього року деякі користувачі скаржилися, що швидкість відповіді New Bing низька, і Microsoft відповіла, що це тому, що швидкість поповнення графічного процесора не витримала. зі зростанням кількості користувачів. Microsoft Office 365 Copilot, який має вбудовані можливості великомасштабної моделі, наразі не працює у великому масштабі.Останні дані свідчать про те, що понад 600 компаній випробовують його – загальна кількість користувачів Office 365 у всьому світі наближається до 300 мільйон.
Якщо велика китайська компанія прагне не лише навчити та випустити велику модель, але й справді хоче використовувати велику модель для створення продуктів, які обслуговуватимуть більше користувачів, і додатково підтримувати інших клієнтів у навчанні більших моделей у хмарі, їм потрібно резервуйте більше заздалегідь Кілька GPU.
**Чому тільки ці чотири картки? **
З точки зору навчання великої моделі штучного інтелекту, немає заміни для A100, H100 і скороченої версії A800 і H800, спеціально поставлених до Китаю. Згідно з кількісним хедж-фондом Khaveen Investments, у 2022 році частка ринку GPU центрів обробки даних Nvidia досягне 88%, а AMD і Intel поділять решту.
Поточна незамінність графічного процесора Nvidia походить від механізму навчання великих моделей. Його основними кроками є попереднє навчання та тонке налаштування. Перше полягає в тому, щоб закласти фундамент, який еквівалентний отриманню загальної освіти для закінчення університету. ; другий оптимізовано для конкретних сценаріїв і завдань для підвищення ефективності роботи.
Лінія попереднього навчання потребує особливо великих обчислень і має надзвичайно високі вимоги до продуктивності одного графічного процесора та можливості передачі даних між кількома картами.
Зараз тільки A100 і H100 можуть забезпечити обчислювальну ефективність, необхідну для попереднього навчання.Вони здаються дорогими, але це найдешевший варіант. Сьогодні ШІ все ще знаходиться на ранніх стадіях комерційного використання, і вартість безпосередньо впливає на доступність послуги.
Деякі моделі в минулому, такі як VGG16, які можуть розпізнавати котів як котів, мають лише 130 мільйонів параметрів.У той час деякі компанії використовували відеокарти споживчого класу серії RTX для ігор для запуску моделей ШІ. Шкала параметрів GPT-3, випущеного більше двох років тому, досягла 175 мільярдів.
Зважаючи на величезні вимоги до обчислень великих моделей, більше неможливо використовувати більше низькопродуктивних графічних процесорів для формування обчислювальної потужності. Оскільки при використанні кількох графічних процесорів для навчання необхідно передавати дані та синхронізувати інформацію про параметри між мікросхемами.У цей час деякі графічні процесори будуть простоювати і не можуть бути насиченими весь час. Таким чином, чим нижча продуктивність однієї картки, тим більше карток використовується і тим більша втрата обчислювальної потужності. Коли OpenAI використовує 10 000 V100 для навчання GPT-3, коефіцієнт використання обчислювальної потужності становить менше 50%.
A100 і H100 мають високу обчислювальну потужність однієї карти та високу пропускну здатність для покращення передачі даних між картами. FP32 A100 (що стосується 4-байтового кодування та обчислення пам’яті) має обчислювальну потужність 19,5 TFLOPS (1 TFLOPS означає один трильйон операцій з плаваючою комою в секунду), а обчислювальна потужність FP32 H100 становить 134 TFLOPS. Приблизно в 4 рази більше MI250.
A100 і H100 також забезпечують ефективні можливості передачі даних для мінімізації простою обчислювальної потужності. Ексклюзивні чіти від Nvidia – це технології комунікаційних протоколів, такі як NVLink і NVSwitch, які були запущені з 2014 року. NVLink четвертого покоління, який використовується на H100, може збільшити пропускну здатність двостороннього зв’язку графічних процесорів на одному сервері до 900 ГБ/с (900 ГБ даних на секунду), що в 7 разів більше, ніж у останнього покоління PCle (бал -до точки високошвидкісний послідовний стандарт передачі) багато.
Минулого року положення Міністерства торгівлі США щодо експорту графічних процесорів також застрягли на двох лініях обчислювальної потужності та пропускної здатності: верхня лінія обчислювальної потужності становила 4800 TOPS, а верхня лінія пропускної здатності становила 600 ГБ/с.
A800 і H800 мають таку ж обчислювальну потужність, як і оригінальна версія, але пропускна здатність знижена. Пропускна здатність A800 була зменшена з 600 ГБ/с у A100 до 400 ГБ/с Конкретні параметри H800 не розголошуються.За даними Bloomberg, його пропускна здатність становить лише приблизно половину від пропускної здатності H100 (900 ГБ/с). s). Виконуючи те саме завдання ШІ, H800 займе на 10%-30% більше часу, ніж H100. Інженер штучного інтелекту припустив, що тренувальний ефект H800 може бути не таким хорошим, як A100, але він дорожчий.
Незважаючи на це, продуктивність A800 і H800 все одно перевершує аналогічні продукти інших великих компаній і стартапів. Обмежені продуктивністю та більш спеціалізованою архітектурою, чіпи AI або чіпи GPU, запущені різними компаніями, зараз в основному використовуються для міркувань AI, що є складним для попереднього навчання великомасштабної моделі. Простіше кажучи, навчання штучному інтелекту полягає у створенні моделі, міркування штучного інтелекту полягає у використанні моделі, а навчання вимагає більшої продуктивності чіпа.
На додаток до розриву в продуктивності, глибшим ровом Nvidia є екологічність програмного забезпечення.
Ще в 2006 році Nvidia запустила обчислювальну платформу CUDA, яка є програмним механізмом паралельних обчислень.Розробники можуть використовувати CUDA для більш ефективного навчання штучного інтелекту та міркувань, а також ефективного використання обчислювальної потужності GPU. Сьогодні CUDA стала інфраструктурою штучного інтелекту, і на основі CUDA розробляються основні фреймворки штучного інтелекту, бібліотеки та інструменти.
Якщо графічні процесори та мікросхеми штучного інтелекту, крім Nvidia, хочуть підключитися до CUDA, їм потрібно надати власне програмне забезпечення для адаптації, але лише частину продуктивності CUDA, а ітерація оновлення відбувається повільніше. Фреймворки штучного інтелекту, такі як PyTorch, намагаються порушити екологічну монополію програмного забезпечення CUDA та надати більше програмних можливостей для підтримки графічних процесорів інших виробників, але це мало привабливість для розробників.
Спеціаліст зі штучного інтелекту сказав, що його компанія зв’язалася з виробником GPU не від NVIDIA, який запропонував нижчі ціни на чіпи та послуги, ніж Nvidia, і пообіцяв надати більш своєчасні послуги, але вони вирішили, що загальне навчання та розвиток з використанням інших GPU коштуватимуть бути вищим, ніж у Nvidia, і йому доведеться витримувати невизначеність результатів і займати більше часу.
«Хоч A100 дорогий, він насправді найдешевший у використанні», — сказав він. Для великих технологічних компаній і провідних стартапів, які мають намір скористатися можливістю великих моделей, гроші часто не є проблемою, а час є більш дорогоцінним ресурсом.
У короткостроковій перспективі єдиним, що впливає на продаж графічних процесорів Nvidia для центрів обробки даних, можуть бути виробничі потужності TSMC.
H100/800 — це техпроцес 4 нм, а A100/800 — техпроцес 7 нм Усі ці чотири чіпи виробляє TSMC. Згідно з повідомленнями китайсько-тайванських ЗМІ, цього року Nvidia додала до TSMC 10 000 нових замовлень на GPU центрів обробки даних і розмістила надтермінове замовлення, яке може скоротити час виробництва до 50%. Зазвичай TSMC займає кілька місяців, щоб виготовити A100. Нинішнє вузьке місце у виробництві в основному пов’язане з недостатньою виробничою потужністю вдосконаленої упаковки з розривом від 10 до 20 відсотків, для поступового збільшення якого знадобиться 3-6 місяців.
Оскільки графічні процесори, придатні для паралельних обчислень, були введені в глибоке навчання, протягом більше десяти років рушійною силою розробки штучного інтелекту було апаратне та програмне забезпечення, а перекриття обчислювальної потужності графічного процесора, моделей і алгоритмів просунулося вперед: розробка моделей стимулює обчислювальну потужність. попит, обчислювальна потужність зростає, це також робить можливим більш масштабне навчання, яке спочатку було важко здійснити.
Під час останньої хвилі буму глибокого навчання, представленого розпізнаванням зображень, можливості китайського програмного забезпечення зі штучним інтелектом можна порівняти з найсучаснішим рівнем у світі; обчислювальна потужність є нинішньою складністю – проектування та виробництво чіпів потребує більш тривалого накопичення, що включає довгий ланцюжок поставок і численні патенти бар'єр.
Велика модель є ще одним великим прогресом на рівні моделей і алгоритмів. Немає часу робити це повільно. Компанії, які хочуть створювати великі моделі або надавати можливості хмарних обчислень для великих моделей, повинні отримати достатню передову обчислювальну потужність якомога швидше. Битва за графічні процесори не припиниться, поки хвиля не підбадьорить або не розчарує перші компанії.