Seluruh dunia berebut daya komputasi, dan perusahaan besar China lebih mendesak.
Pada paruh kedua tahun 2022, saat AI generatif sedang booming, a16z, modal ventura terkenal di Silicon Valley, mengunjungi puluhan startup AI dan perusahaan teknologi besar. Mereka menemukan bahwa startup memberikan 80%-90% dari dana pembiayaan awal mereka ke platform cloud computing untuk melatih model mereka sendiri. Mereka memperkirakan bahwa meskipun produk perusahaan ini sudah matang, mereka harus memberikan 10%-20% dari pendapatan mereka ke perusahaan cloud computing setiap tahun. Ini setara dengan "pajak AI".
Ini telah menghasilkan pasar yang besar untuk menyediakan kemampuan model dan layanan pelatihan di cloud, dan menyewakan daya komputasi ke pelanggan lain dan perusahaan rintisan. Di Cina saja, setidaknya puluhan perusahaan pemula dan perusahaan kecil dan menengah membuat model bahasa besar mereka sendiri yang rumit, dan mereka semua harus menyewa GPU dari platform komputasi awan. Menurut perhitungan a16z, pengeluaran komputasi AI tahunan perusahaan hanya melebihi 50 juta dolar AS sebelum memiliki skala yang cukup untuk mendukung pembelian batch GPU.
Menurut "LatePost", setelah Festival Musim Semi tahun ini, semua perusahaan Internet besar di China dengan layanan komputasi awan telah melakukan pemesanan besar dengan Nvidia. Byte telah memesan lebih dari US$1 miliar GPU dari Nvidia tahun ini, dan perusahaan besar lainnya telah memesan setidaknya lebih dari 1 miliar yuan.
Byte sendiri mungkin telah memesan tahun ini mendekati jumlah total GPU komersial yang dijual Nvidia di China tahun lalu. Pada bulan September tahun lalu, ketika pemerintah A.S. mengeluarkan larangan ekspor A100 dan H100 (GPU komersial pusat data dua generasi terbaru NVIDIA), Nvidia menanggapi bahwa hal ini dapat memengaruhi US$400 juta (sekitar 2,8 miliar yuan) di pasar Tiongkok. pada kuartal keempat tahun lalu. RMB) potensi penjualan. Berdasarkan perhitungan ini, penjualan GPU pusat data Nvidia di China pada tahun 2022 akan menjadi sekitar 10 miliar yuan.
Dibandingkan dengan raksasa luar negeri, perusahaan teknologi besar China lebih mendesak untuk membeli GPU. Dalam pengurangan biaya dan peningkatan efisiensi dalam dua tahun terakhir, beberapa platform cloud computing telah mengurangi pembelian GPU dan memiliki cadangan yang tidak mencukupi. Selain itu, tidak ada yang bisa menjamin bahwa GPU performa tinggi yang bisa dibeli hari ini akan dikenakan pembatasan baru besok.
Dari memotong pesanan hingga menambahkan pembelian, sembari memindahkan secara internal
Sebelum awal tahun ini, permintaan GPU dari perusahaan teknologi besar China tidak terlalu tinggi.
GPU memiliki dua kegunaan utama di perusahaan teknologi Internet besar China: satu untuk mendukung bisnis secara internal dan melakukan penelitian AI mutakhir, dan yang lainnya adalah untuk menjual GPU pada platform komputasi awan.
Seseorang dari Byte mengatakan kepada "LatePost" bahwa setelah OpenAI merilis GPT-3 pada Juni 2020, Byte telah melatih model bahasa generatif besar dengan miliaran parameter. Pada saat itu, GPU yang paling banyak digunakan adalah pendahulu A100.V100. Karena skala parameter yang terbatas, kemampuan pembangkitan model ini rata-rata, dan Byte tidak dapat melihat kemungkinan komersialisasinya pada saat itu, "ROI (pengembalian investasi) tidak dapat dihitung", upaya kali ini sia-sia .
Ali juga aktif membeli GPU pada 2018-2019. Menurut sumber cloud Alibaba, pembelian Ali saat itu setidaknya mencapai puluhan ribu yuan, dan model yang dibeli sebagian besar adalah V100 dan T4 yang dirilis sebelumnya oleh Nvidia. Namun, hanya sekitar sepersepuluh dari GPU ini yang diberikan ke Akademi DAMO untuk penelitian dan pengembangan teknologi AI. Setelah rilis M6 model besar berparameter triliunan pada tahun 2021, Akademi Dharma mengungkapkan bahwa 480 V100 digunakan untuk melatih M6.
Lebih banyak GPU yang dibeli oleh Alibaba saat itu diberikan ke Alibaba Cloud untuk penyewaan eksternal. Namun, termasuk Alibaba Cloud, sekelompok perusahaan komputasi awan China telah melebih-lebihkan permintaan AI di pasar China. Seorang investor teknologi mengatakan bahwa sebelum munculnya model skala besar, daya komputasi GPU pada vendor cloud domestik utama tidak kekurangan pasokan, tetapi khawatir tentang penjualan, dan vendor cloud bahkan harus memotong harga untuk menjual sumber daya. Tahun lalu, Alibaba Cloud memotong harga sebanyak enam kali, dan harga sewa GPU turun lebih dari 20%.
Dalam konteks pengurangan biaya dan peningkatan efisiensi, serta mengejar "pertumbuhan kualitas" dan keuntungan, dapat dipahami bahwa Ali telah mengurangi skala pengadaan GPU setelah tahun 2020, dan Tencent juga memangkas satu batch GPU Nvidia pada akhir tahun lalu. .
Namun, tidak lama kemudian, di awal tahun 2022, ChatGPT mengubah pandangan semua orang, dan konsensus dengan cepat tercapai: model besar adalah peluang besar yang tidak boleh dilewatkan.
Pendiri masing-masing perusahaan memperhatikan kemajuan model besar secara langsung: Zhang Yiming, pendiri ByteDance, mulai membaca makalah kecerdasan buatan; Zhang Yong, ketua dewan direksi Alibaba, mengambil alih Alibaba Cloud dan mengumumkan kemajuan model besar Alibaba di Alibaba Cloud Summit. , perangkat lunak, dan layanan semuanya layak dilakukan ulang berdasarkan kemampuan model besar.”
Seseorang dari Byte mengatakan bahwa di masa lalu, saat mengajukan pembelian GPU dalam Byte, perlu dijelaskan rasio input-output, prioritas bisnis, dan kepentingan. Tetapi sekarang bisnis model skala besar adalah bisnis baru di tingkat strategis perusahaan, dan ROI untuk saat ini tidak dapat dihitung, dan investasi harus dilakukan.
Mengembangkan model skala besar tujuan umum mereka sendiri hanyalah langkah pertama. Tujuan yang lebih besar dari setiap perusahaan adalah meluncurkan layanan cloud yang menyediakan kemampuan model skala besar. Ini adalah pasar yang benar-benar besar yang dapat menandingi investasi.
Layanan cloud Microsoft Azure tidak memiliki kehadiran yang kuat di pasar komputasi awan China, terutama melayani bisnis perusahaan multinasional China di China selama sepuluh tahun. Tetapi sekarang pelanggan harus mengantri karena ini adalah satu-satunya broker cloud untuk komersialisasi OpenAI.
Pada KTT cloud pada bulan April, Ali sekali lagi menekankan bahwa MaaS (Model sebagai Layanan) adalah tren masa depan komputasi awan Selain uji model dasar umum terbuka dan dikembangkan sendiri "Tongyi Qianwen", ia juga merilis seri membantu pelanggan di cloud. Alat untuk melatih dan menggunakan model besar. Segera setelah itu, Tencent dan Byte Volcano Engine juga merilis versi baru layanan klaster pelatihan mereka. Tencent mengatakan bahwa menggunakan cluster generasi baru untuk melatih model besar dengan triliunan parameter, waktunya dapat dikompresi menjadi 4 hari; Byte mengatakan bahwa cluster baru mereka mendukung pelatihan model skala besar tingkat Wanka. Lusinan model skala besar perusahaan di Cina, kebanyakan sudah menggunakan mesin gunung berapi.
Semua platform ini menggunakan GPU Nvidia A100 dan H100, atau versi pengurangan A800 dan H800 yang diluncurkan khusus oleh Nvidia setelah pelarangan tahun lalu.Bandwidth kedua prosesor ini sekitar 3/4 dan sekitar setengah dari versi aslinya, menghindari kriteria Pembatasan tinggi untuk kinerja GPU.
Di sekitar H800 dan A800, perusahaan teknologi besar China telah memulai babak baru kompetisi pemesanan.
Seseorang dari produsen cloud mengatakan bahwa perusahaan besar seperti Byte dan Ali terutama bernegosiasi langsung dengan pabrik asli Nvidia untuk pengadaan, dan agen serta pasar barang bekas sulit untuk memenuhi kebutuhan besar mereka.
Nvidia akan menegosiasikan diskon berdasarkan daftar harga dan skala pembelian. Menurut situs resmi Nvidia, harga A100 adalah US$10.000 per buah (sekitar 71.000 yuan), dan harga H100 adalah US$36.000 per buah (sekitar 257.000 yuan); dapat dipahami bahwa harga A800 dan H800 sedikit lebih rendah dibanding versi aslinya. .
Apakah perusahaan Cina dapat mengambil kartu lebih bergantung pada hubungan bisnis, seperti apakah itu pelanggan utama Nvidia di masa lalu. "Ada perbedaan apakah Anda berbicara dengan Nvidia di China, atau pergi ke Amerika Serikat untuk berbicara langsung dengan Lao Huang (Huang Renxun, pendiri dan CEO Nvidia)." Seseorang dari vendor cloud berkata.
Beberapa perusahaan juga akan melakukan "kerjasama bisnis" dengan Nvidia.Saat membeli GPU pusat data populer, mereka juga membeli produk lain untuk mengupayakan pasokan prioritas. Ini seperti distro Hermès, jika ingin membeli tas yang populer seringkali harus dipadankan dengan baju dan sepatu seharga puluhan ribu yuan.
Berdasarkan informasi industri yang kami peroleh, pesanan baru Byte tahun ini relatif agresif, melebihi level $1 miliar.
Menurut orang dekat Nvidia, total ada 100.000 keping A100 dan H800 yang sudah sampai dan belum sampai. Diantaranya, H800 baru mulai berproduksi pada bulan Maret tahun ini, dan bagian chip ini harus berasal dari pembelian tambahan tahun ini. Dapat dipahami bahwa dengan jadwal produksi saat ini, beberapa H800 tidak akan dikirimkan hingga akhir tahun ini.
ByteDance mulai membangun pusat datanya sendiri pada tahun 2017. Pusat data biasanya lebih mengandalkan CPU untuk semua perhitungan. Hingga tahun 2020, Byte menghabiskan lebih banyak untuk CPU Intel daripada GPU Nvidia. Perubahan pembelian byte juga mencerminkan bahwa dalam kebutuhan komputasi perusahaan teknologi besar saat ini, komputasi cerdas mengejar komputasi umum.
Dapat dipahami bahwa perusahaan Internet besar setidaknya telah melakukan pemesanan 10.000 tingkat dengan Nvidia tahun ini, dengan perkiraan nilai lebih dari 1 miliar yuan berdasarkan harga katalog.
Tencent memimpin dalam mengumumkan bahwa mereka telah menggunakan H800. Tencent Cloud telah menggunakan H800 dalam versi baru layanan komputasi berkinerja tinggi yang dirilis pada bulan Maret tahun ini, dengan mengatakan bahwa ini adalah peluncuran domestik pertama. Saat ini, layanan ini telah dibuka untuk pelanggan perusahaan untuk pengujian aplikasi, yang lebih cepat dari kemajuan kebanyakan perusahaan China.
Dapat dipahami bahwa Alibaba Cloud juga mengusulkan secara internal pada bulan Mei tahun ini untuk mengambil "Smart Computing Battle" sebagai pertempuran nomor satu tahun ini, dan menetapkan tiga sasaran: skala mesin, skala pelanggan, dan skala pendapatan; di antaranya, indikator penting skala mesin adalah jumlah GPU.
Sebelum kedatangan GPU baru, perusahaan juga mengambil langkah internal untuk memprioritaskan mendukung pengembangan model besar.
Cara untuk melepaskan lebih banyak sumber daya sekaligus adalah dengan memotong beberapa arah yang kurang penting, atau arah di mana tidak ada prospek yang jelas dalam jangka pendek. "Perusahaan besar memiliki banyak bisnis setengah mati yang menempati sumber daya." Seorang praktisi AI di sebuah perusahaan Internet besar berkata.
Pada bulan Mei tahun ini, Institut Ali Dharma menghapus laboratorium mengemudi otonom: sekitar 1/3 dari lebih dari 300 karyawan ditugaskan ke tim teknis pemula, dan sisanya diberhentikan. Institut Dharma tidak lagi mempertahankan bisnis mengemudi otonom. Pengembangan berkendara otonom juga membutuhkan GPU berperforma tinggi untuk pelatihan. Penyesuaian ini mungkin tidak terkait langsung dengan model besar, tetapi hal itu memungkinkan Ali mendapatkan sekumpulan "GPU gratis".
Byte dan Meituan langsung berbagi GPU dari tim teknologi komersial yang menghasilkan pendapatan iklan bagi perusahaan.
Menurut "LatePost", tak lama setelah Festival Musim Semi tahun ini, Byte mendistribusikan batch A100 yang awalnya direncanakan untuk ditambahkan ke tim teknologi komersialisasi Byte kepada Zhu Wenjia, kepala teknologi produk TikTok. Zhu Wenjia memimpin penelitian dan pengembangan model byte besar. Tim teknis komersialisasi adalah departemen bisnis inti yang mendukung algoritme rekomendasi iklan Douyin.
Meituan mulai mengembangkan model besar sekitar kuartal pertama tahun ini. Dapat dipahami bahwa Meituan baru-baru ini mentransfer sejumlah memori video 80G versi teratas A100 dari berbagai departemen, memberikan prioritas untuk memasok model besar, sehingga departemen ini dapat beralih ke GPU dengan konfigurasi yang lebih rendah.
Bilibili, yang sumber keuangannya jauh lebih sedikit daripada platform besar, juga memiliki rencana untuk model besar. Dapat dipahami bahwa Stasiun B sebelumnya telah memesan ratusan GPU. Tahun ini, di satu sisi, Bilibili terus membeli GPU tambahan, dan di sisi lain, juga mengoordinasikan berbagai departemen untuk mendistribusikan kartu secara merata ke model-model besar. “Beberapa departemen memberikan 10 tiket, dan beberapa departemen memberikan 20 tiket.” Kata seseorang yang dekat dengan Stasiun B.
Perusahaan internet seperti Byte, Meituan, dan Station B umumnya memiliki beberapa sumber daya GPU yang berlebihan di departemen teknis yang awalnya mendukung pencarian dan rekomendasi.keluar".
Namun, jumlah GPU yang dapat diperoleh dengan metode membongkar timur dan melengkapi barat ini terbatas, dan GPU besar yang dibutuhkan untuk melatih model besar masih harus bergantung pada akumulasi masa lalu masing-masing perusahaan dan menunggu kedatangan perusahaan. GPU baru.
Seluruh dunia berebut daya komputasi
Perlombaan untuk GPU pusat data Nvidia juga terjadi di seluruh dunia. Namun, raksasa luar negeri membeli GPU dalam jumlah besar sebelumnya, dan volume pembelian lebih besar, dan investasi dalam beberapa tahun terakhir relatif berkelanjutan.
Pada tahun 2022, Meta dan Oracle telah banyak berinvestasi di A100. Meta bermitra dengan Nvidia untuk membangun kluster superkomputer RSC Januari lalu, yang berisi 16.000 A100. Pada bulan November tahun yang sama, Oracle mengumumkan pembelian puluhan ribu A100 dan H100 untuk membangun pusat komputasi baru. Sekarang pusat komputasi telah menggunakan lebih dari 32.700 A100, dan H100 baru telah diluncurkan satu demi satu.
Sejak Microsoft pertama kali berinvestasi di OpenAI pada tahun 2019, Microsoft telah menyediakan puluhan ribu GPU untuk OpenAI. Pada bulan Maret tahun ini, Microsoft mengumumkan telah membantu OpenAI membangun pusat komputasi baru, termasuk puluhan ribu A100. Pada bulan Mei tahun ini, Google meluncurkan Compute Engine A3, sebuah cluster komputasi dengan 26.000 H100, melayani perusahaan yang ingin melatih sendiri model besar.
Tindakan dan mentalitas perusahaan besar China saat ini lebih mendesak daripada raksasa luar negeri. Mengambil Baidu sebagai contoh, menempatkan puluhan ribu pesanan GPU baru dengan Nvidia tahun ini. Urutan besarnya sebanding dengan perusahaan seperti Google, meskipun volume Baidu jauh lebih kecil Pendapatannya tahun lalu adalah 123,6 miliar yuan, hanya 6% dari Google.
Dapat dipahami bahwa Byte, Tencent, Ali, dan Baidu, empat perusahaan teknologi China yang paling banyak berinvestasi dalam AI dan komputasi awan, telah mengumpulkan puluhan ribu A100 di masa lalu. Di antara mereka, A100 memiliki jumlah byte paling absolut. Tidak termasuk pesanan baru tahun ini, jumlah total Byte A100 dan pendahulunya V100 mendekati 100.000.
Di antara perusahaan yang berkembang, Shangtang juga mengumumkan tahun ini bahwa total 27.000 GPU telah digunakan dalam cluster komputasi "perangkat besar AI", termasuk 10.000 A100. Bahkan Magic Square, sebuah perusahaan investasi kuantitatif yang tampaknya tidak ada hubungannya dengan AI, membeli 10.000 A100 sebelumnya.
Jika dilihat dari jumlah totalnya, GPU ini sepertinya sudah lebih dari cukup bagi perusahaan untuk melatih model besar.Menurut kasus di situs resmi Nvidia, OpenAI menggunakan 10.000 V100 saat melatih GPT-3 dengan 175 miliar parameter. Untuk melatih GPT-3 , Dibutuhkan 1024 blok A100 untuk pelatihan 1 bulan Dibandingkan dengan V100, A100 memiliki peningkatan kinerja 4,3 kali lipat. Namun, sejumlah besar GPU yang dibeli oleh perusahaan besar China di masa lalu harus mendukung bisnis yang sudah ada atau dijual di platform komputasi awan, dan tidak dapat digunakan secara bebas untuk pengembangan model skala besar dan dukungan eksternal untuk kebutuhan model skala besar pelanggan.
Ini juga menjelaskan perbedaan besar dalam estimasi sumber daya komputasi oleh praktisi AI China. Zhang Yaqin, Dekan Institut Penelitian Industri Cerdas Tsinghua, mengatakan di Forum Tsinghua pada akhir April, "Jika satu bagian dari daya komputasi China ditambahkan, itu setara dengan 500.000 A100, dan tidak masalah untuk melatih lima model. " Yin Qi, CEO perusahaan AI Megvii Technology, menerima "Caixin" mengatakan dalam sebuah wawancara: China saat ini hanya memiliki total sekitar 40.000 A100 yang dapat digunakan untuk pelatihan model skala besar.
Ini terutama mencerminkan pengeluaran modal untuk investasi dalam aset tetap seperti chip, server, dan pusat data, dan secara intuitif dapat menggambarkan urutan besarnya kesenjangan dalam sumber daya komputasi perusahaan besar China dan asing.
Baidu, yang pertama menguji produk mirip ChatGPT, memiliki belanja modal tahunan antara US$800 juta dan US$2 miliar sejak 2020, Ali antara US$6 miliar dan US$8 miliar, dan Tencent antara US$7 miliar dan US$11 miliar . Selama periode yang sama, belanja modal tahunan Amazon, Meta, Google, dan Microsoft, empat perusahaan teknologi Amerika dengan pusat data yang dibangun sendiri, semuanya setidaknya melebihi US$15 miliar.
Selama tiga tahun epidemi, belanja modal perusahaan di luar negeri terus meningkat. Belanja modal Amazon tahun lalu mencapai 58 miliar dolar AS, Meta dan Google sama-sama 31,4 miliar dolar AS, dan Microsoft mendekati 24 miliar dolar AS. Investasi oleh perusahaan China menyusut setelah 2021. Belanja modal Tencent dan Baidu keduanya turun lebih dari 25% tahun-ke-tahun tahun lalu.
GPU untuk pelatihan model besar tidak lagi mencukupi.Jika perusahaan China benar-benar ingin berinvestasi dalam model besar untuk waktu yang lama dan mendapatkan uang untuk "menjual sekop" untuk kebutuhan model lain, mereka perlu terus meningkatkan sumber daya GPU di masa mendatang.
Menjadi Lebih Cepat OpenAI telah memenuhi tantangan ini. Pada pertengahan Mei, CEO OpenAI SamAltman mengatakan dalam komunikasi skala kecil dengan sekelompok pengembang bahwa karena GPU yang tidak mencukupi, layanan API OpenAI saat ini tidak cukup stabil dan kecepatannya tidak cukup cepat Sebelum ada lebih banyak GPU, GPT- 4 multimodal Kemampuan tidak dapat diperluas ke setiap pengguna, dan mereka tidak berencana untuk merilis produk konsumen baru dalam waktu dekat. Menurut laporan yang dirilis oleh badan konsultan teknis TrendForce pada bulan Juni tahun ini, OpenAI membutuhkan sekitar 30.000 A100 untuk terus mengoptimalkan dan mengkomersialkan ChatGPT.
Microsoft, yang memiliki kerja sama yang mendalam dengan OpenAI, juga menghadapi situasi serupa: Pada bulan Mei tahun ini, beberapa pengguna mengeluh bahwa kecepatan jawab Bing Baru lambat, dan Microsoft menjawab bahwa ini karena kecepatan pengisian ulang GPU tidak dapat mengimbangi dengan tingkat pertumbuhan pengguna. Microsoft Office 365 Copilot, yang disematkan dengan kemampuan model skala besar, saat ini tidak dibuka dalam skala besar.Angka terbaru adalah lebih dari 600 perusahaan mencobanya-jumlah total pengguna Office 365 di seluruh dunia mendekati 300 juta.
Jika sebuah perusahaan besar China tidak hanya bertujuan untuk melatih dan merilis model besar, tetapi benar-benar ingin menggunakan model besar untuk membuat produk yang melayani lebih banyak pengguna, dan selanjutnya mendukung pelanggan lain untuk melatih lebih banyak model besar di cloud, mereka perlu melakukannya pesan lebih banyak di muka Beberapa GPU.
**Mengapa hanya keempat kartu itu saja? **
Dalam hal pelatihan model besar AI, tidak ada pengganti untuk A100, H100 dan versi yang lebih kecil A800 dan H800 yang dipasok khusus ke China. Menurut dana lindung nilai kuantitatif Khaveen Investments, pangsa pasar GPU pusat data Nvidia akan mencapai 88% pada tahun 2022, dan AMD serta Intel akan membagi sisanya.
Pada konferensi GTC tahun 2020, Huang Renxun melakukan debutnya dengan A100.
GPU Nvidia yang tak tergantikan saat ini berasal dari mekanisme pelatihan model besar. Langkah intinya adalah pra-pelatihan dan penyempurnaan. Yang pertama adalah meletakkan dasar, yang setara dengan menerima pendidikan umum untuk lulus dari universitas. ; yang terakhir dioptimalkan untuk skenario dan tugas tertentu untuk meningkatkan performa kerja.
Tautan pra-pelatihan sangat intensif secara komputasi, dan memiliki persyaratan yang sangat tinggi pada kinerja GPU tunggal dan kemampuan transmisi data antara banyak kartu.
Sekarang hanya A100 dan H100 yang dapat memberikan efisiensi komputasi yang diperlukan untuk pra-pelatihan. Kelihatannya mahal, tetapi merupakan opsi termurah. Saat ini, AI masih dalam tahap awal penggunaan komersial, dan biaya secara langsung memengaruhi ketersediaan layanan.
Beberapa model di masa lalu, seperti VGG16, yang dapat mengenali kucing sebagai kucing, hanya memiliki 130 juta parameter.Saat itu, beberapa perusahaan akan menggunakan kartu grafis kelas konsumen seri RTX untuk bermain game hingga menjalankan model AI. Skala parameter GPT-3 yang dirilis lebih dari dua tahun lalu telah mencapai 175 miliar.
Di bawah persyaratan komputasi yang sangat besar dari model besar, tidak mungkin lagi menggunakan lebih banyak GPU berperforma rendah untuk membentuk daya komputasi. Karena saat menggunakan banyak GPU untuk pelatihan, perlu untuk mengirimkan data dan menyinkronkan informasi parameter antar chip.Pada saat ini, beberapa GPU akan diam dan tidak dapat diisi sepanjang waktu. Oleh karena itu, semakin rendah kinerja satu kartu, semakin banyak kartu yang digunakan, dan semakin besar kehilangan daya komputasi. Saat OpenAI menggunakan 10.000 V100 untuk melatih GPT-3, tingkat pemanfaatan daya komputasi kurang dari 50%.
A100 dan H100 memiliki daya komputasi yang tinggi dari satu kartu dan bandwidth yang tinggi untuk meningkatkan transmisi data antar kartu. FP32 A100 (mengacu pada pengkodean 4-byte dan perhitungan penyimpanan) memiliki daya komputasi 19,5 TFLOPS (1 TFLOPS berarti satu triliun operasi floating-point per detik), dan daya komputasi FP32 H100 setinggi 134 TFLOPS. Sekitar 4 kali lipatnya dari MI250.
A100 dan H100 juga menyediakan kemampuan transmisi data yang efisien untuk meminimalkan daya komputasi yang menganggur. Cheat eksklusif Nvidia adalah teknologi protokol komunikasi seperti NVLink dan NVSwitch yang telah diluncurkan sejak 2014. NVLink generasi keempat yang digunakan pada H100 dapat meningkatkan bandwidth komunikasi dua arah GPU dalam server yang sama hingga 900 GB/dtk (data 900 GB per detik), yang berarti 7 kali lipat dari PCle generasi terbaru (titik -to-point standar transmisi serial berkecepatan tinggi) banyak.
Tahun lalu, peraturan Departemen Perdagangan A.S. tentang ekspor GPU juga terhenti pada dua jalur daya komputasi dan bandwidth: daya komputasi lini atas adalah 4800 TOPS, dan bandwidth lini atas adalah 600 GB/dtk.
A800 dan H800 memiliki daya komputasi yang sama dengan versi aslinya, tetapi bandwidth didiskon. Bandwidth A800 telah dikurangi dari 600GB/s pada A100 menjadi 400GB/s. Parameter spesifik dari H800 belum diungkapkan. Menurut Bloomberg, bandwidthnya hanya sekitar setengah dari H100 (900 GB/s ).Saat melakukan tugas AI yang sama, H800 akan Membutuhkan waktu 10%-30% lebih lama dari H100. Seorang insinyur AI berspekulasi bahwa efek pelatihan H800 mungkin tidak sebagus A100, tetapi harganya lebih mahal.
Meski begitu, performa A800 dan H800 masih mengungguli produk sejenis dari perusahaan besar dan startup lainnya. Dibatasi oleh kinerja dan arsitektur yang lebih berdedikasi, chip AI atau chip GPU yang diluncurkan oleh berbagai perusahaan sekarang terutama digunakan untuk penalaran AI, yang sulit untuk pra-pelatihan model skala besar. Sederhananya, pelatihan AI adalah membuat model, penalaran AI adalah menggunakan model, dan pelatihan membutuhkan kinerja chip yang lebih tinggi.
Selain kesenjangan kinerja, parit yang lebih dalam dari Nvidia adalah ekologi perangkat lunak.
Pada awal tahun 2006, Nvidia meluncurkan platform komputasi CUDA, yang merupakan mesin perangkat lunak komputasi paralel. Pengembang dapat menggunakan CUDA untuk melakukan pelatihan dan penalaran AI secara lebih efisien dan memanfaatkan daya komputasi GPU dengan baik. CUDA telah menjadi infrastruktur AI saat ini, dan kerangka kerja, pustaka, dan alat AI arus utama semuanya dikembangkan berdasarkan CUDA.
Jika GPU dan chip AI selain Nvidia ingin terhubung ke CUDA, mereka perlu menyediakan perangkat lunak adaptasinya sendiri, tetapi hanya sebagian dari kinerja CUDA, dan iterasi pembaruan lebih lambat. Kerangka kerja AI seperti PyTorch mencoba untuk mematahkan monopoli ekologi perangkat lunak CUDA dan memberikan lebih banyak kemampuan perangkat lunak untuk mendukung GPU pabrikan lain, tetapi daya tarik ini terbatas bagi pengembang.
Seorang praktisi AI mengatakan bahwa perusahaannya telah menghubungi produsen GPU non-NVIDIA, yang menawarkan harga chip dan layanan yang lebih rendah daripada Nvidia, dan berjanji untuk memberikan layanan yang lebih tepat waktu, tetapi mereka menilai bahwa keseluruhan pelatihan dan pengembangan menggunakan GPU lain akan memakan biaya. lebih tinggi dari Nvidia, dan itu harus menanggung ketidakpastian hasil dan membutuhkan lebih banyak waktu.
“Meski A100 mahal, tapi sebenarnya paling murah untuk digunakan,” ujarnya. Untuk perusahaan teknologi besar dan perusahaan rintisan terkemuka yang berniat memanfaatkan peluang model besar, uang seringkali bukan masalah, dan waktu adalah sumber daya yang lebih berharga.
Dalam jangka pendek, satu-satunya hal yang mempengaruhi penjualan GPU pusat data Nvidia mungkin adalah kapasitas produksi TSMC.
H100/800 adalah proses 4 nm, dan A100/800 adalah proses 7 nm.Keempat chip ini semuanya diproduksi oleh TSMC. Menurut laporan media China Taiwan, Nvidia telah menambahkan 10.000 pesanan GPU pusat data baru ke TSMC tahun ini, dan telah melakukan pemesanan super mendesak, yang dapat mempersingkat waktu produksi hingga 50%. Biasanya, TSMC membutuhkan waktu beberapa bulan untuk memproduksi A100. Kemacetan produksi saat ini terutama disebabkan oleh kapasitas produksi kemasan lanjutan yang tidak mencukupi, dengan selisih 10 hingga 20 persen, yang akan memakan waktu 3-6 bulan untuk meningkat secara bertahap.
Sejak GPU yang cocok untuk komputasi paralel diperkenalkan ke pembelajaran mendalam, selama lebih dari sepuluh tahun, kekuatan pendorong pengembangan AI adalah perangkat keras dan perangkat lunak, dan tumpang tindih daya komputasi GPU serta model dan algoritme telah bergerak maju: pengembangan model mendorong daya komputasi permintaan; kekuatan komputasi tumbuh, Ini juga membuat pelatihan skala besar yang awalnya sulit dicapai menjadi mungkin.
Dalam gelombang terakhir ledakan pembelajaran mendalam yang diwakili oleh pengenalan gambar, kemampuan perangkat lunak AI China sebanding dengan tingkat paling mutakhir di dunia; daya komputasi adalah kesulitan saat ini - merancang dan membuat chip membutuhkan akumulasi yang lebih lama, melibatkan rantai pasokan yang panjang dan banyak penghalang paten.
Model besar adalah kemajuan besar lainnya dalam lapisan model dan algoritme. Tidak ada waktu untuk memperlambatnya. Perusahaan yang ingin membangun model besar atau menyediakan kemampuan komputasi awan untuk model besar harus memperoleh daya komputasi tingkat lanjut yang cukup sesegera mungkin. Pertempuran untuk GPU tidak akan berhenti sampai gelombang bersorak atau mengecewakan perusahaan pertama.
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Bersaing untuk Tiket AI: Perusahaan Besar Cina Bersaing untuk GPU
Sumber 丨 Nanti LatePost
Teks丨Zhang Jiahao
Pada paruh kedua tahun 2022, saat AI generatif sedang booming, a16z, modal ventura terkenal di Silicon Valley, mengunjungi puluhan startup AI dan perusahaan teknologi besar. Mereka menemukan bahwa startup memberikan 80%-90% dari dana pembiayaan awal mereka ke platform cloud computing untuk melatih model mereka sendiri. Mereka memperkirakan bahwa meskipun produk perusahaan ini sudah matang, mereka harus memberikan 10%-20% dari pendapatan mereka ke perusahaan cloud computing setiap tahun. Ini setara dengan "pajak AI".
Ini telah menghasilkan pasar yang besar untuk menyediakan kemampuan model dan layanan pelatihan di cloud, dan menyewakan daya komputasi ke pelanggan lain dan perusahaan rintisan. Di Cina saja, setidaknya puluhan perusahaan pemula dan perusahaan kecil dan menengah membuat model bahasa besar mereka sendiri yang rumit, dan mereka semua harus menyewa GPU dari platform komputasi awan. Menurut perhitungan a16z, pengeluaran komputasi AI tahunan perusahaan hanya melebihi 50 juta dolar AS sebelum memiliki skala yang cukup untuk mendukung pembelian batch GPU.
Menurut "LatePost", setelah Festival Musim Semi tahun ini, semua perusahaan Internet besar di China dengan layanan komputasi awan telah melakukan pemesanan besar dengan Nvidia. Byte telah memesan lebih dari US$1 miliar GPU dari Nvidia tahun ini, dan perusahaan besar lainnya telah memesan setidaknya lebih dari 1 miliar yuan.
Byte sendiri mungkin telah memesan tahun ini mendekati jumlah total GPU komersial yang dijual Nvidia di China tahun lalu. Pada bulan September tahun lalu, ketika pemerintah A.S. mengeluarkan larangan ekspor A100 dan H100 (GPU komersial pusat data dua generasi terbaru NVIDIA), Nvidia menanggapi bahwa hal ini dapat memengaruhi US$400 juta (sekitar 2,8 miliar yuan) di pasar Tiongkok. pada kuartal keempat tahun lalu. RMB) potensi penjualan. Berdasarkan perhitungan ini, penjualan GPU pusat data Nvidia di China pada tahun 2022 akan menjadi sekitar 10 miliar yuan.
Dibandingkan dengan raksasa luar negeri, perusahaan teknologi besar China lebih mendesak untuk membeli GPU. Dalam pengurangan biaya dan peningkatan efisiensi dalam dua tahun terakhir, beberapa platform cloud computing telah mengurangi pembelian GPU dan memiliki cadangan yang tidak mencukupi. Selain itu, tidak ada yang bisa menjamin bahwa GPU performa tinggi yang bisa dibeli hari ini akan dikenakan pembatasan baru besok.
Dari memotong pesanan hingga menambahkan pembelian, sembari memindahkan secara internal
Sebelum awal tahun ini, permintaan GPU dari perusahaan teknologi besar China tidak terlalu tinggi.
GPU memiliki dua kegunaan utama di perusahaan teknologi Internet besar China: satu untuk mendukung bisnis secara internal dan melakukan penelitian AI mutakhir, dan yang lainnya adalah untuk menjual GPU pada platform komputasi awan.
Seseorang dari Byte mengatakan kepada "LatePost" bahwa setelah OpenAI merilis GPT-3 pada Juni 2020, Byte telah melatih model bahasa generatif besar dengan miliaran parameter. Pada saat itu, GPU yang paling banyak digunakan adalah pendahulu A100.V100. Karena skala parameter yang terbatas, kemampuan pembangkitan model ini rata-rata, dan Byte tidak dapat melihat kemungkinan komersialisasinya pada saat itu, "ROI (pengembalian investasi) tidak dapat dihitung", upaya kali ini sia-sia .
Ali juga aktif membeli GPU pada 2018-2019. Menurut sumber cloud Alibaba, pembelian Ali saat itu setidaknya mencapai puluhan ribu yuan, dan model yang dibeli sebagian besar adalah V100 dan T4 yang dirilis sebelumnya oleh Nvidia. Namun, hanya sekitar sepersepuluh dari GPU ini yang diberikan ke Akademi DAMO untuk penelitian dan pengembangan teknologi AI. Setelah rilis M6 model besar berparameter triliunan pada tahun 2021, Akademi Dharma mengungkapkan bahwa 480 V100 digunakan untuk melatih M6.
Lebih banyak GPU yang dibeli oleh Alibaba saat itu diberikan ke Alibaba Cloud untuk penyewaan eksternal. Namun, termasuk Alibaba Cloud, sekelompok perusahaan komputasi awan China telah melebih-lebihkan permintaan AI di pasar China. Seorang investor teknologi mengatakan bahwa sebelum munculnya model skala besar, daya komputasi GPU pada vendor cloud domestik utama tidak kekurangan pasokan, tetapi khawatir tentang penjualan, dan vendor cloud bahkan harus memotong harga untuk menjual sumber daya. Tahun lalu, Alibaba Cloud memotong harga sebanyak enam kali, dan harga sewa GPU turun lebih dari 20%.
Dalam konteks pengurangan biaya dan peningkatan efisiensi, serta mengejar "pertumbuhan kualitas" dan keuntungan, dapat dipahami bahwa Ali telah mengurangi skala pengadaan GPU setelah tahun 2020, dan Tencent juga memangkas satu batch GPU Nvidia pada akhir tahun lalu. .
Namun, tidak lama kemudian, di awal tahun 2022, ChatGPT mengubah pandangan semua orang, dan konsensus dengan cepat tercapai: model besar adalah peluang besar yang tidak boleh dilewatkan.
Pendiri masing-masing perusahaan memperhatikan kemajuan model besar secara langsung: Zhang Yiming, pendiri ByteDance, mulai membaca makalah kecerdasan buatan; Zhang Yong, ketua dewan direksi Alibaba, mengambil alih Alibaba Cloud dan mengumumkan kemajuan model besar Alibaba di Alibaba Cloud Summit. , perangkat lunak, dan layanan semuanya layak dilakukan ulang berdasarkan kemampuan model besar.”
Seseorang dari Byte mengatakan bahwa di masa lalu, saat mengajukan pembelian GPU dalam Byte, perlu dijelaskan rasio input-output, prioritas bisnis, dan kepentingan. Tetapi sekarang bisnis model skala besar adalah bisnis baru di tingkat strategis perusahaan, dan ROI untuk saat ini tidak dapat dihitung, dan investasi harus dilakukan.
Mengembangkan model skala besar tujuan umum mereka sendiri hanyalah langkah pertama. Tujuan yang lebih besar dari setiap perusahaan adalah meluncurkan layanan cloud yang menyediakan kemampuan model skala besar. Ini adalah pasar yang benar-benar besar yang dapat menandingi investasi.
Layanan cloud Microsoft Azure tidak memiliki kehadiran yang kuat di pasar komputasi awan China, terutama melayani bisnis perusahaan multinasional China di China selama sepuluh tahun. Tetapi sekarang pelanggan harus mengantri karena ini adalah satu-satunya broker cloud untuk komersialisasi OpenAI.
Pada KTT cloud pada bulan April, Ali sekali lagi menekankan bahwa MaaS (Model sebagai Layanan) adalah tren masa depan komputasi awan Selain uji model dasar umum terbuka dan dikembangkan sendiri "Tongyi Qianwen", ia juga merilis seri membantu pelanggan di cloud. Alat untuk melatih dan menggunakan model besar. Segera setelah itu, Tencent dan Byte Volcano Engine juga merilis versi baru layanan klaster pelatihan mereka. Tencent mengatakan bahwa menggunakan cluster generasi baru untuk melatih model besar dengan triliunan parameter, waktunya dapat dikompresi menjadi 4 hari; Byte mengatakan bahwa cluster baru mereka mendukung pelatihan model skala besar tingkat Wanka. Lusinan model skala besar perusahaan di Cina, kebanyakan sudah menggunakan mesin gunung berapi.
Semua platform ini menggunakan GPU Nvidia A100 dan H100, atau versi pengurangan A800 dan H800 yang diluncurkan khusus oleh Nvidia setelah pelarangan tahun lalu.Bandwidth kedua prosesor ini sekitar 3/4 dan sekitar setengah dari versi aslinya, menghindari kriteria Pembatasan tinggi untuk kinerja GPU.
Di sekitar H800 dan A800, perusahaan teknologi besar China telah memulai babak baru kompetisi pemesanan.
Seseorang dari produsen cloud mengatakan bahwa perusahaan besar seperti Byte dan Ali terutama bernegosiasi langsung dengan pabrik asli Nvidia untuk pengadaan, dan agen serta pasar barang bekas sulit untuk memenuhi kebutuhan besar mereka.
Nvidia akan menegosiasikan diskon berdasarkan daftar harga dan skala pembelian. Menurut situs resmi Nvidia, harga A100 adalah US$10.000 per buah (sekitar 71.000 yuan), dan harga H100 adalah US$36.000 per buah (sekitar 257.000 yuan); dapat dipahami bahwa harga A800 dan H800 sedikit lebih rendah dibanding versi aslinya. .
Apakah perusahaan Cina dapat mengambil kartu lebih bergantung pada hubungan bisnis, seperti apakah itu pelanggan utama Nvidia di masa lalu. "Ada perbedaan apakah Anda berbicara dengan Nvidia di China, atau pergi ke Amerika Serikat untuk berbicara langsung dengan Lao Huang (Huang Renxun, pendiri dan CEO Nvidia)." Seseorang dari vendor cloud berkata.
Beberapa perusahaan juga akan melakukan "kerjasama bisnis" dengan Nvidia.Saat membeli GPU pusat data populer, mereka juga membeli produk lain untuk mengupayakan pasokan prioritas. Ini seperti distro Hermès, jika ingin membeli tas yang populer seringkali harus dipadankan dengan baju dan sepatu seharga puluhan ribu yuan.
Berdasarkan informasi industri yang kami peroleh, pesanan baru Byte tahun ini relatif agresif, melebihi level $1 miliar.
Menurut orang dekat Nvidia, total ada 100.000 keping A100 dan H800 yang sudah sampai dan belum sampai. Diantaranya, H800 baru mulai berproduksi pada bulan Maret tahun ini, dan bagian chip ini harus berasal dari pembelian tambahan tahun ini. Dapat dipahami bahwa dengan jadwal produksi saat ini, beberapa H800 tidak akan dikirimkan hingga akhir tahun ini.
ByteDance mulai membangun pusat datanya sendiri pada tahun 2017. Pusat data biasanya lebih mengandalkan CPU untuk semua perhitungan. Hingga tahun 2020, Byte menghabiskan lebih banyak untuk CPU Intel daripada GPU Nvidia. Perubahan pembelian byte juga mencerminkan bahwa dalam kebutuhan komputasi perusahaan teknologi besar saat ini, komputasi cerdas mengejar komputasi umum.
Dapat dipahami bahwa perusahaan Internet besar setidaknya telah melakukan pemesanan 10.000 tingkat dengan Nvidia tahun ini, dengan perkiraan nilai lebih dari 1 miliar yuan berdasarkan harga katalog.
Tencent memimpin dalam mengumumkan bahwa mereka telah menggunakan H800. Tencent Cloud telah menggunakan H800 dalam versi baru layanan komputasi berkinerja tinggi yang dirilis pada bulan Maret tahun ini, dengan mengatakan bahwa ini adalah peluncuran domestik pertama. Saat ini, layanan ini telah dibuka untuk pelanggan perusahaan untuk pengujian aplikasi, yang lebih cepat dari kemajuan kebanyakan perusahaan China.
Dapat dipahami bahwa Alibaba Cloud juga mengusulkan secara internal pada bulan Mei tahun ini untuk mengambil "Smart Computing Battle" sebagai pertempuran nomor satu tahun ini, dan menetapkan tiga sasaran: skala mesin, skala pelanggan, dan skala pendapatan; di antaranya, indikator penting skala mesin adalah jumlah GPU.
Sebelum kedatangan GPU baru, perusahaan juga mengambil langkah internal untuk memprioritaskan mendukung pengembangan model besar.
Cara untuk melepaskan lebih banyak sumber daya sekaligus adalah dengan memotong beberapa arah yang kurang penting, atau arah di mana tidak ada prospek yang jelas dalam jangka pendek. "Perusahaan besar memiliki banyak bisnis setengah mati yang menempati sumber daya." Seorang praktisi AI di sebuah perusahaan Internet besar berkata.
Pada bulan Mei tahun ini, Institut Ali Dharma menghapus laboratorium mengemudi otonom: sekitar 1/3 dari lebih dari 300 karyawan ditugaskan ke tim teknis pemula, dan sisanya diberhentikan. Institut Dharma tidak lagi mempertahankan bisnis mengemudi otonom. Pengembangan berkendara otonom juga membutuhkan GPU berperforma tinggi untuk pelatihan. Penyesuaian ini mungkin tidak terkait langsung dengan model besar, tetapi hal itu memungkinkan Ali mendapatkan sekumpulan "GPU gratis".
Byte dan Meituan langsung berbagi GPU dari tim teknologi komersial yang menghasilkan pendapatan iklan bagi perusahaan.
Menurut "LatePost", tak lama setelah Festival Musim Semi tahun ini, Byte mendistribusikan batch A100 yang awalnya direncanakan untuk ditambahkan ke tim teknologi komersialisasi Byte kepada Zhu Wenjia, kepala teknologi produk TikTok. Zhu Wenjia memimpin penelitian dan pengembangan model byte besar. Tim teknis komersialisasi adalah departemen bisnis inti yang mendukung algoritme rekomendasi iklan Douyin.
Meituan mulai mengembangkan model besar sekitar kuartal pertama tahun ini. Dapat dipahami bahwa Meituan baru-baru ini mentransfer sejumlah memori video 80G versi teratas A100 dari berbagai departemen, memberikan prioritas untuk memasok model besar, sehingga departemen ini dapat beralih ke GPU dengan konfigurasi yang lebih rendah.
Bilibili, yang sumber keuangannya jauh lebih sedikit daripada platform besar, juga memiliki rencana untuk model besar. Dapat dipahami bahwa Stasiun B sebelumnya telah memesan ratusan GPU. Tahun ini, di satu sisi, Bilibili terus membeli GPU tambahan, dan di sisi lain, juga mengoordinasikan berbagai departemen untuk mendistribusikan kartu secara merata ke model-model besar. “Beberapa departemen memberikan 10 tiket, dan beberapa departemen memberikan 20 tiket.” Kata seseorang yang dekat dengan Stasiun B.
Perusahaan internet seperti Byte, Meituan, dan Station B umumnya memiliki beberapa sumber daya GPU yang berlebihan di departemen teknis yang awalnya mendukung pencarian dan rekomendasi.keluar".
Namun, jumlah GPU yang dapat diperoleh dengan metode membongkar timur dan melengkapi barat ini terbatas, dan GPU besar yang dibutuhkan untuk melatih model besar masih harus bergantung pada akumulasi masa lalu masing-masing perusahaan dan menunggu kedatangan perusahaan. GPU baru.
Seluruh dunia berebut daya komputasi
Perlombaan untuk GPU pusat data Nvidia juga terjadi di seluruh dunia. Namun, raksasa luar negeri membeli GPU dalam jumlah besar sebelumnya, dan volume pembelian lebih besar, dan investasi dalam beberapa tahun terakhir relatif berkelanjutan.
Pada tahun 2022, Meta dan Oracle telah banyak berinvestasi di A100. Meta bermitra dengan Nvidia untuk membangun kluster superkomputer RSC Januari lalu, yang berisi 16.000 A100. Pada bulan November tahun yang sama, Oracle mengumumkan pembelian puluhan ribu A100 dan H100 untuk membangun pusat komputasi baru. Sekarang pusat komputasi telah menggunakan lebih dari 32.700 A100, dan H100 baru telah diluncurkan satu demi satu.
Sejak Microsoft pertama kali berinvestasi di OpenAI pada tahun 2019, Microsoft telah menyediakan puluhan ribu GPU untuk OpenAI. Pada bulan Maret tahun ini, Microsoft mengumumkan telah membantu OpenAI membangun pusat komputasi baru, termasuk puluhan ribu A100. Pada bulan Mei tahun ini, Google meluncurkan Compute Engine A3, sebuah cluster komputasi dengan 26.000 H100, melayani perusahaan yang ingin melatih sendiri model besar.
Tindakan dan mentalitas perusahaan besar China saat ini lebih mendesak daripada raksasa luar negeri. Mengambil Baidu sebagai contoh, menempatkan puluhan ribu pesanan GPU baru dengan Nvidia tahun ini. Urutan besarnya sebanding dengan perusahaan seperti Google, meskipun volume Baidu jauh lebih kecil Pendapatannya tahun lalu adalah 123,6 miliar yuan, hanya 6% dari Google.
Dapat dipahami bahwa Byte, Tencent, Ali, dan Baidu, empat perusahaan teknologi China yang paling banyak berinvestasi dalam AI dan komputasi awan, telah mengumpulkan puluhan ribu A100 di masa lalu. Di antara mereka, A100 memiliki jumlah byte paling absolut. Tidak termasuk pesanan baru tahun ini, jumlah total Byte A100 dan pendahulunya V100 mendekati 100.000.
Di antara perusahaan yang berkembang, Shangtang juga mengumumkan tahun ini bahwa total 27.000 GPU telah digunakan dalam cluster komputasi "perangkat besar AI", termasuk 10.000 A100. Bahkan Magic Square, sebuah perusahaan investasi kuantitatif yang tampaknya tidak ada hubungannya dengan AI, membeli 10.000 A100 sebelumnya.
Jika dilihat dari jumlah totalnya, GPU ini sepertinya sudah lebih dari cukup bagi perusahaan untuk melatih model besar.Menurut kasus di situs resmi Nvidia, OpenAI menggunakan 10.000 V100 saat melatih GPT-3 dengan 175 miliar parameter. Untuk melatih GPT-3 , Dibutuhkan 1024 blok A100 untuk pelatihan 1 bulan Dibandingkan dengan V100, A100 memiliki peningkatan kinerja 4,3 kali lipat. Namun, sejumlah besar GPU yang dibeli oleh perusahaan besar China di masa lalu harus mendukung bisnis yang sudah ada atau dijual di platform komputasi awan, dan tidak dapat digunakan secara bebas untuk pengembangan model skala besar dan dukungan eksternal untuk kebutuhan model skala besar pelanggan.
Ini juga menjelaskan perbedaan besar dalam estimasi sumber daya komputasi oleh praktisi AI China. Zhang Yaqin, Dekan Institut Penelitian Industri Cerdas Tsinghua, mengatakan di Forum Tsinghua pada akhir April, "Jika satu bagian dari daya komputasi China ditambahkan, itu setara dengan 500.000 A100, dan tidak masalah untuk melatih lima model. " Yin Qi, CEO perusahaan AI Megvii Technology, menerima "Caixin" mengatakan dalam sebuah wawancara: China saat ini hanya memiliki total sekitar 40.000 A100 yang dapat digunakan untuk pelatihan model skala besar.
Ini terutama mencerminkan pengeluaran modal untuk investasi dalam aset tetap seperti chip, server, dan pusat data, dan secara intuitif dapat menggambarkan urutan besarnya kesenjangan dalam sumber daya komputasi perusahaan besar China dan asing.
Baidu, yang pertama menguji produk mirip ChatGPT, memiliki belanja modal tahunan antara US$800 juta dan US$2 miliar sejak 2020, Ali antara US$6 miliar dan US$8 miliar, dan Tencent antara US$7 miliar dan US$11 miliar . Selama periode yang sama, belanja modal tahunan Amazon, Meta, Google, dan Microsoft, empat perusahaan teknologi Amerika dengan pusat data yang dibangun sendiri, semuanya setidaknya melebihi US$15 miliar.
Selama tiga tahun epidemi, belanja modal perusahaan di luar negeri terus meningkat. Belanja modal Amazon tahun lalu mencapai 58 miliar dolar AS, Meta dan Google sama-sama 31,4 miliar dolar AS, dan Microsoft mendekati 24 miliar dolar AS. Investasi oleh perusahaan China menyusut setelah 2021. Belanja modal Tencent dan Baidu keduanya turun lebih dari 25% tahun-ke-tahun tahun lalu.
Menjadi Lebih Cepat OpenAI telah memenuhi tantangan ini. Pada pertengahan Mei, CEO OpenAI SamAltman mengatakan dalam komunikasi skala kecil dengan sekelompok pengembang bahwa karena GPU yang tidak mencukupi, layanan API OpenAI saat ini tidak cukup stabil dan kecepatannya tidak cukup cepat Sebelum ada lebih banyak GPU, GPT- 4 multimodal Kemampuan tidak dapat diperluas ke setiap pengguna, dan mereka tidak berencana untuk merilis produk konsumen baru dalam waktu dekat. Menurut laporan yang dirilis oleh badan konsultan teknis TrendForce pada bulan Juni tahun ini, OpenAI membutuhkan sekitar 30.000 A100 untuk terus mengoptimalkan dan mengkomersialkan ChatGPT.
Microsoft, yang memiliki kerja sama yang mendalam dengan OpenAI, juga menghadapi situasi serupa: Pada bulan Mei tahun ini, beberapa pengguna mengeluh bahwa kecepatan jawab Bing Baru lambat, dan Microsoft menjawab bahwa ini karena kecepatan pengisian ulang GPU tidak dapat mengimbangi dengan tingkat pertumbuhan pengguna. Microsoft Office 365 Copilot, yang disematkan dengan kemampuan model skala besar, saat ini tidak dibuka dalam skala besar.Angka terbaru adalah lebih dari 600 perusahaan mencobanya-jumlah total pengguna Office 365 di seluruh dunia mendekati 300 juta.
Jika sebuah perusahaan besar China tidak hanya bertujuan untuk melatih dan merilis model besar, tetapi benar-benar ingin menggunakan model besar untuk membuat produk yang melayani lebih banyak pengguna, dan selanjutnya mendukung pelanggan lain untuk melatih lebih banyak model besar di cloud, mereka perlu melakukannya pesan lebih banyak di muka Beberapa GPU.
**Mengapa hanya keempat kartu itu saja? **
Dalam hal pelatihan model besar AI, tidak ada pengganti untuk A100, H100 dan versi yang lebih kecil A800 dan H800 yang dipasok khusus ke China. Menurut dana lindung nilai kuantitatif Khaveen Investments, pangsa pasar GPU pusat data Nvidia akan mencapai 88% pada tahun 2022, dan AMD serta Intel akan membagi sisanya.
GPU Nvidia yang tak tergantikan saat ini berasal dari mekanisme pelatihan model besar. Langkah intinya adalah pra-pelatihan dan penyempurnaan. Yang pertama adalah meletakkan dasar, yang setara dengan menerima pendidikan umum untuk lulus dari universitas. ; yang terakhir dioptimalkan untuk skenario dan tugas tertentu untuk meningkatkan performa kerja.
Tautan pra-pelatihan sangat intensif secara komputasi, dan memiliki persyaratan yang sangat tinggi pada kinerja GPU tunggal dan kemampuan transmisi data antara banyak kartu.
Sekarang hanya A100 dan H100 yang dapat memberikan efisiensi komputasi yang diperlukan untuk pra-pelatihan. Kelihatannya mahal, tetapi merupakan opsi termurah. Saat ini, AI masih dalam tahap awal penggunaan komersial, dan biaya secara langsung memengaruhi ketersediaan layanan.
Beberapa model di masa lalu, seperti VGG16, yang dapat mengenali kucing sebagai kucing, hanya memiliki 130 juta parameter.Saat itu, beberapa perusahaan akan menggunakan kartu grafis kelas konsumen seri RTX untuk bermain game hingga menjalankan model AI. Skala parameter GPT-3 yang dirilis lebih dari dua tahun lalu telah mencapai 175 miliar.
Di bawah persyaratan komputasi yang sangat besar dari model besar, tidak mungkin lagi menggunakan lebih banyak GPU berperforma rendah untuk membentuk daya komputasi. Karena saat menggunakan banyak GPU untuk pelatihan, perlu untuk mengirimkan data dan menyinkronkan informasi parameter antar chip.Pada saat ini, beberapa GPU akan diam dan tidak dapat diisi sepanjang waktu. Oleh karena itu, semakin rendah kinerja satu kartu, semakin banyak kartu yang digunakan, dan semakin besar kehilangan daya komputasi. Saat OpenAI menggunakan 10.000 V100 untuk melatih GPT-3, tingkat pemanfaatan daya komputasi kurang dari 50%.
A100 dan H100 memiliki daya komputasi yang tinggi dari satu kartu dan bandwidth yang tinggi untuk meningkatkan transmisi data antar kartu. FP32 A100 (mengacu pada pengkodean 4-byte dan perhitungan penyimpanan) memiliki daya komputasi 19,5 TFLOPS (1 TFLOPS berarti satu triliun operasi floating-point per detik), dan daya komputasi FP32 H100 setinggi 134 TFLOPS. Sekitar 4 kali lipatnya dari MI250.
A100 dan H100 juga menyediakan kemampuan transmisi data yang efisien untuk meminimalkan daya komputasi yang menganggur. Cheat eksklusif Nvidia adalah teknologi protokol komunikasi seperti NVLink dan NVSwitch yang telah diluncurkan sejak 2014. NVLink generasi keempat yang digunakan pada H100 dapat meningkatkan bandwidth komunikasi dua arah GPU dalam server yang sama hingga 900 GB/dtk (data 900 GB per detik), yang berarti 7 kali lipat dari PCle generasi terbaru (titik -to-point standar transmisi serial berkecepatan tinggi) banyak.
Tahun lalu, peraturan Departemen Perdagangan A.S. tentang ekspor GPU juga terhenti pada dua jalur daya komputasi dan bandwidth: daya komputasi lini atas adalah 4800 TOPS, dan bandwidth lini atas adalah 600 GB/dtk.
A800 dan H800 memiliki daya komputasi yang sama dengan versi aslinya, tetapi bandwidth didiskon. Bandwidth A800 telah dikurangi dari 600GB/s pada A100 menjadi 400GB/s. Parameter spesifik dari H800 belum diungkapkan. Menurut Bloomberg, bandwidthnya hanya sekitar setengah dari H100 (900 GB/s ).Saat melakukan tugas AI yang sama, H800 akan Membutuhkan waktu 10%-30% lebih lama dari H100. Seorang insinyur AI berspekulasi bahwa efek pelatihan H800 mungkin tidak sebagus A100, tetapi harganya lebih mahal.
Meski begitu, performa A800 dan H800 masih mengungguli produk sejenis dari perusahaan besar dan startup lainnya. Dibatasi oleh kinerja dan arsitektur yang lebih berdedikasi, chip AI atau chip GPU yang diluncurkan oleh berbagai perusahaan sekarang terutama digunakan untuk penalaran AI, yang sulit untuk pra-pelatihan model skala besar. Sederhananya, pelatihan AI adalah membuat model, penalaran AI adalah menggunakan model, dan pelatihan membutuhkan kinerja chip yang lebih tinggi.
Selain kesenjangan kinerja, parit yang lebih dalam dari Nvidia adalah ekologi perangkat lunak.
Pada awal tahun 2006, Nvidia meluncurkan platform komputasi CUDA, yang merupakan mesin perangkat lunak komputasi paralel. Pengembang dapat menggunakan CUDA untuk melakukan pelatihan dan penalaran AI secara lebih efisien dan memanfaatkan daya komputasi GPU dengan baik. CUDA telah menjadi infrastruktur AI saat ini, dan kerangka kerja, pustaka, dan alat AI arus utama semuanya dikembangkan berdasarkan CUDA.
Jika GPU dan chip AI selain Nvidia ingin terhubung ke CUDA, mereka perlu menyediakan perangkat lunak adaptasinya sendiri, tetapi hanya sebagian dari kinerja CUDA, dan iterasi pembaruan lebih lambat. Kerangka kerja AI seperti PyTorch mencoba untuk mematahkan monopoli ekologi perangkat lunak CUDA dan memberikan lebih banyak kemampuan perangkat lunak untuk mendukung GPU pabrikan lain, tetapi daya tarik ini terbatas bagi pengembang.
Seorang praktisi AI mengatakan bahwa perusahaannya telah menghubungi produsen GPU non-NVIDIA, yang menawarkan harga chip dan layanan yang lebih rendah daripada Nvidia, dan berjanji untuk memberikan layanan yang lebih tepat waktu, tetapi mereka menilai bahwa keseluruhan pelatihan dan pengembangan menggunakan GPU lain akan memakan biaya. lebih tinggi dari Nvidia, dan itu harus menanggung ketidakpastian hasil dan membutuhkan lebih banyak waktu.
“Meski A100 mahal, tapi sebenarnya paling murah untuk digunakan,” ujarnya. Untuk perusahaan teknologi besar dan perusahaan rintisan terkemuka yang berniat memanfaatkan peluang model besar, uang seringkali bukan masalah, dan waktu adalah sumber daya yang lebih berharga.
Dalam jangka pendek, satu-satunya hal yang mempengaruhi penjualan GPU pusat data Nvidia mungkin adalah kapasitas produksi TSMC.
H100/800 adalah proses 4 nm, dan A100/800 adalah proses 7 nm.Keempat chip ini semuanya diproduksi oleh TSMC. Menurut laporan media China Taiwan, Nvidia telah menambahkan 10.000 pesanan GPU pusat data baru ke TSMC tahun ini, dan telah melakukan pemesanan super mendesak, yang dapat mempersingkat waktu produksi hingga 50%. Biasanya, TSMC membutuhkan waktu beberapa bulan untuk memproduksi A100. Kemacetan produksi saat ini terutama disebabkan oleh kapasitas produksi kemasan lanjutan yang tidak mencukupi, dengan selisih 10 hingga 20 persen, yang akan memakan waktu 3-6 bulan untuk meningkat secara bertahap.
Sejak GPU yang cocok untuk komputasi paralel diperkenalkan ke pembelajaran mendalam, selama lebih dari sepuluh tahun, kekuatan pendorong pengembangan AI adalah perangkat keras dan perangkat lunak, dan tumpang tindih daya komputasi GPU serta model dan algoritme telah bergerak maju: pengembangan model mendorong daya komputasi permintaan; kekuatan komputasi tumbuh, Ini juga membuat pelatihan skala besar yang awalnya sulit dicapai menjadi mungkin.
Dalam gelombang terakhir ledakan pembelajaran mendalam yang diwakili oleh pengenalan gambar, kemampuan perangkat lunak AI China sebanding dengan tingkat paling mutakhir di dunia; daya komputasi adalah kesulitan saat ini - merancang dan membuat chip membutuhkan akumulasi yang lebih lama, melibatkan rantai pasokan yang panjang dan banyak penghalang paten.
Model besar adalah kemajuan besar lainnya dalam lapisan model dan algoritme. Tidak ada waktu untuk memperlambatnya. Perusahaan yang ingin membangun model besar atau menyediakan kemampuan komputasi awan untuk model besar harus memperoleh daya komputasi tingkat lanjut yang cukup sesegera mungkin. Pertempuran untuk GPU tidak akan berhenti sampai gelombang bersorak atau mengecewakan perusahaan pertama.