Saya menemukan sebuah perusahaan bernama Taalas, sebuah perusahaan chip AI, timnya hanya berjumlah lebih dari dua puluh orang, tetapi sudah mendapatkan pendanaan lebih dari 200 juta dolar AS.
Produk pertama mereka, HC1, mengambil jalur yang ekstrem: menggunakan proses Mask ROM untuk langsung mengkondensasi bobot Llama3.18B ke dalam lapisan logam chip, unit komputasi dan parameter model berada di chip yang sama, hampir mengorbankan kemampuan pemrograman ulang demi mengoptimalkan throughput, latensi, dan efisiensi energi secara ekstrem. Sekarang mereka mengkondensasi Llama3.18B, setelah mencobanya, jawaban yang diberikan tidak andal dan sangat tidak stabil. Tapi masalahnya adalah kecepatan mereka luar biasa, pengalaman pengguna sangat kontra intuitif, mampu menghancurkan Groq, dengan output 17.000 token/detik dari satu chip, mampu menghasilkan puluhan ribu kata dalam sekejap, bahkan melebihi kemampuan kueri database. Jika di masa depan model besar benar-benar hanya tersisa beberapa pemain utama yang melakukan iterasi, struktur model secara bertahap stabil, dan frekuensi pembaruan bobot melambat, maka membuat satu chip khusus untuk model tertentu mungkin tidak sama sekali gila. Saat ini kita menganggap model akan terus mengalami perubahan besar, sehingga daya komputasi harus bersifat umum. Tapi bagaimana jika model mulai menjadi standar? Mengukir bobot ke dalam chip, lalu mengganti arsitektur yang sangat khusus untuk meningkatkan throughput, dan menurunkan biaya secara langsung. Sekarang terlihat bahwa pola model mulai terkonsentrasi, jika struktur model utama stabil, maka memang layak untuk memiliki jalur pembuatan chip khusus yang dirancang sesuai struktur tersebut. Potensi ledakan dari jalur ini mungkin akan sangat luar biasa. Jika demikian, ada pertanyaan yang bertentangan dengan konsensus: Apakah bentuk GPU benar-benar akan menjadi akhir dari segalanya selamanya?
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Saya menemukan sebuah perusahaan bernama Taalas, sebuah perusahaan chip AI, timnya hanya berjumlah lebih dari dua puluh orang, tetapi sudah mendapatkan pendanaan lebih dari 200 juta dolar AS.
Produk pertama mereka, HC1, mengambil jalur yang ekstrem: menggunakan proses Mask ROM untuk langsung mengkondensasi bobot Llama3.18B ke dalam lapisan logam chip, unit komputasi dan parameter model berada di chip yang sama, hampir mengorbankan kemampuan pemrograman ulang demi mengoptimalkan throughput, latensi, dan efisiensi energi secara ekstrem.
Sekarang mereka mengkondensasi Llama3.18B, setelah mencobanya, jawaban yang diberikan tidak andal dan sangat tidak stabil.
Tapi masalahnya adalah kecepatan mereka luar biasa, pengalaman pengguna sangat kontra intuitif, mampu menghancurkan Groq, dengan output 17.000 token/detik dari satu chip, mampu menghasilkan puluhan ribu kata dalam sekejap, bahkan melebihi kemampuan kueri database.
Jika di masa depan model besar benar-benar hanya tersisa beberapa pemain utama yang melakukan iterasi, struktur model secara bertahap stabil, dan frekuensi pembaruan bobot melambat, maka membuat satu chip khusus untuk model tertentu mungkin tidak sama sekali gila.
Saat ini kita menganggap model akan terus mengalami perubahan besar, sehingga daya komputasi harus bersifat umum.
Tapi bagaimana jika model mulai menjadi standar?
Mengukir bobot ke dalam chip, lalu mengganti arsitektur yang sangat khusus untuk meningkatkan throughput, dan menurunkan biaya secara langsung.
Sekarang terlihat bahwa pola model mulai terkonsentrasi, jika struktur model utama stabil, maka memang layak untuk memiliki jalur pembuatan chip khusus yang dirancang sesuai struktur tersebut.
Potensi ledakan dari jalur ini mungkin akan sangat luar biasa.
Jika demikian, ada pertanyaan yang bertentangan dengan konsensus: Apakah bentuk GPU benar-benar akan menjadi akhir dari segalanya selamanya?