Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
A16z: Langkah berikutnya dalam AI, tiga roda penggerak utama robot, ilmu pengetahuan otonom, dan antarmuka otak-komputer
Judul asli: Sistem Frontier untuk Dunia Fisik
Penulis asli: Oliver Hsu
Sumber asli:
Repost: Mars Finance
Panduan Deep Tide: Artikel ini berasal dari peneliti a16z Oliver Hsu, merupakan peta investasi “AI Fisik” paling sistematis sejak 2026. Penilaiannya adalah: garis utama bahasa/kode masih dalam skala, tetapi kemampuan nyata yang dapat menjalankan generasi berikutnya yang revolusioner adalah tiga bidang yang berdekatan dengan garis utama—robot umum, ilmu pengetahuan otonom (AI ilmuwan), antarmuka otak-komputer dan antarmuka manusia-mesin baru lainnya. Penulis menguraikan lima kemampuan dasar yang mendukungnya, dan berargumen bahwa ketiga garis ini akan membentuk struktur roda penggerak yang saling memberi makan. Bagi yang ingin memahami logika investasi AI fisik, ini adalah kerangka paling lengkap saat ini.
Paradigma utama AI saat ini berpusat pada bahasa dan kode. Hukum skala model bahasa besar sudah digambarkan dengan sangat jelas, roda bisnis dari peningkatan data, daya komputasi, dan algoritma sedang berputar, dan setiap peningkatan kemampuan membawa imbal hasil yang besar, sebagian besar terlihat nyata. Paradigma ini layak mendapatkan modal dan perhatian yang diserapnya.
Namun, bidang tetangga lainnya sudah menunjukkan kemajuan substansial dalam masa perkembangan mereka. Termasuk di dalamnya VLA (Model Visual-Bahasa-Aksi), WAM (Model Aksi Dunia), jalur robot umum, serta pengembangan AI ilmuwan yang berfokus pada penalaran fisik dan ilmiah, serta antarmuka baru yang merevolusi interaksi manusia-mesin (termasuk antarmuka otak-komputer dan teknologi neural).
Selain teknologi itu sendiri, beberapa bidang ini mulai menarik talenta, modal, dan pendiri. Bahasa dasar teknologi yang memperluas AI ke dunia fisik sedang matang secara bersamaan, dan kemajuan 18 bulan terakhir menunjukkan bahwa bidang-bidang ini akan segera memasuki tahap skala mereka masing-masing.
Dalam setiap paradigma teknologi, tempat dengan delta terbesar antara kemampuan saat ini dan potensi jangka menengah biasanya memiliki dua ciri: pertama, mampu menikmati manfaat skala yang sama yang mendorong garis depan saat ini; kedua, masih satu langkah dari paradigma arus utama—dekat untuk mewarisi infrastruktur dan energi riset dasarnya, tetapi jauh cukup untuk membutuhkan pekerjaan nyata dan tambahan.
Jarak ini sendiri memiliki dua fungsi: secara alami membentuk benteng perlindungan bagi pengikut cepat, sekaligus mendefinisikan ruang masalah yang lebih jarang dan kurang padat informasi, sehingga lebih berpotensi muncul kemampuan baru—tepat karena jalan pintasnya belum sepenuhnya ditempuh.
Saat ini, ada tiga bidang yang memenuhi deskripsi ini: pembelajaran robotik, ilmu pengetahuan otonom (terutama di bidang material dan ilmu kehidupan), dan antarmuka manusia-mesin baru (termasuk antarmuka otak, suara tanpa suara, perangkat neural wearable, serta saluran sensor baru seperti penciuman digital).
Mereka tidak sepenuhnya bekerja secara terpisah, melainkan berbagi satu set bahasa dasar: representasi belajar dinamika fisik, arsitektur untuk aksi berwujud, infrastruktur data simulasi dan sintesis, saluran sensor yang terus berkembang, serta orkestrasi agen cerdas yang tertutup loop. Mereka saling memperkuat dalam hubungan umpan balik lintas bidang. Mereka juga tempat paling mungkin munculnya kemampuan kuantum—hasil dari interaksi antara skala model, realisasi fisik, dan bentuk data baru.
Artikel ini akan menguraikan bahasa dasar teknologi yang mendukung sistem-sistem ini, menjelaskan mengapa ketiga bidang ini mewakili peluang terdepan, dan mengusulkan bahwa penguatan satu sama lain membentuk roda penggerak struktural yang mendorong AI ke dunia fisik.
Lima bahasa dasar
Sebelum melihat aplikasi spesifik, pertama pahami fondasi teknologi yang dibagikan oleh sistem-sistem terdepan ini. Mendorong AI ke dunia fisik bergantung pada lima bahasa utama ini. Teknologi ini tidak eksklusif untuk satu bidang aplikasi, melainkan sebagai komponen—yang memungkinkan sistem “memperluas AI ke dunia fisik” dibuat. Kematangan bersamaan dari teknologi ini adalah alasan utama mengapa saat ini sangat istimewa.
Bahasa pertama: Representasi belajar dinamika fisik
Fundamental dari bahasa ini adalah kemampuan belajar representasi kompresi dan umum dari perilaku dunia fisik—bagaimana objek bergerak, berubah bentuk, bertabrakan, dan bereaksi terhadap gaya. Tanpa lapisan ini, setiap sistem AI fisik harus belajar dari nol hukum fisika di bidangnya sendiri, dan biaya ini tidak mampu ditanggung.
Berbagai aliran arsitektur mendekati tujuan ini dari arah berbeda. VLA memulai dari atas: menggunakan model visual-bahasa yang sudah dilatih sebelumnya—model ini sudah memiliki pemahaman semantik tentang objek, hubungan ruang, dan bahasa—kemudian menambahkan decoder aksi untuk menghasilkan instruksi kontrol gerak.
Intinya adalah, biaya besar untuk belajar “melihat” dan “memahami dunia” dapat dipangkas melalui pretraining skala internet berbasis gambar dan teks. π₀ dari Physical Intelligence, Gemini Robotics dari Google DeepMind, dan GR00T N1 dari Nvidia semuanya menguji arsitektur ini pada skala yang semakin besar.
Model WAM justru dari bawah: menggunakan Transformer difusi video yang dilatih sebelumnya pada video skala internet, mewarisi pengetahuan prior tentang dinamika fisik (bagaimana benda jatuh, tertutup, berinteraksi setelah gaya diterapkan), dan menggabungkan prior ini dengan generasi aksi.
Nvidia DreamZero menunjukkan generalisasi zero-shot terhadap tugas dan lingkungan baru, mampu melakukan transfer lintas objek dari sedikit data adaptasi dari demonstrasi video manusia, dan meningkatkan kemampuan generalisasi ke dunia nyata secara signifikan.
Jalur ketiga mungkin paling menginspirasi dalam menentukan arah masa depan: melewati pretraining VLM dan backbone difusi video secara keseluruhan. GEN-1 dari Generalist adalah model dasar berwujud asli yang dilatih dari awal, dengan data lebih dari 500.000 jam interaksi fisik nyata, dikumpulkan terutama melalui perangkat wearable berbiaya rendah dari orang yang melakukan tugas sehari-hari.
Ini bukan VLA standar (tanpa backbone visual-bahasa yang di-fine-tune), juga bukan WAM. Ini adalah model dasar yang dirancang khusus untuk interaksi fisik, belajar bukan dari statistik gambar, teks, atau video internet, tetapi dari statistik kontak manusia dengan objek.
Perusahaan seperti World Labs yang mengerjakan kecerdasan ruang sangat menghargai bahasa ini karena mengisi kekurangan dari VLA, WAM, dan model berwujud asli: ketiganya tidak secara eksplisit memodelkan struktur 3D dari lingkungan tempat mereka berada.
VLA mewarisi fitur visual 2D dari pretraining gambar dan teks; WAM belajar dinamika dari video yang merupakan proyeksi 3D ke 2D; model yang belajar dari sensor wearable dapat menangkap gaya dan kinematika, tetapi tidak mampu merekonstruksi geometri lingkungan. Model kecerdasan ruang dapat membantu mengisi kekurangan ini—belajar merekonstruksi dan menghasilkan struktur lengkap 3D dari lingkungan fisik dan melakukan penalaran terhadapnya: geometri, pencahayaan, penghalang, hubungan objek, dan tata letak ruang.
Konvergensi dari jalur-jalur ini sendiri adalah poin utama. Apakah representasi diwarisi dari VLM, dipelajari dari pelatihan video kolaboratif, atau dibangun secara asli dari data interaksi fisik, bahasa dasar yang sama adalah: model perilaku fisik yang terkompresi dan dapat dipindahkan.
Representasi ini didukung oleh roda data yang sangat besar, sebagian besar belum dimanfaatkan—bukan hanya video internet dan trajektori robot, tetapi juga data pengalaman tubuh manusia yang mulai dikumpulkan secara skala besar melalui perangkat wearable. Representasi yang sama dapat melayani robot yang belajar melipat handuk, laboratorium otonom yang memprediksi reaksi, maupun neurodecoder yang membaca niat genggaman dari aktivitas korteks motorik.
Bahasa kedua: arsitektur berorientasi aksi berwujud
Hanya representasi fisik tidak cukup. Untuk menerjemahkan “pemahaman” menjadi aksi fisik yang andal, diperlukan arsitektur yang menyelesaikan beberapa masalah terkait: memetakan niat tingkat tinggi ke urutan kontrol gerak kontinu, menjaga konsistensi dalam rangkaian aksi panjang, beroperasi dengan latensi waktu nyata, dan terus meningkat seiring pengalaman.
Arsitektur berlapis dua sistem sudah menjadi standar untuk tugas berwujud kompleks: model visual-bahasa yang lambat dan kuat bertanggung jawab atas pemahaman lingkungan dan penalaran tugas (Sistem 2), dipadukan dengan strategi kontrol visual-gerak yang cepat dan ringan (Sistem 1). Model seperti GR00T N1, Gemini Robotics, dan Helix dari Figure menggunakan varian pendekatan ini, menyelesaikan ketegangan mendasar antara “model besar menyediakan penalaran yang kaya” dan “tugas fisik membutuhkan kontrol milidetik.” Generalist mengambil pendekatan berbeda, menggunakan “penalaran resonansi” agar pemikiran dan aksi berlangsung bersamaan.
Mekanisme generasi aksi juga berkembang pesat. Head aksi berbasis pencocokan aliran dan difusi yang diperkenalkan π₀ telah menjadi metode utama untuk menghasilkan aksi halus dan kontinu berfrekuensi tinggi, menggantikan tokenisasi diskret yang diambil dari pemodelan bahasa. Metode ini memperlakukan generasi aksi seperti proses denoising untuk sintesis gambar, menghasilkan trajektori yang secara fisik lebih halus dan lebih stabil terhadap akumulasi error, mengungguli prediksi token autoregressive.
Namun, kemajuan paling penting dari segi arsitektur mungkin adalah memperluas reinforcement learning ke model dasar VLA—model dasar yang dilatih dari data demonstrasi dan dapat terus ditingkatkan melalui latihan mandiri, seperti manusia yang mengasah keterampilan melalui latihan berulang dan koreksi diri. π*₀.₆ dari Physical Intelligence adalah demonstrasi skala paling jelas dari prinsip ini. Metode mereka disebut RECAP (Experience and Correction Reinforcement Learning berbasis strategi keuntungan), yang menyelesaikan masalah distribusi kredit dalam rangkaian panjang yang tidak bisa diselesaikan hanya dengan imitasi.
Jika robot mengangkat pegangan mesin kopi espresso dengan sudut yang sedikit miring, kegagalan tidak langsung muncul, tetapi mungkin terungkap setelah beberapa langkah saat memasukkan. Imitasi tidak memiliki mekanisme untuk mengaitkan kegagalan ini ke langkah sebelumnya, tetapi RL memilikinya. RECAP melatih fungsi nilai yang memperkirakan peluang keberhasilan dari status tengah mana pun, lalu VLA memilih aksi dengan keuntungan tinggi. Intinya, mengintegrasikan berbagai data heterogen—data demonstrasi, pengalaman strategi mandiri, dan koreksi dari operator jarak jauh selama eksekusi—ke dalam satu pipeline pelatihan.
Metode ini adalah kabar baik untuk prospek RL di bidang aksi. π*₀.₆ mampu secara andal melipat 50 jenis pakaian yang belum pernah dilihat di lingkungan rumah nyata, merakit kotak kardus dengan andal, dan membuat espresso di mesin profesional selama berjam-jam tanpa intervensi manusia. Pada tugas paling sulit, RECAP melipatgandakan throughput lebih dari dua kali dibandingkan baseline imitasi murni, dan mengurangi tingkat kegagalan lebih dari setengahnya. Sistem ini juga membuktikan bahwa pelatihan pasca RL dapat menghasilkan perilaku kuantum yang tidak bisa dicapai oleh imitasi: gerakan pemulihan yang lebih halus, strategi pengambilan yang lebih efisien, dan koreksi otomatis yang tidak ada dalam data demonstrasi.
Hasil-hasil ini menunjukkan satu hal: dorongan skala daya komputasi dari GPT-2 ke GPT-4—yang mendorong skala model—mulai beroperasi di bidang berwujud, meskipun saat ini masih di bagian awal kurva, dengan ruang aksi yang kontinu dan berdimensi tinggi, serta harus menghadapi batasan fisik dunia yang keras.
Bahasa ketiga: Infrastruktur skala berupa simulasi dan data sintesis
Dalam bidang bahasa, masalah data telah diselesaikan oleh internet: triliunan token teks yang dihasilkan secara alami dan gratis. Di dunia fisik, masalah ini jauh lebih kompleks—dan ini sudah menjadi konsensus, dengan tanda paling langsung berupa meningkatnya startup penyedia data fisik secara cepat.
Pengumpulan trajektori robot nyata mahal, berisiko skala besar, dan terbatas dalam variasi. Model bahasa bisa belajar dari miliaran percakapan, tetapi robot (sementara ini) tidak bisa memiliki miliaran interaksi fisik.
Generasi data simulasi dan sintesis adalah infrastruktur dasar untuk mengatasi batasan ini, dan kematangan mereka adalah salah satu alasan utama percepatan AI fisik saat ini dibandingkan lima tahun lalu.
Tumpukan simulasi modern menggabungkan mesin simulasi berbasis fisika, rendering fotorealistik berbasis ray tracing, generasi lingkungan secara programatik, dan model dunia yang menghasilkan video fotorealistik dari input simulasi—yang terakhir ini menjembatani gap sim-to-real. Rangkaian ini dimulai dari rekonstruksi neural lingkungan nyata (dengan satu ponsel saja), mengisi aset 3D yang akurat secara fisik, hingga menghasilkan data sintesis besar-besaran dengan anotasi otomatis.
Perbaikan tumpukan simulasi ini penting karena mengubah asumsi ekonomi yang mendukung AI fisik. Jika bottleneck AI fisik beralih dari “mengumpulkan data nyata” ke “merancang lingkungan virtual yang beragam,” biaya akan turun drastis. Simulasi yang berkembang seiring daya komputasi tidak bergantung pada tenaga manusia dan perangkat keras fisik. Ini mengubah struktur ekonomi pelatihan sistem AI fisik, sama seperti data teks internet mengubah pelatihan model bahasa—berarti investasi pada infrastruktur simulasi akan memberi leverage besar bagi ekosistem secara keseluruhan.
Namun, simulasi tidak hanya untuk bahasa robotik. Infrastruktur yang sama melayani ilmu pengetahuan otonom (digital twin perangkat laboratorium, simulasi reaksi untuk pengujian hipotesis), antarmuka baru (simulasi lingkungan neural untuk pelatihan decoder BCI, kalibrasi sensor baru dengan data sensor sintetik), dan bidang lain yang berinteraksi dengan dunia fisik. Simulasi adalah mesin data universal untuk AI fisik.
Bahasa keempat: Perluasan saluran sensor
Sinyal yang mengirimkan informasi dari dunia fisik jauh lebih beragam daripada visual dan bahasa. Sentuhan menyampaikan atribut material, stabilitas genggaman, geometrinya yang kontak tidak terlihat kamera. Sinyal neural dengan bandwidth jauh lebih tinggi dari antarmuka manusia saat ini mengkodekan niat gerak, keadaan kognitif, pengalaman persepsi. Aktivitas otot subglotis bahkan sudah mengkodekan niat bicara sebelum suara dihasilkan. Bahasa dasar keempat adalah kemampuan AI untuk mempercepat ekspansi saluran sensor ini—baik dari riset maupun dari ekosistem perangkat dan infrastruktur konsumen yang membangun dan memperluasnya.
Indikator paling langsung adalah munculnya perangkat baru. Perangkat AR dalam beberapa tahun terakhir sangat meningkat dari segi pengalaman dan bentuk; AI wearable berbasis suara yang berorientasi pada percakapan memberi konteks fisik yang lebih lengkap bagi AI bahasa—mereka benar-benar mengikuti pengguna ke dalam lingkungan fisik.
Dalam jangka panjang, antarmuka neural mungkin membuka modal interaksi yang lebih lengkap. Perubahan cara komputasi yang dibawa AI menciptakan peluang besar untuk meningkatkan interaksi manusia-mesin, dan perusahaan seperti Sesame sedang membangun modal dan perangkat baru untuk ini.
Modal suara yang lebih umum juga memberi peluang bagi metode interaksi baru. Produk seperti Wispr Flow memposisikan suara sebagai input utama (karena kepadatannya tinggi dan memiliki keunggulan alami), dan pasar antarmuka suara tanpa suara pun membaik. Perangkat suara tanpa suara menggunakan sensor untuk menangkap gerakan lidah dan pita suara, serta mengenali bahasa secara diam—menjadi modal interaksi manusia-mesin dengan kepadatan informasi lebih tinggi daripada suara.
Antarmuka otak-komputer (invasif dan non-invasif) mewakili frontier yang lebih dalam, dan ekosistem komersialnya terus berkembang. Sinyal akan muncul di titik temu verifikasi klinis, persetujuan regulasi, integrasi platform, dan modal institusional—yang dulu hanya bidang akademik.
Sensor sentuh juga mulai masuk ke dalam arsitektur berwujud, dan beberapa model belajar dari sensor sentuh sebagai bagian utama. Antarmuka penciuman sedang menjadi produk rekayasa nyata: perangkat penciuman wearable dengan generator bau miniatur dan respons milidetik telah dipresentasikan dalam aplikasi realitas campuran; model penciuman mulai dipasangkan dengan sistem AI visual untuk pengawasan proses kimia.
Kebersamaan dari perkembangan ini adalah: mereka akan saling konvergen di batas ekstrem. Kacamata AR terus menghasilkan data visual dan spasial dari interaksi pengguna dan lingkungan; gelang EMG menangkap pola niat gerak manusia; antarmuka suara tanpa suara menangkap peta dari aktivitas subglotis ke output bahasa; BCI dengan resolusi tertinggi saat ini menangkap aktivitas neural; sensor sentuh merekam dinamika kontak saat operasi fisik. Setiap perangkat baru sekaligus menjadi platform data yang mendukung berbagai model di bidang aplikasi terkait.
Robot yang menggunakan data EMG untuk menginferensikan niat gerak dan robot yang dilatih hanya dari data kontrol jarak jauh memiliki strategi genggaman yang berbeda; antarmuka laboratorium yang merespons perintah subglotis dan yang dikendalikan keyboard juga berbeda dalam latensi dan kelancaran; decoder neural yang dilatih dari data BCI berkecepatan tinggi menghasilkan representasi perencanaan gerak yang tidak bisa diperoleh dari saluran lain.
Perluasan perangkat ini memperluas manifold data yang tersedia untuk pelatihan sistem AI fisik di garis depan—dan sebagian besar didorong oleh perusahaan konsumen yang kaya modal, bukan hanya laboratorium akademik, yang berarti roda data akan berkembang seiring adopsi pasar.
Bahasa kelima: Sistem agen tertutup loop
Bahasa terakhir lebih bersifat arsitektural. Mengacu pada sistem yang mengintegrasikan persepsi, penalaran, dan orkestrasi aksi secara berkelanjutan, mandiri, dan tertutup loop, mampu beroperasi tanpa intervensi manusia dalam jangka waktu lama.
Dalam model bahasa, perkembangan terkait adalah munculnya sistem agen cerdas—rantai penalaran multi langkah, penggunaan alat, proses koreksi diri—yang mengubah model dari alat tanya jawab satu putaran menjadi penyelesai masalah otonom. Di dunia fisik, transformasi yang sama sedang terjadi, tetapi jauh lebih menuntut. Agen bahasa yang salah bisa kembali tanpa biaya; agen fisik yang tumpah satu botol reagen tidak bisa kembali.
Tiga karakteristik utama dari agen fisik membedakannya dari versi digital.
Pertama, mereka harus terintegrasi dengan eksperimen atau operasi tertutup: langsung terhubung ke aliran data instrumen asli, sensor status fisik, dan bahasa aksi, sehingga penalaran dilakukan langsung terhadap realitas fisik, bukan deskripsi teksnya.
Kedua, mereka membutuhkan keberlanjutan rangkaian panjang: memori, pelacakan sumber, pengawasan keamanan, dan pemulihan perilaku yang menghubungkan beberapa siklus operasi, bukan menganggap setiap tugas sebagai episode terpisah.
Ketiga, mereka harus mampu beradaptasi secara tertutup loop: merevisi strategi berdasarkan hasil fisik, bukan hanya umpan balik teks.
Bahasa ini menggabungkan kemampuan terpisah—model dunia yang baik, arsitektur aksi yang andal, sensor yang kaya—menjadi sistem lengkap yang mampu beroperasi mandiri di dunia fisik. Ini adalah lapisan integrasi, dan kematangannya adalah prasyarat agar ketiga bidang aplikasi berikutnya dapat berfungsi sebagai sistem nyata di dunia nyata, bukan hanya demonstrasi penelitian.
Tiga bidang
Bahasa dasar yang disebutkan di atas adalah lapisan enabling umum, dan tidak menentukan di mana aplikasi terpenting akan berkembang. Banyak bidang melibatkan aksi fisik, pengukuran fisik, atau persepsi fisik. Perbedaan antara “sistem terdepan” dan “sistem yang hanya dimodifikasi dari yang ada” terletak pada tingkat pertumbuhan model dan infrastruktur skala—bukan hanya performa lebih baik, tetapi munculnya kemampuan baru yang sebelumnya tidak mungkin.
Robot, ilmu pengetahuan berbasis AI, dan antarmuka manusia-mesin baru adalah tiga bidang dengan efek komulatif paling kuat dari pertumbuhan ini. Masing-masing menggabungkan bahasa dasar ini secara unik, dan masing-masing terhambat oleh batasan yang sedang diatasi oleh bahasa dasar saat ini, serta secara tidak langsung menghasilkan data fisik terstruktur yang memperkuat bahasa dasar tersebut—membentuk umpan balik yang mempercepat seluruh ekosistem. Mereka bukan satu-satunya bidang AI fisik yang patut diperhatikan, tetapi mereka adalah tempat paling padat di mana kemampuan AI terdepan berinteraksi dengan realitas fisik, dan juga yang paling jauh dari paradigma bahasa/kode saat ini, sehingga ruang munculnya kemampuan baru terbesar—serta sangat saling melengkapi dan mampu menyerap manfaat dari paradigma tersebut.
Robot
Robot adalah manifestasi paling literal dari AI fisik: sistem AI yang harus secara real-time menyadari, menalar, dan melakukan aksi fisik terhadap dunia material. Mereka juga menjadi pengujian utama untuk setiap bahasa dasar.
Bayangkan berapa banyak yang harus dilakukan robot umum untuk melipat satu handuk. Mereka membutuhkan representasi yang dipelajari tentang bagaimana bahan yang dapat berubah bentuk berperilaku di bawah gaya—pengetahuan fisik dasar, yang tidak bisa disediakan oleh pretraining bahasa. Mereka membutuhkan arsitektur aksi yang mampu menerjemahkan instruksi tingkat tinggi menjadi rangkaian kontrol gerak kontinu dengan frekuensi di atas 20 Hz.
Mereka membutuhkan data pelatihan yang dihasilkan dari simulasi, karena tidak ada yang pernah mengumpulkan jutaan demonstrasi nyata melipat handuk. Mereka membutuhkan umpan balik sentuhan untuk mendeteksi selip dan menyesuaikan kekuatan genggaman, karena visual tidak mampu membedakan antara genggaman stabil dan yang gagal. Mereka juga membutuhkan pengontrol tertutup yang mampu mengenali kesalahan saat melipat dan memulihkan, bukan menjalankan jalur memori secara buta.
Inilah mengapa robot adalah sistem terdepan, bukan disiplin rekayasa yang lebih matang. Bahasa dasar ini bukan sekadar meningkatkan kemampuan robot yang ada, tetapi membuka kategori operasi, gerakan, dan interaksi yang sebelumnya tidak bisa dilakukan di luar lingkungan industri yang sempit dan terkendali.
Kemajuan terdepan dalam beberapa tahun terakhir sangat signifikan—kami pernah menulis tentang ini. Generasi pertama VLA membuktikan bahwa model dasar dapat mengendalikan robot untuk menyelesaikan berbagai tugas. Kemajuan arsitektur menghubungkan penalaran tingkat tinggi dan kontrol tingkat rendah dalam sistem robot. Penalaran di ujung perangkat menjadi mungkin, dan transfer lintas objek berarti satu model dapat diadaptasi ke platform robot baru dengan data terbatas. Tantangan utama tersisa adalah skala dan keandalan, yang masih menjadi hambatan utama untuk deployment. Akurasi 95% per langkah, hanya 60% dalam rangkaian 10 langkah, jauh dari standar industri. Pelatihan pasca RL memiliki potensi besar di sini, membantu bidang ini mencapai tahap skala dengan kemampuan dan ketahanan yang diperlukan.
Kemajuan ini juga memengaruhi struktur pasar. Nilai industri robot selama puluhan tahun terakumulasi dalam sistem mekanik itu sendiri; mekanik tetap bagian kunci dari tumpukan teknologi, tetapi seiring strategi belajar menjadi lebih standar, nilai akan bergeser ke model, infrastruktur pelatihan, dan roda data. Robot juga memberi umpan balik pada bahasa dasar: setiap trajektori nyata adalah data pelatihan untuk memperbaiki model dunia, setiap kegagalan mengungkap kekurangan simulasi, dan setiap pengujian platform baru memperluas keragaman pengalaman fisik yang dapat digunakan untuk pretraining. Robot adalah konsumen paling keras dari bahasa dasar, sekaligus sumber sinyal perbaikan terpenting.
Ilmu pengetahuan otonom
Jika robot adalah pengujian “aksi fisik real-time” terhadap bahasa dasar, ilmu pengetahuan otonom menguji hal lain—penalaran berkelanjutan terhadap sistem fisik yang kompleks, dengan rentang waktu jam atau hari, hasil eksperimen harus diinterpretasi, dikontekstualisasi, dan digunakan untuk merevisi strategi.
AI dalam ilmu pengetahuan adalah bidang yang paling lengkap dalam menggabungkan bahasa dasar. Laboratorium otomatis (self-driving lab, SDL) harus belajar representasi dinamika fisik-kimia untuk memprediksi hasil eksperimen; membutuhkan aksi berwujud untuk pipet, menempatkan sampel, mengoperasikan instrumen analisis; menggunakan simulasi untuk pra-saring eksperimen dan mengelola waktu instrumen yang terbatas; serta memperluas sensor—spektrum, kromatografi, spektrometri, dan sensor kimia serta biologi terbaru—untuk karakterisasi hasil.
Ini membutuhkan pengaturan agen tertutup yang mampu menjalankan workflow “hipotesis-eksperimen-analisis-revisi” berulang tanpa intervensi manusia, menjaga sumber data, memantau keamanan, dan menyesuaikan strategi berdasarkan informasi yang diperoleh setiap putaran.
Tidak ada bidang lain yang menggunakan bahasa dasar ini sedalam ini. Itulah mengapa ilmu pengetahuan otonom adalah sistem “terdepan”, bukan sekadar otomatisasi laboratorium yang lebih baik. Perusahaan seperti Periodic Labs dan Medra menggabungkan kemampuan penalaran ilmiah dan verifikasi fisik, menghasilkan iterasi ilmiah dan data pelatihan eksperimen secara berkelanjutan.
Nilai sistem ini secara intuitif sangat jelas. Penemuan material tradisional dari konsep hingga komersialisasi memakan waktu bertahun-tahun; AI dapat mempercepat proses ini secara signifikan. Kendala utama beralih dari “hipotesis generasi” (yang didukung model dasar) ke “pembuatan dan verifikasi” (memerlukan perangkat fisik, robot, dan optimisasi tertutup). SDL menargetkan hambatan ini.
Karakteristik penting lain dari ilmu pengetahuan otonom—yang berlaku di semua sistem dunia fisik—adalah perannya sebagai mesin data. Setiap eksperimen SDL tidak hanya menghasilkan hasil ilmiah, tetapi juga sinyal pelatihan yang terstruktur dan terverifikasi secara empiris.
Pengukuran tentang bagaimana polimer mengkristal di kondisi tertentu memperkaya model dunia tentang dinamika material; jalur sintesis yang tervalidasi menjadi data pelatihan untuk penalaran fisik; kegagalan yang terkarakterisasi memberi tahu sistem cerdas di mana prediksi mereka gagal. Data yang dihasilkan oleh ilmuwan AI dari eksperimen nyata berbeda secara sifat dari teks internet atau output simulasi—karena bersifat terstruktur, kausal, dan terverifikasi empiris. Ini adalah data yang paling dibutuhkan oleh model penalaran fisik, tetapi tidak tersedia dari sumber lain. Ilmu pengetahuan otonom secara langsung mengubah realitas fisik menjadi pengetahuan terstruktur dan memperbaiki ekosistem AI fisik secara keseluruhan.
Antarmuka baru
Robot memperluas AI ke aksi fisik, ilmu pengetahuan otonom memperluasnya ke penelitian fisik. Antarmuka baru memperluasnya ke hubungan langsung antara AI dan persepsi manusia, pengalaman sensorik, dan sinyal tubuh—mulai dari kacamata AR, gelang EMG, hingga antarmuka otak implant.
Yang menyatukan kategori ini bukan satu teknologi tunggal, melainkan fungsi bersama: memperbesar bandwidth dan modalitas saluran antara manusia dan AI—serta menghasilkan data interaksi manusia-dunia langsung yang dapat digunakan untuk membangun AI fisik.
Jarak dari paradigma utama adalah tantangan sekaligus potensi bidang ini. Model bahasa dan kode sudah menunjukkan hasil luar biasa, dan terus meningkat di era skala. Tetapi masalah baru, data baru, sinyal umpan balik baru, standar evaluasi baru yang ditawarkan dunia fisik hampir tak terbatas. Mengaplikasikan AI ke dunia fisik—melalui robot manipulasi, laboratorium bahan, antarmuka biologis dan fisik—membuka dimensi skala baru yang melengkapi bidang digital saat ini—dan kemungkinan saling memperbaiki.
Perilaku yang akan muncul dari sistem ini sulit diprediksi secara tepat—definisi munculnya adalah kemampuan yang berasal dari interaksi yang dapat dipahami secara independen, tetapi kombinasi yang belum pernah terlihat sebelumnya. Tetapi pola sejarah menunjukkan optimisme. Setiap kali AI memperoleh modalitas baru untuk berinteraksi dengan dunia—melihat (penglihatan komputer), berbicara (pengakuan suara), membaca menulis (model bahasa)—kemampuan yang dihasilkan jauh melebihi jumlah peningkatan individualnya. Transisi ke sistem dunia fisik mewakili perubahan fase berikutnya. Dalam arti ini, bahasa dasar yang dibahas artikel ini sedang dibangun saat ini, dan berpotensi memungkinkan sistem AI terdepan untuk memahami, menalar, dan berinteraksi dengan dunia fisik, membuka banyak nilai dan kemajuan di dalamnya.