Mungkin sulit bagi Anda untuk membayangkan bahwa di ruang tanpa tampilan layar atau mouse, Anda dapat menyelesaikan artikel 5.000 kata hanya dengan sepasang kacamata AR dan host saku.
Benar sekali, pada tanggal 26 Agustus lalu, di konferensi peluncuran produk baru Rokid Jungle 2023, adegan seperti itu benar-benar terjadi. Pada pertemuan tersebut, Rokid merilis Rokid AR Studio, platform komputasi spasial pribadi OST (optik tembus pandang) tingkat konsumen, termasuk dua produk perangkat keras utama, Rokid Max Pro (4,999 yuan) dan Rokid Station Pro (3,999 yuan).
Zhu Mingming, pendiri dan CEO Rokid, mengatakan pada konferensi pers: "Komputasi spasial dapat diintegrasikan secara lebih alami ke dalam kehidupan dan pekerjaan sehari-hari, dan biarkan Rokid AR Studio menjadi komputer spasial pertama Anda."
Hal ini sangat berbeda dengan persepsi masyarakat terhadap kacamata AR di masa lalu. Sebelumnya, kacamata AR telah "terkunci" di dunia hiburan, mengandalkan dua pilar industri film dan televisi serta game untuk bertahan hidup, namun Rokid AR Studio telah benar-benar menjadi alat produktivitas pribadi, perangkat lunak IM, menulis artikel, menulis kode , mencari informasi, dll. Dan skenario pekerjaan lainnya dapat diselesaikan dengan perangkat keras terbaru.
**Perluasan skenario penggunaan memungkinkan perangkat AR beralih dari skenario yang terpinggirkan ke nilai penggunaan yang lebih praktis. Ketika konsumen bersedia membayar, seluruh rantai industri AR akan memasuki siklus positif pasar konsumen. **
Zhu Mingming, bos yang mengatakan bahwa dia adalah "ketakutan sosial", adalah pengontrol produk dan teknologi yang lengkap.Dia pernah mematikan dua versi draf pertama desain produk secara internal, yang hampir membuat departemen produk "gila". Namun ketika departemen produk diam-diam mengeluarkan produk yang dirancang, Zhu Mingming segera memerintahkan semua sumber daya untuk dicurahkan pada produk ini. "Saya hanya peduli pada satu statistik, yaitu waktu penggunaan pengguna. Saat ini, waktu penggunaan pengguna sebenarnya mendekati satu setengah jam, dan tingkat retensi mingguan melebihi 20%. Jika ini dilakukan, pengguna akan bertambah secara alami ."
**Akumulasi jumlah pengguna telah mencapai level jutaan, yang juga berarti industri AR telah memasuki tahap kedua sistem perangkat lunak dan konstruksi ekologi. Dalam beberapa tahun terakhir, semakin banyak vendor sistem, vendor perangkat lunak aplikasi, dan vendor konten yang bergabung dalam pembangunan ekosistem AR. **
“Sekelompok orang gila, mimpi, sepuluh tahun.”
Seperti yang dikatakan Zhu Mingming, Rokid membutuhkan waktu 10 tahun untuk beralih dari dunia hiburan ke alat produktivitas.Di balik ini tidak hanya ada lompatan pemikiran, tetapi juga langkah maju yang besar dari teknologi perangkat keras ke teknologi perangkat lunak, dan bahkan seluruh rantai industri. Apple dan Rokid telah memulai kompetisi AR tahap kedua, dan persaingan di industri ini juga semakin cepat.
**SLAM Monokuler, bagaimana cara mendefinisikan ulang interaksi? **
Secara keseluruhan konferensi pers, yang paling mengejutkan bukanlah bodi Rokid Max Pro 76g, melainkan hanya satu kamera yang mampu melengkapi SLAM (spatial positioning technology), interaksi micro-gesture, first-person perspective sharing, Visual positioning Kemampuan VPS dan metode interaktif terintegrasi lainnya. **
Setelah mengalami interaksi fisik (pegangan), interaksi suara, dan interaksi gerak tubuh, perangkat AR/VR berkembang menuju pelacakan mata dan solusi interaksi fusi multi-sensorik saat ini.
Namun, interaksi integrasi multi-sensor memiliki persyaratan perangkat keras yang lebih tinggi.Selain memenuhi kebutuhan dasar, juga perlu menangkap tindakan dan gerak tubuh pengguna dari segala arah dan dari berbagai sudut untuk menyelesaikan interaksi secara akurat.
**Seberapa sulitkah menyelesaikan interaksi SLAM dengan satu kamera? **
Metode visual SLAM terdiri dari dua modul, satu adalah Pelacakan, mengetahui posisi titik 3D, penentuan posisi dasar; yang lainnya adalah Pemetaan, memperbarui posisi titik 3D. Terlepas dari tautan atau metode mana, bermata berarti hanya satu kamera yang dapat dipilih, serta posisi tetap dan sudut tetap, yang menimbulkan tantangan besar terhadap jangkauan pengenalan, kecepatan pelacakan, dan akurasi.
"Industri percaya bahwa SLAM bermata tidak dapat dipercaya dan sulit dicapai," kata Zhu Mingming sambil bercanda, "Ini mungkin juga merupakan penegasan dari Rokid."
Saat ini, beberapa kacamata AR dengan interaksi spasial yang ada di pasaran akan dilengkapi dengan setidaknya tiga kamera untuk menjalankan fungsi algoritma. **Perbedaan rute visual juga membentuk dua kubu: VST (perspektif video) yang diwakili oleh Apple dan OST (perspektif optik) yang diwakili oleh Rokid. **
Masih menggunakan Apple Vision Pro sebagai contoh, ia menggunakan 12 kamera untuk "menumpuk" pengambilan posisi cepat, persepsi panorama presisi tinggi, dan pelacakan presisi, serta menggunakan VST untuk menampilkan dunia luar di layar terminal melalui kamera. memotret secara real time untuk melihat dunia luar.
Namun, metode penumpukan perangkat keras untuk interaksi telah meningkatkan biaya dan menggandakan harga pada saat yang sama, yang menyebabkan dua masalah pendaratan utama: bobot mesin dan kesulitan produksi massal. Inilah alasan mendasar mengapa Apple Vision Pro dibanderol dengan harga $3.499 dan tidak akan diproduksi secara massal hingga tahun 2024.
Namun, solusi OST yang ditekankan oleh Rokid memiliki hambatan teknis tertentu.Karena desain saluran pipa yang rumit, sudut pandang layar yang terbatas, dan tingginya biaya komponen optik, Rokid hanya dapat melewati terobosan teknologi untuk mengurangi biaya yang dikenakan.
Dan bagaimana SLAM bermata yang membuat industri berpikir "luar biasa" bisa melakukannya? Setelah pertemuan tersebut, Lightcone Intelligence melakukan pertukaran mendalam dengan Zhu Mingming, dan menemukan bahwa "trik unik" Rokid adalah menggunakan algoritme AI untuk menerobos hambatan perangkat keras. **
Zhu Mingming memperkenalkan bahwa meskipun teknologi monocular SLAM sudah ada sejak lama, namun belum pernah diterapkan pada kacamata AR.Kamera depan ponsel juga menerapkan teknologi tersebut.Yang membedakan hanyalah algoritmanya.
Dari AI ke AR, ini adalah jalan yang tampak terbentang namun sebenarnya terintegrasi, namun juga karena akumulasi Rokid di bidang AI dalam beberapa tahun terakhir, melalui model algoritma visual multidimensi, termasuk pemosisian dan peningkatan visual, teknologi manusia digital, pengenalan gerakan 2D/3D, pengenalan OCR, dan teknologi lainnya memungkinkan AI untuk mendarat dalam skenario tertentu.
Misalnya, fungsi pemosisian dan peningkatan visual AR adalah untuk memecahkan dan menerobos batasan tujuan tunggal.Dengan membuat peta visual tingkat sentimeter, informasi virtual dapat ditumpangkan dan digabungkan secara akurat di dunia objek nyata untuk mencapai presisi tinggi. Rekonstruksi 3D objek dan pemandangan.
Wang Junjie, wakil presiden Rokid dan kepala pusat XR, mengatakan: "Pemosisian spasial didasarkan pada teknologi SLAM, dan kemudian interaksi yang stabil dan alami dapat dilakukan di ruang angkasa. Diperlukan 1 hingga 2 detik untuk melakukan inisialisasi dengan cepat melalui algoritma untuk membangun ruang pemetaan."
Di pasaran, sebagian besar perangkat masih menggunakan solusi binokular, namun fusi binokular juga memiliki banyak kendala.Selain biaya penambahan kamera tambahan, algoritma juga perlu terus digunakan agar data kedua kamera dapat disesuaikan secara real time. Hal ini menyebabkan permasalahan yang lebih kompleks.
Dari sudut pandang ini, jika solusi monokuler bisa terlaksana dengan lancar, Rokid akan memimpin dalam menginjak tren teknologi. Sebelumnya, Rokid juga merupakan produsen host Station pertama di industri. Solusi pemisahan kacamata dan host telah terbukti menjadi solusi optimal berdasarkan pengalaman industri.
Selain itu, dalam pengenalan isyarat, Rokid mengadopsi mode interaktif isyarat mikro, dan Anda dapat mengeklik dan memilih dengan sejumput jari; Anda juga dapat mengganti antarmuka atau konten yang Anda jelajahi dengan menggerakkan isyarat ke kiri dan kanan. Definisi logis seperti gerakan mencubit dan menggeser sederhana lebih alami dan memulai lebih cepat.
Menurut hasil pengujian kami di tempat, Rokid dapat mewujudkan interaksi ruang tangan kosong dengan kedua tangan. Saat ini, algoritme pengenalan gerakan Rokid mendukung pengenalan pemandangan yang kompleks seperti rotasi sumbu horizontal/spasial, cahaya terang/gelap, dll. Pada saat yang sama waktu, ada banyak jenis isyarat yang dapat dikenali., Algoritmenya tepat, tingkat pengenalan keseluruhan sekitar 90%, dan memiliki kemampuan respons pengenalan tingkat milidetik dan jaminan keandalan 99%.
Menurut Rokid, berdasarkan algoritma pembelajaran mendalam dan sejumlah besar data eksperimen, algoritma gerakan 3D bermata dapat merekonstruksi parameter postur tangan secara real time di terminal seluler, termasuk tangan 6DoF, titik sambungan tangan 6DoF, dan informasi Hand Mesh, menyediakan interaksi gerakan AR. Dasar algoritmik yang baik.
Saat ini, pengenalan gerakan Rokid dapat mewujudkan berbagai operasi dalam ruang 3D, termasuk menunjuk, mencubit, menggenggam, menahan, menyeret, menarik, dll., yang sepenuhnya dapat memenuhi kebutuhan aplikasi interaktif AR. Misalnya memakai Rokid Max Pro, ulurkan tangan, lalu buka telapak tangan di depan mata untuk memanggil menu.
Toh, untuk mendukung struktur algoritma yang begitu rumit, jagoan di baliknya bukan hanya kamera, tapi juga erat kaitannya dengan daya komputasi dan performa "otaknya", yakni Rokid Station Pro.
KOMPUTER RUANG DI POCKET ANDA
** Untuk waktu yang lama, seluruh industri VR/AR memiliki segitiga mustahil yaitu "kekuatan komputasi, kenyamanan, dan harga". Perangkat dengan daya komputasi lebih tinggi cenderung lebih berat dan mahal, dan perangkat ringan dengan kenyamanan tinggi tidak dapat memenuhi kebutuhan penggunaan. **
Dilihat dari situasi aktual, saat ini tidak ada solusi yang "sempurna". Produsen arus utama berusaha menemukan keseimbangan di antara keduanya. Ada dua solusi arus utama di pasar saat ini: satu diwakili oleh Apple. Layar dan komputasi terintegrasi , dan baterai terhubung secara eksternal; yang lainnya adalah desain split tampilan dan komputasi yang diwakili oleh Rokid.
Desain terintegrasi Apple mengintegrasikan dua layar mikro-OLED, beberapa kamera, sensor, speaker, dan komponen lainnya, yang lebih efisien dalam hal efek tampilan dan penghitungan, tetapi juga akan menambah bobot bodi itu sendiri, sehingga hanya menyambungkan baterai secara eksternal.
Desain terpisah yang ditekankan oleh Rokid memaksimalkan daya tahan. Dibandingkan dengan bobot Vision Pro sebesar 454g, bobot kacamata 76g hampir sama dengan kacamata biasa. Pada saat yang sama, daya komputasi host juga tidak terlalu dibatasi oleh sumber daya ruang, sambil menghindari sampai batas tertentu Ketidaknyamanan yang disebabkan oleh pembuangan panas.
**Secara umum, rute tipe terpisah dapat mencapai pengembangan akhir dua arah dari portabilitas kacamata dan daya komputasi host, dan juga lebih fleksibel. Iterasi daya komputasi dan rute teknis kacamata dapat berupa dilakukan secara asinkron. **
Berdasarkan desain terpisah, Rokid Station Pro telah meningkatkan kekuatan komputasinya untuk menciptakan terminal All in One yang mengintegrasikan komputasi, pencitraan, komunikasi, dan fungsi lainnya. Ini juga dapat disebut sebagai "alat produktivitas". HyperTerminal.
Menurut Lightcone Intelligence, Rokid Station Pro dilengkapi dengan Qualcomm Snapdragon XR2+, RAM 12G + ROM 128G, dan mendukung WIFI6/6E dan BT5.1. Dengan pembuangan panas dan kinerja yang lebih tinggi, ia dapat mencapai akurasi pelacakan 6DoF tingkat sentimeter dan sangat rendah Penundaan rendering MTP (Motion to Photon).
Menurut informasi publik, Snapdragon XR2+ adalah platform XR andalan terbaru yang diluncurkan oleh Qualcomm, yang dapat mencapai masa pakai baterai 50% dan peningkatan kinerja pembuangan panas sebesar 30%, sehingga memungkinkan pengalaman yang lebih kaya dan mendalam dalam bentuk perangkat yang lebih kecil dan tipis. . Pada saat yang sama, platform Snapdragon XR2+ memperkenalkan jalur pemrosesan gambar baru, yang dapat mencapai penundaan kurang dari 10 milidetik dan membuka pengalaman MR tembus pandang video penuh warna.
Dilihat dari pengalaman Light Cone Intelligence di lokasi, baik itu menonton film, bermain game, atau memanggil keyboard untuk pekerjaan dan proses produksi, terutama di bawah interaksi frekuensi tinggi dan pertarungan game, kelancaran dan kecepatan respons layar. sangat halus.tergelincir.
Perlu disebutkan bahwa algoritma inti yang saat ini ada di pasaran masih 3DoF (pelacakan tiga derajat kebebasan), yang berarti perangkat dapat mendeteksi rotasi dalam tiga arah yaitu ke atas, ke depan, dan ke bawah, tetapi tidak bisa. mendeteksi perpindahan spasial kepala, depan, belakang, kiri, dan kanan. .
Algoritme 6DoF yang diadopsi oleh Station Pro yang ditingkatkan tidak hanya dapat mendeteksi perubahan sudut pandang yang disebabkan oleh perputaran kepala, tetapi juga mendeteksi enam jenis perubahan perpindahan "atas, bawah, depan, belakang, kiri, dan kanan" yang disebabkan oleh gerakan tubuh.
Peningkatan algoritma ini lebih penting dalam tingkat kebebasan pemain. Misalnya saat melawan zombie dengan algoritma 3DoF, jarak tembak berada pada sudut tertentu di depan, namun setelah diupgrade, zombie muncul dari 360 derajat, dan saat Anda berbalik, sensasi tubuh zombie di belakang Anda berada di luar jangkauan. jangkauan yang pertama.
Dengan kata lain, tidak hanya daya komputasi yang lebih tinggi, pengalaman yang lebih lancar, namun perluasan ruang daya komputasi juga membawa perbedaan besar dalam pengalaman fisik.
Said Bakadir, direktur senior manajemen produk XR di Qualcomm Technologies, mengatakan: “Platform Snapdragon XR2+ generasi pertama adalah pilihan terbaik untuk memungkinkan pengalaman XR generasi berikutnya. Qualcomm Technologies menyediakan platform terdepan di industri untuk Rokid Station Pro, mendukung itu untuk menciptakan ekosistem aplikasi AR yang unik."
Lakukan iOS di industri AR
Tentu saja alasan ponsel Apple mampu mendominasi pasar ponsel sepanjang tahun bukan hanya karena perangkat kerasnya, tetapi juga karena sistem dan ekologinya. Hambatan yang dibangun dengan mengembangkan kebiasaan pengguna melalui sistem perangkat lunak seringkali lebih kuat dibandingkan perangkat keras itu sendiri.
**Ini adalah sebagian alasan sistem operasi ruang AR yang dikembangkan sendiri oleh Rokid - YodaOS-Master, tetapi bukan alasan keseluruhan. **
Pada Hari Terbuka Rokid di bulan Maret tahun ini, Rokid secara resmi meluncurkan YodaOS-Master, dan merilis "AR Space Creation Platform Lingjing", yang memungkinkan semua orang membuat konten AR dalam ruang 3D, dan semua orang dapat berpartisipasi, sepenuhnya mendobrak hambatan pembuatan AR. Ambang batasnya, biarkan energi potensial ekologis meledak.
**Jika SLAM bermata, pengenalan gerakan 3D, Snapdragon XR+, dan platform Lingjing semuanya merupakan bilah yang tajam, maka YodaOS-Master dapat merilis trik ini melalui sistem yang dikembangkan sendiri. **
Sederhananya, Rokid mengambil jalan yang belum pernah dilalui oleh siapa pun, dan filosofi Rokid adalah "perangkat lunak mendefinisikan segalanya". Semua perangkat lunak perlu dibawa dan disediakan oleh sistem agar dapat memberikan nilainya.
Berfokus pada lima aspek yaitu persepsi, pemahaman, interaksi, presentasi, kolaborasi, dan kreasi digital, YodaOS-Master telah melakukan peningkatan besar dalam hal optimalisasi chip, desain perangkat keras, arsitektur perangkat lunak, algoritma AR, dan alat pembuatan. terlengkap saat ini. Seperangkat sistem operasi spasial untuk era AR.
Pada konferensi pers tersebut, Rokid juga menunjukkan keterbukaan dan kenyamanan yang dibawa oleh sistem yang dikembangkan sendiri. Sebagai contoh nyata, Berdasarkan sistem yang dikembangkan sendiri dan platform Snapdragon XR+, Rokid telah mengembangkan mode paralel multitugas, yang mendobrak batasan sebelumnya yang hanya mencakup satu tugas, memungkinkan chatting, menulis kode, dan Adegan melihat dokumen dapat diwujudkan pada saat yang sama dan memberikan manfaat penuh dari layar besar di ruang angkasa, sehingga memaksimalkan efisiensi produksi.
**Kasus inovatif lainnya adalah Rokid mendefinisikan ulang pencarian spasial berdasarkan sistem yang dikembangkannya sendiri. **Zhu Mingming mengatakan bahwa ini mematahkan cara sebelumnya dalam menampilkan informasi pencarian, dan penyajian hasil pencarian tidak lagi berupa efek bidang dua dimensi, tetapi ada dalam ruang tiga dimensi. Hasil yang paling relevan dengan pertanyaan akan paling dekat dengan Anda, dan hasil yang agak relevan ada di halaman sekunder. Semakin jauh, semakin kurang relevan. Tentu saja, Anda juga dapat mencoret hasil sebelumnya dan pilih secara dinamis hasil yang Anda inginkan."
Dengan cara ini, kesan masa depan langsung terasa penuh, dan ini juga menunjukkan perbedaan penting dari peralatan AR tahap pertama.
** Terlihat bahwa ekologi terbuka industri AR sudah mulai memasuki tahap kedua, Apple dan Rokid tidak hanya bergerak ke kiri dan ke kanan dalam arah perangkat keras, tetapi juga dalam pengembangan perangkat lunak sistem industri dan ekologi. Melalui kreasi bersama antara perangkat keras, algoritme, ekologi perangkat lunak, pengembang, pengguna, dan platform, AR akan bergerak menuju tahap kedua perkembangan pesat dalam ekologi yang sepenuhnya terbuka. **
Shi Wenfeng, chief engineer penelitian dan pengembangan sistem Rokid, mengatakan, "Sistem operasi YodaOS-Master mengintegrasikan berbagai teknologi inti pengenalan suara Rokid, pengenalan gerakan, SLAM, dll. ke dalam layanan sistem melalui pendekatan berorientasi layanan, dan menyediakan a berbagai SDK klien untuk pengembangan yang dapat dikembangkan oleh Pengembang secara efisien, seperti SDK untuk Unity, yang memungkinkan pengembang Unity (saluran aplikasi pengembang: URL platform terbuka (ar.rokid.com)) dengan cepat menggunakan teknologi inti Rokid untuk pengembangan.”
Dari perangkat keras hingga perangkat lunak, dari sistem hingga ekologi, jalur pengembangan Rokid mirip dengan Apple di era Jobs.
“Industri AR baru saja menjelang fajar,” kata Zhu Mingming.
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Android di dunia AR di Cina, Rokid meledakkan kegilaan komputasi spasial
Sumber Asli: Kecerdasan Kerucut Cahaya
Penulis: Liu Yuqi
Mungkin sulit bagi Anda untuk membayangkan bahwa di ruang tanpa tampilan layar atau mouse, Anda dapat menyelesaikan artikel 5.000 kata hanya dengan sepasang kacamata AR dan host saku.
Benar sekali, pada tanggal 26 Agustus lalu, di konferensi peluncuran produk baru Rokid Jungle 2023, adegan seperti itu benar-benar terjadi. Pada pertemuan tersebut, Rokid merilis Rokid AR Studio, platform komputasi spasial pribadi OST (optik tembus pandang) tingkat konsumen, termasuk dua produk perangkat keras utama, Rokid Max Pro (4,999 yuan) dan Rokid Station Pro (3,999 yuan).
Hal ini sangat berbeda dengan persepsi masyarakat terhadap kacamata AR di masa lalu. Sebelumnya, kacamata AR telah "terkunci" di dunia hiburan, mengandalkan dua pilar industri film dan televisi serta game untuk bertahan hidup, namun Rokid AR Studio telah benar-benar menjadi alat produktivitas pribadi, perangkat lunak IM, menulis artikel, menulis kode , mencari informasi, dll. Dan skenario pekerjaan lainnya dapat diselesaikan dengan perangkat keras terbaru.
Zhu Mingming, bos yang mengatakan bahwa dia adalah "ketakutan sosial", adalah pengontrol produk dan teknologi yang lengkap.Dia pernah mematikan dua versi draf pertama desain produk secara internal, yang hampir membuat departemen produk "gila". Namun ketika departemen produk diam-diam mengeluarkan produk yang dirancang, Zhu Mingming segera memerintahkan semua sumber daya untuk dicurahkan pada produk ini. "Saya hanya peduli pada satu statistik, yaitu waktu penggunaan pengguna. Saat ini, waktu penggunaan pengguna sebenarnya mendekati satu setengah jam, dan tingkat retensi mingguan melebihi 20%. Jika ini dilakukan, pengguna akan bertambah secara alami ."
**Akumulasi jumlah pengguna telah mencapai level jutaan, yang juga berarti industri AR telah memasuki tahap kedua sistem perangkat lunak dan konstruksi ekologi. Dalam beberapa tahun terakhir, semakin banyak vendor sistem, vendor perangkat lunak aplikasi, dan vendor konten yang bergabung dalam pembangunan ekosistem AR. **
“Sekelompok orang gila, mimpi, sepuluh tahun.”
Seperti yang dikatakan Zhu Mingming, Rokid membutuhkan waktu 10 tahun untuk beralih dari dunia hiburan ke alat produktivitas.Di balik ini tidak hanya ada lompatan pemikiran, tetapi juga langkah maju yang besar dari teknologi perangkat keras ke teknologi perangkat lunak, dan bahkan seluruh rantai industri. Apple dan Rokid telah memulai kompetisi AR tahap kedua, dan persaingan di industri ini juga semakin cepat.
**SLAM Monokuler, bagaimana cara mendefinisikan ulang interaksi? **
Secara keseluruhan konferensi pers, yang paling mengejutkan bukanlah bodi Rokid Max Pro 76g, melainkan hanya satu kamera yang mampu melengkapi SLAM (spatial positioning technology), interaksi micro-gesture, first-person perspective sharing, Visual positioning Kemampuan VPS dan metode interaktif terintegrasi lainnya. **
Namun, interaksi integrasi multi-sensor memiliki persyaratan perangkat keras yang lebih tinggi.Selain memenuhi kebutuhan dasar, juga perlu menangkap tindakan dan gerak tubuh pengguna dari segala arah dan dari berbagai sudut untuk menyelesaikan interaksi secara akurat.
**Seberapa sulitkah menyelesaikan interaksi SLAM dengan satu kamera? **
Metode visual SLAM terdiri dari dua modul, satu adalah Pelacakan, mengetahui posisi titik 3D, penentuan posisi dasar; yang lainnya adalah Pemetaan, memperbarui posisi titik 3D. Terlepas dari tautan atau metode mana, bermata berarti hanya satu kamera yang dapat dipilih, serta posisi tetap dan sudut tetap, yang menimbulkan tantangan besar terhadap jangkauan pengenalan, kecepatan pelacakan, dan akurasi.
"Industri percaya bahwa SLAM bermata tidak dapat dipercaya dan sulit dicapai," kata Zhu Mingming sambil bercanda, "Ini mungkin juga merupakan penegasan dari Rokid."
Saat ini, beberapa kacamata AR dengan interaksi spasial yang ada di pasaran akan dilengkapi dengan setidaknya tiga kamera untuk menjalankan fungsi algoritma. **Perbedaan rute visual juga membentuk dua kubu: VST (perspektif video) yang diwakili oleh Apple dan OST (perspektif optik) yang diwakili oleh Rokid. **
Masih menggunakan Apple Vision Pro sebagai contoh, ia menggunakan 12 kamera untuk "menumpuk" pengambilan posisi cepat, persepsi panorama presisi tinggi, dan pelacakan presisi, serta menggunakan VST untuk menampilkan dunia luar di layar terminal melalui kamera. memotret secara real time untuk melihat dunia luar.
Namun, metode penumpukan perangkat keras untuk interaksi telah meningkatkan biaya dan menggandakan harga pada saat yang sama, yang menyebabkan dua masalah pendaratan utama: bobot mesin dan kesulitan produksi massal. Inilah alasan mendasar mengapa Apple Vision Pro dibanderol dengan harga $3.499 dan tidak akan diproduksi secara massal hingga tahun 2024.
Namun, solusi OST yang ditekankan oleh Rokid memiliki hambatan teknis tertentu.Karena desain saluran pipa yang rumit, sudut pandang layar yang terbatas, dan tingginya biaya komponen optik, Rokid hanya dapat melewati terobosan teknologi untuk mengurangi biaya yang dikenakan.
Dan bagaimana SLAM bermata yang membuat industri berpikir "luar biasa" bisa melakukannya? Setelah pertemuan tersebut, Lightcone Intelligence melakukan pertukaran mendalam dengan Zhu Mingming, dan menemukan bahwa "trik unik" Rokid adalah menggunakan algoritme AI untuk menerobos hambatan perangkat keras. **
Zhu Mingming memperkenalkan bahwa meskipun teknologi monocular SLAM sudah ada sejak lama, namun belum pernah diterapkan pada kacamata AR.Kamera depan ponsel juga menerapkan teknologi tersebut.Yang membedakan hanyalah algoritmanya.
Dari AI ke AR, ini adalah jalan yang tampak terbentang namun sebenarnya terintegrasi, namun juga karena akumulasi Rokid di bidang AI dalam beberapa tahun terakhir, melalui model algoritma visual multidimensi, termasuk pemosisian dan peningkatan visual, teknologi manusia digital, pengenalan gerakan 2D/3D, pengenalan OCR, dan teknologi lainnya memungkinkan AI untuk mendarat dalam skenario tertentu.
Misalnya, fungsi pemosisian dan peningkatan visual AR adalah untuk memecahkan dan menerobos batasan tujuan tunggal.Dengan membuat peta visual tingkat sentimeter, informasi virtual dapat ditumpangkan dan digabungkan secara akurat di dunia objek nyata untuk mencapai presisi tinggi. Rekonstruksi 3D objek dan pemandangan.
Wang Junjie, wakil presiden Rokid dan kepala pusat XR, mengatakan: "Pemosisian spasial didasarkan pada teknologi SLAM, dan kemudian interaksi yang stabil dan alami dapat dilakukan di ruang angkasa. Diperlukan 1 hingga 2 detik untuk melakukan inisialisasi dengan cepat melalui algoritma untuk membangun ruang pemetaan."
Di pasaran, sebagian besar perangkat masih menggunakan solusi binokular, namun fusi binokular juga memiliki banyak kendala.Selain biaya penambahan kamera tambahan, algoritma juga perlu terus digunakan agar data kedua kamera dapat disesuaikan secara real time. Hal ini menyebabkan permasalahan yang lebih kompleks.
Dari sudut pandang ini, jika solusi monokuler bisa terlaksana dengan lancar, Rokid akan memimpin dalam menginjak tren teknologi. Sebelumnya, Rokid juga merupakan produsen host Station pertama di industri. Solusi pemisahan kacamata dan host telah terbukti menjadi solusi optimal berdasarkan pengalaman industri.
Selain itu, dalam pengenalan isyarat, Rokid mengadopsi mode interaktif isyarat mikro, dan Anda dapat mengeklik dan memilih dengan sejumput jari; Anda juga dapat mengganti antarmuka atau konten yang Anda jelajahi dengan menggerakkan isyarat ke kiri dan kanan. Definisi logis seperti gerakan mencubit dan menggeser sederhana lebih alami dan memulai lebih cepat.
Menurut Rokid, berdasarkan algoritma pembelajaran mendalam dan sejumlah besar data eksperimen, algoritma gerakan 3D bermata dapat merekonstruksi parameter postur tangan secara real time di terminal seluler, termasuk tangan 6DoF, titik sambungan tangan 6DoF, dan informasi Hand Mesh, menyediakan interaksi gerakan AR. Dasar algoritmik yang baik.
Saat ini, pengenalan gerakan Rokid dapat mewujudkan berbagai operasi dalam ruang 3D, termasuk menunjuk, mencubit, menggenggam, menahan, menyeret, menarik, dll., yang sepenuhnya dapat memenuhi kebutuhan aplikasi interaktif AR. Misalnya memakai Rokid Max Pro, ulurkan tangan, lalu buka telapak tangan di depan mata untuk memanggil menu.
Toh, untuk mendukung struktur algoritma yang begitu rumit, jagoan di baliknya bukan hanya kamera, tapi juga erat kaitannya dengan daya komputasi dan performa "otaknya", yakni Rokid Station Pro.
KOMPUTER RUANG DI POCKET ANDA
** Untuk waktu yang lama, seluruh industri VR/AR memiliki segitiga mustahil yaitu "kekuatan komputasi, kenyamanan, dan harga". Perangkat dengan daya komputasi lebih tinggi cenderung lebih berat dan mahal, dan perangkat ringan dengan kenyamanan tinggi tidak dapat memenuhi kebutuhan penggunaan. **
Dilihat dari situasi aktual, saat ini tidak ada solusi yang "sempurna". Produsen arus utama berusaha menemukan keseimbangan di antara keduanya. Ada dua solusi arus utama di pasar saat ini: satu diwakili oleh Apple. Layar dan komputasi terintegrasi , dan baterai terhubung secara eksternal; yang lainnya adalah desain split tampilan dan komputasi yang diwakili oleh Rokid.
Desain terintegrasi Apple mengintegrasikan dua layar mikro-OLED, beberapa kamera, sensor, speaker, dan komponen lainnya, yang lebih efisien dalam hal efek tampilan dan penghitungan, tetapi juga akan menambah bobot bodi itu sendiri, sehingga hanya menyambungkan baterai secara eksternal.
Desain terpisah yang ditekankan oleh Rokid memaksimalkan daya tahan. Dibandingkan dengan bobot Vision Pro sebesar 454g, bobot kacamata 76g hampir sama dengan kacamata biasa. Pada saat yang sama, daya komputasi host juga tidak terlalu dibatasi oleh sumber daya ruang, sambil menghindari sampai batas tertentu Ketidaknyamanan yang disebabkan oleh pembuangan panas.
Berdasarkan desain terpisah, Rokid Station Pro telah meningkatkan kekuatan komputasinya untuk menciptakan terminal All in One yang mengintegrasikan komputasi, pencitraan, komunikasi, dan fungsi lainnya. Ini juga dapat disebut sebagai "alat produktivitas". HyperTerminal.
Menurut Lightcone Intelligence, Rokid Station Pro dilengkapi dengan Qualcomm Snapdragon XR2+, RAM 12G + ROM 128G, dan mendukung WIFI6/6E dan BT5.1. Dengan pembuangan panas dan kinerja yang lebih tinggi, ia dapat mencapai akurasi pelacakan 6DoF tingkat sentimeter dan sangat rendah Penundaan rendering MTP (Motion to Photon).
Menurut informasi publik, Snapdragon XR2+ adalah platform XR andalan terbaru yang diluncurkan oleh Qualcomm, yang dapat mencapai masa pakai baterai 50% dan peningkatan kinerja pembuangan panas sebesar 30%, sehingga memungkinkan pengalaman yang lebih kaya dan mendalam dalam bentuk perangkat yang lebih kecil dan tipis. . Pada saat yang sama, platform Snapdragon XR2+ memperkenalkan jalur pemrosesan gambar baru, yang dapat mencapai penundaan kurang dari 10 milidetik dan membuka pengalaman MR tembus pandang video penuh warna.
Dilihat dari pengalaman Light Cone Intelligence di lokasi, baik itu menonton film, bermain game, atau memanggil keyboard untuk pekerjaan dan proses produksi, terutama di bawah interaksi frekuensi tinggi dan pertarungan game, kelancaran dan kecepatan respons layar. sangat halus.tergelincir.
Perlu disebutkan bahwa algoritma inti yang saat ini ada di pasaran masih 3DoF (pelacakan tiga derajat kebebasan), yang berarti perangkat dapat mendeteksi rotasi dalam tiga arah yaitu ke atas, ke depan, dan ke bawah, tetapi tidak bisa. mendeteksi perpindahan spasial kepala, depan, belakang, kiri, dan kanan. .
Algoritme 6DoF yang diadopsi oleh Station Pro yang ditingkatkan tidak hanya dapat mendeteksi perubahan sudut pandang yang disebabkan oleh perputaran kepala, tetapi juga mendeteksi enam jenis perubahan perpindahan "atas, bawah, depan, belakang, kiri, dan kanan" yang disebabkan oleh gerakan tubuh.
Peningkatan algoritma ini lebih penting dalam tingkat kebebasan pemain. Misalnya saat melawan zombie dengan algoritma 3DoF, jarak tembak berada pada sudut tertentu di depan, namun setelah diupgrade, zombie muncul dari 360 derajat, dan saat Anda berbalik, sensasi tubuh zombie di belakang Anda berada di luar jangkauan. jangkauan yang pertama.
Said Bakadir, direktur senior manajemen produk XR di Qualcomm Technologies, mengatakan: “Platform Snapdragon XR2+ generasi pertama adalah pilihan terbaik untuk memungkinkan pengalaman XR generasi berikutnya. Qualcomm Technologies menyediakan platform terdepan di industri untuk Rokid Station Pro, mendukung itu untuk menciptakan ekosistem aplikasi AR yang unik."
Lakukan iOS di industri AR
Tentu saja alasan ponsel Apple mampu mendominasi pasar ponsel sepanjang tahun bukan hanya karena perangkat kerasnya, tetapi juga karena sistem dan ekologinya. Hambatan yang dibangun dengan mengembangkan kebiasaan pengguna melalui sistem perangkat lunak seringkali lebih kuat dibandingkan perangkat keras itu sendiri.
**Ini adalah sebagian alasan sistem operasi ruang AR yang dikembangkan sendiri oleh Rokid - YodaOS-Master, tetapi bukan alasan keseluruhan. **
Pada Hari Terbuka Rokid di bulan Maret tahun ini, Rokid secara resmi meluncurkan YodaOS-Master, dan merilis "AR Space Creation Platform Lingjing", yang memungkinkan semua orang membuat konten AR dalam ruang 3D, dan semua orang dapat berpartisipasi, sepenuhnya mendobrak hambatan pembuatan AR. Ambang batasnya, biarkan energi potensial ekologis meledak.
**Jika SLAM bermata, pengenalan gerakan 3D, Snapdragon XR+, dan platform Lingjing semuanya merupakan bilah yang tajam, maka YodaOS-Master dapat merilis trik ini melalui sistem yang dikembangkan sendiri. **
Sederhananya, Rokid mengambil jalan yang belum pernah dilalui oleh siapa pun, dan filosofi Rokid adalah "perangkat lunak mendefinisikan segalanya". Semua perangkat lunak perlu dibawa dan disediakan oleh sistem agar dapat memberikan nilainya.
Berfokus pada lima aspek yaitu persepsi, pemahaman, interaksi, presentasi, kolaborasi, dan kreasi digital, YodaOS-Master telah melakukan peningkatan besar dalam hal optimalisasi chip, desain perangkat keras, arsitektur perangkat lunak, algoritma AR, dan alat pembuatan. terlengkap saat ini. Seperangkat sistem operasi spasial untuk era AR.
**Kasus inovatif lainnya adalah Rokid mendefinisikan ulang pencarian spasial berdasarkan sistem yang dikembangkannya sendiri. **Zhu Mingming mengatakan bahwa ini mematahkan cara sebelumnya dalam menampilkan informasi pencarian, dan penyajian hasil pencarian tidak lagi berupa efek bidang dua dimensi, tetapi ada dalam ruang tiga dimensi. Hasil yang paling relevan dengan pertanyaan akan paling dekat dengan Anda, dan hasil yang agak relevan ada di halaman sekunder. Semakin jauh, semakin kurang relevan. Tentu saja, Anda juga dapat mencoret hasil sebelumnya dan pilih secara dinamis hasil yang Anda inginkan."
** Terlihat bahwa ekologi terbuka industri AR sudah mulai memasuki tahap kedua, Apple dan Rokid tidak hanya bergerak ke kiri dan ke kanan dalam arah perangkat keras, tetapi juga dalam pengembangan perangkat lunak sistem industri dan ekologi. Melalui kreasi bersama antara perangkat keras, algoritme, ekologi perangkat lunak, pengembang, pengguna, dan platform, AR akan bergerak menuju tahap kedua perkembangan pesat dalam ekologi yang sepenuhnya terbuka. **
Shi Wenfeng, chief engineer penelitian dan pengembangan sistem Rokid, mengatakan, "Sistem operasi YodaOS-Master mengintegrasikan berbagai teknologi inti pengenalan suara Rokid, pengenalan gerakan, SLAM, dll. ke dalam layanan sistem melalui pendekatan berorientasi layanan, dan menyediakan a berbagai SDK klien untuk pengembangan yang dapat dikembangkan oleh Pengembang secara efisien, seperti SDK untuk Unity, yang memungkinkan pengembang Unity (saluran aplikasi pengembang: URL platform terbuka (ar.rokid.com)) dengan cepat menggunakan teknologi inti Rokid untuk pengembangan.”
“Industri AR baru saja menjelang fajar,” kata Zhu Mingming.