AR dünyasında Android Çin'de, Rokid mekansal bilgi işlem çılgınlığını patlatıyor

Orijinal Kaynak: Light Cone Intelligence

Yazar: Liu Yuqi

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Ekranın veya farenin olmadığı bir alanda, yalnızca bir çift AR gözlük ve bir cep hostuyla 5.000 kelimelik bir makaleyi tamamlayabileceğinizi hayal etmek sizin için zor olabilir.

Aynen öyle, 26 Ağustos'ta 2023 Rokid Jungle yeni ürün lansman konferansında böyle bir sahne gerçekten yaşanıyor. Toplantıda Rokid, iki ana donanım ürünü olan Rokid Max Pro (4.999 yuan) ve Rokid Station Pro (3.999 yuan) dahil olmak üzere tüketici sınıfı bir OST (optik şeffaf) kişisel mekansal bilgi işlem platformu olan Rokid AR Studio'yu piyasaya sürdü.

Rokid'in kurucusu ve CEO'su Zhu Mingming, basın toplantısında şunları söyledi: "Uzaysal bilgi işlem günlük yaşam ve işe daha doğal bir şekilde entegre edilebilir ve Rokid AR Studio'nun ilk uzamsal bilgisayarınız olmasına izin verin."

Bu, geçmişte insanların AR gözlük algısından çok farklı. Bundan önce, AR gözlükleri eğlence sahnesinde "kilitlenmişti" ve hayatta kalabilmek için film, televizyon ve oyunlar gibi iki temel endüstriye güveniyordu; ancak Rokid AR Studio gerçek anlamda kişisel bir üretkenlik aracı, IM yazılımı, makale yazma, kod yazma haline geldi. , bilgi arama vb. Ve diğer çalışma senaryoları en yeni donanımla tamamlanabilir.

**Kullanım senaryolarının genişletilmesi, AR cihazlarının marjinalleştirilmiş senaryolardan daha pratik kullanım değerlerine geçmesine olanak tanır. Tüketiciler ödemeye istekli olduğunda AR endüstri zincirinin tamamı tüketici pazarının pozitif döngüsüne girecek. **

Kendisinin "sosyal bir korku" olduğunu söyleyen patron Zhu Mingming, tam bir ürün ve teknoloji kontrolüdür. Bir keresinde ürün tasarımının ilk taslağının iki versiyonunu dahili olarak öldürmüş ve bu da ürün departmanını neredeyse "çıldırmış". Ancak ürün departmanı tasarlanan ürünü gizlice çıkardığında, Zhu Mingming hemen tüm kaynakların bu ürüne adanmasını emretti. "Ben tek bir istatistiği önemsiyorum o da kullanıcının kullanım süresi. Şu anda gerçek kullanıcımızın kullanım süresi bir buçuk saate yakın, haftalık elde tutma oranımız ise %20'nin üzerinde. Bu yapılırsa kullanıcılar doğal olarak artacaktır. "

**Birikmiş kullanıcı sayısı milyon seviyesine ulaştı, bu da AR sektörünün yazılım sistemi ve ekolojik inşanın ikinci aşamasına girdiği anlamına geliyor. Son yıllarda giderek daha fazla sistem satıcısı, uygulama yazılımı satıcısı ve içerik sağlayıcısı AR ekosisteminin inşasına katıldı. **

"Bir grup deli, on yıllık bir rüya."

Zhu Mingming'in dediği gibi, Rokid'in eğlence sahnelerinden üretkenlik araçlarına geçmesi 10 yılını aldı.Bunun arkasında sadece düşüncede bir sıçrama değil, aynı zamanda donanım teknolojisinden yazılım teknolojisine ve hatta tüm endüstri zincirine doğru büyük bir adım da var. Apple ve Rokid, AR yarışmasının ikinci etabına başladı ve sektördeki rekabet de hızlanıyor.

**Monoküler SLAM, etkileşim nasıl yeniden tanımlanır? **

Basın toplantısının tamamında en şaşırtıcı şey, Rokid Max Pro 76g'nin gövdesi değil, SLAM (uzamsal konumlandırma teknolojisi), mikro hareket etkileşimi, birinci şahıs bakış açısı paylaşımı, Görsel konumlandırmayı tamamlayabilen yalnızca bir kameraydı. VPS yetenekleri ve diğer entegre etkileşimli yöntemler. **

AR/VR cihazları, fiziksel etkileşim (tutma yeri), ses etkileşimi ve jest etkileşimini deneyimledikten sonra, göz takibi ve mevcut çoklu duyusal füzyon etkileşimi çözümüne doğru gelişmektedir.

Ancak çoklu duyusal entegrasyonun etkileşimi, donanım açısından daha yüksek gereksinimlere sahiptir.Temel ihtiyaçların karşılanmasının yanı sıra, etkileşimin doğru bir şekilde tamamlanabilmesi için kullanıcı eylemlerinin ve jestlerinin her yönden ve çoklu açılardan yakalanması da gereklidir.

**SLAM etkileşimini tek bir kamerayla tamamlamak ne kadar zor? **

Görsel SLAM yöntemi iki modülden oluşur; biri İzleme, bilinen 3B nokta konumu, temel konumlandırma; diğeri ise Haritalama, 3B noktanın konumunu güncelleme. Hangi bağlantı veya yöntem olursa olsun, monoküler yalnızca tek bir kameranın seçilebileceği anlamına gelir ve ayrıca sabit bir konum ve sabit açının seçilebilmesi anlamına gelir; bu da tanıma aralığı, izleme hızı ve doğruluğu açısından büyük zorluklar oluşturur.

Zhu Mingming şaka yollu "Sektör monoküler SLAM'in inanılmaz ve başarılmasının zor olduğuna inanıyor" dedi. "Bu aynı zamanda Rokid'in bir onayı da olabilir."

Şu anda piyasadaki az sayıdaki mekansal etkileşimli AR gözlükler, algoritma işlevlerini üstlenecek en az üç kamerayla donatılacak. **Görsel rotalardaki farklılık da iki kamp oluşturdu: Apple tarafından temsil edilen VST (video perspektifi) ve Rokid tarafından temsil edilen OST (optik perspektif). **

Yine Apple Vision Pro'yu örnek alarak, hızlı konumlandırma yakalamayı, yüksek hassasiyetli panoramik algılamayı ve hassas izlemeyi "yığmak" için 12 kamera kullanıyor ve dış dünyayı kameralar aracılığıyla terminal ekranında görüntülemek için VST'yi kullanıyor. Dış dünyayı görmek için gerçek zamanlı çekim yapar.

Ancak etkileşim için donanımı istifleme yöntemi hem maliyeti artırdı hem de fiyatı iki katına çıkardı; bu da iki büyük iniş sorununa neden oldu: makinenin ağırlığı ve seri üretimin zorluğu. Apple Vision Pro'nun fiyatının 3.499 dolar olmasının ve 2024 yılına kadar seri üretilmeyecek olmasının temel nedeni budur.

Bununla birlikte, Rokid'in ısrar ettiği OST çözümünün bazı teknik engelleri vardır.Karmaşık boru hattı tasarımı, ekranın sınırlı görüş açısı ve optik bileşenlerin yüksek maliyeti nedeniyle Rokid, yalnızca üst üste gelen maliyetleri azaltmak için Teknolojik atılımlardan geçebilir.

Peki endüstrinin "inanılmaz" olduğunu düşündüren monoküler SLAM bunu nasıl yapıyor? Toplantının ardından Lightcone Intelligence, Zhu Mingming ile derinlemesine bir fikir alışverişinde bulundu ve Rokid'in "benzersiz numarasının" donanım engellerini aşmak için yapay zeka algoritmalarını kullanmak olduğunu buldu. **

Zhu Mingming, monoküler SLAM teknolojisinin uzun süredir mevcut olmasına rağmen AR gözlüklere hiçbir zaman uygulanmadığını, cep telefonunun ön kamerasının da bu tür bir teknolojiyi uyguladığını, tek farkın algoritma olduğunu açıkladı.

Yapay zekadan AR'ye uzanan bu yol, uzanıyormuş gibi görünen ancak aslında entegre olan bir yoldur; ancak bunun nedeni, Rokid'in son birkaç yılda yapay zeka alanında çok boyutlu görsel algoritma modeli aracılığıyla edindiği birikimdir. görsel konumlandırma ve geliştirme, dijital insan teknolojisi, 2D/3D jest tanıma, OCR tanıma ve diğer teknolojiler, yapay zekanın belirli senaryolara inmesine olanak tanır.

Örneğin, AR görsel konumlandırma ve geliştirme işlevi, tek amaçlı sınırlamayı çözmek ve ortadan kaldırmaktır. Santimetre düzeyinde bir görsel harita oluşturularak, yüksek hassasiyetli sonuçlar elde etmek için sanal bilgiler gerçek nesne dünyasına doğru bir şekilde yerleştirilebilir ve birleştirilebilir. Nesnelerin ve sahnelerin 3 boyutlu yeniden yapılandırılması.

Rokid başkan yardımcısı ve XR merkezi başkanı Wang Junjie şunları söyledi: "Uzaysal konumlandırma SLAM teknolojisine dayalıdır ve daha sonra uzayda istikrarlı ve doğal etkileşim gerçekleştirilebilir. Hızlı bir şekilde başlatılması 1 ila 2 saniye sürer. bir haritalama alanı oluşturmak için algoritma."

Piyasadaki çoğu cihaz hala binoküler çözümler kullanıyor ancak binoküler füzyonun da birçok sorunu var.Ek bir kamera eklemenin maliyetinin yanı sıra, iki kameranın verilerini gerçek zamanlı olarak sığdırmak için sürekli algoritmaların kullanılması da gerekiyor. Bu daha karmaşık sorunlara yol açar.

Bu açıdan bakıldığında monoküler çözüm sorunsuz bir şekilde gerçekleştirilebilirse Rokid, teknolojik bir trende adım atma konusunda öncülük yapacaktır. Daha önce Rokid aynı zamanda sektörün ilk İstasyon ana bilgisayar üreticisiydi. Camları ve ana bilgisayarları ayırma çözümünün endüstri deneyimi için en uygun çözüm olduğu kanıtlandı.

Ayrıca, hareket tanımada Rokid, mikro hareketlerin etkileşimli modunu benimser ve bir parmak tutamıyla tıklayıp seçim yapabilirsiniz; ayrıca hareketi sola ve sağa hareket ettirerek göz attığınız arayüzü veya içeriği değiştirebilirsiniz. Basit kıstırma ve kaydırma hareketleri gibi mantıksal tanımlar daha doğaldır ve daha hızlı başlar.

Yerinde test sonuçlarına göre, Rokid çıplak elle alan etkileşimini iki eliyle gerçekleştirebilmektedir. Şu anda Rokid jest tanıma algoritması, yatay/uzaysal eksen dönüşü, parlak/karanlık ışık vb. gibi karmaşık sahnelerin tanınmasını desteklemektedir. Algoritma hassastır, genel tanıma oranı yaklaşık %90'dır ve milisaniye düzeyinde tanıma yanıt kabiliyetine ve %99 güvenilirlik garantisine sahiptir.

Rokid'e göre, derin öğrenme algoritmasına ve büyük miktarda deneysel veriye dayanan monoküler 3D hareket algoritması, el 6DoF, el eklem noktası 6DoF ve El Mesh bilgileri dahil olmak üzere el duruşu parametrelerini mobil terminalde gerçek zamanlı olarak yeniden yapılandırabilir. AR jest etkileşimi sağlama İyi algoritmik temel.

Şu anda, Rokid'in jest tanıma özelliği, AR etkileşimli uygulamaların ihtiyaçlarını tam olarak karşılayabilen, işaretleme, sıkıştırma, kavrama, tutma, sürükleme, çekme vb. dahil olmak üzere 3D alanda çeşitli işlemleri gerçekleştirebilmektedir. Örneğin, Rokid Max Pro'yu takın, elinizi uzatın ve menüyü çağırmak için avucunuzu gözlerinizin önünde açın.

Sonuçta bu kadar karmaşık bir algoritma yapısını desteklemek için arkasındaki kahraman sadece kamera değil, aynı zamanda "beynin" yani Rokid Station Pro'nun bilgi işlem gücü ve performansıyla da yakından ilişkili.

CEBİNİZDEKİ BİLGİSAYARIN UZAYI

** Uzun bir süredir tüm VR/AR endüstrisi "bilgi işlem gücü, konfor ve fiyat" gibi imkânsız bir üçgenle karşı karşıyaydı. Daha yüksek bilgi işlem gücüne sahip cihazlar daha ağır ve daha pahalı olma eğilimindedir ve yüksek konfora sahip hafif cihazlar kullanım ihtiyaçlarını karşılayamaz. **

Gerçek duruma bakıldığında şu anda "mükemmel" bir çözüm yok. Ana akım üreticiler ikisi arasında bir denge bulmaya çalışıyor. Mevcut pazarda iki ana akım çözüm var: biri Apple tarafından temsil ediliyor. Ekran ve bilgi işlem entegre ve pil harici olarak bağlanır; diğeri ise Rokid tarafından temsil edilen ekran ve bilgi işlem bölünmüş tasarımıdır.

Apple'ın entegre tasarımı, iki mikro OLED ekranı, birden fazla kamerayı, sensörü, hoparlörü ve diğer bileşenleri entegre eder; bu, ekran efektleri ve hesaplamalar açısından daha verimlidir, ancak aynı zamanda gövdenin ağırlığını da artırarak yalnızca pili bağlamanıza neden olur. dışarıdan.

Rokid'in ısrarla üzerinde durduğu bölünmüş tasarım, giyilebilirliği en üst düzeye çıkarır. Vision Pro'nun 454 g ağırlığıyla karşılaştırıldığında, 76 g gözlüğün ağırlığı sıradan gözlüklerle hemen hemen aynıdır. Aynı zamanda, ana bilgisayarın bilgi işlem gücü de daha az sınırlı olabilir. uzay kaynakları, ısı yayılımından kaynaklanan rahatsızlıktan bir dereceye kadar kaçınır.

**Genel olarak, bölünmüş tip rota, gözlüklerin taşınabilirliği ve ana bilgisayarın bilgi işlem gücünün iki yönlü nihai gelişimini sağlayabilir ve aynı zamanda daha esnektir.Bilgisayar gücünün yinelenmesi ve gözlüklerin teknik rotası, asenkron olarak gerçekleştirilir. **

Bölünmüş tasarımı temel alan Rokid Station Pro, bilgi işlem, görüntüleme, iletişim ve diğer işlevleri entegre eden Hepsi Bir Arada terminal oluşturmak için bilgi işlem gücünü yükseltti. Aynı zamanda bir "üretkenlik aracı" olarak da adlandırılabilir. HyperTerminal.

Lightcone Intelligence'a göre Rokid Station Pro, Qualcomm Snapdragon XR2+, 12G RAM + 128G ROM ile donatılmıştır ve WIFI6/6E ile BT5.1'i destekler. Isı dağıtımı ve daha yüksek performansıyla santimetre düzeyinde 6DoF izleme doğruluğu elde edebilir ve son derece düşük MTP (Hareketten Fotona) oluşturma gecikmesi.

Kamuya açık bilgilere göre Snapdragon XR2+, Qualcomm tarafından piyasaya sürülen en son amiral gemisi XR platformudur ve %50 pil ömrü ve %30 ısı dağıtım performansı artışı elde ederek daha küçük ve daha ince bir cihaz şeklinde daha zengin ve daha sürükleyici bir deneyim sağlar. Aynı zamanda Snapdragon XR2+ platformu, 10 milisaniyeden daha kısa bir gecikme elde edebilen ve tam renkli video şeffaf MR deneyimi sunabilen yeni bir görüntü işleme hattını da tanıtıyor.

Light Cone Intelligence'ın sahadaki deneyimine bakılırsa, ister film izlemek, ister oyun oynamak, ister iş ve üretim süreçleri için klavyeleri çağırmak olsun, özellikle oyunların yüksek frekanslı etkileşimi ve kavgası altında, ekranın akıcılığı ve tepki hızı çok ipeksi, kaymaz.

Şu anda piyasada bulunan çekirdek algoritmanın hala 3DoF (üç serbestlik dereceli izleme) olduğunu belirtmekte fayda var; bu, cihazın yukarı, ileri ve aşağı olmak üzere üç yöndeki dönüşü algılayabildiği ancak tespit edemediği anlamına gelir. başın öne, arkaya, sola ve sağa uzaysal yer değiştirmesi.

Yükseltilmiş Station Pro tarafından benimsenen 6DoF algoritması, yalnızca kafanın dönmesinden kaynaklanan görüş alanı açısı değişikliğini tespit etmekle kalmaz, aynı zamanda "yukarı, aşağı, ön, arka, sol, sol" gibi altı tür yer değiştirme değişikliğini de tespit edebilir. ve doğru" vücut hareketinin neden olduğu.

Bu algoritmanın yükseltilmesi oyuncunun özgürlük derecesi açısından daha önemlidir. Örneğin 3DoF algoritması altında zombilerle savaşırken atış menzili önde belli bir açıdadır ancak yükseltme sonrasında zombiler 360 dereceden görünür ve arkanızı döndüğünüzde arkanızdaki zombilerin vücut hissi çok daha fazladır. birincisinin erişimi.

Başka bir deyişle, yalnızca bilgi işlem gücü daha yüksek ve deneyim daha akıcı değil, aynı zamanda bilgi işlem gücü alanının genişlemesi de vücut algısında büyük bir farklılığı beraberinde getirdi.

Qualcomm Technologies XR ürün yönetimi kıdemli direktörü Said Bakadir şunları söyledi: "Birinci nesil Snapdragon XR2+ platformu, yeni nesil XR deneyimlerini mümkün kılmak için en iyi seçimdir. Qualcomm Technologies, Rokid Station Pro için sektör lideri platformu sağlayarak, destek sağlıyor kendi benzersiz AR uygulama ekosistemini yaratmayı hedefliyor."

iOS'u AR sektöründe kullanın

Elbette Apple'ın cep telefonunun tüm yıl boyunca cep telefonu pazarını domine etmesinin nedeni sadece donanımı değil, aynı zamanda sistemi ve ekolojisidir. Yazılım sistemleri aracılığıyla kullanıcı alışkanlıklarının geliştirilmesiyle oluşturulan engeller genellikle donanımın kendisinden daha güçlüdür.

**Bu, Rokid'in kendi geliştirdiği AR uzay işletim sistemi YodaOS-Master'ın bir nedenidir, ancak nedeninin tamamı değildir. **

Bu yılın Mart ayındaki Rokid Açık Günü'nde Rokid, YodaOS-Master'ı resmi olarak piyasaya sürdü ve "AR Uzay Oluşturma Platformu Lingjing"i piyasaya sürerek herkesin 3D alanda AR içeriği oluşturmasına ve herkesin katılabilmesine olanak tanıyarak AR oluşturmanın engellerini tamamen ortadan kaldırdı. Eşik, ekolojik potansiyel enerjinin patlamasına izin verin.

**Eğer monoküler SLAM, 3D hareket tanıma, Snapdragon XR+ ve Lingjing platformunun hepsi keskin bıçaklar ise, YodaOS-Master bu hileleri kendi geliştirdiği bir sistem aracılığıyla sunabilir. **

Basitçe söylemek gerekirse, Rokid şimdiye kadar kimsenin gitmediği bir yola giriyor ve Rokid'in felsefesi "yazılım her şeyi tanımlar". Tüm yazılımların değerini ortaya koyabilmesi için sistem tarafından taşınması ve sağlanması gerekir.

Algılama, anlama, etkileşim, sunum, işbirliği ve dijital yaratmanın beş yönüne odaklanan YodaOS-Master, çip optimizasyonu, donanım tasarımı, yazılım mimarisi, AR algoritması ve oluşturma araçları açısından büyük bir yükseltme yaptı. şu anda en eksiksiz olanı AR dönemi için bir dizi uzamsal işletim sistemi.

Basın toplantısında Rokid, kendi geliştirdiği sistemin getirdiği açıklık ve rahatlığı da gösterdi. Birkaç bariz örnek vermek gerekirse, **Rokid, kendi geliştirdiği sistemi ve Snapdragon XR+ platformunu temel alarak, yalnızca tek bir görevin önceki kısıtlamalarını kıran, sohbet etmeyi, kod yazmayı mümkün kılan, çok görevli bir paralel mod geliştirdi. ve Belgeleri görüntüleme sahnesi aynı anda gerçekleştirilebilir ve üretim verimliliğini en üst düzeye çıkarmak için geniş ekranın avantajlarından tam anlamıyla yararlanılabilir.

**Bir diğer son derece yenilikçi durum ise Rokid'in, kendi geliştirdiği sisteme dayanarak mekansal aramayı yeniden tanımlamasıdır. **Zhu Mingming, bunun, arama bilgilerini görüntülemenin önceki yöntemini bozduğunu ve arama sonuçlarının sunumunun artık iki boyutlu bir düzlem etkisi olmadığını, üç boyutlu bir alanda mevcut olduğunu açıkladı. "Soruyla en alakalı sonuçlar size en yakın olanlardır ve bir dereceye kadar alakalı olan sonuçlar ikincil sayfada yer alır. Ne kadar uzakta olursa o kadar az alakalı olur. Elbette önceki sonuçların üzerini de çizebilir ve İstediğiniz sonuçları dinamik olarak seçin."

Bu sayede gelecek duygusu anında doluyor ve birinci aşama AR ekipmanlarından temel farkını da gösteriyor.

** AR endüstrisinin açık ekolojisinin ikinci aşamaya girmeye başladığı görülüyor.Apple ve Rokid sadece donanım yönünde sağa sola hareket etmiyor, aynı zamanda endüstri sistemi yazılımı ve ekolojisinin geliştirilmesinde de hareket ediyor. Donanımın, algoritmaların, yazılım ekolojisinin, geliştiricilerin, kullanıcıların ve platformların birlikte oluşturulmasıyla AR, tamamen açık bir ekolojide hızlı gelişimin ikinci aşamasına doğru ilerleyecek. **

Rokid sistem araştırma ve geliştirme baş mühendisi Shi Wenfeng şunları söyledi: "YodaOS-Master işletim sistemi, Rokid ses tanıma, hareket tanıma, SLAM vb. gibi birçok temel teknolojiyi hizmet odaklı bir yaklaşımla sistem hizmetlerine entegre ediyor ve geliştirme için çeşitli istemci SDK'ları Geliştiriciler, Unity geliştiricilerinin (geliştirici uygulama kanalı: açık platform URL'si (ar.rokid.com)) geliştirme için Rokid çekirdek teknolojisini hızlı bir şekilde kullanmasına olanak tanıyan Unity için SDK gibi verimli bir şekilde geliştirebilir.

Donanımdan yazılıma, sistemden ekolojiye Rokid'in gelişim yolu biraz Jobs dönemindeki Apple'a benziyor.

Zhu Mingming, "AR endüstrisi şafaktan hemen önce" dedi.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin