Android dans le monde AR est en Chine, Rokid fait exploser la frénésie de l'informatique spatiale

Source originale : Intelligence du cône lumineux

Auteur : Liu Yuqi

Source de l'image : générée par Unbounded AI‌

Il vous est peut-être difficile d'imaginer que dans un espace sans écran d'affichage ni souris, vous puissiez rédiger un article de 5 000 mots avec juste une paire de lunettes AR et un hôte de poche.

C'est vrai, le 26 août, lors de la conférence de lancement des nouveaux produits Rokid Jungle 2023, une telle scène se produit réellement. Lors de la réunion, Rokid a lancé Rokid AR Studio, une plate-forme informatique spatiale personnelle OST (transparence optique) grand public, comprenant deux produits matériels majeurs, Rokid Max Pro (4 999 yuans) et Rokid Station Pro (3 999 yuans).

Zhu Mingming, fondateur et PDG de Rokid, a déclaré lors de la conférence de presse : « L'informatique spatiale peut être intégrée plus naturellement dans la vie quotidienne et le travail, et laissez Rokid AR Studio devenir votre premier ordinateur spatial.

Ceci est très différent de la perception que les gens avaient des lunettes AR dans le passé. Avant cela, les lunettes AR étaient « verrouillées » sur la scène du divertissement, s'appuyant sur les deux piliers de l'industrie du cinéma, de la télévision et des jeux pour survivre, mais Rokid AR Studio est véritablement devenu un outil de productivité personnel, un logiciel de messagerie instantanée, d'écriture d'articles, d'écriture de code. , recherche d'informations, etc. Et d'autres scénarios de travail peuvent être complétés avec le matériel le plus récent.

**L'expansion des scénarios d'utilisation permet aux appareils AR de passer de scénarios marginalisés à des valeurs d'utilisation plus pratiques. Lorsque les consommateurs seront prêts à payer, l’ensemble de la chaîne industrielle de la RA entrera dans le cycle positif du marché de consommation. **

Zhu Mingming, le patron qui se dit "peur sociale", est un contrôle complet des produits et de la technologie. Il a déjà tué deux versions de la première version de la conception du produit en interne, ce qui a presque rendu le Département des produits "fou". Mais lorsque le département produit a secrètement retiré le produit conçu, Zhu Mingming a immédiatement ordonné que toutes les ressources soient consacrées à ce produit. "Je ne me soucie que d'une seule statistique, à savoir la durée d'utilisation de l'utilisateur. À l'heure actuelle, la durée d'utilisation réelle de notre utilisateur est proche d'une heure et demie et le taux de rétention hebdomadaire dépasse 20 %. Si cela est fait, les utilisateurs augmenteront naturellement. ".

**Le nombre accumulé d'utilisateurs a atteint le million, ce qui signifie également que l'industrie de la RA est entrée dans la deuxième étape du système logiciel et de la construction écologique. Ces dernières années, de plus en plus de fournisseurs de systèmes, de logiciels d’application et de contenus ont rejoint la construction de l’écosystème AR. **

"Un groupe de fous, un rêve, dix ans."

Comme l'a dit Zhu Mingming, il a fallu 10 ans à Rokid pour passer des scènes de divertissement aux outils de productivité. Derrière cela se cache non seulement un bond en avant dans la réflexion, mais aussi un grand pas en avant de la technologie matérielle à la technologie logicielle, et même à l'ensemble de la chaîne industrielle. Apple et Rokid ont lancé la deuxième étape du concours AR, et la concurrence dans le secteur s'accélère également.

**SLAM monoculaire, comment redéfinir l'interaction ? **

Dans toute la conférence de presse, la chose la plus surprenante n'était pas le corps du Rokid Max Pro 76g, mais une seule caméra, capable de compléter le SLAM (technologie de positionnement spatial), l'interaction micro-gestuelle, le partage de perspective à la première personne, le positionnement visuel. Capacités VPS et autres méthodes interactives intégrées. **

Après avoir expérimenté l’interaction physique (poignée), l’interaction vocale et l’interaction gestuelle, les appareils AR/VR évoluent vers le suivi oculaire et la solution actuelle d’interaction de fusion multisensorielle.

Cependant, l'interaction de l'intégration multisensorielle impose des exigences matérielles plus élevées : en plus de répondre aux besoins de base, il est également nécessaire de capturer les actions et les gestes de l'utilisateur dans toutes les directions et sous plusieurs angles afin de compléter avec précision l'interaction.

**Dans quelle mesure est-il difficile de réaliser une interaction SLAM avec une seule caméra ? **

La méthode visuelle SLAM se compose de deux modules, l'un est le suivi, la position connue du point 3D, le positionnement de base ; l'autre est la cartographie, met à jour la position du point 3D. Quel que soit le lien ou la méthode, monoculaire signifie qu'une seule caméra peut être sélectionnée, ainsi qu'une position et un angle fixes, ce qui pose de grands défis en termes de plage de reconnaissance, de vitesse de suivi et de précision.

"L'industrie estime que le SLAM monoculaire est incroyable et difficile à réaliser", a déclaré en plaisantant Zhu Mingming, "Cela peut aussi être une affirmation de Rokid."

À l'heure actuelle, les quelques lunettes AR à interaction spatiale disponibles sur le marché seront équipées d'au moins trois caméras pour assumer les fonctions algorithmiques. **La différence dans les itinéraires visuels a également formé deux camps : VST (perspective vidéo) représenté par Apple et OST (perspective optique) représenté par Rokid. **

En prenant toujours l'Apple Vision Pro comme exemple, il utilise 12 caméras pour « empiler » une capture de positionnement rapide, une perception panoramique de haute précision et un suivi précis, et utilise VST pour afficher le monde extérieur sur l'écran du terminal via les caméras. tourne en temps réel pour voir le monde extérieur.

Cependant, la méthode d'empilage du matériel pour l'interaction a augmenté le coût et doublé le prix, ce qui a également causé deux problèmes majeurs d'atterrissage : le poids de la machine et la difficulté de la production en série. C’est la raison fondamentale pour laquelle Apple Vision Pro coûte 3 499 $ et ne sera produit en masse qu’en 2024.

La solution OST sur laquelle Rokid insiste présente certaines barrières techniques. En raison de la conception complexe du pipeline, de l'angle de vision limité de l'écran d'affichage et du coût élevé des composants optiques, Rokid ne peut que passer les avancées technologiques pour réduire les coûts superposés.

Et comment le SLAM monoculaire qui fait penser à l'industrie « incroyable » fait-il ? Après la réunion, Lightcone Intelligence a eu un échange approfondi avec Zhu Mingming et a découvert que le « truc unique » de Rokid consiste à utiliser des algorithmes d'IA pour briser les barrières du matériel. **

Zhu Mingming a expliqué que même si la technologie monoculaire SLAM existe depuis longtemps, elle n'a jamais été appliquée aux lunettes AR. La caméra frontale du téléphone mobile applique également ce type de technologie. La seule différence est : l'algorithme.

De l'IA à la RA, c'est un chemin qui semble s'étendre mais qui est en fait intégré, mais c'est aussi à cause de l'accumulation de Rokid dans le domaine de l'IA au cours des dernières années, à travers le modèle d'algorithme visuel multidimensionnel, y compris le positionnement et l'amélioration visuels, la technologie humaine numérique, la reconnaissance gestuelle 2D/3D, la reconnaissance OCR et d'autres technologies permettent à l'IA d'atterrir dans des scénarios spécifiques.

Par exemple, la fonction de positionnement et d'amélioration visuelle de l'AR vise à résoudre et à dépasser les limites du seul objectif. En construisant une carte visuelle au niveau centimétrique, les informations virtuelles peuvent être superposées et fusionnées avec précision dans le monde des objets réels pour obtenir une haute précision. Reconstruction 3D d'objets et de scènes.

** Wang Junjie, vice-président de Rokid et directeur du centre XR, a déclaré : « Le positionnement spatial est basé sur la technologie SLAM, et une interaction stable et naturelle peut alors être effectuée dans l'espace. Il faut 1 à 2 secondes pour initialiser rapidement l'algorithme. pour établir un espace cartographique."**

Sur le marché, la plupart des appareils utilisent encore des solutions binoculaires, mais la fusion binoculaire pose également de nombreux problèmes : outre le coût de l'ajout d'une caméra supplémentaire, il est également nécessaire d'utiliser en permanence des algorithmes pour adapter les données des deux caméras en temps réel. Cela conduit à des problèmes plus complexes.

De ce point de vue, si la solution monoculaire peut être mise en œuvre sans problème, Rokid prendra l'initiative de suivre une tendance technologique. Auparavant, Rokid était également le premier fabricant d'hôtes de station du secteur. La solution de séparation des verres et des hôtes s'est avérée être la solution optimale pour l'expérience industrielle.

De plus, dans la reconnaissance gestuelle, Rokid adopte le mode interactif des micro-gestes, et vous pouvez cliquer et sélectionner d'un simple pincement des doigts ; vous pouvez également changer l'interface ou le contenu que vous parcourez en déplaçant le geste vers la gauche et la droite. Les définitions logiques telles que les simples gestes de pincement et de glissement sont plus naturelles et démarrent plus rapidement.

Selon les résultats de nos tests sur site, Rokid peut réaliser une interaction spatiale à main nue avec les deux mains. À l'heure actuelle, l'algorithme de reconnaissance gestuelle de Rokid prend en charge la reconnaissance de scènes complexes telles que la rotation de l'axe horizontal/spatial, la lumière claire/sombre, etc. temps, il existe de nombreux types de gestes reconnaissables., L'algorithme est précis, le taux de reconnaissance global est d'environ 90 %, et il a une capacité de réponse de reconnaissance de niveau milliseconde et une garantie de fiabilité de 99 %.

Selon Rokid, sur la base de l'algorithme d'apprentissage en profondeur et d'une grande quantité de données expérimentales, l'algorithme gestuel 3D monoculaire peut reconstruire les paramètres de posture de la main en temps réel sur le terminal mobile, y compris la main 6DoF, le point d'articulation de la main 6DoF et les informations Hand Mesh, fournissant une interaction gestuelle AR.Bonne base algorithmique.

À l'heure actuelle, la reconnaissance gestuelle de Rokid peut réaliser une variété d'opérations dans l'espace 3D, notamment pointer, pincer, saisir, maintenir, glisser, tirer, etc., qui peuvent pleinement répondre aux besoins des applications interactives AR. Par exemple, enfilez le Rokid Max Pro, tendez la main et ouvrez la paume devant vos yeux pour appeler le menu.

Après tout, pour prendre en charge une structure d'algorithme aussi complexe, le héros derrière elle n'est pas seulement la caméra, mais également étroitement lié à la puissance de calcul et aux performances du « cerveau », c'est-à-dire la Rokid Station Pro.

ORDINATEUR SPATIAL DANS VOTRE POCHE

** Depuis longtemps, l'ensemble de l'industrie VR/AR a eu un triangle impossible : « puissance de calcul, confort et prix ». Les appareils dotés d'une puissance de calcul plus élevée ont tendance à être plus lourds et plus chers, et les appareils légers et très confortables ne peuvent pas répondre aux besoins d'utilisation. **

A en juger par la situation actuelle, il n'existe pas de solution « parfaite » à l'heure actuelle. Les grands fabricants tentent de trouver un équilibre entre les deux. Il existe deux types de solutions grand public sur le marché actuel : l'une est représentée par Apple. l'informatique est intégrée et la batterie est connectée en externe ; l'autre est la conception divisée en affichage et en informatique représentée par Rokid.

La conception intégrée d'Apple intègre deux écrans micro-OLED, plusieurs caméras, capteurs, haut-parleurs et autres composants, ce qui est plus efficace en termes d'effets d'affichage et de calculs, mais cela augmentera également le poids du corps lui-même, ce qui entraînera uniquement la connexion de la batterie. extérieurement.

La conception divisée sur laquelle Rokid insiste maximise la portabilité. Par rapport au poids des lunettes Vision Pro 454g, le poids des lunettes 76g est presque le même que celui des lunettes ordinaires. Inconfort causé par la dissipation thermique.

**En général, la route de type divisé peut réaliser le développement ultime bidirectionnel de la portabilité des lunettes et de la puissance de calcul de l'hôte, et est également plus flexible.L'itération de la puissance de calcul et la voie technique des lunettes peuvent être effectué de manière asynchrone. **

Basé sur la conception divisée, Rokid Station Pro a amélioré sa puissance de calcul pour créer un terminal tout-en-un intégrant des fonctions informatiques, d'imagerie, de communication et autres. Il peut également être appelé « outil de productivité ». HyperTerminal.

Selon Lightcone Intelligence, Rokid Station Pro est équipé de Qualcomm Snapdragon XR2+, 12 Go de RAM + 128 Go de ROM et prend en charge WIFI6/6E et BT5.1. Avec une dissipation thermique et des performances plus élevées, il peut atteindre une précision de suivi 6DoF au niveau centimétrique et extrêmement faible. Délai de rendu MTP (Motion to Photon).

Selon les informations publiques, Snapdragon XR2+ est la dernière plate-forme phare XR lancée par Qualcomm, qui peut atteindre 50 % d'autonomie de batterie et 30 % d'amélioration des performances de dissipation thermique, permettant ainsi une expérience plus riche et plus immersive dans une forme d'appareil plus petite et plus fine. Dans le même temps, la plate-forme Snapdragon XR2 + introduit un nouveau pipeline de traitement d'image, qui peut atteindre un délai de moins de 10 millisecondes et ouvrir une expérience MR transparente vidéo en couleur.

À en juger par l'expérience sur site de Light Cone Intelligence, qu'il s'agisse de regarder des films, de jouer à des jeux ou d'utiliser des claviers pour le travail et les processus de production, en particulier lors d'interactions à haute fréquence et de combats dans les jeux, la fluidité et la vitesse de réponse de l'écran sont très soyeux.

Il convient de mentionner que l'algorithme de base actuellement sur le marché est toujours 3DoF (suivi à trois degrés de liberté), ce qui signifie que l'appareil peut détecter la rotation dans les trois directions vers le haut, vers l'avant et vers le bas, mais il ne peut pas détecter le déplacement spatial de la tête, avant, arrière, gauche et droite. .

L'algorithme 6DoF adopté par la Station Pro améliorée peut non seulement détecter le changement d'angle du champ de vision provoqué par la rotation de la tête, mais également détecter les six types de changements de déplacement « haut, bas, avant, arrière, gauche, et à droite » provoqué par le mouvement du corps.

La mise à niveau de cet algorithme est plus importante dans le degré de liberté du joueur. Par exemple, lorsque vous combattez des zombies sous l'algorithme 3DoF, le champ de tir est à un certain angle devant, mais après la mise à niveau, les zombies apparaissent à 360 degrés, et lorsque vous vous retournez, la sensation corporelle des zombies derrière vous est au-delà. la portée du premier.

En d’autres termes, non seulement la puissance de calcul est plus élevée et l’expérience plus fluide, mais l’expansion de l’espace de puissance de calcul a également entraîné une énorme différence dans la perception du corps.

Said Bakadir, directeur principal de la gestion des produits XR chez Qualcomm Technologies, a déclaré : « La plate-forme Snapdragon XR2+ de première génération est le meilleur choix pour permettre la prochaine génération d'expériences XR. Qualcomm Technologies fournit la plate-forme leader du secteur pour Rokid Station Pro, prenant en charge il pour créer son propre écosystème d'applications AR unique.

Faites iOS dans l'industrie AR

Bien sûr, la raison pour laquelle le téléphone mobile d'Apple peut dominer le marché de la téléphonie mobile toute l'année n'est pas seulement à cause de son matériel, mais aussi à cause de son système et de son écologie. Les barrières construites en cultivant les habitudes des utilisateurs via les systèmes logiciels sont souvent plus fortes que le matériel lui-même.

**Cela fait partie de la raison pour laquelle Rokid a développé lui-même le système d'exploitation spatial AR - YodaOS-Master, mais pas la seule raison. **

Lors de la journée portes ouvertes de Rokid en mars de cette année, Rokid a officiellement lancé YodaOS-Master et lancé la « AR Space Creation Platform Lingjing », permettant à chacun de créer du contenu AR dans l'espace 3D, et tout le monde peut participer, brisant complètement les barrières de la création AR. Seuil, laissez exploser l’énergie potentielle écologique.

**Si le SLAM monoculaire, la reconnaissance gestuelle 3D, le Snapdragon XR+ et la plateforme Lingjing sont tous des lames tranchantes, alors YodaOS-Master peut lancer ces astuces grâce à un système auto-développé. **

Pour faire simple, Rokid emprunte un chemin que personne n'a jamais parcouru, et la philosophie de Rokid est « le logiciel définit tout ».Tous les logiciels doivent être portés et fournis par le système afin d'exercer leur valeur.

En se concentrant sur les cinq aspects de la perception, de la compréhension, de l'interaction, de la présentation, de la collaboration et de la création numérique, YodaOS-Master a réalisé une énorme mise à niveau en termes d'optimisation des puces, de conception matérielle, d'architecture logicielle, d'algorithme AR et d'outils de création. le plus complet à l'heure actuelle : un ensemble de systèmes d'exploitation spatiaux pour l'ère de la RA.

Lors de la conférence de presse, Rokid a également démontré l'ouverture et la commodité apportées par le système qu'il a lui-même développé. Pour donner quelques exemples évidents, Basé sur le système auto-développé et la plateforme Snapdragon XR+, Rokid a développé un mode parallèle multi-tâches, brisant les contraintes précédentes d'une seule tâche, permettant de discuter, d'écrire du code, et La scène de visualisation des documents peut être réalisée en même temps et faire jouer pleinement les avantages du grand écran dans l'espace, de manière à maximiser l'efficacité de la production.

**Un autre cas extrêmement innovant est celui où Rokid redéfinit la recherche spatiale sur la base de son système auto-développé. **Zhu Mingming a déclaré que cela rompt avec la manière précédente d'afficher les informations de recherche et que la présentation des résultats de la recherche n'est plus un effet plan bidimensionnel, mais existe dans un espace tridimensionnel. "Les résultats les plus pertinents par rapport à la question seront les plus proches de vous, et les résultats un peu pertinents se trouveront sur la page secondaire. Plus on s'éloigne, moins ils sont pertinents. Bien entendu, vous pouvez également rayer les résultats précédents et sélectionnez dynamiquement les résultats souhaités.

De cette façon, le sens de l'avenir est instantanément plein et cela montre également la différence essentielle par rapport à l'équipement AR du premier étage.

** On peut voir que l'écologie ouverte de l'industrie AR a commencé à entrer dans la deuxième étape. Apple et Rokid se déplacent non seulement à gauche et à droite dans la direction du matériel, mais aussi dans le développement de logiciels de systèmes industriels et de l'écologie. Grâce à la co-création de matériel, d'algorithmes, d'écologie logicielle, de développeurs, d'utilisateurs et de plateformes, la RA évoluera vers la deuxième étape de développement rapide dans une écologie complètement ouverte. **

Shi Wenfeng, ingénieur en chef de la recherche et du développement du système Rokid, a déclaré : « Le système d'exploitation YodaOS-Master intègre plusieurs technologies de base de reconnaissance vocale Rokid, de reconnaissance gestuelle, de SLAM, etc. dans les services système grâce à une approche orientée services, et fournit un variété de SDK clients pour le développement. Les développeurs peuvent développer efficacement, comme le SDK pour Unity, qui permet aux développeurs Unity (canal d'application pour développeurs : URL de plate-forme ouverte (ar.rokid.com)) d'utiliser rapidement la technologie de base de Rokid pour le développement.

Du matériel au logiciel, du système à l'écologie, le parcours de développement de Rokid est un peu comme Apple à l'ère du Jobs.

"L'industrie de la réalité augmentée est juste avant l'aube", a déclaré Zhu Mingming.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)