Android en el mundo AR está en China, Rokid detona el frenesí de la computación espacial

Fuente original: Inteligencia del cono de luz

Autor: Liu Yuqi

Fuente de la imagen: Generada por Unbounded AI‌

Puede que le resulte difícil imaginar que en un espacio sin una pantalla o un mouse, pueda completar un artículo de 5000 palabras con solo un par de gafas AR y un host de bolsillo.

Así es, el 26 de agosto, en la conferencia de lanzamiento de nuevos productos Rokid Jungle de 2023, esa escena realmente está sucediendo. En la reunión, Rokid lanzó Rokid AR Studio, una plataforma de computación espacial personal OST (transparente óptica) de nivel de consumidor, que incluye dos productos de hardware importantes, Rokid Max Pro (4999 yuanes) y Rokid Station Pro (3999 yuanes).

Zhu Mingming, fundador y director ejecutivo de Rokid, dijo en la conferencia de prensa: "La computación espacial puede integrarse de manera más natural en la vida diaria y el trabajo, y permitir que Rokid AR Studio se convierta en su primera computadora espacial".

Esto es muy diferente de la percepción que la gente tenía de las gafas AR en el pasado. Antes de esto, las gafas AR estaban "encerradas" en la escena del entretenimiento y dependían de las dos industrias pilares del cine, la televisión y los juegos para sobrevivir, pero Rokid AR Studio realmente se ha convertido en una herramienta de productividad personal, software de mensajería instantánea, redacción de artículos y código. , búsqueda de información, etc. Y otros escenarios de trabajo se pueden completar con el hardware más reciente.

**La expansión de los escenarios de uso permite que los dispositivos AR pasen de escenarios marginados a valores de uso más prácticos. Cuando los consumidores estén dispuestos a pagar, toda la cadena de la industria AR entrará en el ciclo positivo del mercado de consumo. **

Zhu Mingming, el jefe que dijo que es un "miedo social", es un control total de productos y tecnología. Una vez eliminó internamente dos versiones del primer borrador del diseño del producto, lo que casi volvió "loco" al departamento de productos. Pero cuando el departamento de productos sacó en secreto el producto diseñado, Zhu Mingming inmediatamente ordenó que se dedicaran todos los recursos a este producto. "Solo me importa una estadística, que es el tiempo de uso del usuario. En la actualidad, el tiempo de uso real de nuestro usuario es cercano a una hora y media y la tasa de retención semanal supera el 20%. Si se hace esto, los usuarios crecerán naturalmente. ".

** El número acumulado de usuarios ha alcanzado el nivel del millón, lo que también significa que la industria AR ha entrado en la segunda etapa de sistemas de software y construcción ecológica. En los últimos años, cada vez más proveedores de sistemas, proveedores de software de aplicaciones y proveedores de contenidos se han unido a la construcción del ecosistema AR. **

"Un grupo de locos, un sueño, diez años".

Como dijo Zhu Mingming, a Rokid le tomó 10 años pasar de la escena del entretenimiento a la herramienta de productividad. Detrás de esto no solo hay un salto en el pensamiento, sino también un gran paso adelante de la tecnología de hardware a la tecnología de software, e incluso a toda la cadena industrial. Apple y Rokid han iniciado la segunda etapa de la competencia AR y la competencia en la industria también se está acelerando.

**Monocular SLAM, ¿cómo redefinir la interacción? **

En toda la conferencia de prensa, lo más sorprendente no fue el cuerpo del Rokid Max Pro 76g, sino solo una cámara, que pudo completar SLAM (tecnología de posicionamiento espacial), interacción de microgestos, intercambio de perspectivas en primera persona y posicionamiento visual. Capacidades de VPS y otros métodos interactivos integrados. **

Después de experimentar la interacción física (mango), la interacción de voz y la interacción de gestos, los dispositivos AR/VR se están desarrollando hacia el seguimiento ocular y la actual solución de interacción de fusión multisensorial.

Sin embargo, la interacción de integración multisensorial tiene mayores requisitos de hardware: además de satisfacer las necesidades básicas, también es necesario capturar las acciones y gestos del usuario desde todas las direcciones y desde múltiples ángulos para completar con precisión la interacción.

**¿Qué tan difícil es completar la interacción SLAM con una sola cámara? **

El método visual SLAM consta de dos módulos, uno es Seguimiento, posición conocida del punto 3D, posicionamiento básico; el otro es Mapeo, actualiza la posición del punto 3D. Independientemente de qué enlace o método, monocular significa que solo se puede seleccionar una cámara, así como una posición fija y un ángulo fijo, lo que plantea grandes desafíos para el rango de reconocimiento, la velocidad de seguimiento y la precisión.

"La industria cree que el SLAM monocular es increíble y difícil de lograr", dijo en broma Zhu Mingming, "Esto también puede ser una afirmación de Rokid".

En la actualidad, las pocas gafas AR con interacción espacial en el mercado estarán equipadas con al menos tres cámaras para realizar funciones de algoritmo. **La diferencia en las rutas visuales también ha formado dos campos: VST (perspectiva de video) representada por Apple y OST (perspectiva óptica) representada por Rokid. **

Siguiendo con el Apple Vision Pro como ejemplo, utiliza 12 cámaras para "apilar" capturas de posicionamiento rápido, percepción panorámica de alta precisión y seguimiento preciso, y utiliza VST para mostrar el mundo exterior en la pantalla del terminal a través de las cámaras. dispara en tiempo real para ver el mundo exterior.

Sin embargo, el método de apilar hardware para la interacción ha aumentado el coste y duplicado el precio al mismo tiempo, lo que ha provocado dos grandes problemas de aterrizaje: el peso de la máquina y la dificultad de producción en masa. Esta es la razón fundamental por la que Apple Vision Pro tiene un precio de 3.499 dólares y no se producirá en masa hasta 2024.

Sin embargo, la solución OST en la que insiste Rokid tiene ciertas barreras técnicas: debido al complejo diseño de la tubería, el ángulo de visión limitado de la pantalla y el alto costo de los componentes ópticos, Rokid solo puede superar avances tecnológicos para reducir los costos superpuestos.

¿Y cómo lo hace el monocular SLAM que hace que la industria piense que es "increíble"? Después de la reunión, Lightcone Intelligence tuvo un intercambio profundo con Zhu Mingming y descubrió que el "truco único" de Rokid es utilizar algoritmos de inteligencia artificial para romper las barreras del hardware. **

Zhu Mingming presentó que aunque la tecnología SLAM monocular existe desde hace mucho tiempo, nunca se ha aplicado a las gafas AR. La cámara frontal del teléfono móvil también aplica este tipo de tecnología. La única diferencia es: el algoritmo.

De AI a AR, este es un camino que parece extenderse pero en realidad está integrado, pero también se debe a la acumulación de Rokid en el campo de AI en los últimos años, a través de modelos de algoritmos visuales multidimensionales, que incluyen El posicionamiento y la mejora visual, la tecnología humana digital, el reconocimiento de gestos 2D/3D, el reconocimiento OCR y otras tecnologías permiten que la IA aterrice en escenarios específicos.

Por ejemplo, la función de mejora y posicionamiento visual de AR es para resolver y superar la limitación de un solo propósito. Al construir un mapa visual de nivel centimétrico, la información virtual se puede superponer y fusionar con precisión en el mundo de objetos reales para lograr alta precisión. Reconstrucción 3D de objetos y escenas.

Wang Junjie, vicepresidente de Rokid y director del centro XR, dijo: "El posicionamiento espacial se basa en la tecnología SLAM, y luego se puede realizar una interacción estable y natural en el espacio. Se necesitan de 1 a 2 segundos para inicializar rápidamente el algoritmo. establecer un espacio cartográfico."

En el mercado, la mayoría de dispositivos todavía utilizan soluciones binoculares, pero la fusión binocular también presenta muchos problemas: además del coste de añadir una cámara extra, también es necesario utilizar continuamente algoritmos para ajustar los datos de las dos cámaras en tiempo real. Esto lleva a cuestiones más complejas.

Desde este punto de vista, si la solución monocular se puede implementar sin problemas, Rokid tomará la delantera al dar un paso en una tendencia tecnológica. Anteriormente, Rokid también fue el primer fabricante de hosts de estaciones de la industria. La solución de separación de vidrios y hosts ha demostrado ser la solución óptima según la experiencia de la industria.

Además, en el reconocimiento de gestos, Rokid adopta el modo interactivo de microgestos, y puedes hacer clic y seleccionar con un pellizco de tus dedos; también puedes cambiar la interfaz o el contenido que estás navegando moviendo el gesto hacia la izquierda y hacia la derecha. Las definiciones lógicas, como los gestos simples de pellizcar y deslizar, son más naturales y permiten comenzar más rápido.

Según los resultados de nuestras pruebas en el sitio, Rokid puede realizar una interacción espacial con ambas manos sin guantes. En la actualidad, el algoritmo de reconocimiento de gestos de Rokid admite el reconocimiento de escenas complejas, como la rotación del eje horizontal/espacial, la luz brillante/oscura, etc. Al mismo tiempo, hay muchos tipos de gestos reconocibles. El algoritmo es preciso, la tasa de reconocimiento general es de aproximadamente el 90% y tiene una capacidad de respuesta de reconocimiento de nivel de milisegundos y una garantía de confiabilidad del 99%.

Según Rokid, basándose en el algoritmo de aprendizaje profundo y una gran cantidad de datos experimentales, el algoritmo de gesto monocular 3D puede reconstruir los parámetros de postura de la mano en tiempo real en el terminal móvil, incluidos 6DoF de la mano, 6DoF del punto de articulación de la mano e información de Hand Mesh. proporcionando interacción de gestos AR.Buena base algorítmica.

En la actualidad, el reconocimiento de gestos de Rokid puede realizar una variedad de operaciones en el espacio 3D, que incluyen apuntar, pellizcar, agarrar, sostener, arrastrar, tirar, etc., que pueden satisfacer completamente las necesidades de las aplicaciones interactivas de AR. Por ejemplo, póngase el Rokid Max Pro, extienda la mano y abra la palma frente a sus ojos para llamar el menú.

Después de todo, para soportar una estructura de algoritmo tan compleja, el héroe detrás de ella no es solo la cámara, sino que también está estrechamente relacionado con la potencia informática y el rendimiento del "cerebro", es decir, el Rokid Station Pro.

ESPACITA LA COMPUTADORA EN TU BOLSILLO

** Durante mucho tiempo, toda la industria VR/AR ha tenido un triángulo imposible de "potencia informática, comodidad y precio". Los dispositivos con mayor potencia informática tienden a ser más pesados y caros, y los dispositivos livianos y con gran comodidad no pueden satisfacer las necesidades de uso. **

A juzgar por la situación actual, actualmente no existe una solución "perfecta". Los principales fabricantes están tratando de encontrar un equilibrio entre las dos. Hay dos tipos de soluciones principales en el mercado actual: una está representada por Apple. La pantalla y la informática está integrada y la batería está conectada externamente; el otro es el diseño dividido de la pantalla y la informática representado por Rokid.

El diseño integrado de Apple integra dos pantallas micro-OLED, múltiples cámaras, sensores, parlantes y otros componentes, lo que es más eficiente en términos de efectos de visualización y cálculos, pero también aumentará el peso del propio cuerpo, lo que resultará en solo conectar la batería. externamente.

El diseño dividido en el que insiste Rokid maximiza la portabilidad. En comparación con el peso de 454 g de Vision Pro, el peso de las gafas de 76 g es casi el mismo que el de las gafas normales. Al mismo tiempo, la potencia informática del host también puede estar menos limitada por recursos espaciales, evitando en cierta medida las molestias causadas por la disipación de calor.

** En general, la ruta de tipo dividido puede lograr el máximo desarrollo bidireccional de la portabilidad de las gafas y la potencia informática del host, y también es más flexible. La iteración de la potencia informática y la ruta técnica de las gafas pueden ser llevado a cabo de forma asincrónica. **

Basado en el diseño dividido, Rokid Station Pro ha mejorado su potencia informática para crear un terminal todo en uno que integra informática, imágenes, comunicación y otras funciones. También se le puede llamar una "herramienta de productividad".

Según Lightcone Intelligence, Rokid Station Pro está equipado con Qualcomm Snapdragon XR2+, 12G RAM + 128G ROM y admite WIFI6/6E y BT5.1. Con disipación de calor y mayor rendimiento, puede lograr una precisión de seguimiento de 6DoF a nivel de centímetros y un nivel extremadamente bajo. Retraso en la renderización MTP (Motion to Photon).

Según información pública, Snapdragon XR2+ es la última plataforma insignia XR lanzada por Qualcomm, que puede lograr un 50% de duración de la batería y una mejora del 30% en el rendimiento de disipación de calor, permitiendo así una experiencia más rica e inmersiva en un dispositivo más pequeño y delgado. Al mismo tiempo, la plataforma Snapdragon XR2 + introduce una nueva línea de procesamiento de imágenes, que puede lograr un retraso de menos de 10 milisegundos y abrir una experiencia de resonancia magnética transparente a todo color.

A juzgar por la experiencia en el sitio de Light Cone Intelligence, ya sea viendo películas, jugando juegos o llamando teclados para procesos de trabajo y producción, especialmente bajo la interacción de alta frecuencia y la lucha de los juegos, la suavidad y velocidad de respuesta de la pantalla son muy sedosos.

Vale la pena mencionar que el algoritmo central actualmente en el mercado sigue siendo 3DoF (seguimiento de tres grados de libertad), lo que significa que el dispositivo puede detectar la rotación en las tres direcciones hacia arriba, hacia adelante y hacia abajo, pero no puede detectar el desplazamiento espacial de la cabeza, adelante, atrás, izquierda y derecha.

El algoritmo 6DoF adoptado por la Station Pro mejorada no solo puede detectar el cambio en el ángulo del campo de visión causado por la rotación de la cabeza, sino que también detecta los seis tipos de cambios de desplazamiento: "arriba, abajo, adelante, atrás, izquierda, y derecha" causada por el movimiento del cuerpo.

La actualización de este algoritmo es más importante en el grado de libertad del jugador. Por ejemplo, cuando luchas contra zombies bajo el algoritmo 3DoF, el campo de tiro está en un cierto ángulo al frente, pero después de la actualización, los zombies aparecen desde 360 grados, y cuando te das la vuelta, la sensación corporal de los zombies detrás de ti es más allá. el alcance de los primeros.

En otras palabras, no solo la potencia informática es mayor y la experiencia es más fluida, sino que la expansión del espacio de potencia informática también ha provocado una gran diferencia en la experiencia física.

Said Bakadir, director senior de gestión de productos XR de Qualcomm Technologies, afirmó: "La plataforma Snapdragon XR2+ de primera generación es la mejor opción para permitir la próxima generación de experiencias XR. Qualcomm Technologies proporciona la plataforma líder en la industria para Rokid Station Pro, que admite crear su propio ecosistema de aplicaciones AR único".

Haga iOS en la industria AR

Por supuesto, la razón por la que los teléfonos móviles de Apple pueden dominar el mercado de la telefonía móvil durante todo el año no es solo por su hardware, sino también por su sistema y ecología. Las barreras que se construyen al cultivar los hábitos de los usuarios a través de sistemas de software suelen ser más fuertes que el propio hardware.

**Esta es parte de la razón del sistema operativo espacial AR desarrollado por Rokid: YodaOS-Master, pero no es la razón completa. **

En el día de puertas abiertas de Rokid en marzo de este año, Rokid lanzó oficialmente YodaOS-Master y lanzó la "Plataforma de creación de espacio AR Lingjing", que permite a todos crear contenido AR en el espacio 3D y todos pueden participar, rompiendo por completo las barreras de la creación AR. Umbral, deja que la energía potencial ecológica explote.

**Si el SLAM monocular, el reconocimiento de gestos 3D, el Snapdragon XR+ y la plataforma Lingjing son hojas afiladas, entonces YodaOS-Master puede lanzar estos trucos a través de un sistema de desarrollo propio. **

En pocas palabras, Rokid está tomando un camino que nadie ha recorrido nunca y la filosofía de Rokid es "el software lo define todo". Todo el software debe ser transportado y proporcionado por el sistema para poder ejercer su valor.

Centrándose en los cinco aspectos de percepción, comprensión, interacción, presentación, colaboración y creación digital, YodaOS-Master ha realizado una gran actualización en términos de optimización de chips, diseño de hardware, arquitectura de software, algoritmo AR y herramientas de creación. el más completo en la actualidad: un conjunto de sistemas operativos espaciales para la era AR.

En la conferencia de prensa, Rokid también demostró la apertura y conveniencia que aporta el sistema de desarrollo propio. Para dar algunos ejemplos obvios, Basado en el sistema de desarrollo propio y la plataforma Snapdragon XR+, Rokid ha desarrollado un modo paralelo multitarea, rompiendo las limitaciones anteriores de una sola tarea, permitiendo chatear, escribir código, y La escena de visualización de documentos se puede realizar al mismo tiempo y aprovechar al máximo las ventajas de la pantalla grande en el espacio, para maximizar la eficiencia de producción.

**Otro caso sumamente innovador es que Rokid redefine la búsqueda espacial basándose en su sistema de desarrollo propio. **Zhu Mingming introdujo que esto rompe la forma anterior de mostrar la información de búsqueda y que la presentación de los resultados de la búsqueda ya no es un efecto plano bidimensional, sino que existe en un espacio tridimensional. "Los resultados que sean más relevantes para la pregunta serán los más cercanos a usted, y los resultados que son algo relevantes estarán en la página secundaria. Cuanto más lejos, menos relevantes. Por supuesto, también puede tachar los resultados anteriores y seleccione dinámicamente los resultados que desea."

De esta manera, la sensación del futuro se llena instantáneamente y también muestra la diferencia esencial con el equipo AR de primera etapa.

** Se puede ver que la ecología abierta de la industria AR ha comenzado a entrar en la segunda etapa. Apple y Rokid no solo se mueven de izquierda a derecha en la dirección del hardware, sino también en el desarrollo del software y la ecología del sistema industrial. A través de la cocreación de hardware, algoritmos, ecología de software, desarrolladores, usuarios y plataformas, la RA avanzará hacia la segunda etapa de rápido desarrollo en una ecología completamente abierta. **

Shi Wenfeng, ingeniero jefe de investigación y desarrollo del sistema Rokid, dijo: "El sistema operativo YodaOS-Master integra múltiples tecnologías centrales de reconocimiento de voz, reconocimiento de gestos, SLAM, etc. de Rokid en los servicios del sistema a través de un enfoque orientado a servicios, y proporciona una Variedad de SDK de cliente para el desarrollo que los desarrolladores pueden desarrollar de manera eficiente, como el SDK para Unity, que permite a los desarrolladores de Unity (canal de aplicaciones para desarrolladores: URL de plataforma abierta (ar.rokid.com)) utilizar rápidamente la tecnología central de Rokid para el desarrollo”.

Del hardware al software, del sistema a la ecología, el camino de desarrollo de Rokid es un poco como el de Apple en la era de Jobs.

"La industria de la RA está justo antes del amanecer", dijo Zhu Mingming.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)