Android в мире AR находится в Китае, Rokid взрывает безумие пространственных вычислений

Первоисточник: Разведка светового конуса

Автор: Лю Юци

Источник изображения: Создано Unbounded AI‌

Возможно, вам трудно представить, что в помещении без экрана или мыши вы можете написать статью объемом 5000 слов, используя всего лишь пару очков AR и карманный хост.

Правильно, 26 августа на конференции по запуску нового продукта Rokid Jungle 2023 года действительно происходит такая сцена. На встрече компания Rokid представила Rokid AR Studio, платформу персональных пространственных вычислений OST (оптическая прозрачная) потребительского уровня, включающую два основных аппаратных продукта: Rokid Max Pro (4999 юаней) и Rokid Station Pro (3999 юаней).

Чжу Минмин, основатель и генеральный директор Rokid, заявил на пресс-конференции: «Пространственные вычисления можно более естественно интегрировать в повседневную жизнь и работу, и пусть Rokid AR Studio станет вашим первым пространственным компьютером».

Это сильно отличается от восприятия людьми очков AR в прошлом. До этого очки AR были «заперты» на сцене развлечений, опираясь на два основных направления индустрии кино, телевидения и игр, чтобы выжить, но Rokid AR Studio действительно стала инструментом личной продуктивности, программным обеспечением для обмена мгновенными сообщениями, написанием статей, написанием кода. , поиск информации и т. д. И другие сценарии работы можно выполнить с помощью новейшего оборудования.

**Расширение сценариев использования позволяет устройствам AR перейти от маргинальных сценариев к более практичному использованию. Когда потребители будут готовы платить, вся цепочка индустрии AR войдет в позитивный цикл потребительского рынка. **

Чжу Минмин, начальник, назвавший себя «социальным страхом», полностью контролирует продукцию и технологии. Но когда отдел продукции тайно забрал разработанный продукт, Чжу Минмин немедленно приказал направить все ресурсы на этот продукт. «Меня интересует только одна статистика — время использования пользователем. В настоящее время реальное время использования нашим пользователем приближается к полутора часам, а еженедельный коэффициент удержания превышает 20%. Если это будет сделано, количество пользователей будет расти естественным образом. ."

**Накопленное количество пользователей достигло миллиона, что также означает, что индустрия AR вступила во второй этап программного обеспечения и экологического строительства. В последние годы все больше и больше поставщиков систем, поставщиков прикладного программного обеспечения и поставщиков контента присоединяются к построению экосистемы AR. **

«Группа сумасшедших, сон, десять лет».

Как сказал Чжу Минмин, Rokid понадобилось 10 лет, чтобы пройти путь от развлекательной сцены до инструментов повышения производительности. За этим стоит не только скачок в мышлении, но и большой шаг вперед от аппаратных технологий к программным технологиям и даже всей отраслевой цепочке. Apple и Rokid начали второй этап конкурса AR, и конкуренция в отрасли также усиливается.

**Монокулярный SLAM, как переопределить взаимодействие? **

За всю пресс-конференцию самым удивительным стал не корпус Rokid Max Pro 76g, а только одна камера, способная реализовать SLAM (технологию пространственного позиционирования), взаимодействие с микрожестами, обмен перспективами от первого лица, визуальное позиционирование. Возможности VPS и другие интегрированные интерактивные методы. **

После физического взаимодействия (рукоятка), голосового взаимодействия и взаимодействия жестов устройства AR/VR развиваются в сторону отслеживания глаз и текущего решения взаимодействия мультисенсорного слияния.

Однако взаимодействие мультисенсорной интеграции предъявляет более высокие требования к аппаратному обеспечению: помимо удовлетворения основных потребностей также необходимо фиксировать действия и жесты пользователя со всех сторон и под разными углами, чтобы точно завершить взаимодействие.

**Насколько сложно выполнить взаимодействие SLAM с одной камерой? **

Метод визуального SLAM состоит из двух модулей: один — «Отслеживание», известное положение 3D-точки, базовое позиционирование; другой — «Картирование», обновление положения 3D-точки. Независимо от того, какое соединение или метод монокуляр означает, что можно выбрать только одну камеру, а также фиксированное положение и фиксированный угол, что создает большие проблемы с дальностью распознавания, скоростью и точностью отслеживания.

«Индустрия считает, что монокулярный SLAM невероятен и его трудно достичь», — в шутку сказал Чжу Минмин. «Это также может быть подтверждением Rokid».

В настоящее время немногие очки AR с пространственным взаимодействием на рынке будут оснащены как минимум тремя камерами для выполнения алгоритмических функций. **Разница в визуальных маршрутах также сформировала два лагеря: VST (видеоперспектива), представленная Apple, и OST (оптическая перспектива), представленная Rokid. **

Продолжая использовать Apple Vision Pro в качестве примера, он использует 12 камер для «совмещения» быстрого захвата позиционирования, высокоточного панорамного восприятия и точного отслеживания, а также использует VST для отображения внешнего мира на экране терминала через камеры. снимает в реальном времени, чтобы увидеть внешний мир.

Однако метод штабелирования оборудования для взаимодействия увеличил стоимость и одновременно увеличил цену вдвое, что вызвало две основные проблемы при посадке: вес машины и сложность массового производства. Это основная причина, по которой Apple Vision Pro стоит 3499 долларов и не будет массово производиться до 2024 года.

Однако решение OST, на котором настаивает Rokid, имеет определенные технические барьеры.

И как это делает монокуляр SLAM, который заставляет индустрию думать «невероятно»? После встречи представители Lightcone Intelligence провели углубленный обмен мнениями с Чжу Минмином и обнаружили, что «уникальная уловка» Рокида заключается в использовании алгоритмов искусственного интеллекта для преодоления аппаратных барьеров. **

Чжу Минмин сообщил, что, хотя монокулярная технология SLAM существует уже давно, она никогда не применялась в очках дополненной реальности. Передняя камера мобильного телефона также использует эту технологию. Единственное отличие заключается в алгоритме.

От искусственного интеллекта к дополненной реальности этот путь кажется протяженным, но на самом деле он интегрирован, но это также связано с накоплением Rokid в области искусственного интеллекта за последние несколько лет с помощью модели многомерного визуального алгоритма, в том числе визуальное позиционирование и улучшение, цифровые человеческие технологии, распознавание 2D/3D жестов, распознавание OCR и другие технологии позволяют ИИ приземляться в определенных сценариях.

Например, функция визуального позиционирования и улучшения AR призвана решить и преодолеть одноцелевое ограничение.Построив визуальную карту сантиметрового уровня, виртуальная информация может быть точно наложена и объединена в реальном мире объектов для достижения высокой точности. 3D реконструкция объектов и сцен.

Ван Цзюньцзе, вице-президент Rokid и руководитель центра XR, сказал: «Пространственное позиционирование основано на технологии SLAM, после чего в космосе можно обеспечить стабильное и естественное взаимодействие. Быстрая инициализация с помощью алгоритм создания пространства отображения."

На рынке большинство устройств по-прежнему используют бинокулярные решения, но у бинокулярного слияния также есть много проблем.Помимо стоимости добавления дополнительной камеры, также необходимо постоянно использовать алгоритмы для согласования данных двух камер в реальном времени. Это приводит к более сложным проблемам.

С этой точки зрения, если монокулярное решение будет реализовано гладко, Rokid станет лидером в развитии технологической тенденции. Ранее Rokid также была первым в отрасли производителем хостов для станций.Решение разделения очков и хостов оказалось оптимальным решением с точки зрения отраслевого опыта.

Кроме того, при распознавании жестов Rokid использует интерактивный режим микрожестов, и вы можете щелкать и выбирать щепоткой пальцев; вы также можете переключать интерфейс или контент, который вы просматриваете, перемещая жест влево и вправо. Логические определения, такие как простые жесты сведения и скольжения, более естественны и позволяют быстрее приступить к работе.

Согласно результатам наших испытаний на месте, Rokid может осуществлять взаимодействие в пространстве двумя руками голыми руками.В настоящее время алгоритм распознавания жестов Rokid поддерживает сложное распознавание сцен, таких как вращение горизонтальной/пространственной оси, яркий/темный свет и т. д. В то же время время существует множество типов распознаваемых жестов. Алгоритм точен, общий уровень распознавания составляет около 90%, он имеет возможность реакции распознавания на уровне миллисекунд и гарантию надежности 99%.

По словам Рокида, на основе алгоритма глубокого обучения и большого количества экспериментальных данных алгоритм монокулярных 3D-жестов может реконструировать параметры положения руки в реальном времени на мобильном терминале, включая 6DoF руки, 6DoF точки сустава руки и информацию Hand Mesh. обеспечение взаимодействия с помощью жестов AR. Хорошая алгоритмическая основа.

В настоящее время распознавание жестов Rokid позволяет выполнять различные операции в трехмерном пространстве, включая указание, сжатие, захват, удержание, перетаскивание, вытягивание и т. д., что может полностью удовлетворить потребности интерактивных приложений AR. Например, наденьте Rokid Max Pro, вытяните руку и откройте ладонь перед глазами, чтобы вызвать меню.

Ведь для поддержки столь сложной структуры алгоритма за этим стоит не только камера, но и тесно связанный с вычислительной мощностью и производительностью «мозга», то есть Rokid Station Pro.

КОСМИЧЕСКИЙ КОМПЬЮТЕР В ВАШЕМ КАРМАНЕ

** В течение долгого времени вся индустрия VR/AR представляла собой невозможный треугольник «вычислительная мощность, комфорт и цена». Устройства с более высокой вычислительной мощностью, как правило, тяжелее и дороже, а легкие устройства с высоким уровнем комфорта не могут удовлетворить потребности использования. **

Судя по реальной ситуации, "идеального" решения на данный момент не существует. Основные производители пытаются найти баланс между ними. На современном рынке существует два типа основных решений: одно представлено Apple. Дисплей и Вычисления интегрированы, а батарея подключена к внешнему устройству; второй вариант — разделенная конструкция дисплея и компьютера, представленная Rokid.

Интегрированный дизайн Apple объединяет два экрана micro-OLED, несколько камер, датчиков, динамиков и других компонентов, что более эффективно с точки зрения эффектов отображения и вычислений, но также увеличивает вес самого корпуса, в результате чего требуется только подключение аккумулятора. внешне.

Разделенная конструкция, на которой настаивает Rokid, обеспечивает максимальное удобство ношения. По сравнению с весом Vision Pro, равным 454 г, вес очков весом 76 г почти такой же, как у обычных очков. В то же время вычислительная мощность хоста также может быть менее ограничена космические ресурсы, избегая при этом в определенной степени дискомфорта, вызванного рассеиванием тепла.

**В целом, маршрут разделенного типа может обеспечить двустороннее максимальное развитие портативности очков и вычислительной мощности хоста, а также является более гибким.Итерация вычислительной мощности и технического маршрута очков может быть осуществляется асинхронно. **

Основываясь на раздельной конструкции, Rokid Station Pro модернизировал свою вычислительную мощность и создал терминал «все в одном», объединяющий вычислительные функции, обработку изображений, связь и др. Его также можно назвать «инструментом повышения производительности».

По данным Lightcone Intelligence, Rokid Station Pro оснащен процессором Qualcomm Snapdragon XR2+, 12 ГБ ОЗУ + 128 ГБ ПЗУ, поддерживает WIFI6/6E и BT5.1. Благодаря отводу тепла и более высокой производительности он может достигать сантиметровой точности отслеживания с 6 степенями свободы и чрезвычайно низкой Задержка рендеринга MTP (Motion to Photon).

Согласно общедоступной информации, Snapdragon XR2+ — это новейшая флагманская платформа XR, выпущенная Qualcomm, которая может обеспечить 50%-ное время автономной работы и 30%-ное улучшение характеристик рассеивания тепла, что обеспечивает более богатые и захватывающие впечатления при меньшем и более тонком устройстве. В то же время платформа Snapdragon XR2 + представляет новый конвейер обработки изображений, который может обеспечить задержку менее 10 миллисекунд и открыть полноцветное видео, прозрачное MR.

Судя по натурному опыту работы Light Cone Intelligence, будь то просмотр фильмов, игры или вызов клавиатуры для работы и производственных процессов, особенно в условиях высокочастотного взаимодействия и боевых действий в играх, плавность и скорость отклика экрана очень шелковистые.

Стоит отметить, что основным алгоритмом, представленным в настоящее время на рынке, по-прежнему является 3DoF (отслеживание с тремя степенями свободы), что означает, что устройство может обнаруживать вращение в трех направлениях: вверх, вперед и вниз, но не может обнаружить пространственное перемещение головы вперед, назад, влево и вправо.

Алгоритм 6DoF, принятый в обновленной Station Pro, может не только обнаруживать изменение угла поля зрения, вызванное вращением головы, но также обнаруживать шесть видов изменений смещения: вверх, вниз, вперед, назад, влево, и вправо», вызванное движением тела.

Обновление этого алгоритма более важно для степени свободы игрока. Например, при борьбе с зомби по алгоритму 3DoF стрельбище находится под определённым углом спереди, но после апгрейда зомби появляются с 360 градусов, а когда вы поворачиваетесь, ощущение тела зомби позади вас зашкаливает. досягаемость первого.

Другими словами, не только вычислительная мощность выше, а опыт более плавный, но расширение пространства вычислительных мощностей также привело к огромным изменениям в ощущении тела.

Саид Бакадир, старший директор по управлению продуктами XR компании Qualcomm Technologies, сказал: «Платформа Snapdragon XR2+ первого поколения — лучший выбор для реализации следующего поколения возможностей XR. Qualcomm Technologies предоставляет ведущую в отрасли платформу для Rokid Station Pro, поддерживающую для создания собственной уникальной экосистемы приложений AR».

Применяет ли iOS в индустрии дополненной реальности

Конечно, причина, по которой мобильный телефон Apple может доминировать на рынке мобильных телефонов круглый год, заключается не только в его аппаратном обеспечении, но также в его системе и экологии. Барьеры, создаваемые путем формирования пользовательских привычек с помощью программных систем, зачастую сильнее, чем само оборудование.

**Это одна из причин создания собственной космической операционной системы дополненной реальности Rokid — YodaOS-Master, но не вся причина. **

В День открытых дверей Rokid в марте этого года компания Rokid официально запустила YodaOS-Master и выпустила «Платформу создания AR-пространства Lingjing», позволяющую каждому создавать AR-контент в 3D-пространстве, и каждый может участвовать в этом, полностью преодолевая барьеры создания AR. Порог: позвольте экологической потенциальной энергии взорваться.

**Если монокуляр SLAM, распознавание 3D-жестов, Snapdragon XR+ и платформа Lingjing — это острые лезвия, то YodaOS-Master может реализовать эти трюки с помощью системы собственной разработки. **

Проще говоря, Rokid идет по пути, по которому еще никто не шел, и философия Rokid заключается в том, что «программное обеспечение определяет все». Все программное обеспечение должно переноситься и предоставляться системой, чтобы приносить свою пользу.

Сосредоточив внимание на пяти аспектах восприятия, понимания, взаимодействия, презентации, сотрудничества и цифрового творчества, YodaOS-Master произвела огромное обновление с точки зрения оптимизации чипов, проектирования аппаратного обеспечения, архитектуры программного обеспечения, алгоритма AR и инструментов создания. Самый полный на данный момент набор пространственных операционных систем для эпохи AR.

На пресс-конференции Рокид также продемонстрировал открытость и удобство системы собственной разработки. Приведу несколько очевидных примеров. Основываясь на системе собственной разработки и платформе Snapdragon XR+, компания Rokid разработала многозадачный параллельный режим, нарушая предыдущие ограничения, ограничивающие выполнение только одной задачи, позволяя общаться в чате, писать код, и сцена просмотра документов может быть реализована одновременно и в полной мере использовать преимущества большого экрана в пространстве, чтобы максимизировать эффективность производства.

**Еще один чрезвычайно инновационный случай заключается в том, что Rokid переосмысливает пространственный поиск на основе собственной разработанной системы. **Чжу Минмин отметил, что это нарушает предыдущий способ отображения поисковой информации, и представление результатов поиска больше не является эффектом двухмерной плоскости, а существует в трехмерном пространстве. «Результаты, которые наиболее релевантны вопросу, будут наиболее близкими к вам, а результаты, которые в некоторой степени релевантны, находятся на второстепенной странице. Чем дальше, тем менее релевантны. Конечно, вы также можете вычеркнуть предыдущие результаты и динамически выбирать нужные результаты».

Таким образом, ощущение будущего мгновенно становится полным, а также показывает существенное отличие от оборудования AR первой ступени.

**Видно, что открытая экология AR-индустрии начала вступать во вторую стадию.Apple и Rokid не только движутся влево и вправо в направлении аппаратного обеспечения, но также в разработке отраслевого системного программного обеспечения и экологии. Благодаря совместному созданию аппаратного обеспечения, алгоритмов, экологии программного обеспечения, разработчиков, пользователей и платформ AR перейдет ко второму этапу быстрого развития в полностью открытой экологии. **

Ши Вэньфэн, главный инженер отдела исследований и разработок систем Rokid, сказал: «Операционная система YodaOS-Master объединяет несколько основных технологий распознавания голоса Rokid, распознавания жестов, SLAM и т. д. в системные службы посредством сервис-ориентированного подхода и обеспечивает разнообразие клиентских SDK для разработки. Разработчики могут эффективно разрабатывать, например, SDK для Unity, который позволяет разработчикам Unity (канал приложения разработчика: URL-адрес открытой платформы (ar.rokid.com)) быстро использовать базовую технологию Rokid для разработки».

От аппаратного обеспечения до программного обеспечения, от системы до экологии — путь развития Rokid чем-то напоминает Apple в эпоху Джобса.

«Индустрия дополненной реальности находится на пороге рассвета», — сказал Чжу Минмин.

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить