AR 界の Android は中国にあり、Rokid が空間コンピューティングの熱狂を爆発させる

出典: Light Cone Intelligence

著者: 劉裕琦

画像ソース: Unbounded AI によって生成‌

ディスプレイ スクリーンやマウスのない空間で、AR メガネとポケット ホストだけで 5,000 ワードの記事を完成させることができるとは想像しにくいかもしれません。

そう、8月26日に行われた2023年Rokid Jungle新製品発表会では、実際にそんな光景が起きているのだ。この会議で、Rokidは、Rokid Max Pro(4,999元)とRokid Station Pro(3,999元)の2つの主要ハードウェア製品を含む、消費者向けOST(光学シースルー)パーソナル空間コンピューティングプラットフォームであるRokid AR Studioをリリースした。

Rokid の創設者兼 CEO である Zhu Mingming 氏は記者会見で、「空間コンピューティングは日常生活や仕事により自然に統合でき、Rokid AR Studio を最初の空間コンピューターにしましょう。」と述べました。

これは、これまでの AR メガネに対する人々の認識とは大きく異なります。これまで、AR メガネはエンターテイメント シーンに「固定」され、映画、テレビ、ゲームという 2 本の柱産業に依存して生き残っていましたが、Rokid AR Studio は真に個人の生産性向上ツール、IM ソフトウェア、記事の作成、コードの作成になりました。 、情報の検索など、その他の作業シナリオは最新のハードウェアで完了できます。

**使用シナリオの拡大により、AR デバイスは疎外されたシナリオからより実用的な使用価値に移行することができます。消費者が喜んで支払うと、AR 業界チェーン全体が消費者市場の好循環に入ります。 **

自分は「社会恐怖症」であると述べた上司の朱明明氏は、製品と技術を完全に管理しており、製品設計の初稿の 2 つのバージョンを社内で破棄し、製品部門をほぼ「狂わせた」こともありました。しかし、製品部門が秘密裏に設計された製品を持ち出すと、朱明明はすぐにすべてのリソースをこの製品に投入するよう命じました。 「私が気にしている統計は 1 つだけです。それはユーザーの使用時間です。現在、実際のユーザーの使用時間は 1 時間半近くで、週次維持率は 20% を超えています。これを実行すれば、ユーザーは自然に増加します。」 。」

**累計ユーザー数は100万人レベルに達しており、これはAR業界がソフトウェアシステムとエコロジー構築の第2段階に入ったことを意味します。近年、ますます多くのシステムベンダー、アプリケーションソフトウェアベンダー、コンテンツベンダーがARエコシステムの構築に参加しています。 **

「狂人の集団、夢、10年。」

Zhu Mingming 氏が述べたように、Rokid がエンターテイメント シーンから生産性向上ツールに移行するまでに 10 年かかりました。この背後には、思考の飛躍だけでなく、ハードウェア テクノロジーからソフトウェア テクノロジー、さらには業界チェーン全体への大きな前進もあります。 AppleとRokidはAR競争の第2ステージを開始しており、業界内の競争も加速している。

**単眼 SLAM、相互作用を再定義するにはどうすればよいですか? **

記者会見全体で最も驚かされたのは、Rokid Max Pro 76g の本体ではなく、SLAM (空間測位技術)、マイクロジェスチャー インタラクション、一人称視点の共有、ビジュアル ポジショニングを完了できるたった 1 台のカメラでした。 VPS 機能とその他の統合された対話型メソッド。 **

AR/VR デバイスは、物理的インタラクション (ハンドル)、音声インタラクション、ジェスチャ インタラクションを経験した後、アイトラッキングと現在の多感覚融合インタラクション ソリューションに向けて開発されています。

ただし、多感覚統合のインタラクションにはハードウェアへの要求が高く、インタラクションを正確に完了するには、基本的なニーズを満たすことに加えて、ユーザーのアクションやジェスチャーを全方向および複数の角度からキャプチャする必要もあります。

**単一のカメラで SLAM インタラクションを完了するのはどのくらい難しいですか? **

ビジュアル SLAM メソッドは 2 つのモジュールで構成されており、1 つはトラッキング、既知の 3D ポイントの位置、基本的な位置決め、もう 1 つはマッピング、3D ポイントの位置を更新します。どのリンクや方法であっても、単眼ではカメラを 1 台だけ選択でき、位置も角度も固定されるため、認識範囲、追跡速度、精度に大きな課題が生じます。

「業界では、単眼SLAMは信じられないほど実現が難しいと考えられている」とZhu Mingming氏は冗談めかして述べ、「これはRokidの肯定でもあるのかもしれない」と語った。

現在、市場で流通している空間インタラクション機能を備えた AR メガネには、アルゴリズム機能を担うために少なくとも 3 台のカメラが搭載されています。 **視覚ルートの違いにより、Apple に代表される VST (ビデオ視点) と Rokid に代表される OST (光学視点) の 2 つの陣営も形成されました。 **

Apple Vision Pro を例に挙げると、12 台のカメラを使用して高速測位キャプチャ、高精度のパノラマ認識、正確な追跡を「スタック」し、VST を使用してカメラを通じて端末画面に外界を表示します。リアルタイムで撮影して外の世界を確認します。

しかし、インタラクション用のハードウェアを積み重ねる方法は、コストが増加し、同時に価格が2倍になり、マシンの重量と量産の難しさという2つの大きな着陸問題を引き起こしました。これが、Apple Vision Pro の価格が 3,499 ドルで、2024 年まで量産されない根本的な理由です。

しかし、Rokid が主張する OST ソリューションには特定の技術的障壁があり、複雑なパイプライン設計、表示画面の視野角の制限、および光学部品の高コストにより、Rokid は重畳コストを削減するための技術的ブレークスルーを通過することしかできません。

そして、業界に「信じられない」と思わせる単眼SLAMはどのように機能するのでしょうか?会議後、Lightcone Intelligence は Zhu Mingming と詳細な意見交換を行い、Rokid の「ユニークなトリック」は AI アルゴリズムを使用してハードウェアの壁を突破することであることがわかりました。 **

Zhu Mingming氏は、「単眼SLAM技術は古くから存在しているが、ARグラスには応用されていない。携帯電話のフロントカメラもこの種の技術を応用している。唯一の違いはアルゴリズムだ」と紹介した。

AIからARまで、これはまたがっているようで実は統合されている道ですが、それはまさにRokidがここ数年AI分野で蓄積してきた、多次元ビジュアルアルゴリズムモデルを通じて、視覚的な位置決めと強化、デジタル ヒューマン テクノロジー、2D/3D ジェスチャ認識、OCR 認識およびその他のテクノロジーにより、AI が特定のシナリオに到達できるようになります。

例えば、AR視覚位置決め・拡張機能は、単一目的の限界を解決・打破するものであり、センチメートルレベルの視覚地図を構築することで、現実の物体世界に仮想情報を正確に重ね合わせて融合させ、高精度な情報を実現することができます。オブジェクトとシーンの 3D 再構築。

Rokid 副社長兼 XR センター所長の Wang Junjie 氏は次のように述べています。「空間測位は SLAM テクノロジーに基づいており、安定した自然なインタラクションが空間内で実行できます。マッピング空間を確立するためのアルゴリズム。"

市場では、ほとんどのデバイスはまだ両眼ソリューションを使用していますが、両眼融合にも多くの問題があり、追加のカメラを追加するコストに加えて、2 台のカメラのデータをリアルタイムで適合させるためのアルゴリズムを継続的に使用する必要もあります。これにより、より複雑な問題が発生します。

この観点から、単眼ソリューションがスムーズに実行できれば、Rokid が率先して技術トレンドを踏むことになるでしょう。以前、Rokid は業界初のステーション ホストのメーカーでもあり、ガラスとホストを分離するソリューションが業界の経験から最適なソリューションであることが証明されています。

また、ジェスチャ認識にはマイクロジェスチャというインタラクティブモードが採用されており、指でつまんでクリックして選択したり、ジェスチャを左右に動かすことで閲覧しているインターフェースやコンテンツを切り替えることもできます。単純なピンチやスライドのジェスチャなどの論理的な定義はより自然で、より早く開始できます。

当社のオンサイトテスト結果によると、Rokid は両手による素手空間インタラクションを実現でき、現在、Rokid のジェスチャ認識アルゴリズムは、水平軸/空間軸の回転、明るい/暗い光などの複雑なシーン認識をサポートしています。時間に応じて、認識可能なジェスチャの種類は多くなりますが、アルゴリズムは正確で、全体の認識率は約90%で、ミリ秒レベルの認識応答能力と99%の信頼性を保証します。

Rokid氏によると、深層学習アルゴリズムと大量の実験データに基づいて、単眼3Dジェスチャアルゴリズムは、手の6DoF、手の関節点6DoF、および手のメッシュ情報を含む手の姿勢パラメータをモバイル端末上でリアルタイムに再構築できます。 AR ジェスチャ インタラクションを提供します。優れたアルゴリズム基盤です。

現在、Rokid のジェスチャ認識は、ポイント、ピンチ、掴み、ホールド、ドラッグ、プルなどを含む 3D 空間でのさまざまな操作を実現でき、AR インタラクティブ アプリケーションのニーズを完全に満たすことができます。たとえば、Rokid Max Pro を装着し、手を伸ばし、目の前で手のひらを開いてメニューを呼び出します。

結局のところ、このような複雑なアルゴリズム構造をサポートする主役はカメラだけではなく、「脳」、つまり Rokid Station Pro の計算能力とパフォーマンスにも密接に関係しています。

ポケットの中にスペースコンピューター

** 長い間、VR/AR 業界全体には、「コンピューティング能力、快適さ、価格」という不可能なトライアングルがありました。より高いコンピューティング能力を備えたデバイスはより重く、より高価になる傾向があり、快適性の高い軽量デバイスは使用ニーズを満たすことができません。 **

現実の状況から判断すると、現時点では「完璧な」ソリューションはありません。主流のメーカーは、この 2 つのバランスを見つけようとしています。現在の市場には、2 種類の主流のソリューションがあります。1 つは Apple に代表されます。ディスプレイとディスプレイコンピューティングが統合され、バッテリーが外部接続されるもう 1 つは、Rokid に代表されるディスプレイとコンピューティングの分割設計です。

Apple の統合設計は、2 つのマイクロ OLED スクリーン、複数のカメラ、センサー、スピーカー、その他のコンポーネントを統合しており、表示効果と計算の点でより効率的ですが、本体自体の重量も増加するため、バッテリーを接続するだけで済みます。外部的に。

Rokidがこだわるスプリットデザインにより装着性を最大限に高め、Vision Proの重量454gと比べ、メガネの重量76gは一般的なメガネとほぼ同じであり、同時にホストの演算能力の制限も少なくなります。放熱による不快感をある程度回避しつつ、空間資源を確保します。

**一般に、分割型ルートは、メガネの携帯性とホストの計算能力の双方向の究極の開発を実現でき、また、より柔軟です。計算能力の反復とメガネの技術的ルートは、非同期で実行されます。 **

Rokid Station Pro は、分割設計に基づいてコンピューティング能力をアップグレードし、コンピューティング、イメージング、通信、その他の機能を統合した「生産性ツール」とも呼ばれるオールインワン ターミナルを作成しました。

Lightcone Intelligence によると、Rokid Station Pro は Qualcomm Snapdragon XR2+、12G RAM + 128G ROM を搭載し、WIFI6/6E および BT5.1 をサポートし、放熱性と高性能により、センチメートルレベルの 6DoF トラッキング精度と非常に低いトラッキング精度を達成できます。 MTP (Motion to Photon) レンダリングの遅延。

公開情報によると、Snapdragon XR2+ はクアルコムが発売した最新のフラッグシップ XR プラットフォームで、50% のバッテリー寿命と 30% の放熱性能の向上を実現し、より小型で薄型のデバイス形状でより豊かで没入感のある体験を可能にします。同時に、Snapdragon XR2 + プラットフォームには新しい画像処理パイプラインが導入され、10 ミリ秒未満の遅延を実現し、フルカラー ビデオ シースルー MR エクスペリエンスを実現します。

Light Cone Intelligence の現場での体験から判断すると、映画を見ているときでも、ゲームをしているときでも、仕事や制作プロセスでキーボードを呼び出しているときでも、特にゲームの高周波インタラクションや戦闘下では、画面の滑らかさと応答速度が優れています。とても滑らかです。

現在市場にあるコアアルゴリズムはまだ3DoF(3自由度トラッキング)であることに注意してください。これは、デバイスが上向き、前方、下向きの3方向の回転を検出できることを意味しますが、回転を検出することはできません。頭の前後左右の空間的な変位。

アップグレードされたStation Proで採用された6DoFアルゴリズムは、頭の回転による視野角の変化を検出するだけでなく、「上下、前後、左、そして正しい」という体の動きによって引き起こされます。

このアルゴリズムのアップグレードはプレイヤーの自由度の点でより重要です。たとえば、3DoF アルゴリズムでゾンビと戦う場合、射撃範囲は正面の一定の角度になりますが、アップグレード後は 360 度からゾンビが出現し、振り向くと背後のゾンビの体感が超えられます。前者の範囲。

つまり、演算能力が高くなって体験がスムーズになっただけではなく、演算能力領域の拡大は体感にも大きな違いをもたらしているのです。

クアルコム テクノロジーズの XR 製品管理シニア ディレクターであるサイード バカディール氏は、「第一世代の Snapdragon XR2+ プラットフォームは、次世代の XR エクスペリエンスを可能にする最良の選択です。クアルコム テクノロジーズは、Rokid Station Pro に業界をリードするプラットフォームを提供し、独自の AR アプリケーション エコシステムを構築するためです。」

AR 業界で iOS を行う

もちろん、アップルの携帯電話が年間を通じて携帯電話市場を席巻できるのは、ハードウェアだけでなく、そのシステムやエコロジーにも理由がある。ソフトウェア システムを通じてユーザーの習慣を育むことによって構築される障壁は、多くの場合、ハードウェア自体よりも強力です。

**これは、Rokid が自社開発した AR 空間オペレーティング システムである YodaOS-Master の理由の一部ですが、すべての理由ではありません。 **

今年 3 月の Rokid Open Day で、Rokid は YodaOS-Master を正式にリリースし、3D 空間で AR コンテンツを作成し、誰もが参加できる「AR 空間作成プラットフォーム Lingjing」をリリースし、AR 作成の壁を完全に打ち破りました。閾値、生態学的位置エネルギーを爆発させましょう。

**単眼 SLAM、3D ジェスチャ認識、Snapdragon XR+、および Lingjing プラットフォームがすべて鋭い刃である場合、YodaOS-Master は自社開発のシステムを通じてこれらのトリックを解放できます。 **

簡単に言うと、Rokid は誰も歩いたことのない道を進んでおり、Rokid の哲学は「ソフトウェアがすべてを定義する」です。すべてのソフトウェアは、その価値を発揮するためにシステムによって運ばれ、提供される必要があります。

YodaOS-Master は、知覚、理解、インタラクション、プレゼンテーション、コラボレーション、デジタル作成の 5 つの側面に焦点を当て、チップの最適化、ハードウェア設計、ソフトウェア アーキテクチャ、AR アルゴリズム、作成ツールの点で大幅なアップグレードを行っている可能性があります。現時点で最も完成度の高い AR 時代の空間オペレーティング システムのセット。

Rokid氏は記者会見で、自社開発システムがもたらすオープン性と利便性も実証した。わかりやすい例をいくつか挙げると、自社開発システムと Snapdragon XR+ プラットフォームに基づいて、Rokid はマルチタスク並列モードを開発しました。これにより、単一タスクのみという以前の制約が打ち破られ、チャット、コードの作成、資料閲覧シーンも同時に実現でき、スペース的に大画面のメリットを最大限に発揮でき、生産効率を最大限に高めることができます。

**もう 1 つの非常に革新的なケースは、Rokid が自社開発のシステムに基づいて空間検索を再定義したことです。 **Zhu Mingming 氏は、これはこれまでの検索情報の表示方法を打ち破り、検索結果の表示はもはや 2 次元の平面効果ではなく、3 次元空間に存在すると述べました。 「質問に最も関連性の高い結果が最も近いものとなり、ある程度関連性のある結果が 2 ページ目に表示されます。遠ざかるほど関連性は低くなります。もちろん、前の結果に取り消し線を引いて削除することもできます。必要な結果を動的に選択します。」

このように、一瞬で未来感が溢れ、初段のAR機器との本質的な違いも表れています。

** AR業界のオープンエコロジーは第2段階に入り始めていることが分かり、AppleとRokidはハードウェアの方向だけでなく、業界システムのソフトウェアやエコロジーの開発においても左右に動いている。ハードウェア、アルゴリズム、ソフトウェア エコロジー、開発者、ユーザー、プラットフォームの共創を通じて、AR は完全にオープンなエコロジーでの急速な発展の第 2 段階に移行します。 **

Rokid システム研究開発のチーフエンジニアである Shi Wenfeng 氏は、「YodaOS-Master オペレーティング システムは、サービス指向のアプローチを通じて、Rokid の音声認識、ジェスチャ認識、SLAM などの複数のコア テクノロジーをシステム サービスに統合し、開発用のさまざまなクライアント SDK 開発者は効率的に開発できます。たとえば、Unity 開発者 (開発者アプリケーション チャネル: オープン プラットフォーム URL (ar.rokid.com)) が Rokid コア テクノロジーを開発に迅速に使用できるようにする SDK for Unity などです。

ハードウェアからソフトウェア、システムからエコロジーに至るまで、Rokid の開発の道筋は、ジョブズ時代の Apple に少し似ています。

「AR業界は夜明け前だ」とZhu Mingming氏は語った。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)