そう、8月26日に行われた2023年Rokid Jungle新製品発表会では、実際にそんな光景が起きているのだ。この会議で、Rokidは、Rokid Max Pro(4,999元)とRokid Station Pro(3,999元)の2つの主要ハードウェア製品を含む、消費者向けOST(光学シースルー)パーソナル空間コンピューティングプラットフォームであるRokid AR Studioをリリースした。
Rokid の創設者兼 CEO である Zhu Mingming 氏は記者会見で、「空間コンピューティングは日常生活や仕事により自然に統合でき、Rokid AR Studio を最初の空間コンピューターにしましょう。」と述べました。
これは、これまでの AR メガネに対する人々の認識とは大きく異なります。これまで、AR メガネはエンターテイメント シーンに「固定」され、映画、テレビ、ゲームという 2 本の柱産業に依存して生き残っていましたが、Rokid AR Studio は真に個人の生産性向上ツール、IM ソフトウェア、記事の作成、コードの作成になりました。 、情報の検索など、その他の作業シナリオは最新のハードウェアで完了できます。
Rokid氏によると、深層学習アルゴリズムと大量の実験データに基づいて、単眼3Dジェスチャアルゴリズムは、手の6DoF、手の関節点6DoF、および手のメッシュ情報を含む手の姿勢パラメータをモバイル端末上でリアルタイムに再構築できます。 AR ジェスチャ インタラクションを提供します。優れたアルゴリズム基盤です。
現在、Rokid のジェスチャ認識は、ポイント、ピンチ、掴み、ホールド、ドラッグ、プルなどを含む 3D 空間でのさまざまな操作を実現でき、AR インタラクティブ アプリケーションのニーズを完全に満たすことができます。たとえば、Rokid Max Pro を装着し、手を伸ばし、目の前で手のひらを開いてメニューを呼び出します。
結局のところ、このような複雑なアルゴリズム構造をサポートする主役はカメラだけではなく、「脳」、つまり Rokid Station Pro の計算能力とパフォーマンスにも密接に関係しています。
AR 界の Android は中国にあり、Rokid が空間コンピューティングの熱狂を爆発させる
出典: Light Cone Intelligence
著者: 劉裕琦
ディスプレイ スクリーンやマウスのない空間で、AR メガネとポケット ホストだけで 5,000 ワードの記事を完成させることができるとは想像しにくいかもしれません。
そう、8月26日に行われた2023年Rokid Jungle新製品発表会では、実際にそんな光景が起きているのだ。この会議で、Rokidは、Rokid Max Pro(4,999元)とRokid Station Pro(3,999元)の2つの主要ハードウェア製品を含む、消費者向けOST(光学シースルー)パーソナル空間コンピューティングプラットフォームであるRokid AR Studioをリリースした。
これは、これまでの AR メガネに対する人々の認識とは大きく異なります。これまで、AR メガネはエンターテイメント シーンに「固定」され、映画、テレビ、ゲームという 2 本の柱産業に依存して生き残っていましたが、Rokid AR Studio は真に個人の生産性向上ツール、IM ソフトウェア、記事の作成、コードの作成になりました。 、情報の検索など、その他の作業シナリオは最新のハードウェアで完了できます。
自分は「社会恐怖症」であると述べた上司の朱明明氏は、製品と技術を完全に管理しており、製品設計の初稿の 2 つのバージョンを社内で破棄し、製品部門をほぼ「狂わせた」こともありました。しかし、製品部門が秘密裏に設計された製品を持ち出すと、朱明明はすぐにすべてのリソースをこの製品に投入するよう命じました。 「私が気にしている統計は 1 つだけです。それはユーザーの使用時間です。現在、実際のユーザーの使用時間は 1 時間半近くで、週次維持率は 20% を超えています。これを実行すれば、ユーザーは自然に増加します。」 。」
**累計ユーザー数は100万人レベルに達しており、これはAR業界がソフトウェアシステムとエコロジー構築の第2段階に入ったことを意味します。近年、ますます多くのシステムベンダー、アプリケーションソフトウェアベンダー、コンテンツベンダーがARエコシステムの構築に参加しています。 **
「狂人の集団、夢、10年。」
Zhu Mingming 氏が述べたように、Rokid がエンターテイメント シーンから生産性向上ツールに移行するまでに 10 年かかりました。この背後には、思考の飛躍だけでなく、ハードウェア テクノロジーからソフトウェア テクノロジー、さらには業界チェーン全体への大きな前進もあります。 AppleとRokidはAR競争の第2ステージを開始しており、業界内の競争も加速している。
**単眼 SLAM、相互作用を再定義するにはどうすればよいですか? **
記者会見全体で最も驚かされたのは、Rokid Max Pro 76g の本体ではなく、SLAM (空間測位技術)、マイクロジェスチャー インタラクション、一人称視点の共有、ビジュアル ポジショニングを完了できるたった 1 台のカメラでした。 VPS 機能とその他の統合された対話型メソッド。 **
ただし、多感覚統合のインタラクションにはハードウェアへの要求が高く、インタラクションを正確に完了するには、基本的なニーズを満たすことに加えて、ユーザーのアクションやジェスチャーを全方向および複数の角度からキャプチャする必要もあります。
**単一のカメラで SLAM インタラクションを完了するのはどのくらい難しいですか? **
ビジュアル SLAM メソッドは 2 つのモジュールで構成されており、1 つはトラッキング、既知の 3D ポイントの位置、基本的な位置決め、もう 1 つはマッピング、3D ポイントの位置を更新します。どのリンクや方法であっても、単眼ではカメラを 1 台だけ選択でき、位置も角度も固定されるため、認識範囲、追跡速度、精度に大きな課題が生じます。
「業界では、単眼SLAMは信じられないほど実現が難しいと考えられている」とZhu Mingming氏は冗談めかして述べ、「これはRokidの肯定でもあるのかもしれない」と語った。
現在、市場で流通している空間インタラクション機能を備えた AR メガネには、アルゴリズム機能を担うために少なくとも 3 台のカメラが搭載されています。 **視覚ルートの違いにより、Apple に代表される VST (ビデオ視点) と Rokid に代表される OST (光学視点) の 2 つの陣営も形成されました。 **
Apple Vision Pro を例に挙げると、12 台のカメラを使用して高速測位キャプチャ、高精度のパノラマ認識、正確な追跡を「スタック」し、VST を使用してカメラを通じて端末画面に外界を表示します。リアルタイムで撮影して外の世界を確認します。
しかし、インタラクション用のハードウェアを積み重ねる方法は、コストが増加し、同時に価格が2倍になり、マシンの重量と量産の難しさという2つの大きな着陸問題を引き起こしました。これが、Apple Vision Pro の価格が 3,499 ドルで、2024 年まで量産されない根本的な理由です。
しかし、Rokid が主張する OST ソリューションには特定の技術的障壁があり、複雑なパイプライン設計、表示画面の視野角の制限、および光学部品の高コストにより、Rokid は重畳コストを削減するための技術的ブレークスルーを通過することしかできません。
そして、業界に「信じられない」と思わせる単眼SLAMはどのように機能するのでしょうか?会議後、Lightcone Intelligence は Zhu Mingming と詳細な意見交換を行い、Rokid の「ユニークなトリック」は AI アルゴリズムを使用してハードウェアの壁を突破することであることがわかりました。 **
Zhu Mingming氏は、「単眼SLAM技術は古くから存在しているが、ARグラスには応用されていない。携帯電話のフロントカメラもこの種の技術を応用している。唯一の違いはアルゴリズムだ」と紹介した。
AIからARまで、これはまたがっているようで実は統合されている道ですが、それはまさにRokidがここ数年AI分野で蓄積してきた、多次元ビジュアルアルゴリズムモデルを通じて、視覚的な位置決めと強化、デジタル ヒューマン テクノロジー、2D/3D ジェスチャ認識、OCR 認識およびその他のテクノロジーにより、AI が特定のシナリオに到達できるようになります。
例えば、AR視覚位置決め・拡張機能は、単一目的の限界を解決・打破するものであり、センチメートルレベルの視覚地図を構築することで、現実の物体世界に仮想情報を正確に重ね合わせて融合させ、高精度な情報を実現することができます。オブジェクトとシーンの 3D 再構築。
Rokid 副社長兼 XR センター所長の Wang Junjie 氏は次のように述べています。「空間測位は SLAM テクノロジーに基づいており、安定した自然なインタラクションが空間内で実行できます。マッピング空間を確立するためのアルゴリズム。"
市場では、ほとんどのデバイスはまだ両眼ソリューションを使用していますが、両眼融合にも多くの問題があり、追加のカメラを追加するコストに加えて、2 台のカメラのデータをリアルタイムで適合させるためのアルゴリズムを継続的に使用する必要もあります。これにより、より複雑な問題が発生します。
この観点から、単眼ソリューションがスムーズに実行できれば、Rokid が率先して技術トレンドを踏むことになるでしょう。以前、Rokid は業界初のステーション ホストのメーカーでもあり、ガラスとホストを分離するソリューションが業界の経験から最適なソリューションであることが証明されています。
また、ジェスチャ認識にはマイクロジェスチャというインタラクティブモードが採用されており、指でつまんでクリックして選択したり、ジェスチャを左右に動かすことで閲覧しているインターフェースやコンテンツを切り替えることもできます。単純なピンチやスライドのジェスチャなどの論理的な定義はより自然で、より早く開始できます。
Rokid氏によると、深層学習アルゴリズムと大量の実験データに基づいて、単眼3Dジェスチャアルゴリズムは、手の6DoF、手の関節点6DoF、および手のメッシュ情報を含む手の姿勢パラメータをモバイル端末上でリアルタイムに再構築できます。 AR ジェスチャ インタラクションを提供します。優れたアルゴリズム基盤です。
現在、Rokid のジェスチャ認識は、ポイント、ピンチ、掴み、ホールド、ドラッグ、プルなどを含む 3D 空間でのさまざまな操作を実現でき、AR インタラクティブ アプリケーションのニーズを完全に満たすことができます。たとえば、Rokid Max Pro を装着し、手を伸ばし、目の前で手のひらを開いてメニューを呼び出します。
結局のところ、このような複雑なアルゴリズム構造をサポートする主役はカメラだけではなく、「脳」、つまり Rokid Station Pro の計算能力とパフォーマンスにも密接に関係しています。
ポケットの中にスペースコンピューター
** 長い間、VR/AR 業界全体には、「コンピューティング能力、快適さ、価格」という不可能なトライアングルがありました。より高いコンピューティング能力を備えたデバイスはより重く、より高価になる傾向があり、快適性の高い軽量デバイスは使用ニーズを満たすことができません。 **
現実の状況から判断すると、現時点では「完璧な」ソリューションはありません。主流のメーカーは、この 2 つのバランスを見つけようとしています。現在の市場には、2 種類の主流のソリューションがあります。1 つは Apple に代表されます。ディスプレイとディスプレイコンピューティングが統合され、バッテリーが外部接続されるもう 1 つは、Rokid に代表されるディスプレイとコンピューティングの分割設計です。
Apple の統合設計は、2 つのマイクロ OLED スクリーン、複数のカメラ、センサー、スピーカー、その他のコンポーネントを統合しており、表示効果と計算の点でより効率的ですが、本体自体の重量も増加するため、バッテリーを接続するだけで済みます。外部的に。
Rokidがこだわるスプリットデザインにより装着性を最大限に高め、Vision Proの重量454gと比べ、メガネの重量76gは一般的なメガネとほぼ同じであり、同時にホストの演算能力の制限も少なくなります。放熱による不快感をある程度回避しつつ、空間資源を確保します。
Rokid Station Pro は、分割設計に基づいてコンピューティング能力をアップグレードし、コンピューティング、イメージング、通信、その他の機能を統合した「生産性ツール」とも呼ばれるオールインワン ターミナルを作成しました。
Lightcone Intelligence によると、Rokid Station Pro は Qualcomm Snapdragon XR2+、12G RAM + 128G ROM を搭載し、WIFI6/6E および BT5.1 をサポートし、放熱性と高性能により、センチメートルレベルの 6DoF トラッキング精度と非常に低いトラッキング精度を達成できます。 MTP (Motion to Photon) レンダリングの遅延。
公開情報によると、Snapdragon XR2+ はクアルコムが発売した最新のフラッグシップ XR プラットフォームで、50% のバッテリー寿命と 30% の放熱性能の向上を実現し、より小型で薄型のデバイス形状でより豊かで没入感のある体験を可能にします。同時に、Snapdragon XR2 + プラットフォームには新しい画像処理パイプラインが導入され、10 ミリ秒未満の遅延を実現し、フルカラー ビデオ シースルー MR エクスペリエンスを実現します。
Light Cone Intelligence の現場での体験から判断すると、映画を見ているときでも、ゲームをしているときでも、仕事や制作プロセスでキーボードを呼び出しているときでも、特にゲームの高周波インタラクションや戦闘下では、画面の滑らかさと応答速度が優れています。とても滑らかです。
現在市場にあるコアアルゴリズムはまだ3DoF(3自由度トラッキング)であることに注意してください。これは、デバイスが上向き、前方、下向きの3方向の回転を検出できることを意味しますが、回転を検出することはできません。頭の前後左右の空間的な変位。
アップグレードされたStation Proで採用された6DoFアルゴリズムは、頭の回転による視野角の変化を検出するだけでなく、「上下、前後、左、そして正しい」という体の動きによって引き起こされます。
このアルゴリズムのアップグレードはプレイヤーの自由度の点でより重要です。たとえば、3DoF アルゴリズムでゾンビと戦う場合、射撃範囲は正面の一定の角度になりますが、アップグレード後は 360 度からゾンビが出現し、振り向くと背後のゾンビの体感が超えられます。前者の範囲。
クアルコム テクノロジーズの XR 製品管理シニア ディレクターであるサイード バカディール氏は、「第一世代の Snapdragon XR2+ プラットフォームは、次世代の XR エクスペリエンスを可能にする最良の選択です。クアルコム テクノロジーズは、Rokid Station Pro に業界をリードするプラットフォームを提供し、独自の AR アプリケーション エコシステムを構築するためです。」
AR 業界で iOS を行う
もちろん、アップルの携帯電話が年間を通じて携帯電話市場を席巻できるのは、ハードウェアだけでなく、そのシステムやエコロジーにも理由がある。ソフトウェア システムを通じてユーザーの習慣を育むことによって構築される障壁は、多くの場合、ハードウェア自体よりも強力です。
**これは、Rokid が自社開発した AR 空間オペレーティング システムである YodaOS-Master の理由の一部ですが、すべての理由ではありません。 **
今年 3 月の Rokid Open Day で、Rokid は YodaOS-Master を正式にリリースし、3D 空間で AR コンテンツを作成し、誰もが参加できる「AR 空間作成プラットフォーム Lingjing」をリリースし、AR 作成の壁を完全に打ち破りました。閾値、生態学的位置エネルギーを爆発させましょう。
**単眼 SLAM、3D ジェスチャ認識、Snapdragon XR+、および Lingjing プラットフォームがすべて鋭い刃である場合、YodaOS-Master は自社開発のシステムを通じてこれらのトリックを解放できます。 **
簡単に言うと、Rokid は誰も歩いたことのない道を進んでおり、Rokid の哲学は「ソフトウェアがすべてを定義する」です。すべてのソフトウェアは、その価値を発揮するためにシステムによって運ばれ、提供される必要があります。
YodaOS-Master は、知覚、理解、インタラクション、プレゼンテーション、コラボレーション、デジタル作成の 5 つの側面に焦点を当て、チップの最適化、ハードウェア設計、ソフトウェア アーキテクチャ、AR アルゴリズム、作成ツールの点で大幅なアップグレードを行っている可能性があります。現時点で最も完成度の高い AR 時代の空間オペレーティング システムのセット。
**もう 1 つの非常に革新的なケースは、Rokid が自社開発のシステムに基づいて空間検索を再定義したことです。 **Zhu Mingming 氏は、これはこれまでの検索情報の表示方法を打ち破り、検索結果の表示はもはや 2 次元の平面効果ではなく、3 次元空間に存在すると述べました。 「質問に最も関連性の高い結果が最も近いものとなり、ある程度関連性のある結果が 2 ページ目に表示されます。遠ざかるほど関連性は低くなります。もちろん、前の結果に取り消し線を引いて削除することもできます。必要な結果を動的に選択します。」
** AR業界のオープンエコロジーは第2段階に入り始めていることが分かり、AppleとRokidはハードウェアの方向だけでなく、業界システムのソフトウェアやエコロジーの開発においても左右に動いている。ハードウェア、アルゴリズム、ソフトウェア エコロジー、開発者、ユーザー、プラットフォームの共創を通じて、AR は完全にオープンなエコロジーでの急速な発展の第 2 段階に移行します。 **
Rokid システム研究開発のチーフエンジニアである Shi Wenfeng 氏は、「YodaOS-Master オペレーティング システムは、サービス指向のアプローチを通じて、Rokid の音声認識、ジェスチャ認識、SLAM などの複数のコア テクノロジーをシステム サービスに統合し、開発用のさまざまなクライアント SDK 開発者は効率的に開発できます。たとえば、Unity 開発者 (開発者アプリケーション チャネル: オープン プラットフォーム URL (ar.rokid.com)) が Rokid コア テクノロジーを開発に迅速に使用できるようにする SDK for Unity などです。
「AR業界は夜明け前だ」とZhu Mingming氏は語った。