Bạn có thể khó tưởng tượng rằng trong một không gian không có màn hình hiển thị hay chuột, bạn có thể hoàn thành một bài viết 5.000 từ chỉ với một cặp kính AR và một chiếc máy chủ bỏ túi.
Đúng vậy, vào ngày 26 tháng 8, tại hội nghị ra mắt sản phẩm mới Rokid Jungle năm 2023, một cảnh tượng như vậy đã thực sự diễn ra. Tại cuộc họp, Rokid đã phát hành Rokid AR Studio, một nền tảng điện toán không gian cá nhân OST (có thể nhìn xuyên qua quang học) dành cho người tiêu dùng, bao gồm hai sản phẩm phần cứng chính là Rokid Max Pro (4.999 nhân dân tệ) và Rokid Station Pro (3.999 nhân dân tệ).
Zhu Mingming, người sáng lập và Giám đốc điều hành của Rokid, cho biết tại cuộc họp báo: "Điện toán không gian có thể được tích hợp một cách tự nhiên hơn vào cuộc sống và công việc hàng ngày và hãy để Rokid AR Studio trở thành máy tính không gian đầu tiên của bạn."
Điều này rất khác với nhận thức của mọi người về kính AR trước đây. Trước đó, kính AR đã bị “nhốt” trong làng giải trí, dựa vào 2 ngành trụ cột là phim ảnh truyền hình và game để tồn tại nhưng Rokid AR Studio đã thực sự trở thành công cụ năng suất cá nhân, phần mềm IM, viết bài, viết code , tìm kiếm thông tin, v.v. Và các tình huống công việc khác có thể được hoàn thành với phần cứng mới nhất.
**Việc mở rộng các tình huống sử dụng cho phép các thiết bị AR chuyển từ các tình huống bị gạt ra ngoài lề sang các giá trị sử dụng thực tế hơn. Khi người tiêu dùng sẵn sàng chi trả, toàn bộ chuỗi ngành AR sẽ bước vào chu kỳ tích cực của thị trường tiêu dùng. **
Zhu Mingming, ông chủ từng nói mình là "nỗi sợ xã hội", là người kiểm soát sản phẩm và công nghệ hoàn chỉnh, từng giết chết hai phiên bản của bản thảo thiết kế sản phẩm đầu tiên trong nội bộ, khiến bộ phận sản phẩm gần như "phát điên". Nhưng khi bộ phận sản phẩm bí mật lấy ra sản phẩm đã thiết kế, Zhu Mingming lập tức ra lệnh dồn mọi nguồn lực cho sản phẩm này. "Tôi chỉ quan tâm đến một thống kê, đó là thời gian sử dụng của người dùng. Hiện tại, thời gian sử dụng của người dùng thực của chúng tôi là gần một tiếng rưỡi và tỷ lệ giữ chân hàng tuần vượt quá 20%. Nếu điều này được thực hiện, người dùng sẽ tăng trưởng một cách tự nhiên." ."
**Số lượng người dùng tích lũy đã đạt đến mức một triệu, điều đó cũng có nghĩa là ngành AR đã bước vào giai đoạn thứ hai của quá trình xây dựng hệ thống phần mềm và sinh thái. Trong những năm gần đây, ngày càng có nhiều nhà cung cấp hệ thống, nhà cung cấp phần mềm ứng dụng và nhà cung cấp nội dung tham gia xây dựng hệ sinh thái AR. **
"Một đám người điên, một giấc mộng, mười năm."
Như Zhu Mingming đã nói, Rokid phải mất 10 năm để đi từ lĩnh vực giải trí đến công cụ năng suất, đằng sau điều này không chỉ là một bước nhảy vọt về tư duy mà còn là một bước tiến lớn từ công nghệ phần cứng đến công nghệ phần mềm và thậm chí là toàn bộ chuỗi ngành. Apple và Rokid đã bắt đầu giai đoạn thứ hai của cuộc cạnh tranh AR và sự cạnh tranh trong ngành cũng đang ngày càng gia tăng.
**SLAM một mắt, làm thế nào để xác định lại sự tương tác? **
Trong toàn bộ buổi họp báo, điều đáng ngạc nhiên nhất không phải là thân máy của Rokid Max Pro 76g mà chỉ có một camera, có khả năng hoàn thiện SLAM (công nghệ định vị không gian), tương tác cử chỉ vi mô, chia sẻ góc nhìn thứ nhất, định vị trực quan Khả năng của VPS và các phương thức tương tác tích hợp khác. **
Sau khi trải nghiệm tương tác vật lý (tay cầm), tương tác bằng giọng nói và tương tác cử chỉ, các thiết bị AR/VR đang phát triển theo hướng theo dõi bằng mắt và giải pháp tương tác tổng hợp đa giác quan hiện tại.
Tuy nhiên, tương tác tích hợp đa giác quan có yêu cầu cao hơn về phần cứng, ngoài việc đáp ứng nhu cầu cơ bản còn cần nắm bắt hành động, cử chỉ của người dùng từ mọi hướng, từ nhiều góc độ để hoàn thành tương tác một cách chính xác.
**Việc hoàn thành tương tác SLAM với một máy ảnh khó đến mức nào? **
Phương pháp SLAM trực quan bao gồm hai mô-đun, một mô-đun là Theo dõi, xác định vị trí điểm 3D, định vị cơ bản; mô-đun còn lại là Mapping, cập nhật vị trí của điểm 3D. Bất kể liên kết hay phương pháp nào, một mắt có nghĩa là chỉ có thể chọn một camera, cũng như vị trí và góc cố định, điều này đặt ra những thách thức lớn đối với phạm vi nhận dạng, tốc độ theo dõi và độ chính xác.
"Ngành công nghiệp tin rằng SLAM một mắt là không thể tin được và khó đạt được", Zhu Mingming nói đùa: "Đây cũng có thể là một lời khẳng định của Rokid."
Hiện tại, một số kính AR có tương tác không gian trên thị trường sẽ được trang bị ít nhất ba camera để thực hiện các chức năng thuật toán. **Sự khác biệt trong các tuyến hình ảnh cũng đã hình thành nên hai phe: VST (góc nhìn video) do Apple đại diện và OST (góc nhìn quang học) do Rokid đại diện. **
Vẫn lấy Apple Vision Pro làm ví dụ, nó sử dụng 12 camera để “xếp chồng” khả năng chụp định vị nhanh, nhận biết toàn cảnh và theo dõi chính xác cao, đồng thời sử dụng VST để hiển thị thế giới bên ngoài trên màn hình đầu cuối thông qua các camera. bắn trong thời gian thực để nhìn thế giới bên ngoài.
Tuy nhiên, phương pháp xếp chồng phần cứng để tương tác đã làm tăng chi phí và đồng thời tăng giá gấp đôi, điều này gây ra hai vấn đề lớn khi hạ cánh: trọng lượng của máy và khó khăn khi sản xuất hàng loạt. Đây là lý do cơ bản khiến Apple Vision Pro có giá 3.499 USD và phải đến năm 2024 mới được sản xuất hàng loạt.
Tuy nhiên, giải pháp OST mà Rokid khẳng định có những rào cản kỹ thuật nhất định, do thiết kế đường ống phức tạp, góc nhìn của màn hình hiển thị hạn chế và chi phí linh kiện quang học cao nên Rokid chỉ có thể vượt qua những đột phá về công nghệ để giảm chi phí chồng chất.
Và SLAM một mắt khiến cả ngành nghĩ “không thể tin nổi” lại làm được điều đó như thế nào? Sau cuộc gặp, Lightcone Intelligence đã có cuộc trao đổi chuyên sâu với Zhu Mingming và nhận thấy “bí quyết độc đáo” của Rokid là sử dụng thuật toán AI để vượt qua các rào cản về phần cứng. **
Zhu Mingming giới thiệu rằng mặc dù công nghệ SLAM một mắt đã có từ lâu nhưng nó chưa bao giờ được áp dụng cho kính AR, camera trước của điện thoại di động cũng áp dụng loại công nghệ này, điểm khác biệt duy nhất là: thuật toán.
Từ AI đến AR, đây là một con đường tưởng chừng như trải dài nhưng thực chất lại được tích hợp nhưng chính là nhờ sự tích lũy của Rokid trong lĩnh vực AI trong vài năm trở lại đây, thông qua mô hình thuật toán trực quan đa chiều, bao gồm định vị và nâng cao hình ảnh, công nghệ con người kỹ thuật số, nhận dạng cử chỉ 2D/3D, nhận dạng OCR và các công nghệ khác cho phép AI hạ cánh trong các tình huống cụ thể.
Ví dụ: chức năng nâng cao và định vị hình ảnh AR là để giải quyết và vượt qua giới hạn của một mục đích duy nhất. Bằng cách xây dựng bản đồ trực quan ở cấp độ centimet, thông tin ảo có thể được xếp chồng và hợp nhất một cách chính xác trong thế giới vật thể thực để đạt được độ chính xác cao Tái tạo 3D các vật thể và cảnh.
Wang Junjie, phó chủ tịch Rokid và người đứng đầu trung tâm XR, cho biết: "Định vị không gian dựa trên công nghệ SLAM, sau đó có thể thực hiện tương tác ổn định và tự nhiên trong không gian. Phải mất 1 đến 2 giây để khởi tạo nhanh chóng thông qua thuật toán để thiết lập một không gian ánh xạ."
Trên thị trường, hầu hết các thiết bị vẫn sử dụng giải pháp ống nhòm, nhưng việc kết hợp hai mắt cũng gặp nhiều vấn đề, ngoài chi phí lắp thêm một camera phụ còn phải liên tục sử dụng các thuật toán để khớp dữ liệu của hai camera theo thời gian thực. Điều này dẫn đến các vấn đề phức tạp hơn.
Từ quan điểm này, nếu giải pháp một mắt có thể được thực hiện suôn sẻ, Rokid sẽ đi đầu trong việc bắt kịp xu hướng công nghệ. Trước đây, Rokid cũng là nhà sản xuất máy chủ Station đầu tiên trong ngành, giải pháp tách kính và máy chủ đã được chứng minh là giải pháp tối ưu cho trải nghiệm của ngành.
Ngoài ra, trong nhận dạng cử chỉ, Rokid áp dụng chế độ tương tác của cử chỉ vi mô và bạn có thể nhấp và chọn bằng một nhúm ngón tay; bạn cũng có thể chuyển đổi giao diện hoặc nội dung bạn đang duyệt bằng cách di chuyển cử chỉ sang trái và phải. Các định nghĩa logic như cử chỉ chụm và trượt đơn giản sẽ tự nhiên hơn và bắt đầu nhanh hơn.
Theo kết quả thử nghiệm tại chỗ của chúng tôi, Rokid có thể thực hiện tương tác không gian tay trần bằng cả hai tay. Hiện tại, thuật toán nhận dạng cử chỉ Rokid hỗ trợ nhận dạng các cảnh phức tạp như xoay trục ngang/không gian, ánh sáng sáng/tối, v.v. ., Thuật toán chính xác, tỷ lệ nhận dạng tổng thể là khoảng 90% và có khả năng phản hồi nhận dạng ở mức mili giây và đảm bảo độ tin cậy 99%.
Theo Rokid, dựa trên thuật toán deep learning và một lượng lớn dữ liệu thử nghiệm, thuật toán cử chỉ 3D một mắt có thể tái tạo lại các thông số tư thế bàn tay trong thời gian thực trên thiết bị đầu cuối di động, bao gồm thông tin 6DoF của bàn tay, điểm khớp tay 6DoF và thông tin Hand Mesh, cung cấp tương tác cử chỉ AR. Cơ sở thuật toán tốt.
Hiện tại, tính năng nhận dạng cử chỉ của Rokid có thể thực hiện nhiều thao tác khác nhau trong không gian 3D, bao gồm điểm, chụm, nắm, giữ, kéo, kéo, v.v., có thể đáp ứng đầy đủ nhu cầu của các ứng dụng tương tác AR. Ví dụ: đeo Rokid Max Pro lên, đưa tay ra và mở lòng bàn tay trước mắt để gọi menu.
Suy cho cùng, để hỗ trợ một cấu trúc thuật toán phức tạp như vậy, người hùng đằng sau nó không chỉ là máy ảnh mà còn liên quan mật thiết đến sức mạnh tính toán và hiệu suất của “bộ não”, tức là Rokid Station Pro.
** MÁY TÍNH KHÔNG GIAN TRONG TÚI CỦA BẠN**
** Trong một thời gian dài, toàn bộ ngành VR/AR đã có một tam giác bất khả thi là "sức mạnh tính toán, sự thoải mái và giá cả". Các thiết bị có sức mạnh tính toán cao hơn thường nặng hơn và đắt tiền hơn, còn các thiết bị nhẹ nhưng mang tính tiện nghi cao thì không thể đáp ứng được nhu cầu sử dụng. **
Đánh giá từ tình hình thực tế, hiện tại không có giải pháp "hoàn hảo", các nhà sản xuất chính thống đang cố gắng tìm kiếm sự cân bằng giữa cả hai. Có hai giải pháp chủ đạo trên thị trường hiện tại: một được đại diện bởi Apple. Màn hình và điện toán được tích hợp và pin được kết nối bên ngoài; cái còn lại là thiết kế phân chia màn hình và điện toán do Rokid đại diện.
Thiết kế tích hợp của Apple tích hợp hai màn hình micro-OLED, nhiều camera, cảm biến, loa và các thành phần khác, mang lại hiệu quả cao hơn về hiệu ứng hiển thị và tính toán nhưng cũng sẽ làm tăng trọng lượng của thân máy, dẫn đến chỉ cần kết nối pin bên ngoài.
Thiết kế phân chia mà Rokid nhấn mạnh nhằm tối đa hóa khả năng đeo.So với trọng lượng 454g của Vision Pro, trọng lượng của kính 76g gần như tương đương với kính thông thường.Đồng thời, khả năng tính toán của máy chủ cũng có thể ít bị hạn chế hơn bởi tài nguyên không gian, đồng thời tránh ở một mức độ nhất định Sự khó chịu do tản nhiệt.
**Nói chung, lộ trình loại phân chia có thể đạt được sự phát triển tối ưu hai chiều về tính di động của kính và sức mạnh tính toán của máy chủ, đồng thời cũng linh hoạt hơn. Sự lặp lại của sức mạnh tính toán và lộ trình kỹ thuật của kính có thể được thực hiện được thực hiện không đồng bộ. **
Dựa trên thiết kế tách rời, Rokid Station Pro đã nâng cấp sức mạnh tính toán của mình để tạo ra một thiết bị đầu cuối All in One tích hợp tính toán, hình ảnh, giao tiếp và các chức năng khác. Nó còn có thể được gọi là "công cụ năng suất" HyperTerminal.
Theo Lightcone Intelligence, Rokid Station Pro được trang bị Qualcomm Snapdragon XR2+, RAM 12G + ROM 128G, hỗ trợ WIFI6/6E và BT5.1, với khả năng tản nhiệt và hiệu suất cao hơn, nó có thể đạt được độ chính xác theo dõi 6DoF ở mức centimet và cực thấp Độ trễ kết xuất MTP (Motion to Photon).
Theo thông tin công khai, Snapdragon XR2+ là nền tảng XR hàng đầu mới nhất được Qualcomm ra mắt, có thể đạt được thời lượng pin 50% và cải thiện 30% hiệu suất tản nhiệt, từ đó mang lại trải nghiệm phong phú và phong phú hơn trong hình dạng thiết bị nhỏ hơn và mỏng hơn. . Đồng thời, nền tảng Snapdragon XR2 + giới thiệu một đường dẫn xử lý hình ảnh mới, có thể đạt được độ trễ dưới 10 mili giây và mở ra trải nghiệm MR xem qua video đủ màu.
Đánh giá từ trải nghiệm tại chỗ của Light Cone Intelligence, dù là xem phim, chơi game hay gọi bàn phím cho quá trình làm việc và sản xuất, đặc biệt là dưới tần số tương tác và chiến đấu của game cao, độ mượt và tốc độ phản hồi của màn hình rất mượt.trượt.
Điều đáng nói là thuật toán cốt lõi hiện nay trên thị trường vẫn là 3DoF (theo dõi ba bậc tự do), nghĩa là thiết bị có thể phát hiện chuyển động quay theo ba hướng lên, tiến và xuống nhưng không thể phát hiện được. sự dịch chuyển không gian của đầu, trước, sau, trái và phải. .
Thuật toán 6DoF được Station Pro nâng cấp áp dụng không chỉ có thể phát hiện sự thay đổi của trường góc nhìn do chuyển động quay của đầu mà còn phát hiện sáu loại thay đổi dịch chuyển "lên, xuống, trước, sau, trái, và phải" do chuyển động của cơ thể gây ra.
Việc nâng cấp thuật toán này quan trọng hơn ở mức độ tự do của người chơi. Ví dụ: khi chiến đấu với zombie theo thuật toán 3DoF, tầm bắn ở một góc nhất định ở phía trước, nhưng sau khi nâng cấp, zombie xuất hiện từ 360 độ và khi bạn quay lại, cảm giác cơ thể của zombie phía sau bạn sẽ vượt xa tầm với của cái trước.
Nói cách khác, không chỉ sức mạnh tính toán cao hơn và trải nghiệm mượt mà hơn mà việc mở rộng không gian sức mạnh tính toán cũng mang lại sự khác biệt rất lớn về cảm giác cơ thể.
Bakadir, giám đốc cấp cao về quản lý sản phẩm XR tại Qualcomm Technologies, cho biết: "Nền tảng Snapdragon XR2+ thế hệ đầu tiên là lựa chọn tốt nhất để mang lại trải nghiệm XR thế hệ tiếp theo. Qualcomm Technologies cung cấp nền tảng hàng đầu trong ngành cho Rokid Station Pro, hỗ trợ nó để tạo ra hệ sinh thái ứng dụng AR độc đáo của riêng nó."
Tạo iOS trong ngành AR
Tất nhiên, lý do khiến điện thoại di động của Apple có thể thống trị thị trường điện thoại di động quanh năm không chỉ vì phần cứng mà còn vì hệ thống và hệ sinh thái của nó. Những rào cản được tạo ra bằng cách nuôi dưỡng thói quen của người dùng thông qua hệ thống phần mềm thường mạnh hơn chính phần cứng.
**Đây là một phần lý do khiến Rokid tự phát triển hệ điều hành không gian AR - YodaOS-Master, nhưng không phải toàn bộ lý do. **
Vào Rokid Open Day vào tháng 3 năm nay, Rokid đã chính thức ra mắt YodaOS-Master và phát hành "Nền tảng sáng tạo không gian AR Lingjing", cho phép mọi người tạo nội dung AR trong không gian 3D và mọi người đều có thể tham gia, phá vỡ hoàn toàn các rào cản trong việc tạo AR Ngưỡng cửa, hãy để tiềm năng sinh thái bùng nổ.
**Nếu nền tảng SLAM một mắt, nhận dạng cử chỉ 3D, Snapdragon XR+ và Lingjing đều là những lưỡi dao sắc bén thì YodaOS-Master có thể thực hiện các thủ thuật này thông qua hệ thống tự phát triển. **
Nói một cách đơn giản, Rokid đang đi trên con đường chưa ai từng đi và triết lý của Rokid là “phần mềm định nghĩa tất cả”, mọi phần mềm đều cần được hệ thống mang theo và cung cấp thì mới phát huy được giá trị của nó.
Tập trung vào năm khía cạnh nhận thức, hiểu biết, tương tác, trình bày, cộng tác và sáng tạo kỹ thuật số, YodaOS-Master đã thực hiện một nâng cấp lớn về tối ưu hóa chip, thiết kế phần cứng, kiến trúc phần mềm, thuật toán AR và các công cụ sáng tạo. hoàn thiện nhất hiện nay. Một bộ hệ điều hành không gian cho kỷ nguyên AR.
Tại buổi họp báo, Rokid cũng thể hiện sự cởi mở và tiện lợi mà hệ thống tự phát triển mang lại. Để đưa ra một vài ví dụ rõ ràng, Dựa trên hệ thống tự phát triển và nền tảng Snapdragon XR+, Rokid đã phát triển chế độ song song đa tác vụ, phá vỡ các ràng buộc trước đây chỉ về một tác vụ duy nhất, cho phép trò chuyện, viết mã, và Cảnh xem tài liệu có thể được thực hiện cùng lúc và phát huy tối đa lợi thế của màn hình lớn trong không gian, nhờ đó có thể tối đa hóa hiệu quả sản xuất.
**Một trường hợp cực kỳ sáng tạo khác là Rokid định nghĩa lại việc tìm kiếm không gian dựa trên hệ thống tự phát triển của mình. ** Zhu Mingming đã giới thiệu rằng điều này phá vỡ cách hiển thị thông tin tìm kiếm trước đây và việc trình bày kết quả tìm kiếm không còn là hiệu ứng mặt phẳng hai chiều nữa mà tồn tại trong không gian ba chiều. "Những kết quả phù hợp nhất với câu hỏi sẽ ở gần bạn nhất và những kết quả có liên quan phần nào sẽ ở trang phụ. Càng xa thì càng ít liên quan. Tất nhiên, bạn cũng có thể gạch bỏ các kết quả trước đó và tự động chọn kết quả bạn muốn."
Bằng cách này, cảm giác về tương lai sẽ ngay lập tức tràn đầy và nó cũng cho thấy sự khác biệt cơ bản so với thiết bị AR giai đoạn đầu.
** Có thể thấy, hệ sinh thái mở của ngành AR đã bắt đầu bước vào giai đoạn thứ 2. Apple và Rokid không chỉ di chuyển trái phải theo hướng phần cứng mà còn trong sự phát triển của hệ thống phần mềm và hệ sinh thái công nghiệp. Thông qua việc đồng sáng tạo phần cứng, thuật toán, hệ sinh thái phần mềm, nhà phát triển, người dùng và nền tảng, AR sẽ tiến tới giai đoạn phát triển nhanh chóng thứ hai trong một hệ sinh thái hoàn toàn mở. **
Shi Wenfeng, kỹ sư trưởng bộ phận nghiên cứu và phát triển hệ thống Rokid, cho biết: "Hệ điều hành YodaOS-Master tích hợp nhiều công nghệ cốt lõi về nhận dạng giọng nói Rokid, nhận dạng cử chỉ, SLAM, v.v. vào các dịch vụ hệ thống thông qua cách tiếp cận hướng dịch vụ và cung cấp một nhiều SDK khách hàng để phát triển Các nhà phát triển có thể phát triển hiệu quả, chẳng hạn như SDK cho Unity, cho phép các nhà phát triển Unity (kênh ứng dụng dành cho nhà phát triển: URL nền tảng mở (ar.rokid.com)) nhanh chóng sử dụng công nghệ lõi Rokid để phát triển.”
Từ phần cứng đến phần mềm, từ hệ thống đến hệ sinh thái, con đường phát triển của Rokid hơi giống Apple thời Jobs.
Zhu Mingming nói: “Ngành công nghiệp AR chỉ mới bắt đầu bình minh.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Android trong thế giới AR có mặt tại Trung Quốc, Rokid khơi dậy cơn sốt điện toán không gian
Nguồn gốc: Light Cone Intelligence
Tác giả: Lưu Ngọc Kỳ
Bạn có thể khó tưởng tượng rằng trong một không gian không có màn hình hiển thị hay chuột, bạn có thể hoàn thành một bài viết 5.000 từ chỉ với một cặp kính AR và một chiếc máy chủ bỏ túi.
Đúng vậy, vào ngày 26 tháng 8, tại hội nghị ra mắt sản phẩm mới Rokid Jungle năm 2023, một cảnh tượng như vậy đã thực sự diễn ra. Tại cuộc họp, Rokid đã phát hành Rokid AR Studio, một nền tảng điện toán không gian cá nhân OST (có thể nhìn xuyên qua quang học) dành cho người tiêu dùng, bao gồm hai sản phẩm phần cứng chính là Rokid Max Pro (4.999 nhân dân tệ) và Rokid Station Pro (3.999 nhân dân tệ).
Điều này rất khác với nhận thức của mọi người về kính AR trước đây. Trước đó, kính AR đã bị “nhốt” trong làng giải trí, dựa vào 2 ngành trụ cột là phim ảnh truyền hình và game để tồn tại nhưng Rokid AR Studio đã thực sự trở thành công cụ năng suất cá nhân, phần mềm IM, viết bài, viết code , tìm kiếm thông tin, v.v. Và các tình huống công việc khác có thể được hoàn thành với phần cứng mới nhất.
Zhu Mingming, ông chủ từng nói mình là "nỗi sợ xã hội", là người kiểm soát sản phẩm và công nghệ hoàn chỉnh, từng giết chết hai phiên bản của bản thảo thiết kế sản phẩm đầu tiên trong nội bộ, khiến bộ phận sản phẩm gần như "phát điên". Nhưng khi bộ phận sản phẩm bí mật lấy ra sản phẩm đã thiết kế, Zhu Mingming lập tức ra lệnh dồn mọi nguồn lực cho sản phẩm này. "Tôi chỉ quan tâm đến một thống kê, đó là thời gian sử dụng của người dùng. Hiện tại, thời gian sử dụng của người dùng thực của chúng tôi là gần một tiếng rưỡi và tỷ lệ giữ chân hàng tuần vượt quá 20%. Nếu điều này được thực hiện, người dùng sẽ tăng trưởng một cách tự nhiên." ."
**Số lượng người dùng tích lũy đã đạt đến mức một triệu, điều đó cũng có nghĩa là ngành AR đã bước vào giai đoạn thứ hai của quá trình xây dựng hệ thống phần mềm và sinh thái. Trong những năm gần đây, ngày càng có nhiều nhà cung cấp hệ thống, nhà cung cấp phần mềm ứng dụng và nhà cung cấp nội dung tham gia xây dựng hệ sinh thái AR. **
"Một đám người điên, một giấc mộng, mười năm."
Như Zhu Mingming đã nói, Rokid phải mất 10 năm để đi từ lĩnh vực giải trí đến công cụ năng suất, đằng sau điều này không chỉ là một bước nhảy vọt về tư duy mà còn là một bước tiến lớn từ công nghệ phần cứng đến công nghệ phần mềm và thậm chí là toàn bộ chuỗi ngành. Apple và Rokid đã bắt đầu giai đoạn thứ hai của cuộc cạnh tranh AR và sự cạnh tranh trong ngành cũng đang ngày càng gia tăng.
**SLAM một mắt, làm thế nào để xác định lại sự tương tác? **
Trong toàn bộ buổi họp báo, điều đáng ngạc nhiên nhất không phải là thân máy của Rokid Max Pro 76g mà chỉ có một camera, có khả năng hoàn thiện SLAM (công nghệ định vị không gian), tương tác cử chỉ vi mô, chia sẻ góc nhìn thứ nhất, định vị trực quan Khả năng của VPS và các phương thức tương tác tích hợp khác. **
Tuy nhiên, tương tác tích hợp đa giác quan có yêu cầu cao hơn về phần cứng, ngoài việc đáp ứng nhu cầu cơ bản còn cần nắm bắt hành động, cử chỉ của người dùng từ mọi hướng, từ nhiều góc độ để hoàn thành tương tác một cách chính xác.
**Việc hoàn thành tương tác SLAM với một máy ảnh khó đến mức nào? **
Phương pháp SLAM trực quan bao gồm hai mô-đun, một mô-đun là Theo dõi, xác định vị trí điểm 3D, định vị cơ bản; mô-đun còn lại là Mapping, cập nhật vị trí của điểm 3D. Bất kể liên kết hay phương pháp nào, một mắt có nghĩa là chỉ có thể chọn một camera, cũng như vị trí và góc cố định, điều này đặt ra những thách thức lớn đối với phạm vi nhận dạng, tốc độ theo dõi và độ chính xác.
"Ngành công nghiệp tin rằng SLAM một mắt là không thể tin được và khó đạt được", Zhu Mingming nói đùa: "Đây cũng có thể là một lời khẳng định của Rokid."
Hiện tại, một số kính AR có tương tác không gian trên thị trường sẽ được trang bị ít nhất ba camera để thực hiện các chức năng thuật toán. **Sự khác biệt trong các tuyến hình ảnh cũng đã hình thành nên hai phe: VST (góc nhìn video) do Apple đại diện và OST (góc nhìn quang học) do Rokid đại diện. **
Vẫn lấy Apple Vision Pro làm ví dụ, nó sử dụng 12 camera để “xếp chồng” khả năng chụp định vị nhanh, nhận biết toàn cảnh và theo dõi chính xác cao, đồng thời sử dụng VST để hiển thị thế giới bên ngoài trên màn hình đầu cuối thông qua các camera. bắn trong thời gian thực để nhìn thế giới bên ngoài.
Tuy nhiên, phương pháp xếp chồng phần cứng để tương tác đã làm tăng chi phí và đồng thời tăng giá gấp đôi, điều này gây ra hai vấn đề lớn khi hạ cánh: trọng lượng của máy và khó khăn khi sản xuất hàng loạt. Đây là lý do cơ bản khiến Apple Vision Pro có giá 3.499 USD và phải đến năm 2024 mới được sản xuất hàng loạt.
Tuy nhiên, giải pháp OST mà Rokid khẳng định có những rào cản kỹ thuật nhất định, do thiết kế đường ống phức tạp, góc nhìn của màn hình hiển thị hạn chế và chi phí linh kiện quang học cao nên Rokid chỉ có thể vượt qua những đột phá về công nghệ để giảm chi phí chồng chất.
Và SLAM một mắt khiến cả ngành nghĩ “không thể tin nổi” lại làm được điều đó như thế nào? Sau cuộc gặp, Lightcone Intelligence đã có cuộc trao đổi chuyên sâu với Zhu Mingming và nhận thấy “bí quyết độc đáo” của Rokid là sử dụng thuật toán AI để vượt qua các rào cản về phần cứng. **
Zhu Mingming giới thiệu rằng mặc dù công nghệ SLAM một mắt đã có từ lâu nhưng nó chưa bao giờ được áp dụng cho kính AR, camera trước của điện thoại di động cũng áp dụng loại công nghệ này, điểm khác biệt duy nhất là: thuật toán.
Từ AI đến AR, đây là một con đường tưởng chừng như trải dài nhưng thực chất lại được tích hợp nhưng chính là nhờ sự tích lũy của Rokid trong lĩnh vực AI trong vài năm trở lại đây, thông qua mô hình thuật toán trực quan đa chiều, bao gồm định vị và nâng cao hình ảnh, công nghệ con người kỹ thuật số, nhận dạng cử chỉ 2D/3D, nhận dạng OCR và các công nghệ khác cho phép AI hạ cánh trong các tình huống cụ thể.
Ví dụ: chức năng nâng cao và định vị hình ảnh AR là để giải quyết và vượt qua giới hạn của một mục đích duy nhất. Bằng cách xây dựng bản đồ trực quan ở cấp độ centimet, thông tin ảo có thể được xếp chồng và hợp nhất một cách chính xác trong thế giới vật thể thực để đạt được độ chính xác cao Tái tạo 3D các vật thể và cảnh.
Wang Junjie, phó chủ tịch Rokid và người đứng đầu trung tâm XR, cho biết: "Định vị không gian dựa trên công nghệ SLAM, sau đó có thể thực hiện tương tác ổn định và tự nhiên trong không gian. Phải mất 1 đến 2 giây để khởi tạo nhanh chóng thông qua thuật toán để thiết lập một không gian ánh xạ."
Trên thị trường, hầu hết các thiết bị vẫn sử dụng giải pháp ống nhòm, nhưng việc kết hợp hai mắt cũng gặp nhiều vấn đề, ngoài chi phí lắp thêm một camera phụ còn phải liên tục sử dụng các thuật toán để khớp dữ liệu của hai camera theo thời gian thực. Điều này dẫn đến các vấn đề phức tạp hơn.
Từ quan điểm này, nếu giải pháp một mắt có thể được thực hiện suôn sẻ, Rokid sẽ đi đầu trong việc bắt kịp xu hướng công nghệ. Trước đây, Rokid cũng là nhà sản xuất máy chủ Station đầu tiên trong ngành, giải pháp tách kính và máy chủ đã được chứng minh là giải pháp tối ưu cho trải nghiệm của ngành.
Ngoài ra, trong nhận dạng cử chỉ, Rokid áp dụng chế độ tương tác của cử chỉ vi mô và bạn có thể nhấp và chọn bằng một nhúm ngón tay; bạn cũng có thể chuyển đổi giao diện hoặc nội dung bạn đang duyệt bằng cách di chuyển cử chỉ sang trái và phải. Các định nghĩa logic như cử chỉ chụm và trượt đơn giản sẽ tự nhiên hơn và bắt đầu nhanh hơn.
Theo Rokid, dựa trên thuật toán deep learning và một lượng lớn dữ liệu thử nghiệm, thuật toán cử chỉ 3D một mắt có thể tái tạo lại các thông số tư thế bàn tay trong thời gian thực trên thiết bị đầu cuối di động, bao gồm thông tin 6DoF của bàn tay, điểm khớp tay 6DoF và thông tin Hand Mesh, cung cấp tương tác cử chỉ AR. Cơ sở thuật toán tốt.
Hiện tại, tính năng nhận dạng cử chỉ của Rokid có thể thực hiện nhiều thao tác khác nhau trong không gian 3D, bao gồm điểm, chụm, nắm, giữ, kéo, kéo, v.v., có thể đáp ứng đầy đủ nhu cầu của các ứng dụng tương tác AR. Ví dụ: đeo Rokid Max Pro lên, đưa tay ra và mở lòng bàn tay trước mắt để gọi menu.
Suy cho cùng, để hỗ trợ một cấu trúc thuật toán phức tạp như vậy, người hùng đằng sau nó không chỉ là máy ảnh mà còn liên quan mật thiết đến sức mạnh tính toán và hiệu suất của “bộ não”, tức là Rokid Station Pro.
** MÁY TÍNH KHÔNG GIAN TRONG TÚI CỦA BẠN**
** Trong một thời gian dài, toàn bộ ngành VR/AR đã có một tam giác bất khả thi là "sức mạnh tính toán, sự thoải mái và giá cả". Các thiết bị có sức mạnh tính toán cao hơn thường nặng hơn và đắt tiền hơn, còn các thiết bị nhẹ nhưng mang tính tiện nghi cao thì không thể đáp ứng được nhu cầu sử dụng. **
Đánh giá từ tình hình thực tế, hiện tại không có giải pháp "hoàn hảo", các nhà sản xuất chính thống đang cố gắng tìm kiếm sự cân bằng giữa cả hai. Có hai giải pháp chủ đạo trên thị trường hiện tại: một được đại diện bởi Apple. Màn hình và điện toán được tích hợp và pin được kết nối bên ngoài; cái còn lại là thiết kế phân chia màn hình và điện toán do Rokid đại diện.
Thiết kế tích hợp của Apple tích hợp hai màn hình micro-OLED, nhiều camera, cảm biến, loa và các thành phần khác, mang lại hiệu quả cao hơn về hiệu ứng hiển thị và tính toán nhưng cũng sẽ làm tăng trọng lượng của thân máy, dẫn đến chỉ cần kết nối pin bên ngoài.
Thiết kế phân chia mà Rokid nhấn mạnh nhằm tối đa hóa khả năng đeo.So với trọng lượng 454g của Vision Pro, trọng lượng của kính 76g gần như tương đương với kính thông thường.Đồng thời, khả năng tính toán của máy chủ cũng có thể ít bị hạn chế hơn bởi tài nguyên không gian, đồng thời tránh ở một mức độ nhất định Sự khó chịu do tản nhiệt.
Dựa trên thiết kế tách rời, Rokid Station Pro đã nâng cấp sức mạnh tính toán của mình để tạo ra một thiết bị đầu cuối All in One tích hợp tính toán, hình ảnh, giao tiếp và các chức năng khác. Nó còn có thể được gọi là "công cụ năng suất" HyperTerminal.
Theo Lightcone Intelligence, Rokid Station Pro được trang bị Qualcomm Snapdragon XR2+, RAM 12G + ROM 128G, hỗ trợ WIFI6/6E và BT5.1, với khả năng tản nhiệt và hiệu suất cao hơn, nó có thể đạt được độ chính xác theo dõi 6DoF ở mức centimet và cực thấp Độ trễ kết xuất MTP (Motion to Photon).
Theo thông tin công khai, Snapdragon XR2+ là nền tảng XR hàng đầu mới nhất được Qualcomm ra mắt, có thể đạt được thời lượng pin 50% và cải thiện 30% hiệu suất tản nhiệt, từ đó mang lại trải nghiệm phong phú và phong phú hơn trong hình dạng thiết bị nhỏ hơn và mỏng hơn. . Đồng thời, nền tảng Snapdragon XR2 + giới thiệu một đường dẫn xử lý hình ảnh mới, có thể đạt được độ trễ dưới 10 mili giây và mở ra trải nghiệm MR xem qua video đủ màu.
Đánh giá từ trải nghiệm tại chỗ của Light Cone Intelligence, dù là xem phim, chơi game hay gọi bàn phím cho quá trình làm việc và sản xuất, đặc biệt là dưới tần số tương tác và chiến đấu của game cao, độ mượt và tốc độ phản hồi của màn hình rất mượt.trượt.
Điều đáng nói là thuật toán cốt lõi hiện nay trên thị trường vẫn là 3DoF (theo dõi ba bậc tự do), nghĩa là thiết bị có thể phát hiện chuyển động quay theo ba hướng lên, tiến và xuống nhưng không thể phát hiện được. sự dịch chuyển không gian của đầu, trước, sau, trái và phải. .
Thuật toán 6DoF được Station Pro nâng cấp áp dụng không chỉ có thể phát hiện sự thay đổi của trường góc nhìn do chuyển động quay của đầu mà còn phát hiện sáu loại thay đổi dịch chuyển "lên, xuống, trước, sau, trái, và phải" do chuyển động của cơ thể gây ra.
Việc nâng cấp thuật toán này quan trọng hơn ở mức độ tự do của người chơi. Ví dụ: khi chiến đấu với zombie theo thuật toán 3DoF, tầm bắn ở một góc nhất định ở phía trước, nhưng sau khi nâng cấp, zombie xuất hiện từ 360 độ và khi bạn quay lại, cảm giác cơ thể của zombie phía sau bạn sẽ vượt xa tầm với của cái trước.
Bakadir, giám đốc cấp cao về quản lý sản phẩm XR tại Qualcomm Technologies, cho biết: "Nền tảng Snapdragon XR2+ thế hệ đầu tiên là lựa chọn tốt nhất để mang lại trải nghiệm XR thế hệ tiếp theo. Qualcomm Technologies cung cấp nền tảng hàng đầu trong ngành cho Rokid Station Pro, hỗ trợ nó để tạo ra hệ sinh thái ứng dụng AR độc đáo của riêng nó."
Tạo iOS trong ngành AR
Tất nhiên, lý do khiến điện thoại di động của Apple có thể thống trị thị trường điện thoại di động quanh năm không chỉ vì phần cứng mà còn vì hệ thống và hệ sinh thái của nó. Những rào cản được tạo ra bằng cách nuôi dưỡng thói quen của người dùng thông qua hệ thống phần mềm thường mạnh hơn chính phần cứng.
**Đây là một phần lý do khiến Rokid tự phát triển hệ điều hành không gian AR - YodaOS-Master, nhưng không phải toàn bộ lý do. **
Vào Rokid Open Day vào tháng 3 năm nay, Rokid đã chính thức ra mắt YodaOS-Master và phát hành "Nền tảng sáng tạo không gian AR Lingjing", cho phép mọi người tạo nội dung AR trong không gian 3D và mọi người đều có thể tham gia, phá vỡ hoàn toàn các rào cản trong việc tạo AR Ngưỡng cửa, hãy để tiềm năng sinh thái bùng nổ.
**Nếu nền tảng SLAM một mắt, nhận dạng cử chỉ 3D, Snapdragon XR+ và Lingjing đều là những lưỡi dao sắc bén thì YodaOS-Master có thể thực hiện các thủ thuật này thông qua hệ thống tự phát triển. **
Nói một cách đơn giản, Rokid đang đi trên con đường chưa ai từng đi và triết lý của Rokid là “phần mềm định nghĩa tất cả”, mọi phần mềm đều cần được hệ thống mang theo và cung cấp thì mới phát huy được giá trị của nó.
Tập trung vào năm khía cạnh nhận thức, hiểu biết, tương tác, trình bày, cộng tác và sáng tạo kỹ thuật số, YodaOS-Master đã thực hiện một nâng cấp lớn về tối ưu hóa chip, thiết kế phần cứng, kiến trúc phần mềm, thuật toán AR và các công cụ sáng tạo. hoàn thiện nhất hiện nay. Một bộ hệ điều hành không gian cho kỷ nguyên AR.
**Một trường hợp cực kỳ sáng tạo khác là Rokid định nghĩa lại việc tìm kiếm không gian dựa trên hệ thống tự phát triển của mình. ** Zhu Mingming đã giới thiệu rằng điều này phá vỡ cách hiển thị thông tin tìm kiếm trước đây và việc trình bày kết quả tìm kiếm không còn là hiệu ứng mặt phẳng hai chiều nữa mà tồn tại trong không gian ba chiều. "Những kết quả phù hợp nhất với câu hỏi sẽ ở gần bạn nhất và những kết quả có liên quan phần nào sẽ ở trang phụ. Càng xa thì càng ít liên quan. Tất nhiên, bạn cũng có thể gạch bỏ các kết quả trước đó và tự động chọn kết quả bạn muốn."
** Có thể thấy, hệ sinh thái mở của ngành AR đã bắt đầu bước vào giai đoạn thứ 2. Apple và Rokid không chỉ di chuyển trái phải theo hướng phần cứng mà còn trong sự phát triển của hệ thống phần mềm và hệ sinh thái công nghiệp. Thông qua việc đồng sáng tạo phần cứng, thuật toán, hệ sinh thái phần mềm, nhà phát triển, người dùng và nền tảng, AR sẽ tiến tới giai đoạn phát triển nhanh chóng thứ hai trong một hệ sinh thái hoàn toàn mở. **
Shi Wenfeng, kỹ sư trưởng bộ phận nghiên cứu và phát triển hệ thống Rokid, cho biết: "Hệ điều hành YodaOS-Master tích hợp nhiều công nghệ cốt lõi về nhận dạng giọng nói Rokid, nhận dạng cử chỉ, SLAM, v.v. vào các dịch vụ hệ thống thông qua cách tiếp cận hướng dịch vụ và cung cấp một nhiều SDK khách hàng để phát triển Các nhà phát triển có thể phát triển hiệu quả, chẳng hạn như SDK cho Unity, cho phép các nhà phát triển Unity (kênh ứng dụng dành cho nhà phát triển: URL nền tảng mở (ar.rokid.com)) nhanh chóng sử dụng công nghệ lõi Rokid để phát triển.”
Zhu Mingming nói: “Ngành công nghiệp AR chỉ mới bắt đầu bình minh.