Tencent open-source the HunYuan World Model 2.0, a one-sentence generator that can create immersive 3D worlds, directly importable into Unity and UE

robot
Création du résumé en cours

ME News Actualités, le 16 avril (UTC+8), selon le monitoring de Beating, Tencent a officiellement publié et open-sourcé le modèle mondial 3D Hyun Yuan 3D World Model 2.0 (HY-World 2.0). Il s’agit d’un cadre de modèle mondial multimodal, supportant le texte, une seule image, des images multi-vues et des vidéos en entrée, avec une sortie qui n’est pas une vidéo, mais des actifs 3D modifiables (modèles de maillage, dispersion gaussienne 3D, nuages de points), pouvant être directement importés dans Unity, Unreal Engine et NVIDIA Isaac Sim. Les poids du modèle et le code sont open-sourcés sur GitHub et Hugging Face. La différence fondamentale avec des modèles mondiaux vidéo comme Genie 3, Cosmos, est que : les modèles vidéo génèrent des vidéos pixel par pixel, qui disparaissent après lecture et ne peuvent pas être modifiés ; HY-World 2.0 génère des actifs 3D durables, permettant la marche libre, les collisions physiques et la réédition. Dans le rapport technique, Tencent résume cette différence comme « regarder une vidéo puis elle disparaît » contre « construire un monde qui perdure ». Il peut être rendu en temps réel avec une GPU grand public, avec une inférence nécessitant une seule passe, contrairement aux modèles vidéo qui doivent générer chaque image à chaque frame. Sur le plan technique, il se divise en quatre phases : d’abord, utiliser HY-Pano 2.0 pour générer une image panoramique à 360 degrés à partir de l’entrée, puis utiliser WorldNav pour la planification de trajectoire, ensuite utiliser WorldStereo 2.0 pour étendre le monde le long de la trajectoire, et enfin utiliser WorldMirror 2.0 pour reconstruire tous les segments générés en une scène 3D unifiée. Dans la solution open-source, HY-World 2.0 est présenté comme le premier modèle mondial 3D atteignant un niveau SOTA, avec des performances comparables au produit commercial fermé Marble. Cependant, seul le code et les poids de WorldMirror 2.0 (module de reconstruction 3D, environ 1,2 milliard de paramètres) ont été open-sourcés pour l’instant, tandis que le code et les poids des modules de génération panoramique, de planification de trajectoire et d’extension du monde sont « à venir ». Pour les développeurs de jeux, cela signifie qu’ils peuvent rapidement générer des prototypes de niveaux et des cartes avec une seule ligne, économisant beaucoup de temps de modélisation manuelle. Pour les chercheurs en intelligence incarnée, le coût de génération en masse d’environnements de simulation à partir de photos est considérablement réduit. Tencent a également lancé une plateforme d’expérience en ligne, permettant aux utilisateurs de manipuler des personnages pour explorer librement les rues et bâtiments générés. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler