Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
El modelo del mundo pasa de la predicción a la planificación, HWM y los desafíos del control a largo plazo
null Introducción
El enfoque de investigación en modelos del mundo en el último año se centró inicialmente en el aprendizaje de representaciones y la predicción futura. El modelo primero comprende el mundo y luego infiere estados futuros internamente. Esta línea de trabajo ya ha producido varios resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un conjunto de modelos de video del mundo lanzado por Meta en 2025) preentrenó con más de 1 millón de horas de videos de internet, y combinándolo con una pequeña cantidad de datos de interacción con robots, mostró el potencial de los modelos del mundo en comprensión, predicción y planificación de robots con cero muestras.
Pero que un modelo prediga no significa que pueda manejar tareas largas. Frente a controles de múltiples etapas, los sistemas suelen enfrentarse a dos presiones. Una es que el error de predicción se acumula continuamente en rollouts largos (predicciones de múltiples pasos consecutivos), haciendo que toda la trayectoria se desvíe cada vez más del objetivo. La otra es que el espacio de búsqueda de acciones se expande rápidamente a medida que aumenta el horizonte (el rango de planificación), elevando continuamente el costo de planificación. HWM no reescribe la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo existente con condiciones de acción, permitiendo que el sistema organice primero la trayectoria de la fase, y luego maneje las acciones locales.
Desde el punto de vista técnico, V-JEPA 2 (más enfocado en la representación del mundo y predicciones básicas), HWM (más enfocado en la planificación a largo plazo), WAV (World Action Verifier: Modelos del mundo auto-mejorables mediante asimetría hacia adelante y hacia atrás)—
一、¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?
La dificultad del control a largo plazo, cuando se aplica a tareas de robots, se vuelve más evidente. Tomemos como ejemplo la operación de un brazo mecánico: levantar un vaso y colocarlo en un cajón no es una acción única, sino una serie de pasos consecutivos. El sistema debe acercarse al objeto, ajustar la postura, agarrarlo, moverlo a la posición objetivo y luego manipular el cajón y colocar el objeto. Cuando la cadena es larga, aparecen dos problemas simultáneamente. Uno es que el error de predicción se acumula durante el rollout, desviando cada vez más la trayectoria del objetivo. El otro es que el espacio de búsqueda de acciones se expande rápidamente.
Lo que suele faltar en los sistemas no es la capacidad de predicción local, sino la habilidad de organizar objetivos lejanos en una trayectoria por etapas. Muchas acciones parecen desviarse del objetivo desde una perspectiva local, pero en realidad son pasos intermedios necesarios para alcanzarlo. Por ejemplo, antes de agarrar, levantar el brazo; antes de abrir el cajón, retroceder un poco y ajustar el ángulo.
En tareas de demostración, los modelos del mundo ya pueden ofrecer predicciones coherentes. Pero al pasar a escenarios de control real, el rendimiento empieza a deteriorarse y surgen problemas. La presión no solo proviene de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.
二、¿Cómo reconstruye HWM el proceso de planificación?
HWM divide el proceso de planificación originalmente en una sola capa en dos. La capa superior se encarga de la dirección en una escala de tiempo más larga, mientras que la capa inferior se ocupa de la ejecución local en una escala de tiempo más corta. El modelo no planifica solo en un ritmo, sino que lo hace en dos ritmos temporales diferentes simultáneamente.
Cuando los métodos de una sola capa manejan tareas largas, generalmente necesitan buscar directamente en el espacio de acciones en la capa inferior toda la cadena de acciones. Cuanto más larga la tarea, mayor el costo de búsqueda y más fácil que el error de predicción se propague en múltiples pasos de rollout. Tras dividir el proceso, la capa superior solo maneja la selección de rutas en una escala de tiempo más larga, y la capa inferior solo se ocupa de completar el segmento actual de acciones. La tarea larga se divide en múltiples tareas más cortas, reduciendo así la complejidad de la planificación.
Aquí hay un diseño clave adicional: las acciones en la capa superior no son simplemente la diferencia entre dos estados, sino que utilizan un codificador para comprimir un segmento de acciones de la capa inferior en una representación de acción de nivel superior. Para tareas largas, lo importante no es solo cuánto difiere el punto de partida del de llegada, sino cómo se organiza la secuencia intermedia. Si la capa superior solo mira la diferencia de desplazamiento, puede perder la información de la trayectoria en esa cadena de acciones.
HWM refleja un enfoque de organización de tareas en capas. Frente a un trabajo de múltiples etapas, el sistema ya no despliega todas las acciones de una vez, sino que primero forma una trayectoria de fases más gruesa y luego la ejecuta y ajusta segmento por segmento. Cuando esta estructura jerárquica se integra en el modelo del mundo, la capacidad de predicción comienza a traducirse más establemente en capacidad de planificación.
三、¿Qué revela el experimento del 0% al 70%?
En tareas de captura y colocación en el mundo real, según el diseño del artículo, el sistema solo recibe las condiciones del objetivo final, sin proporcionar objetivos intermedios predefinidos. Bajo estas condiciones, la tasa de éxito de HWM alcanza el 70%, mientras que el modelo del mundo de una sola capa logra un 0%. Tareas largas que antes eran casi imposibles ahora se vuelven realizables con alta probabilidad gracias a la planificación jerárquica.
El artículo también probó tareas simuladas como manipulación de objetos y navegación en laberintos. Los resultados muestran que la planificación en capas no solo aumenta la tasa de éxito, sino que también reduce el costo computacional en la fase de planificación. En algunos entornos, el costo de planificación puede reducirse hasta aproximadamente una cuarta parte del original, manteniendo o incluso mejorando la tasa de éxito.
四、De V-JEPA a HWM y luego a WAV
V-JEPA 2 representa la línea de trabajo de la representación del mundo. Utiliza más de 1 millón de horas de videos de internet para preentrenar, y combina esto con menos de 62 horas de videos de robots para realizar un post-entrenamiento (entrenamiento específico tras el preentrenamiento), obteniendo un modelo del mundo condicional a acciones en un espacio de representación abstracto, capaz de entender, predecir y planificar en el mundo físico. Lo que muestra es que el modelo puede adquirir representaciones del mundo a través de observaciones a gran escala y transferir esas representaciones a la planificación robótica.
HWM está en la siguiente etapa. El modelo ya posee capacidades de representación del mundo y predicción básica, pero al entrar en control de múltiples etapas, los problemas de acumulación de errores y expansión del espacio de búsqueda estallan. HWM no cambia la ruta de aprendizaje de la representación subyacente, sino que añade una estructura de planificación en múltiples escalas temporales sobre el modelo del mundo existente. Su problema principal es cómo organizar objetivos lejanos en una serie de pasos intermedios y avanzar segmento por segmento.
WAV lleva esto aún más lejos, enfocándose en la capacidad de verificación. Para que los modelos del mundo puedan entrar en escenarios de optimización de estrategias y despliegue, no basta con predecir, sino que también deben detectar en qué áreas se distorsionan fácilmente y corregirse en consecuencia. Se centra en cómo el modelo verifica su propio rendimiento.
V-JEPA se enfoca en la representación del mundo, HWM en la planificación de tareas, y WAV en la verificación de resultados. Aunque sus enfoques difieren, la dirección general es coherente. La próxima etapa de los modelos del mundo no será solo predicción interna, sino una integración de predicción, planificación y verificación en un sistema unificado.
五、De la predicción interna a sistemas ejecutables
Muchos trabajos anteriores sobre modelos del mundo se centraron en mejorar la continuidad de la predicción de estados futuros o la estabilidad de la representación interna del mundo. Pero la investigación actual empieza a cambiar, y los sistemas deben no solo formar juicios sobre el entorno, sino también convertir esos juicios en acciones, y ajustar la siguiente acción tras obtener los resultados. Para una implementación más cercana a la realidad, es necesario controlar la propagación del error en tareas a largo plazo, reducir el rango de búsqueda y disminuir los costos de razonamiento.
Este cambio también afectará a los agentes de IA. Muchos sistemas ya pueden completar tareas de enlace corto, como usar herramientas, leer archivos o ejecutar instrucciones en varios pasos. Pero cuando las tareas se vuelven largas, multietapas y requieren replanificación en medio, el rendimiento disminuye. Esto no es diferente en esencia de los desafíos en control robótico: falta de capacidad de organización de rutas a nivel superior, lo que provoca desconexión entre la ejecución local y el objetivo global.
La estructura jerárquica propuesta por HWM, con una capa superior encargada de rutas y objetivos de fase, y una capa inferior de acciones locales y retroalimentación, junto con la verificación de resultados, probablemente seguirá apareciendo en más sistemas en el futuro. La próxima etapa de los modelos del mundo no será solo predecir el futuro, sino organizar la predicción, ejecución y corrección en una trayectoria operativa.