AI模型擂台赛:基于nof1实盘交易擂台赛的深度透视

10 de octubre, el laboratorio de investigación en IA enfocado en los mercados financieros nof1 lanzó un experimento sin precedentes: permitir que 6 de los modelos de IA más avanzados del mundo —GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max— gestionaran cada uno 10,000 dólares en fondos reales en Hyperliquid, realizando operaciones encriptadas en criptomonedas en tiempo real.

Estado actual y valor de las cuentas: al cierre del 30 de octubre, la clasificación más reciente es la siguiente:

  • DeepSeek Chat V3.1: $15,671.39 (+56.71%)
  • Qwen3 Max: $12,520.34 (+25.20%)
  • BTC Comprar y Mantener: $10,146.69 (+1.47%)
  • Claude Sonnet 4.5: $9,290.97 (-7.09%)
  • Grok-4: $7,030.02 (-29.70%)
  • Gemini 2.5 Pro: $3,446.03 (-65.54%)
  • GPT-5: $2,749.32 (-72.51%)

Este ranking ha experimentado cambios drásticos en comparación con unos días atrás. Aunque DeepSeek sigue liderando, su rentabilidad ha bajado significativamente del 95.71% al 56.71%, y el valor de su cuenta ha caído de $19,570 a $15,671, evaporando casi $4,000. Qwen3 también sufrió una caída, pasando del 53.68% al 25.20%. Es aún más notable que Claude Sonnet 4.5 pasó de una pequeña ganancia a una pérdida del 7%, y GPT-5 amplió su pérdida hasta el 72%, acercándose a la liquidación.

Leer el mercado a través de la curva: la evolución en tres fases

Primera fase (18-25 de octubre): periodo de ascenso, aparición de estrategias diferenciadas

El mercado estaba en una tendencia alcista, y las diferencias en las estrategias de los modelos empezaron a ser evidentes:

  • DeepSeek: subió rápidamente de $10,000 a $17,000, demostrando fuerte capacidad para captar tendencias
  • Qwen3: subió de manera estable a la zona de $12,000-15,000
  • Claude/Grok: oscilando entre $10,000 y $12,000
  • Gemini/GPT: ya por debajo de $5,000, debido a tarifas y decisiones erróneas que los dejaron rezagados

Segunda fase (26-28 de octubre): aceleración en el ascenso, aparición del pico

  • DeepSeek: alcanzó un máximo de $23,000 el 27 de octubre, logrando un retorno del 130% en 9 días. Mantuvo posiciones largas en ETH y SOL, con apalancamiento de 10-15 veces.
  • Qwen3: pico en $17,000, con un aumento moderado. Con una tasa de posiciones en corto del 82.4%, eligió momentos oportunos para evitar perseguir el precio en alza.
  • Claude/Grok: oscilando entre $11,000 y $13,000, con estrategias contradictorias — querían participar pero sin decisión firme.
  • Gemini/GPT: caída a $3,000-4,000, casi sin posibilidades de recuperación.

Tercera fase (29-30 de octubre): retroceso del mercado, la verdadera prueba del control de riesgos

  • DeepSeek: caída abrupta de $23,000 a $15,671, perdiendo $7,000 en dos días (-30%). Sin mecanismo de toma de ganancias, no realizó beneficios en el pico. El 95.6% del tiempo en posiciones largas, sin cobertura ni paradas oportunas. Aunque retrocedió un 30%, aún lidera por $3,000 a la segunda posición, gracias a su ventaja inicial.
  • Qwen3: mostró resistencia, retrocediendo de $17,000 a $12,520 (-26%), con una tasa de posiciones en corto del 82.4%. Cerró rápidamente para evitar pérdidas mayores, operando en promedio 9.7 horas, con exposición breve y paradas rápidas para limitar pérdidas.
  • BTC Comprar y Mantener: estrategia simple que ganó, con $10,146 (+1.47%), superando a Claude y Grok, en tercer lugar. Es irónico: cuatro “IA inteligentes” tras cientos de operaciones, no lograron superar la estrategia de “comprar y dejar”. Menos operaciones significan menos costos y menos errores.
  • Claude: estrategia conservadora falló, pasando de +0.93% a -7.09% ($10,093 a $9,290). Las tarifas erosionaron las ganancias, con una relación ganancia/pérdida de 1.34:1. La frecuente reconfiguración en retroceso aceleró las pérdidas, perdiendo oportunidades en las subidas y sin protección efectiva en las bajadas.
  • Grok: aceleró su caída, de -8% a -29.7% ($7,030). Con un 90.6% en largo, solo logró una tasa de ganancia del 22.7%, con pérdidas realizadas de $2,449. La mayor parte del capital restante ($1,611) soporta pérdidas flotantes, con riesgo de liquidación en cualquier momento.
  • Gemini/GPT: luchando por sobrevivir, GPT cayó a $2,749 (-72.51%), Gemini a $3,446 (-65.54%). Fracaso total: sobreoperación, baja tasa de ganancias, mala relación ganancia/pérdida, alto apalancamiento y riesgo de liquidación.

Las profundas causas del retroceso

1. La doble cara de “seguir la tendencia”

El éxito de DeepSeek se basa en “seguir la tendencia”: hacer en largo el 95% del tiempo, confiando en que la tendencia continuará. En una tendencia alcista, esta estrategia le permitió obtener un rendimiento máximo del 95%. Pero cuando la tendencia se invirtió, la misma estrategia le causó una pérdida del 30%.

Esto revela un problema clave: **las estrategias de seguir la tendencia necesitan mecanismos efectivos de toma de ganancias y de paradas.** Si solo dejas correr las ganancias sin cortar las pérdidas, una reversión grande puede aniquilar la mayor parte de los beneficios.

DeepSeek quizás confía demasiado en el valor del “mantener posiciones a largo plazo”, ignorando la incertidumbre del mercado. Su mayor ganancia de $7,378 provino de una operación en ETH de 60 horas, experiencia que pudo reforzar su creencia en el “long-termismo”. Pero el mercado financiero no es una vía única; las tendencias pueden revertirse en cualquier momento.

2. La importancia de mantener posiciones cortas como protección

Qwen3 demuestra el valor de mantener posiciones cortas. Sus 82.4% en corto parecen una “oportunidad perdida” en subida, pero en retrocesos, evitó pérdidas.

Un retroceso del 26% frente a uno del 32% puede parecer una diferencia de solo 6 puntos porcentuales, pero en efecto compuesto, esa diferencia crece exponencialmente. Además, Qwen3 conserva más capital y ventajas psicológicas, pudiendo reabrir rápidamente cuando el mercado se estabilice. En cambio, si DeepSeek continúa retrocediendo, puede caer en un ciclo de “pérdida flotante — duda — pérdida de rebote”.

3. La resiliencia de las estrategias simples

El rendimiento de BTC Comprar y Mantener es una bofetada a todas las “IA inteligentes”. Sin análisis técnico, sin algoritmos complejos, sin reconfiguración frecuente, ocupa ahora el tercer lugar, superando a la mitad de los modelos.

Este resultado nos dice: en el trading, cometer menos errores es más importante que hacer muchas operaciones correctas. **Gemini perdió el 66% en 193 operaciones, mientras que BTC Comprar y Mantener no hizo ninguna y conservó el capital.** ¿Quién es más exitoso? La respuesta es evidente.

4. La falta de gestión de riesgos

A excepción de Qwen3, casi todas las IA muestran graves deficiencias en gestión de riesgos:

  • DeepSeek: sin mecanismo de toma de ganancias, retrocedió del 130% al 57%
  • Claude: dependencia excesiva en la estrategia de “no hacer cortos”, sin cobertura
  • Grok: con una tasa de ganancia del 22.7%, mantiene un 90.6% en largo
  • GPT: con apalancamiento de 40 veces en BTC, con margen de error del 1.2%
  • Gemini: sin gestión de riesgos, con 193 operaciones como en un juego de azar

Esto muestra que, aunque estas IA pueden “entender” los datos del mercado y “ejecutar” órdenes, aún no dominan la gestión de riesgos, que es la habilidad central en el trading.

Limitaciones del experimento: reflexión fría más allá de los datos

Tras analizar los datos, es tentador centrarse en el rendimiento del 56% de DeepSeek o en la pérdida del 66% de Gemini. Pero antes de sacar conclusiones, debemos reconocer las limitaciones sistémicas del experimento — estas pueden ser más importantes que los resultados en sí.

1. La ventana temporal es demasiado corta: 12 días no revelan la verdad

El experimento duró del 18 al 30 de octubre, solo 12 días. ¿Qué significa eso en el mercado de criptomonedas? Probablemente, solo una fracción de un ciclo completo alcista-bajista.

El patrón de “subida — pico — retroceso” que vimos es un ciclo pequeño, y puede ser pura suerte. Si el experimento hubiera comenzado en el pico del mercado, o hubiera enfrentado una caída de 30% en un solo día, los resultados serían completamente diferentes.

La rentabilidad del 56% de DeepSeek puede depender mucho de las características del mercado en estos 12 días. Su estrategia de hacer en largo en tendencia alcista funciona en mercados en alza, pero en un mercado lateral de 3 meses, las comisiones y las paradas frecuentes lo desgastarían.

De igual forma, la tasa de posiciones en corto del 82% de Qwen3 es ventajosa en mercados laterales, pero en un mercado alcista como en 2021, sería una pérdida. Un mercado en bull run de $10,000 a $100,000, con un 80% en corto, solo generaría un 20% de ganancia.

12 días no son suficientes para validar la efectividad a largo plazo de ninguna estrategia.

2. Los modelos están limitados por el mismo prompt: todos iguales

Los 6 modelos reciben los mismos datos de mercado y el mismo marco de órdenes. Es como que 6 gestores de fondos analicen el mismo informe y tomen decisiones — no se evalúa su capacidad de investigación, sino su disciplina en ejecutar.

En la realidad, el alpha proviene de la asimetría de información. Los fondos cuantitativos top tienen datos exclusivos: rastreo en cadena de ballenas, flujo de órdenes institucionales, etc. Aquí, todos ven lo mismo, y esto se convierte en una competencia de ejecución, no de estrategia.

No podemos saber quién ganaría si DeepSeek tuviera datos en cadena exclusivos, o Gemini tuviera análisis de sentimientos en Twitter. La diferencia sería en la información, no en la capacidad de ejecución.

3. El tamaño de la cuenta es una ilusión: $10,000 en un mundo real

Cada IA gestiona solo $10,000. En Hyperliquid, eso es muy poco — puedes entrar y salir en cualquier momento, sin deslizamiento, sin impacto en el mercado, sin preocuparte por grandes órdenes.

Pero en el mundo real, gestionar $10 millones y gestionar $1 millón son mundos diferentes.

  • Un apalancamiento de 40 veces en $10,000 es posible, pero en $100 millones, una caída del 3% te liquida automáticamente y tus órdenes pueden colapsar el mercado.
  • La estrategia de corto plazo de 9.7 horas funciona en pequeños fondos, pero en grandes fondos, los costos de entrada y salida (deslizamiento + tarifas) hacen que sea inviable.
  • La estrategia de tendencia con apalancamiento alto puede ser rápida en $10,000, pero en $1 millón, tus órdenes dejan huella en la profundidad del mercado, y otros traders pueden aprovecharse de tu posición.

Este experimento prueba la flexibilidad en fondos pequeños, no la robustez de estrategias escalables.

4. El mercado no mostró condiciones extremas: no enfrentamos un apocalipsis

Durante el experimento, el mercado fue relativamente estable, con volatilidad moderada. No vimos:

  • Colapsos sistémicos, como la quiebra de FTX, que arrastran a todas las criptomonedas
  • Caídas instantáneas en monedas individuales, como LUNA
  • Fallos en exchanges, como Binance, que dejan sin poder cerrar posiciones
  • Escasez extrema de liquidez, con profundidades que se desploman en horas no laborables

Todos los sistemas de control de riesgos de estas IA no fueron sometidos a pruebas en condiciones extremas, que son las que realmente enfrentan los traders en criptomercados. ¿Qué pasaría con DeepSeek en una caída de 50% en un día? No lo sabemos. ¿Funcionaría Qwen3 en una falla del exchange? Tampoco. La suerte en estos 12 días puede haber jugado un papel mayor del que pensamos.

5. La naturaleza de un experimento único: sin segunda temporada

Es un experimento puntual, sin una segunda fase para validar la estabilidad de las estrategias. No podemos saber:

  • Si el liderazgo de DeepSeek es real o solo suerte
  • Si al volver a correr los mismos modelos con diferentes parámetros, DeepSeek seguiría en cabeza
  • Si en otro ciclo de 12 días, los resultados serían iguales o diferentes

Los resultados actuales son como lanzar 6 dados: DeepSeek sacó el mayor número, pero eso no significa que tenga la mejor estrategia, solo que tuvo suerte.

¿Cómo debemos interpretar estos rankings?

Tras entender estas limitaciones, quizás te preguntes: ¿vale la pena este experimento?

La respuesta es sí, pero no para determinar quién es el mejor. La verdadera enseñanza es que:

  1. La IA puede hacer operaciones reales — un hito en sí mismo. Hace un año discutíamos si IA reemplazaría a los traders, y ahora ya están operando en vivo.
  2. La gestión de riesgos es más importante que predecir el mercado — todos entienden las velas, pero pocos controlan el riesgo. Es una lección clásica de Wall Street.
  3. La sencillez puede ser más resistente — BTC Comprar y Mantener en tercer lugar nos recuerda que en mercados inciertos, menos errores valen más que muchas operaciones.
  4. Las estrategias cambian con el mercado — lo que hoy funciona, mañana puede ser un error. La adaptabilidad es clave.

Pero si por ver a DeepSeek en primer lugar decides confiar tu dinero en él o copiar su estrategia, estarás cometiendo un error.

Un ranking de 12 días no garantiza uno de 12 meses; una cuenta de $10,000 no equivale a una de $1,000,000; y un mercado en alza no predice un mercado en baja.

Invertir nunca tiene respuestas fáciles. Este experimento nos da datos valiosos, pero las limitaciones que hay detrás son aún más importantes que los datos mismos.

Este informe ha sido editado y compilado por WolfDAO. Para consultas, contáctanos para actualizaciones.

Redacción: Riffi / WolfDAO

BTC-3%
ETH-5.92%
SOL-8.88%
LUNA-9.42%
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)