Concours de modèles d'IA : une analyse approfondie du concours de trading en portefeuille basé sur nof1

10 octobre, le laboratoire de recherche en IA spécialisé dans les marchés financiers nof1 a lancé une expérience sans précédent : faire gérer 10 000 dollars de fonds réels par six modèles d’IA de classe mondiale — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — sur Hyperliquid, pour effectuer des transactions de cryptomonnaies en conditions réelles.

Classement actuel et valeur du compte : au soir du 30 octobre, le classement le plus récent est le suivant :

  • DeepSeek Chat V3.1 : 15 671,39 $ (+56,71 %)
  • Qwen3 Max : 12 520,34 $ (+25,20 %)
  • Achat & Conservation BTC : 10 146,69 $ (+1,47 %)
  • Claude Sonnet 4.5 : 9 290,97 $ (-7,09 %)
  • Grok-4 : 7 030,02 $ (-29,70 %)
  • Gemini 2.5 Pro : 3 446,03 $ (-65,54 %)
  • GPT-5 : 2 749,32 $ (-72,51 %)

Ce classement a connu des changements spectaculaires par rapport aux données d’il y a quelques jours. Bien que DeepSeek reste en tête, son rendement a fortement reculé, passant de 95,71 % à 56,71 %, la valeur du compte étant tombée de 19 570 $ à 15 671 $, évaporant près de 4 000 $. Qwen3 a également subi un recul, passant de 53,68 % à 25,20 %. Mieux encore, Claude Sonnet 4.5 est passé d’un léger profit à une perte de 7 %, tandis que GPT-5 a vu sa perte s’aggraver, atteignant 72 %, s’approchant du risque de liquidation.

Lire le marché à travers la courbe : l’évolution en trois phases

Première phase (18-25 octobre) : période ascendante, premières divergences stratégiques

Le marché évolue dans un canal haussier, et les stratégies des différents modèles commencent à diverger :

  • DeepSeek : progression rapide de 10 000 $ à 17 000 $, forte capacité à capter la tendance
  • Qwen3 : progression régulière vers la zone 12 000-15 000 $
  • Claude / Grok : fluctuation entre 10 000 et 12 000 $
  • Gemini / GPT : chute en dessous de 5 000 $, pertes dues aux frais et erreurs de décision

Deuxième phase (26-28 octobre) : accélération de la hausse, sommet atteint

  • DeepSeek : le 27 octobre, dépasse 23 000 $, réalisant un rendement de 130 % en 9 jours. Il détient majoritairement des positions longues sur ETH, SOL, avec un levier de 10-15 fois.
  • Qwen3 : sommet à 17 000 $, croissance modérée. Avec un taux de position short de 82,4 %, il choisit ses moments pour entrer en position, évitant la chasse au prix.
  • Claude / Grok : oscillations entre 11 000 et 13 000 $, stratégies contradictoires — envie de participer mais manque de conviction.
  • Gemini / GPT : sortie du marché, le compte tombe à 3 000-4 000 $, quasiment hors course pour un rebond.

Troisième phase (29-30 octobre) : correction du marché, la gestion du risque montre ses limites

  • DeepSeek : chute brutale : de 23 000 $ à 15 671 $, perte de 7 000 $ en deux jours (-30 %) : absence de mécanisme de prise de profit, pas de sortie lors du pic. 95,6 % de temps en position longue, sans couverture ni gestion du stop-loss. Malgré une baisse de 30 %, il reste en tête de 3 000 $, grâce à une avance solide.
  • Qwen3 : résilience, chute de 17 000 $ à 12 520 $ (-26 %), moins que DeepSeek, avec un taux de position short de 82,4 %, il clôt rapidement ses positions pour sortir du marché, en moyenne en 9,7 heures, limitant ainsi l’exposition et le risque de perte.
  • Achat & Conservation BTC : stratégie simple, victoire du portefeuille à 10 146 $ (+1,47 %), surpassant Claude et Grok, en troisième position. Ironie : quatre IA “intelligentes”, après des centaines de transactions, sont devancées par une stratégie “acheter et laisser dormir”, qui évite le sur-trading et les coûts élevés.
  • Claude : stratégie prudente inefficace, passant de +0,93 % à -7,09 % (10 093 $ à 9 290 $). Frais de trading importants, ratio de profit/perte faible (1,34:1), gains faibles pour coûts élevés, avec des rotations fréquentes lors des corrections, ce qui accélère la perte. Elle rate les grands mouvements haussiers et ne se défend pas efficacement lors des baisses.
  • Grok : chute accélérée de -8 % à -29,7 % (7 030 $) : 90,6 % de positions longues, mais un taux de réussite de seulement 22,7 %, avec une perte réalisée de 2 449 $, le capital restant est faible, soutenu par 1 611 $ de gains non réalisés, prêt à tout moment à revenir à zéro.
  • Gemini / GPT : lutte pour survivre, GPT chute à 2 749 $ (-72,51 %), Gemini à 3 446 $ (-65,54 %). Échec total : sur-trading, faible taux de réussite, mauvais ratio de profit/perte, risque élevé avec un levier de 40 fois.

Les problèmes profonds révélés par la correction

1. La double face de “suivre la tendance”

Le succès de DeepSeek repose sur le principe de “suivre la tendance” : 95 % du temps en position longue, croyant que la tendance va continuer. En tendance haussière, cette stratégie lui a permis d’atteindre un rendement maximal de 95 %. Mais lorsque la tendance s’inverse, la même stratégie lui fait perdre 30 %.

Cela met en évidence une question cruciale : **les stratégies de suivi de tendance nécessitent un mécanisme efficace de prise de profit et de stop-loss.** Si l’on se contente de “laisser courir les profits” sans couper les pertes, une inversion majeure peut tout anéantir.

DeepSeek semble trop confiant dans la valeur du “long terme”, négligeant l’incertitude du marché. Son profit maximal de 7 378 $ sur une transaction ETH de 60 heures, expérience qui a renforcé sa croyance dans le “long terme”, montre qu’il privilégie cette approche. Mais le marché financier n’est pas une voie unique : la tendance peut s’inverser à tout moment.

2. La sagesse de la position de fermeture

Qwen3 démontre la valeur de la position de fermeture. Ses 82,4 % de temps en position short semblent être une “opportunité manquée” en hausse, mais en baisse, cela lui permet d’éviter des pertes.

Une baisse de 26 % contre 32 %, une différence de seulement 6 points de pourcentage, mais avec l’effet de capitalisation, cette différence s’amplifie. Plus important encore, Qwen3 conserve plus de capital et d’avantages psychologiques, pouvant rapidement se repositionner lorsque le marché se stabilise. DeepSeek, s’il continue à reculer, risque de tomber dans un cercle vicieux de “pertes flottantes — hésitation — rebond manqué”.

3. La résilience des stratégies simples

Le portefeuille “Achat & Conservation BTC” donne une leçon à toutes les IA “intelligentes”. Sans analyse technique, sans algorithme complexe, sans rotations fréquentes, il se classe troisième, dépassant la moitié des modèles.

Ce résultat montre que : dans le trading, faire moins d’erreurs est plus important que faire plus de bonnes opérations. **Gemini a perdu 66 % en 193 transactions, alors que BTC Buy & Hold n’a effectué aucune transaction et a conservé son capital. Qui est le plus performant ? La réponse est évidente.

4. La faiblesse de la gestion du risque

Hormis Qwen3, toutes les IA présentent de graves lacunes en gestion du risque :

  • DeepSeek : absence de mécanisme de prise de profit, la chute de 130 % à 57 % de rendement maximal
  • Claude : dépendance excessive à l’idée de “ne pas vendre à découvert”, absence de couverture
  • Grok : malgré un taux de réussite de 22,7 %, il maintient 90,6 % de positions longues
  • GPT : position BTC avec un levier de 40, liquidation à seulement 1,2 % de marge de sécurité
  • Gemini : absence totale de gestion du risque, 193 transactions comme un jeu de hasard

Cela montre que, même si ces IA peuvent “comprendre” les données du marché et “exécuter” des ordres, leur maîtrise de la gestion du risque — cœur du trading — reste encore très immature.

Les limites de l’expérience : la réflexion froide au-delà des données

Après avoir analysé les chiffres, il est facile d’être attiré par le rendement de 56 % de DeepSeek ou la perte de 66 % de Gemini. Mais avant de tirer des conclusions, il faut reconnaître les limites systémiques de cette expérience — qui peuvent être plus importantes que les résultats eux-mêmes.

1. La fenêtre temporelle trop courte : 12 jours ne suffisent pas à voir la vérité

L’expérience s’étend du 18 au 30 octobre, soit 12 jours. Que signifie 12 jours dans le marché crypto ? Peut-être seulement un début de cycle complet haussier ou baissier.

Ce que nous voyons — une montée, un sommet, un recul — constitue un petit cycle, mais cela pourrait aussi être de la chance. Si l’expérience avait commencé au sommet du marché ou lors d’un crash brutal de 30 % en un jour, le classement serait totalement différent.

Le rendement de 56 % de DeepSeek dépend fortement de cette période. Sa stratégie de 95 % en position longue fonctionne dans une tendance haussière unilatérale, mais en cas de marché latéral de 3 mois, les frais et les stops répétés l’éroderaient.

De même, le taux de 82 % de position short de Qwen3 est un avantage en marché latéral, mais en marché haussier comme en 2021, il aurait sous-performé. Sur un marché haussier où le BTC passe de 10 000 $ à 100 000 $, rester en position short 80 % du temps ne rapporterait que 20 %.

12 jours ne suffisent pas pour juger de la pérennité d’une stratégie.

2. Le même prompt : des IA contraintes par leur cadre

Les 6 IA reçoivent toutes les mêmes données de marché et le même cadre de trading. C’est comme demander à 6 gestionnaires de fonds de prendre des décisions à partir du même rapport d’analyse — vous testez leur discipline d’exécution, pas leur capacité d’innovation.

Dans la vraie vie, l’alpha vient de l’asymétrie d’information. Les fonds quantitatifs de haut niveau ont des systèmes de suivi blockchain exclusifs, voient les transferts de baleines, ont accès à des flux hors marché pour anticiper les mouvements institutionnels.

Mais dans cette expérience, toutes les IA voient la même information. C’est plus une compétition d’exécution que d’innovation stratégique.

On ne peut pas savoir, si on leur donnait des données blockchain exclusives ou des analyses Twitter, qui serait le vrai gagnant.

3. La taille du capital : un monde de rêve avec 10 000 $

Chaque IA gère 10 000 $. C’est une très petite échelle sur Hyperliquid — on peut entrer et sortir à volonté, sans slippage, sans impact sur le marché, sans souci de décomposer de gros ordres.

Mais dans le vrai trading quantitatif, gérer 1 million ou 10 millions n’a rien à voir :

  • Le levier de 40 fois sur 10 000 $ est à la limite du raisonnable, mais si on gère 10 millions, cela équivaut à une exposition de 400 millions, où une variation de 3 % peut tout faire exploser, et où les ordres peuvent faire plonger le marché.
  • La stratégie court terme de Qwen3, très flexible avec 9,7 heures en moyenne, devient inefficace avec de gros capitaux, car chaque transaction coûte cher en slippage et frais, et peut faire monter ou descendre le prix.
  • La stratégie à levier élevé de DeepSeek fonctionne avec 10 000 $, mais avec 1 million, ses ordres laissent des traces visibles, et d’autres traders peuvent contre-attaquer.

Ce test concerne la flexibilité à petite échelle, pas la robustesse à grande échelle.

4. La chance du marché : pas rencontré le vrai enfer

Pendant l’expérience, le marché est resté relativement stable, avec une volatilité modérée. Nous n’avons pas vu :

  • Un effondrement systémique, comme la faillite de FTX, où tous les actifs s’effondrent en même temps
  • Un effondrement d’un seul actif, comme LUNA, passant de 80 $ à zéro en une heure
  • Une panne d’échange, comme Binance le 11 novembre, où on ne peut pas sortir ses positions
  • Une crise de liquidité extrême, avec des dérapages lors de mouvements de marché imprévus

Tous ces scénarios extrêmes, qui testeraient la gestion du risque, n’ont pas été rencontrés. On ne sait pas comment DeepSeek ou Qwen3 réagiraient dans ces conditions. La chance a joué un rôle plus important qu’on ne pense.

5. La nature unique de cette expérience : pas de validation sur la durée

C’est une expérience ponctuelle, sans “saison 2” pour confirmer la stabilité des stratégies. On ne peut pas savoir :

  • Si DeepSeek est vraiment supérieur ou simplement chanceux
  • Si, en relançant l’expérience avec des paramètres différents, DeepSeek resterait en tête
  • Si, en recommençant à partir du 1er novembre pour 12 jours, le classement changerait complètement

Les résultats actuels ressemblent à six personnes lançant des dés, et DeepSeek ayant tiré le plus grand nombre. Mais cela ne prouve pas que ses dés sont meilleurs, juste qu’il a eu plus de chance.

Alors, comment interpréter ces classements ?

Après avoir pris en compte ces limites, vous pourriez vous demander : cette expérience a-t-elle encore du sens ?

Oui, mais pas pour désigner un champion. La véritable valeur de cette expérience, c’est de nous faire voir que :

  1. L’IA peut trader en conditions réelles — c’est déjà une étape importante. Il y a un an, on se demandait si l’IA pouvait remplacer un trader. Aujourd’hui, elle le fait en portefeuille réel.
  2. La gestion du risque est plus importante que la prédiction — tous peuvent “lire” les graphiques, mais peu savent maîtriser le risque. C’est une vieille sagesse de Wall Street.
  3. La simplicité a du pouvoir — la troisième place de BTC Buy & Hold montre qu’en marché incertain, faire moins d’erreurs peut être plus rentable que faire beaucoup de bonnes opérations.
  4. La stratégie n’est pas éternelle — ce qui fonctionne aujourd’hui peut devenir un piège demain. Le marché change, et la stratégie la plus performante aujourd’hui ne le sera pas forcément demain.

Mais si vous vous précipitez pour confier votre argent à DeepSeek ou copier sa stratégie parce qu’il est en tête, vous faites une erreur.

Un classement sur 12 jours ne garantit pas un succès sur 12 mois ; gérer 10 000 $ ne veut pas dire gérer 1 million ; un marché haussier ne prédit pas un marché baissier. La réussite en trading n’a pas de formule magique. Cette expérience nous fournit des données précieuses, mais ses limites, souvent plus importantes que les résultats eux-mêmes, méritent une réflexion approfondie.

Ce rapport a été édité et synthétisé par WolfDAO. Pour toute question, contactez-nous pour mise à jour.

Rédaction : Riffi / WolfDAO( X : @10xWolfdao )

BTC-3.12%
ETH-5.93%
SOL-9.06%
LUNA-10.06%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)