AI modelo competição: Uma visão aprofundada da competição de negociação ao vivo baseada no nof1

10 de outubro, o laboratório de pesquisa em IA focado nos mercados financeiros, nof1, lançou uma experiência sem precedentes: permitir que 6 modelos de IA de topo mundial — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — gerissem cada um 10.000 dólares de fundos reais na Hyperliquid, realizando negociações de criptomoedas em conta real.

Classificação atual e valor da conta: até à noite de 30 de outubro, a classificação mais recente é a seguinte:

  • DeepSeek Chat V3.1: $15.671,39 (+56,71%)
  • Qwen3 Max: $12.520,34 (+25,20%)
  • BTC Comprar e Manter: $10.146,69 (+1,47%)
  • Claude Sonnet 4.5: $9.290,97 (-7,09%)
  • Grok 4: $7.030,02 (-29,70%)
  • Gemini 2.5 Pro: $3.446,03 (-65,54%)
  • GPT 5: $2.749,32 (-72,51%)

Estes dados, em comparação com alguns dias atrás, sofreram mudanças dramáticas. Apesar de o DeepSeek ainda liderar, o retorno caiu de 95,71% para 56,71%, o valor da conta desceu de $19.570 para $15.671, evaporando quase $4.000. O Qwen3 também sofreu uma retração, de 53,68% para 25,20%. Ainda mais notável é que o Claude Sonnet 4.5 passou de um estado de pequeno lucro para uma perda de 7%, enquanto o GPT 5 teve uma perda ainda maior, de 72%, estando perto de ser liquidado.

Ler o mercado através da curva: a evolução em três fases

Primeira fase (18-25 de outubro): fase ascendente, início da diferenciação de estratégias

O mercado está numa trajetória de subida, e as diferenças de estratégia entre os modelos começam a aparecer:

  • DeepSeek: sobe rapidamente de $10.000 para $17.000, forte capacidade de captar tendências
  • Qwen3: sobe de forma estável até à faixa de $12.000-15.000
  • Claude/Grok: oscila entre $10.000-12.000
  • Gemini/GPT: já caiu abaixo de $5.000, devido a taxas e decisões erradas, ficou para trás

Segunda fase (26-28 de outubro): subida acelerada, pico atingido

  • DeepSeek: no pico, a 27 de outubro, ultrapassou $23.000, com retorno de 130% em 9 dias. Mantém posições longas em ETH, SOL, usando alavancagem de 10-15x.
  • Qwen3: pico de $17.000, crescimento moderado. Com uma taxa de 82,4% de posições fechadas, escolhe bem o momento para entrar e evitar perseguir o topo.
  • Claude/Grok: oscila entre $11.000-13.000, estratégias contraditórias — quer participar, mas sem decisão firme.
  • Gemini/GPT: sai de cena, com a conta a cair para $3.000-4.000, quase sem hipótese de recuperação.

Terceira fase (29-30 de outubro): retração do mercado, a prova do controlo de risco

  • DeepSeek: queda abrupta: de $23.000 para $15.671, perda de $7.000 em dois dias (-30%). Sem mecanismo de realização de lucros, não realizou lucros no pico. 95,6% de tempo em posições longas, sem cobertura, sem parar perdas a tempo. Apesar da retração de 30%, ainda lidera por $3.000 em relação ao segundo colocado, graças à vantagem inicial sólida.
  • Qwen3: mostra resiliência, de $17.000 para $12.520 (-26%), abaixo do DeepSeek, com uma taxa de 82,4% de posições fechadas, saiu rapidamente, com negociações de curto prazo (média de 9,7 horas), expondo-se pouco ao risco, parando perdas rapidamente, evitando que as perdas se agravem. Não perdeu grandes oportunidades de subida, nem se defendeu eficazmente na descida.
  • BTC Comprar e Manter: estratégia simples vence, conta a $10.146 (+1,47%), ultrapassando Claude e Grok, ficando em terceiro lugar. É irónico: quatro “IA inteligentes”, após centenas de negociações, não conseguem superar a estratégia de “comprar e deixar estar”. Fazer mais negociações não equivale a fazer melhor. Uma estratégia simples evita negociações excessivas e custos elevados.
  • Claude: estratégia conservadora falha, de +0,93% para -7,09% ($10.093 para $9.290). Custos de taxas corroem os lucros, com uma relação de ganhos/perdas baixa (1,34:1). Pequenos lucros, grandes custos. Na retração, troca de posições frequente, acelerando perdas, perdendo grandes movimentos de subida e não defendendo eficazmente na descida.
  • Grok: colapso acelerado, perdas de -8% para -29,7% ($7.030): 90,6% de posições longas, taxa de vitória de apenas 22,7%, com perdas realizadas de $2.449, quase sem capital restante, apoiada por $1.611 de lucros não realizados, pronta a zerar a qualquer momento.
  • Gemini/GPT: luta pela sobrevivência, GPT cai para $2.749 (-72,51%), Gemini para $3.446 (-65,54%). Fracasso total: negociações excessivas, baixa taxa de vitória, má relação de ganhos/perdas, risco elevado com alavancagem.

As questões profundas reveladas pela retração

1. A dualidade de “seguir a tendência”

O sucesso do DeepSeek baseia-se na estratégia de “seguir a tendência”: fazer 95% das negociações em posição longa, acreditando na continuação da tendência. Em mercado de subida, esta estratégia rendeu 95% do máximo retorno. Mas, quando a tendência reverte, a mesma estratégia causa uma perda de 30%.

Revela um problema crucial: **estratégias de seguir a tendência precisam de mecanismos eficazes de realização de lucros e de corte de perdas.** Se apenas “deixar correr os lucros”, sem “cortar as perdas”, uma grande reversão pode aniquilar grande parte do retorno.

DeepSeek pode estar demasiado confiante no valor do “posicionar-se a longo prazo”, ignorando a incerteza do mercado. O seu maior lucro de uma única operação, $7.378, veio de uma negociação ETH de 60 horas, experiência que reforçou a sua crença no “investimento a longo prazo”. Mas o mercado financeiro não é uma via de sentido único; as tendências podem inverter-se a qualquer momento.

2. A importância de manter posições curtas como forma de proteção

Qwen3 demonstra o valor de manter posições curtas. Com 82,4% de posições fechadas, parece que perdeu oportunidades na subida, mas na descida evitou perdas. A retração de 26% contra 32% mostra que, na prática, a gestão de risco com posições curtas protege o capital e a psicologia.

Se a estratégia de Qwen3 tivesse ficado exposta a uma subida de 1000%, teria ganho muito mais. A retenção de capital e a capacidade de reagir rapidamente são vantagens essenciais na gestão de risco.

3. A força de estratégias simples

O desempenho do BTC Comprar e Manter é uma lição para todas as “IA inteligentes”. Sem análise técnica, sem algoritmos complexos, sem negociações frequentes, ocupa o terceiro lugar, superando metade dos modelos de IA.

Este resultado mostra que, no trading, menos erros podem valer mais do que mais acertos. **O Gemini perdeu 66% em 193 negociações, enquanto o BTC Comprar e Manter não fez nenhuma, preservando o capital. Quem é mais bem-sucedido? A resposta é clara.

4. A ausência de gestão de risco

Para além de Qwen3, quase todas as IA revelaram graves deficiências na gestão de risco:

  • DeepSeek: sem mecanismo de realização de lucros, a máxima de 130% foi retraída para 57%
  • Claude: dependência excessiva de uma estratégia de “não fazer short”, sem cobertura
  • Grok: sabendo que a taxa de vitória é de apenas 22,7%, insiste em 90,6% de posições longas
  • GPT: posição em BTC com alavancagem de 40x, preço de liquidação a apenas 1,2% de margem de erro
  • Gemini: sem qualquer controlo de risco, 193 negociações como um jogo de azar

Mostram que, embora estas IA possam “interpretar” dados de mercado e “executar” ordens, ainda estão longe de dominar a gestão de risco, que é o núcleo do trading.

Limitações do experimento: reflexão fria além dos dados

Depois de analisar os dados, é fácil ficarmos fascinados com o retorno de 56% do DeepSeek ou com a perda de 66% do Gemini. Mas, antes de tirar conclusões, devemos reconhecer as limitações sistemáticas do próprio experimento — estas podem ser mais importantes do que os resultados.

1. Janela temporal demasiado curta: 12 dias não revelam a verdade

O experimento decorreu de 18 a 30 de outubro, apenas 12 dias. O que significa 12 dias no mercado de criptomoedas? Talvez apenas o início de um ciclo completo de alta e baixa.

O padrão de subida, pico e retração é uma pequena parte do ciclo, mas pode ser apenas sorte. Se o experimento tivesse começado no topo do mercado, ou numa queda de 30% num só dia, os resultados seriam completamente diferentes.

O retorno de 56% do DeepSeek depende fortemente destes 12 dias. A sua estratégia de 95% de posições longas funciona bem numa subida contínua, mas, numa lateralidade de 3 meses, as taxas e os stop-loss consumiriam o retorno.

Da mesma forma, a taxa de 82% de posições curtas do Qwen3 é vantajosa em mercado de lateralidade, mas numa tendência de alta de 2021, teria ficado para trás. Uma subida de BTC de $10.000 para $100.000, com 80% de posições curtas, significaria apenas um ganho de 20%.

12 dias não são suficientes para validar a eficácia a longo prazo de qualquer estratégia.

2. O mesmo prompt: IA limitadas pelo contexto

Os 6 modelos de IA receberam os mesmos dados de mercado e o mesmo quadro de negociação. É como pedir a 6 gestores de fundos que tomem decisões com o mesmo relatório — o que se testa não é a sua capacidade de análise, mas a disciplina de execução.

Na realidade, o alpha vem do acesso a informações exclusivas. Fundos quantitativos topo de gama têm sistemas de rastreamento on-chain, que detectam transferências de baleias; têm dados de ordens institucionais fora da bolsa, que antecipam movimentos de grandes players.

Neste experimento, as IA viram exatamente a mesma informação. É mais uma competição de execução do que de estratégia inovadora.

Não podemos saber, neste contexto, quem ganharia se lhes fosse fornecido acesso a dados exclusivos, como rastreamento on-chain ou análise de redes sociais.

3. Escala de fundos: um mundo de fantasia com $10.000

Cada IA gere apenas $10.000. No Hyperliquid, é uma escala muito pequena — pode entrar e sair a qualquer momento, sem derrapagem, sem impacto de mercado, sem necessidade de dividir ordens.

Mas, na realidade, gerir $1 milhão e gerir $10.000 são mundos diferentes.

  • Uma alavancagem de 40x em $10.000 é viável, mas, em $1 milhão, uma variação de 3% leva à liquidação instantânea, e as ordens podem afetar o mercado.
  • Estratégias de curto prazo de 9,7 horas funcionam bem com pouco capital, mas, com grandes fundos, os custos de negociação (derrapagem + taxas) tornam-se proibitivos.
  • Estratégias de alta alavancagem, como a do DeepSeek, funcionam com $10.000, mas, com milhões, as posições deixam marcas visíveis no livro de ordens, atraindo a atenção de outros traders.

Este experimento avalia a flexibilidade com fundos pequenos, não a robustez de estratégias escaláveis.

4. Sorte do mercado: sem enfrentar o verdadeiro inferno

Durante o período do experimento, o mercado esteve relativamente calmo, com volatilidade moderada. Não vimos:

  • Colapsos sistémicos, como o da FTX, onde todas as moedas caíram ao mesmo tempo
  • Quedas rápidas de uma moeda, como o colapso de LUNA
  • Falhas de exchanges, como a Binance a ficar offline, impedindo o fecho de posições
  • Escassez extrema de liquidez, com profundidade a desaparecer em horas de baixa

Todos os sistemas de controlo de risco das IA não foram testados sob condições extremas. Essas situações representam os verdadeiros desafios do trading de criptomoedas. Como reagiriam DeepSeek ou Qwen3 numa crise dessas? Não sabemos. A sorte desempenhou um papel maior do que imaginamos nestes 12 dias.

5. Uma única experiência: o acaso

Este é um experimento pontual, sem uma “segunda temporada” para validar estratégias. Não podemos saber:

  • Se o primeiro lugar do DeepSeek é mérito ou sorte
  • Se, ao rodar novamente com diferentes parâmetros, o mesmo modelo manteria a liderança
  • Se, começando em 1 de novembro, os resultados mudariam completamente

Os resultados atuais são como lançar dados: o DeepSeek saiu com o maior número, mas isso não significa que seja o melhor a longo prazo. Pode ser apenas sorte.

Então, como devemos interpretar estas classificações?

Depois de refletir sobre estas limitações, pode perguntar-se: vale a pena esta experiência?

Sim, mas o seu valor não está em “quem ganha”. O verdadeiro valor é que nos mostra:

  1. IA pode fazer negociações reais — um marco importante. Há um ano, discutíamos se IA substituiria traders; agora, ela já faz parte do portfólio real.
  2. Gestão de risco é mais importante que previsão — todas as IA conseguem “interpretar” gráficos, mas poucas controlam riscos. É uma lição antiga de Wall Street.
  3. Simplicidade resiste — a terceira posição do BTC Comprar e Manter lembra-nos que, num mercado incerto, errar menos pode valer mais do que acertar mais.
  4. Estratégias mudam — o que funciona hoje pode ser um erro amanhã. O DeepSeek pode ser ótimo agora, mas amanhã pode ser uma armadilha. O mercado evolui, as estratégias também.

Se, ao ver o DeepSeek em primeiro, pensar em confiar nele ou copiar a sua estratégia, está a cometer um erro grave.

Um campeão de 12 dias não é necessariamente de 12 meses; um de $10.000 não é de $1.000.000; uma fase de mercado não garante a próxima.

Investir nunca tem respostas simples. Esta experiência oferece dados valiosos, mas as suas limitações podem ser ainda mais importantes do que os números.

Este relatório foi organizado por WolfDAO. Para dúvidas ou atualizações, contacte-nos.

Autor: Riffi / WolfDAO

BTC-3%
ETH-5.92%
SOL-8.88%
LUNA-9.42%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)