AI modeli Yarışması: nof1 gerçek portföy yarışmasına dayalı derinlemesine analiz

2025-11-03 03:42:22

18 Ekim’de, finansal piyasalara odaklanan yapay zeka araştırma laboratuvarı nof1, eşi benzeri görülmemiş bir deneye imza attı: 6 dünya çapında üst düzey yapay zeka modeli—GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max—Hyperliquid üzerinde her biri 10.000 dolar gerçek fon ile kripto para Portföy trade’i gerçekleştirdi.

Güncel sıralama ve hesap değeri: 30 Ekim akşamı itibarıyla en son sıralama şöyle:

DeepSeek Chat V3.1: $15.671,39 (+%56,71)
Qwen3 Max: $12.520,34 (+%25,20)
BTC Buy & Hold: $10.146,69 (+%1,47)
Claude Sonnet 4.5: $9.290,97 (-%7,09)
Grok 4: $7.030,02 (-%29,70)
Gemini 2.5 Pro: $3.446,03 (-%65,54)
GPT 5: $2.749,32 (-%72,51)

Bu liste birkaç gün önceki verilere göre dramatik şekilde değişti. DeepSeek hâlâ lider olsa da, Getiri oranı %95,71’den %56,71’e sert şekilde geri çekildi, hesap değeri $19.570’ten $15.671’e düştü, yaklaşık $4.000 buharlaştı. Qwen3 de benzer şekilde geri çekildi, %53,68’den %25,20’ye indi. Daha da dikkat çekici olan, Claude Sonnet 4.5’in hafif kâr durumundan %7 Zarar’a dönmesi ve GPT 5’in Zarar’ının %72’ye kadar büyüyerek Tasfiye Ol’a yaklaşması.

Eğrilerden Market’i Okumak: Üç Aşamanın Evrimi

Birinci Aşama (18-25 Ekim): Yükseliş Dönemi, Strateji Farkları Belirginleşiyor

Market yükselis kanalında, farklı modellerin strateji farkları ortaya çıkmaya başladı:

DeepSeek: Hızla $10.000’den $17.000’ye yükseldi, trend yakalama yeteneği güçlü
Qwen3: istikrarlı şekilde $12.000-$15.000 aralığına çıktı
Claude/Grok: $10.000-$12.000 arasında dalgalandı
Gemini/GPT: $5.000’in altına düştü, İşlem komisyonu ve hatalı kararlar geride bıraktı

İkinci Aşama (26-28 Ekim): Hızlı Yükseliş, Zirve Görüldü

DeepSeek zirveye çıktı: 27 Ekim’de $23.000’i aştı, 9 günde %130 Getiri. Yüklü ETH, SOL long pozisyonlar, 10-15x kaldıraç Kullanım.
Qwen3 temkinli: Zirve $17.000, artış ılımlı. %82,4 Short Pozisyon oranı ile seçici zamanlama, fiyatı takip etten kaçındı.
Claude/Grok kararsız: $11.000-$13.000 arası dalgalandı, strateji çelişkili—katılmak istiyor ama yeterince kararlı değil.
Gemini/GPT elendi: Hesap $3.000-$4.000’e düştü, neredeyse geri dönüş şansı kalmadı.

Üçüncü Aşama (29-30 Ekim): Market geri çekme, Risk Kontrolü sınavı

DeepSeek: Uçurum gibi geri çekme: $23.000’den $15.671’e, iki günde $7.000 kayıp (-%30): Kâr alma mekanizması yok, zirvede kârı realize etmedi. %95,6 long pozisyon süresi, hedge yok, zamanında stop loss yok. %30 geri çekme yaşasa da, ikinciye $3.000 farkla lider, erken avantajı yeterli.
Qwen3: Dayanıklılık gösterdi, $17.000’den $12.520’ye geri çekme (-%26), DeepSeek’ten düşük, %82,4 Short Pozisyon oranı, hızlı kapalı pozisyon, Kısa vadeli trade (ortalama 9,7 saat), maruz kalma süresi kısa, hızlı stop loss, Zarar büyümeden durdurdu.
BTC Buy & Hold: Basit stratejinin zaferi, hesap $10.146 (+%1,47), Claude ve Grok’u geçti, üçüncü sırada. Tam bir ironi: Dört “akıllı” yapay zeka yüzlerce trade yaptı, ama “aldım, yattım” stratejisi kadar iyi olamadı, çok yapmak ≠ iyi yapmak, basit strateji aşırı trade ve yüksek maliyetten kaçındı.
Claude: Temkinli strateji başarısız, +%0,93’ten -%7,09’a ($10.093→$9.290). İşlem komisyonu ciddi şekilde eritti, Kar/Zarar (PNL) oranı düşük (1,34:1), küçük kâr büyük maliyet, geri çekme sırasında sık pozisyon değişimi Zarar’ı hızlandırdı, pump kaçırıldı, düşüşte savunma yetersiz.
Grok: Hızlı çöküş, Zarar -%8’den -%29,7’ye ($7.030): %90,6 long pozisyon ama Kazanma Oranı sadece %22,7, gerçekleşen Zarar -$2.449, Anapara neredeyse bitti, $1.611 gerçekleşmemiş kâr ile ayakta, her an sıfırlanabilir.
Gemini/GPT: Can çekişiyor, GPT $2.749’a (-%72,51), Gemini $3.446’ya (-%65,54) düştü. Başarısızlık her yönden: aşırı trade, düşük Kazanma Oranı, kötü Kar/Zarar (PNL) oranı, yüksek kaldıraç riski.

Düşüş ve geri çekme derin sorunları ortaya çıkardı

1. “Trende Uyum”un İki Yüzü

DeepSeek’in başarısı “trende uyum”a dayanıyor: %95 zaman long pozisyon, trendin süreceğine inanıyor. Yükseliş trendinde bu stratejiyle %95’e kadar maksimum Getiri elde etti. Ama trend tersine döndüğünde, aynı stratejiyle %30 kayıp yaşadı.

Bu kritik bir sorunu ortaya koyuyor: Trend takip stratejisi, etkili kâr alma ve stop loss mekanizması ile birlikte olmalı. Sadece “kârı koşturmak” varsa, “Zarar’ı kesmek” yoksa, büyük bir ters hareket çoğu kârı silebilir.

DeepSeek muhtemelen “uzun vadeli pozisyon”un değerine fazla güvendi, Market’in belirsizliğini göz ardı etti. En büyük tek işlem kârı $7.378, 60 saatlik bir ETH trade’inden geldi, bu başarı “uzun vadecilik” inancını güçlendirmiş olabilir. Ama finansal Market tek yönlü değildir, trend her an dönebilir.

2. Short Pozisyon bir zekâ ve koruma biçimi

Qwen3, Short Pozisyon’un değerini pratikte gösterdi. %82,4 Short Pozisyon süresi yükseliş döneminde “fırsat kaçırmak” gibi görünse de, düşüşte “Zarar’dan kaçınmak” oldu.

Geri çekme %26 vs %32, sadece 6 puan fark gibi görünse de, bileşik etkiyle bu fark giderek büyür. Daha da önemlisi, Qwen3 daha fazla Anapara ve psikolojik avantaj korudu, Market dengelenince hızla yeni pozisyon açabilir. DeepSeek ise geri çekme devam ederse “yüzen kayıp-kararsızlık-ribaund kaçırma” döngüsüne girebilir.

3. Basit stratejinin canlılığı

BTC Buy & Hold’un performansı tüm “akıllı” yapay zekalara tokat gibi. Bu strateji teknik analiz yok, karmaşık Algoritma yok, sık pozisyon değişimi yok, ama şu anda üçüncü sırada, yarısından fazlasını geçti.

Bu sonuç şunu gösteriyor: Trade’de, az hata yapmak çok doğru yapmaktan daha önemli. Gemini 193 trade ile %66 kaybetti, BTC Buy & Hold sıfır trade ile Anapara’yı korudu. Hangisi daha başarılı? Cevap açık.

4. Risk Kontrolü eksikliği

Qwen3 dışında, neredeyse tüm yapay zekalar Risk Kontrolü konusunda ciddi eksiklikler gösterdi:

DeepSeek: Kâr alma mekanizması yok, %130 zirve Getiri %57’ye düştü
Claude: “Short Pozisyon yapmama”ya aşırı bağımlı, hedge yok
Grok: Kazanma Oranı sadece %22,7 olduğunu bilse de %90,6 long pozisyon ısrarı
GPT: BTC’de 40x kaldıraç, tasfiye fiyatı sadece %1,2 tolerans
Gemini: Risk Kontrolü tamamen yok, 193 trade adeta kumar gibi

Bu gösteriyor ki, bu yapay zekalar Market verisini “okuyabiliyor”, trade emrini “uygulayabiliyor”, ama Risk Kontrolü gibi trade’in çekirdek yeteneğinde henüz olgun değiller.

Deneyin Sınırlamaları: Verinin Ötesinde Soğukkanlı Düşünce

Veri ve analizleri gördükten sonra, DeepSeek’in %56 Getiri’si veya Gemini’nin %66 Zarar’ı kolayca dikkat çekebilir. Ama herhangi bir sonuca varmadan önce, bu deneyin sistemik sınırlamalarını görmeliyiz—bu sınırlamalar belki sonuçtan daha önemli.

1. Zaman aralığı çok kısa: 12 gün gerçeği göstermez

Bu deney 18-30 Ekim arası, sadece 12 gün sürdü. Kripto Market’te 12 gün ne demek? Belki tam bir boğa koşusu ve ayı döngüsünün küçük bir parçası.

Gördüğümüz “yükseliş-zirve-geri çekme” tam bir küçük döngü, ama bu daha çok şans. Deney Market zirvesinde başlasaydı veya “519 tarzı” bir günde %30 büyük düşüş olsaydı, sıralama tamamen ters olabilirdi.

DeepSeek’in %56 Getiri’si muhtemelen bu 12 günün Market karakterine çok bağlı. %95 long pozisyon stratejisi tek yönlü yükselişte kral, ama 3 ay Taraf olsa, bu strateji İşlem komisyonu ve tekrar tekrar stop loss ile eriyebilir.

Aynı şekilde, Qwen3’ün %82 Short Pozisyon oranı Taraf Market’te avantaj, ama 2021’deki gibi çılgın boğa koşusunda çok geride kalır. $10.000’den $100.000’e çıkan bir BTC boğa koşusunda, %80 Short Pozisyon ile sadece %20 yükselişten faydalanırsınız.

12 günlük veri, hiçbir stratejinin uzun vadeli geçerliliğini kanıtlamaz.

2. Aynı Prompt: Yapay zekalar elleri bağlı oynadı

Tüm 6 yapay zeka modeli aynı Market verisi ve trade komut çerçevesi aldı. Bu, 6 fon yöneticisine aynı raporu verip karar aldırmak gibi—test edilen araştırma yeteneği değil, uygulama disiplini.

Gerçek trade dünyasında, Alpha bilgi asimetrisinden gelir. En iyi kuant fonlar özel zincir üstü takip sistemine sahip, balina transferlerini görebilir; OTC büyük emir akış verisiyle kurumsal hareketi önceden hissedebilir.

Ama bu deneyde, yapay zekalar tamamen aynı bilgiyi gördü. Bu daha çok “uygulama yarışı”, “strateji inovasyonu” değil.

Bu deneyden şunu anlayamayız: DeepSeek’e özel zincir üstü veri, Gemini’ye özel Twitter duygu analizi verilse, kim gerçek kazanan olurdu?

3. Fon büyüklüğü yanıltıcı: $10.000’lik masal dünyası

Her yapay zeka sadece $10.000 Anapara yönetti. Hyperliquid’de bu ultra küçük fon—her an girip çıkabilirsiniz, Slipaj yok sayılır, Likidite etkisi yok, büyük emir bölmeye gerek yok.

Ama gerçek kuant trade dünyasında, $10 milyon yönetmek ile $10.000 yönetmek bambaşka.

GPT’nin 40x kaldıraç $10.000’de zor da olsa mümkün, ama $10 milyon × 40x = $400 milyon açık pozisyon, %3 Ters hareketle direkt Tasfiye Ol, üstelik kendi emriniz Market’i çökertir.
Qwen3’ün 9,7 saatlik Kısa vadeli stratejisi küçük fonla esnek ve verimli, ama büyük fonla her giriş-çıkış maliyeti (Slipaj + İşlem komisyonu) bu stratejiyi tamamen bozar. Açık pozisyon fiyatı yükseltir, kapalı pozisyon fiyatı düşürür, sonunda Market’e para dağıtmış olursunuz.
DeepSeek’in yüksek kaldıraç trend stratejisi $10.000’de hızlı gir-çık yapabilir, ama $1 milyon yönetirken, Hyperliquid derinliğinde pozisyonunuz iz bırakır, diğer trader’lar ters işlem açar.

Bu deney “küçük fonun esnekliğini” test ediyor, “ölçeklenebilir stratejinin sağlamlığını” değil.

4. Market ortamı şanslıydı: Gerçek cehennem yaşanmadı

Deney süresince Market nispeten sakin, Volatilite orta seviyede. Şunları görmedik:

Sistemik çöküş: FTX iflası gibi, tüm coin’ler birlikte düşer, Likidite anında kurur
Tek coin büyük düşüş: LUNA sıfırlanması gibi, bir saatte $80’den $0.0001’e iner
Borsa arızası: Binance’in 1011 çöküşü gibi, pozisyonunuz var ama kapatamıyorsunuz, Tasfiye Ol’u izliyorsunuz
Aşırı Likidite kuruması: Hafta sonu gece derinlik aniden düşer, stop loss emriniz %20 Slipaj ile gerçekleşir

Tüm yapay zekaların Risk Kontrolü sistemi aşırı stres testinden geçmedi, oysa kripto trader’larının gerçek sınavı bunlar. DeepSeek’in stop loss mekanizması “ardışık düşüşte emir gerçekleşmezse” ne olur? Bilmiyoruz. Qwen3’ün hızlı kapalı pozisyonu borsa çökünce işe yarar mı? O da belirsiz.

Şans, 12 günlük deneyde tahminimizden çok daha büyük rol oynayabilir.

5. Tek seferlik deney: İkinci sezon yok, doğrulama yok

Bu tek seferlik bir deney, “ikinci sezon” ile strateji istikrarı test edilmedi. Şunları bilemeyiz:

DeepSeek’in liderliği gerçek yetenek mi, rastgele şans mı?
6 yapay zekanın strateji parametreleri karıştırılıp tekrar çalıştırılsa, DeepSeek yine birinci olur mu?
1 Kasım’dan başlayan yeni 12 gün olsa, sıralama tamamen tersine döner mi?

Şu anki sonuç, 6 kişinin zar atması gibi, DeepSeek en büyük sayıyı attı. Ama bu onun zarı daha iyi demek değil, belki sadece şansı daha iyi.

Peki, bu sıralamaları nasıl değerlendirmeliyiz?

Tüm bu sınırlamaları gördükten sonra, “bu deneyin anlamı var mı?” diye sorabilirsiniz.

Var, ama anlamı “kim şampiyon”da değil. Deneyin gerçek değeri şunları görmemizi sağladı:

Yapay zeka gerçek trade yapabiliyor—bu başlı başına bir kilometre taşı. Bir yıl önce “yapay zeka trader’ı geçer mi?” tartışılıyordu, şimdi yapay zeka Portföy’de sonuç verdi.
Risk Kontrolü, tahminden daha önemli—tüm yapay zekalar K-line’ı “okuyabiliyor”, ama sadece birkaçı riski yönetebiliyor. Bu Wall Street’in kadim bilgeliğini doğruluyor.
Basit stratejinin dayanıklılığı—BTC Buy & Hold’un üçüncülüğü, belirsiz Market’te az hata yapmanın çok doğru yapmaktan daha değerli olabileceğini hatırlatıyor.
Stratejinin kalıcı üstünlüğü yok—DeepSeek’in bugünkü avantajı yarının tuzağı olabilir. Market ortamı değişirse, en iyi strateji de değişir.

Ama DeepSeek birinci diye, kendi paranızı ona teslim etmeye veya stratejisini kopyalamaya kalkarsanız, büyük hata yaparsınız.

12 günlük şampiyon, 12 aylık şampiyon demek değildir; $10.000’lik şampiyon, $1.000.000’luk şampiyon değildir; bu dönemin şampiyonu, sonraki dönemin şampiyonu değildir.

Yatırımda asla kolay cevap yok. Bu deney bize değerli veri sundu, ama verinin ardındaki sınırlamalar, verinin kendisinden daha fazla düşünmeye değer.

Bu rapordaki veriler WolfDAO tarafından düzenlenmiştir, sorularınız varsa güncelleme için bizimle iletişime geçebilirsiniz;

Yazan: Riffi / WolfDAO( X : @10xWolfdao )

BTC-3%

ETH-5.92%

SOL-8.88%

LUNA-9.42%

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.