AI-модельний турнір: глибокий огляд на основі реальної торгівлі на платформі nof1

2025-11-03 03:42:22

18 жовтня AI-дослідницька лабораторія nof1, що спеціалізується на фінансових ринках, ініціювала безпрецедентний експеримент: шість топових світових AI-моделей — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — отримали по $10,000 реальних коштів на Hyperliquid для самостійного управління та Портфоліо криптовалютами.

Поточний рейтинг та вартість акаунтів: станом на вечір 30 жовтня, останній рейтинг виглядає так:

DeepSeek Chat V3.1: $15,671.39 (+56.71%)
Qwen3 Max: $12,520.34 (+25.20%)
BTC Buy & Hold: $10,146.69 (+1.47%)
Claude Sonnet 4.5: $9,290.97 (–7.09%)
Grok 4: $7,030.02 (–29.70%)
Gemini 2.5 Pro: $3,446.03 (–65.54%)
GPT 5: $2,749.32 (–72.51%)

Порівняно з даними кілька днів тому, рейтинг зазнав драматичних змін. DeepSeek хоч і лідирує, але Прибутковість впала з 95.71% до 56.71%, а вартість акаунту з $19,570 до $15,671 — майже $4,000 зникло. Qwen3 також пережив відкат: з 53.68% до 25.20%. Ще цікавіше, Claude Sonnet 4.5 перейшов з невеликого прибутку до Втрати 7%, а GPT 5 поглибив Втрату до 72% — до Ліквідуватися вже недалеко.

Читаємо ринок по кривій: три етапи еволюції

Перший етап (18–25 жовтня): Підйомі, початок розбіжності стратегій

Ринок був у Підйомі, і різниця стратегій моделей почала проявлятися:

DeepSeek: швидко з $10,000 до $17,000, сильне вміння ловити тренд
Qwen3: стабільно зростає до $12,000–15,000
Claude/Grok: коливаються в межах $10,000–12,000
Gemini/GPT: вже нижче $5,000, Торгова комісія та помилкові рішення відкинули назад

Другий етап (26–28 жовтня): прискорення пампу, пік

DeepSeek на піку: 27 жовтня пробив $23,000, за 9 днів +130%. Тримав багато лонг позиції по ETH, SOL, використовував 10–15x плече.
Qwen3 стриманий: пік $17,000, Зростання % помірне. 82.4% часу в Шорт-позиція — обирає моменти, уникає гнатися за ціною.
Claude/Grok коливаються: $11,000–13,000, стратегія суперечлива — хочуть брати участь, але не вистачає рішучості.
Gemini/GPT вибули: акаунти впали до $3,000–4,000, шансів на відновлення майже немає.

Третій етап (29–30 жовтня): відкат, Контроль ризиків у дії

DeepSeek: різкий відкат: з $23,000 до $15,671, за два дні –$7,000 (–30%): відсутність механізму фіксації прибутку, не закрив позиції на піку. 95.6% часу в лонг позиції, без хеджування, не закрив збитки вчасно. Попри 30% відкат, все ще лідирує на $3,000, запас міцності зберігся.
Qwen3: показав стійкість, з $17,000 до $12,520 (–26%), менше ніж DeepSeek, 82.4% часу в Шорт-позиція, швидко закриває позиції, Короткостроковий Торгівля (в середньому 9.7 год.), короткий час експозиції, швидко фіксує збитки, не дає їм рости.
BTC Buy & Hold: перемога простої стратегії — акаунт $10,146 (+1.47%), обійшов Claude і Grok, третє місце. Іронія: чотири “розумних” AI після сотень Торгівля поступилися “купив і тримай”, більше дій ≠ кращий результат, проста стратегія уникла надмірної Торгівля та високих витрат.
Claude: обережна стратегія не спрацювала — з +0.93% до –7.09% ($10,093→$9,290). Торгова комісія сильно з’їла прибуток, Прибуток/збиток (PNL) низький (1.34:1), дрібний прибуток — великі витрати, під час відкату часті перебудови лише прискорили Втрату, на пампі пропустив рух, на дампі не захистився.
Grok: прискорене падіння — Втрата з –8% до –29.7% ($7,030): 90.6% часу в лонг позиції, але Коефіцієнт виграшу лише 22.7%, вже зафіксовано Втрату –$2,449, Основна сума майже вичерпана, тримається на $1,611 нереалізованого прибутку, ризик Ліквідуватися будь-якої миті.
Gemini/GPT: агонія — GPT впав до $2,749 (–72.51%), Gemini $3,446 (–65.54%). Провал по всіх фронтах: надмірна Торгівля, низький Коефіцієнт виграшу, поганий Прибуток/збиток (PNL), високий ризик плече.

Глибші проблеми, які показав відкат

1. Дві сторони “Працювати за трендом”

Успіх DeepSeek базується на “Працювати за трендом”: 95% часу в лонг позиції, віра в продовження тренду. На Підйомі це принесло 95% максимального прибутку. Але коли тренд розвернувся, та сама стратегія принесла 30% Втрати.

Це показує ключову проблему: стратегія слідування за трендом потребує ефективних механізмів фіксації прибутку та обмеження збитків. Якщо є лише “дати прибутку рости”, але немає “обрізати збитки”, один великий розворот може з’їсти більшість прибутку.

DeepSeek, ймовірно, надто вірить у цінність “довгострокового тримання”, ігноруючи невизначеність ринку. Його найбільший разовий прибуток $7,378 — це 60-годинна угода по ETH, і цей досвід міг підсилити віру в “довгостроковість”. Але фінансовий ринок — не односторонній рух, тренд може розвернутися будь-коли.

2. Шорт-позиція — це і мудрість, і захист

Qwen3 наочно довів цінність Шорт-позиція. 82.4% часу в Шорт-позиція на Підйомі виглядало як “втрата можливостей”, але на відкаті це стало “уникненням Втрати”.

Відкат 26% проти 32% — здається, різниця лише 6 пунктів, але з ефектом складних відсотків ця різниця зростає. Ще важливіше: Qwen3 зберіг більше Основна сума і психологічну перевагу — коли ринок стабілізується, він може швидко Створити позицію знову. А DeepSeek, якщо відкат продовжиться, може потрапити в “плаваючий збиток — сумніви — пропуск Віддача”.

3. Життєздатність простих стратегій

Результат BTC Buy & Hold — ляпас усім “розумним” AI. Жодного технічного аналізу, жодних складних Алгоритм, жодної частих перебудов — і зараз третє місце, обігнав половину AI-моделей.

Цей результат показує: у Торгівля важливіше менше помилятися, ніж більше вгадувати. Gemini зробив 193 Торгівля і втратив 66%, BTC Buy & Hold не зробив жодної Торгівля і зберіг Основна сума. Хто успішніший? Відповідь очевидна.

4. Відсутність Контроль ризиків

Окрім Qwen3, майже всі AI показали серйозні проблеми з Контроль ризиків:

DeepSeek: відсутній механізм фіксації прибутку, 130% пікового прибутку скоротилися до 57%
Claude: надмірна віра в “не шортити”, відсутність хеджування
Grok: знаючи Коефіцієнт виграшу лише 22.7%, все одно 90.6% часу в лонг позиції
GPT: 40x плече по BTC, ціна ліквідації — лише 1.2% запасу
Gemini: повна відсутність Контроль ризиків, 193 Торгівля — як гра в казино

Це доводить: AI можуть “читати” ринкові дані, “виконувати” Торгівля, але в головному — Контроль ризиків — вони ще дуже далекі від зрілості.

Обмеження експерименту: тверезий погляд поза даними

Після аналізу легко захопитися 56% Прибутковість DeepSeek чи 66% Втрата Gemini. Але перш ніж робити висновки, треба чесно визнати системні обмеження експерименту — вони можуть бути важливішими за самі результати.

1. Занадто коротке вікно: 12 днів не дають повної картини

Експеримент тривав з 18 по 30 жовтня — лише 12 днів. Що таке 12 днів для крипторинку? Можливо, лише крихта від повного циклу булран/ведмежий ринок.

Ми побачили “памп — пік — відкат” — повний міні-цикл, але це більше схоже на удачу. Якби експеримент почався на піку ринку чи під час “519-стилю” дампу на 30% за день, рейтинг міг би бути протилежним.

56% Прибутковість DeepSeek, ймовірно, сильно залежить від особливостей цих 12 днів. Його 95% лонг позиції — король на односторонньому пампі, але якщо три місяці Бічний ринок, Торгова комісія та часті стоп-лоси з’їдять усе.

Так само, 82% Шорт-позиція Qwen3 — перевага на Бічний ринок, але на булрані 2021 року він би програв усім. Якщо BTC з $10,000 до $100,000, а ти 80% часу в Шорт-позиція — заробиш лише 20% пампу.

12 днів — замало, щоб довести довгострокову ефективність будь-якої стратегії.

2. Однаковий Prompt: AI були “зв’язані по руках”

Всі 6 AI отримували однакові ринкові дані та фреймворк Торгівля. Це як дати шістьом керуючим фондами одну й ту ж аналітику — тестується не їхня здатність до досліджень, а дисципліна виконання.

У реальному світі альфа — це інформаційна асиметрія. Топові квант-фонди мають ексклюзивні системи відстеження китів, бачать великі позабіржові ордери, відчувають рухи інституцій.

Але тут AI бачили однакову інформацію. Це радше “змагання виконання”, а не “змагання стратегій”.

Ми не можемо судити, хто був би кращим, якби DeepSeek мав ексклюзивні ончейн-дані, а Gemini — унікальний аналіз Twitter-емоцій.

3. Нереалістичний розмір коштів: $10,000 — казковий світ

Кожен AI керував лише $10,000. На Hyperliquid це мікро-капітал — можна входити/виходити коли завгодно, Прослизання ігнорується, Ліквідність не проблема, розбивати великі ордери не треба.

Але у реальному квант-Торгівля $10 млн і $10,000 — різні світи.

40x плече GPT на $10,000 ще можливо, але $10 млн × 40 = $400 млн експозиції — будь-який 3% Зворотний рух — і Ліквідуватися, а твій ордер сам обвалить ринок.
Короткостроковий стратегія Qwen3 (9.7 год.) ефективна на малих коштах, але на великих — кожен вхід/вихід (Прослизання + Торгова комісія) знищить стратегію. Відкриваючи позицію — піднімаєш ціну, закриваючи — опускаєш, у підсумку просто “даруєш” ринку гроші.
Високоплечова трендова стратегія DeepSeek на $10,000 дозволяє швидко входити/виходити, але на $1 млн твій ордер залишить слід у глибинах Hyperliquid, і трейдери почнуть грати проти тебе.

Тут тестувалася “гнучкість малого капіталу”, а не “стійкість масштабованої стратегії”.

4. Вдале ринкове середовище: не було справжнього “пекла”

Під час експерименту ринок був відносно спокійний, Волатильність середня. Ми не побачили:

Системний крах: як FTX, коли всі монети падають разом, Ліквідність зникає миттєво
Флеш-крах однієї монети: як LUNA, коли за год. з $80 до $0.0001
Збій біржі: як 1011 Binance, коли є позиція, а закрити не можна — Ліквідуватися на очах
Екстремальна відсутність Ліквідність: глибока ніч на вихідних, стоп-лос спрацьовує з Прослизанням 20%

Жодна система Контроль ризиків AI не пройшла справжній стрес-тест, а саме це — головний виклик для криптотрейдера. Як спрацює стоп-лос DeepSeek, якщо “безперервний дамп — неможливо закрити”? Невідомо. Чи ефективний швидкий вихід Qwen3, якщо біржа зависне? Теж невідомо.

Удача за 12 днів могла зіграти більшу роль, ніж здається.

5. Випадковість одного експерименту: немає “другого сезону”

Це разовий експеримент, немає “другого сезону” для перевірки стабільності стратегії. Ми не знаємо:

Чи лідерство DeepSeek — це реальна майстерність чи просто удача?
Якщо перемішати параметри стратегій 6 AI і запустити знову — чи буде DeepSeek першим?
Якщо почати з 1 листопада наступні 12 днів — чи не буде рейтинг протилежним?

Поточний результат — як кидок кубика шістьма людьми, і DeepSeek випав найбільший бал. Але це не означає, що його кубик кращий — можливо, просто пощастило.

Як же нам сприймати ці рейтинги?

Після всіх обмежень може виникнути питання: чи має сенс цей експеримент?

Так, але не в тому, “хто чемпіон”. Справжня цінність експерименту:

AI вже може Портфоліо реальними коштами — це рубіж. Ще рік тому ми лише обговорювали, чи замінить AI трейдерів, а зараз AI вже показав результат на реальному ринку.
Контроль ризиків важливіший за прогнози — всі AI “читають” графіки, але лише одиниці контролюють ризики. Це підтверджує стару мудрість Wall Street.
Стійкість простих стратегій — третє місце BTC Buy & Hold нагадує: на невизначеному ринку менше помилок може бути цінніше, ніж більше вірних рішень.
Не існує вічно кращої стратегії — сьогоднішня перевага DeepSeek завтра може стати пасткою. Ринок змінюється — змінюється і оптимальна стратегія.

Але якщо ви, побачивши DeepSeek на першому місці, вирішите віддати йому свої гроші чи скопіювати його стратегію — це велика помилка.

Чемпіон за 12 днів — не чемпіон за 12 місяців; чемпіон на $10,000 — не чемпіон на $1,000,000; чемпіон цього ринку — не чемпіон наступного.

В інвестуванні немає простих відповідей. Експеримент дав цінні дані, але обмеження цих даних — ще важливіші для роздумів.

Дані для цього звіту зібрані та оформлені WolfDAO, з питаннями звертайтеся для оновлення;

Автор: Riffi / WolfDAO( X : @10xWolfdao )

BTC-2.73%

ETH-4.26%

SOL-5.38%

LUNA-7.33%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.