Искусственный интеллект модельное соревнование: глубокий анализ на основе соревнования по реальной торговле на платформе nof1

2025-11-03 03:42:22

18 октября AI-исследовательская лаборатория nof1, специализирующаяся на финансовых рынках, запустила беспрецедентный эксперимент: 6 ведущих мировых AI-моделей — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — получили по $10,000 реальных средств на Hyperliquid для самостоятельной шифрованной Портфолио.

Текущий рейтинг и стоимость счетов: по состоянию на вечер 30 октября, актуальные результаты:

DeepSeek Chat V3.1: $15,671.39 (+56.71%)
Qwen3 Max: $12,520.34 (+25.20%)
BTC Buy & Hold: $10,146.69 (+1.47%)
Claude Sonnet 4.5: $9,290.97 (-7.09%)
Grok 4: $7,030.02 (-29.70%)
Gemini 2.5 Pro: $3,446.03 (-65.54%)
GPT 5: $2,749.32 (-72.51%)

Сравнивая с данными нескольких дней назад, рейтинг изменился драматически. DeepSeek хоть и лидирует, но Доходность снизилась с 95.71% до 56.71%, счет упал с $19,570 до $15,671 — почти $4,000 испарились. Qwen3 также испытал откат: с 53.68% до 25.20%. Особенно примечательно, что Claude Sonnet 4.5 из небольшой прибыли ушёл в Потери 7%, а Потери GPT 5 увеличились до 72% — близко к Получить ликвидацию.

Чтение рынка по кривым: три этапа эволюции

Этап первый (18–25 октября): период пампа, первые различия в стратегиях

Торговая площадка находилась в канале Подъема, стратегии моделей начали различаться:

DeepSeek: быстрый рост с $10,000 до $17,000, отличная способность ловить тренд
Qwen3: стабильный рост до диапазона $12,000–15,000
Claude/Grok: колебания в пределах $10,000–12,000
Gemini/GPT: уже ниже $5,000, Комиссия за Торговлю и ошибочные решения выбили из гонки

Этап второй (26–28 октября): ускоренный памп, пик

DeepSeek на вершине: 27 октября пробил $23,000, за 9 дней +130%. Держал много ETH, SOL позиции в лонг, Использовал 10–15x плечо.
Qwen3 сдержан: пик $17,000, умеренный Рост %. 82.4% Позиция в Шорт — выборочные сделки, избегал гнаться за ценой.
Claude/Grok метались: $11,000–13,000, противоречивые стратегии — хотели участвовать, но не решались.
Gemini/GPT выбыли: счета $3,000–4,000, шансов на Отдача почти нет.

Этап третий (29–30 октября): откат, Контроль рисков на практике

DeepSeek: резкий откат: с $23,000 до $15,671, за два дня минус $7,000 (-30%): нет механизма фиксации прибыли, на пике не закрывал позиции. 95.6% времени в позиции в лонг, без хеджирования, не закрыл убытки вовремя. Несмотря на откат 30%, всё ещё опережает второго на $3,000 — запас прочности сработал.
Qwen3: проявил стойкость, с $17,000 до $12,520 (-26%), ниже DeepSeek, 82.4% Позиция в Шорт, быстро закрывал позиции, Краткосрочный трейдинг (среднее 9.7 ч.), короткое время экспозиции, быстрая фиксация Потери, не дал им разрастись.
BTC Buy & Hold: победа простой стратегии — счет $10,146 (+1.47%), выше Claude и Grok, третье место. Ирония: четыре “умных” AI после сотен Торговля уступили “купил и забыл” — делать больше ≠ делать лучше, простота уберегла от избыточной Торговля и высоких затрат.
Claude: консервативная стратегия не сработала — с +0.93% до -7.09% ($10,093→$9,290). Комиссия за Торговлю сильно съела результат, Прибыль/убыток (PNL) низкий (1.34:1), маленькая прибыль — большие расходы, частые перебалансировки при откате ускорили Потери, на пампе пропустил движение, на падении не защитился.
Grok: ускоренное падение — Потери с -8% до -29.7% ($7,030): 90.6% времени в позиции в лонг, но Винрейт всего 22.7%, реализованные Потери -$2,449, почти нет Основная сумма, держится на $1,611 нереализованной прибыли, близок к нулю.
Gemini/GPT: агония — GPT до $2,749 (-72.51%), Gemini $3,446 (-65.54%). Провал по всем фронтам: избыточная Торговля, низкий Винрейт, плохой Прибыль/убыток (PNL), высокий риск плеча.

Откат выявил глубинные проблемы

1. Двойственность “следования тренду”

Успех DeepSeek основан на “следовании тренду”: 95% времени в позиции в лонг, ставка на продолжение движения. В фазе Подъема стратегия принесла 95% максимальной Доходности. Но при развороте тренда та же стратегия привела к Потери 30%.

Это выявляет ключевую проблему: стратегии следования тренду требуют эффективных механизмов фиксации прибыли и ограничения Потери. Если только “давать прибыли расти”, но не “обрезать убытки”, один большой разворот может съесть почти всю прибыль.

DeepSeek, возможно, слишком верит в “долгосрочное держание”, игнорируя неопределённость рынка. Его максимальная прибыль $7,378 — одна сделка ETH, удержанная 60 ч., этот успех мог укрепить веру в “долгосрочность”. Но финансовый рынок — не одностороннее движение, тренд может развернуться в любой момент.

2. Позиция в Шорт — это и мудрость, и защита

Qwen3 на практике доказал ценность Позиция в Шорт. 82.4% времени вне рынка — на Подъеме кажется “упущенной возможностью”, но при падении — “избежанными Потери”.

Откат 26% против 32% — разница всего 6 п.п., но с учетом сложного процента она будет расти. Важно, что Qwen3 сохранил больше Основная сумма и психологического преимущества — при стабилизации рынка он может быстро открыть позицию. А DeepSeek при дальнейшем откате рискует попасть в цикл “плавающий убыток — нерешительность — упущенный Отдача”.

3. Жизнеспособность простых стратегий

Результат BTC Buy & Hold — пощёчина всем “умным” AI. Нет технического анализа, сложных Алгоритм, перебалансировок — но третье место, выше половины моделей.

Вывод: в Торговля важнее меньше ошибаться, чем больше угадывать. Gemini за 193 сделки потерял 66%, BTC Buy & Hold без единой сделки сохранил Основная сумма. Кто успешнее? Ответ очевиден.

4. Недостаток Контроль рисков

Кроме Qwen3, почти все AI показали серьёзные пробелы в Контроль рисков:

DeepSeek: нет механизма фиксации прибыли, 130% Доходность откатилась до 57%
Claude: чрезмерная вера в “только лонг”, нет хеджирования
Grok: при Винрейт 22.7% — 90.6% времени в позиции в лонг
GPT: 40x плечо на BTC, запас по ликвидации всего 1.2%
Gemini: вообще нет Контроль рисков, 193 сделки — как азартная игра

Это показывает: AI умеют “читать” рыночные данные, “исполнять” Торговля, но по ключевому навыку — Контроль рисков — им ещё далеко до зрелости.

Ограничения эксперимента: трезвый взгляд за пределами данных

После анализа легко увлечься Доходностью DeepSeek 56% или Потери Gemini 66%. Но прежде чем делать выводы, важно признать системные ограничения эксперимента — они могут быть важнее результата.

1. Слишком короткое окно: 12 дней не раскрывают истину

Эксперимент длился с 18 по 30 октября — всего 12 дней. Для шифрованного рынка это может быть лишь часть одного цикла пампа и большого дампа.

Мы увидели “памп — пик — откат” — полный мини-цикл, но это скорее удача. Если бы старт был на вершине рынка или случился большой дамп на 30% за день, рейтинг мог бы быть противоположным.

Доходность DeepSeek 56% может быть полностью обусловлена характером этих 12 дней. Его стратегия 95% в позиции в лонг — король на одностороннем пампе, но при 3 месяцах Идет в сторону её съедят Комиссия за Торговлю и частые стопы.

А Qwen3 с 82% Позиция в Шорт — преимущество на Идет в сторону, но в Бычий рынок 2021 года проиграл бы — если BTC с $10,000 до $100,000, а ты вне рынка 80% времени, заработаешь только 20% роста.

12 дней — недостаточно, чтобы доказать долгосрочную эффективность любой стратегии.

2. Одинаковые Prompt: AI связаны по рукам

Все 6 моделей получали одинаковые рыночные данные и шаблон Торговля. Это как если бы 6 управляющих фондами читали одну и ту же аналитику — тестируется не их исследовательская способность, а дисциплина исполнения.

В реальной Торговля Alpha рождается из информационного преимущества. Топовые фонды имеют эксклюзивные системы отслеживания Кит, видят крупные переводы, имеют данные по внебиржевым ордерам, чувствуют движение институционалов.

В этом эксперименте AI видят одинаковую информацию. Это скорее “соревнование по исполнению”, а не “битва стратегий”.

Мы не узнаем, кто был бы победителем, если бы DeepSeek получил эксклюзивные данные с блокчейна, а Gemini — уникальный анализ Twitter-сентимента.

3. Искажение масштаба: $10,000 — сказочный мир

Каждый AI управляет только $10,000. Для Hyperliquid это микросумма — можно входить и выходить без Проскальзывание, Ликвидность не проблема, делить ордера не нужно.

Но в реальном мире квантовой Торговля $10 млн и $10,000 — разные сущности.

40x плечо GPT на $10,000 — допустимо, но $10 млн × 40 = $400 млн — малейшее Обратный движение на 3% приведёт к Получить ликвидацию, а твой ордер сам обрушит рынок.
Краткосрочный стиль Qwen3 (9.7 ч.) эффективен на малых суммах, но при больших — издержки (Проскальзывание + Комиссия за Торговлю) убьют стратегию. Открываешь позицию — толкаешь цену вверх, закрываешь — вниз, в итоге платишь рынку.
DeepSeek с высокоплечевой трендовой стратегией на $10,000 может быстро входить и выходить, но при $1 млн твои ордера будут заметны в стакане Hyperliquid, другие трейдеры начнут работать против твоих позиций.

Эксперимент тестирует “гибкость малых сумм”, а не “устойчивость масштабируемых стратегий”.

4. Удачная рыночная среда: не было настоящего ада

В период эксперимента рынок был относительно спокоен, Волатильность средняя. Не было:

Системного краха: как при банкротстве FTX, когда все монеты падают, Ликвидность исчезает
Молниеносного большого дампа одной монеты: как у LUNA, с $80 до $0.0001 за час
Сбоев биржи: как 11 октября на Binance, когда нельзя закрыть позицию и смотришь на Получить ликвидацию
Экстремального дефицита Ликвидность: ночью на выходных, когда стопы исполняются с Проскальзывание 20%

Ни одна система Контроль рисков AI не прошла стресс-тест, а именно это — главный вызов для шифрованных трейдеров. Как сработает стоп DeepSeek при “непрерывном падении без исполнения”? Неизвестно. Сработает ли быстрая фиксация Потери Qwen3 при сбое биржи? Тоже неизвестно.

Удача за 12 дней могла сыграть большую роль, чем кажется.

5. Случайность одного эксперимента: нет второго сезона

Эксперимент однократный, нет “второго сезона” для проверки стабильности стратегий. Мы не знаем:

Лидерство DeepSeek — это реальное преимущество или просто удача?
Если перемешать параметры стратегий 6 AI и запустить снова, DeepSeek будет первым?
Если начать с 1 ноября и взять следующие 12 дней, рейтинг поменяется?

Результат похож на бросок кубика — DeepSeek просто выбросил максимальное число. Но это не значит, что его кубик лучше — возможно, просто повезло.

Как относиться к этим рейтингам?

После всех ограничений возникает вопрос: есть ли смысл в этом эксперименте?

Да, но не в “поиске чемпиона”. Истинная ценность — в следующем:

AI могут вести реальную Торговля — это уже веха. Год назад обсуждали, заменит ли AI трейдеров, теперь он уже показал результат на Портфолио.
Контроль рисков важнее прогнозов — все AI “читают” графики, но только немногие умеют управлять рисками. Это подтверждает старую мудрость Уолл-стрит.
Устойчивость простых стратегий — третье место BTC Buy & Hold напоминает: на неопределённом рынке меньше ошибок может быть ценнее, чем больше правильных решений.
Нет вечных лидеров — преимущество DeepSeek сегодня может стать ловушкой завтра. С изменением среды меняется и оптимальная стратегия.

Но если вы, увидев DeepSeek на первом месте, решите доверить ему свои деньги или скопировать его стратегию — это большая ошибка.

12-дневный чемпион не гарантирует победу за 12 месяцев; чемпион на $10,000 — не чемпион на $1,000,000; чемпион в этом цикле — не чемпион в следующем.

В инвестициях нет простых ответов. Эксперимент дал ценные данные, но ограничения этих данных — возможно, ещё более важны для размышлений.

Данные для отчёта подготовлены WolfDAO, по вопросам обновления обращайтесь к нам;

Автор: Riffi / WolfDAO( X : @10xWolfdao )

BTC-3%

ETH-5.92%

SOL-8.88%

LUNA-9.42%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .