AIモデル対決：nof1実取引対決に基づく深層分析

2025-11-03 03:42:22

10月18日、金融市場に特化したAI研究ラボ nof1 は前例のない実験を開始しました。世界トップクラスのAIモデル6体——GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max——がHyperliquid上でそれぞれ$10,000のリアル資金を管理し、暗号化資産のリアルトレードを実施しています。

現在の順位とアカウント価値：10月30日夜時点の最新ランキングは以下の通りです。

DeepSeek Chat V3.1：$15,671.39（+56.71%）
Qwen3 Max：$12,520.34（+25.20%）
BTC Buy & Hold：$10,146.69（+1.47%）
Claude Sonnet 4.5：$9,290.97（-7.09%）
Grok 4：$7,030.02（-29.70%）
Gemini 2.5 Pro：$3,446.03（-65.54%）
GPT 5：$2,749.32（-72.51%）

このランキングは数日前のデータと比べて劇的な変化を見せています。DeepSeekは依然として首位ですが、利回りは95.71%から56.71%へ大きくプルバックし、アカウント価値は$19,570から$15,671へと約$4,000が消失しました。Qwen3も同様にプルバックし、53.68%から25.20%へ下落。さらに注目すべきは、Claude Sonnet 4.5が微益から7%の損失に転じ、GPT 5の損失は72%まで拡大し、清算が目前となっています。

曲線から市場を読み解く：3つのフェーズの変遷

第1フェーズ（10月18～25日）：上昇期、戦略の分化が始まる

マーケットプレイスは上昇トレンドにあり、各モデルの戦略の違いが現れ始めます。

DeepSeek：$10,000から$17,000へ急上昇、トレンドキャッチ力が高い
Qwen3：安定して$12,000～$15,000のレンジへ上昇
Claude/Grok：$10,000～$12,000で停滞
Gemini/GPT：すでに$5,000を割り込み、取引手数料と誤った意思決定で脱落

第2フェーズ（10月26～28日）：加速上昇、ピーク到来

DeepSeekが頂点へ：10月27日に$23,000突破、9日間で130%のリターン。ETH、SOLのロングポジションを大量保有し、10～15倍のレバレッジを使用する。
Qwen3は抑制的：ピーク$17,000、上昇%は穏やか。82.4%のショートポジション率でタイミングを厳選し、価格を追いかけることを回避。
Claude/Grokは揺れる：$11,000～$13,000で変動、戦略が矛盾——参加したいが決断力が足りない。
Gemini/GPTは脱落：アカウントは$3,000～$4,000まで下落し、ほぼ再起不能。

第3フェーズ（10月29～30日）：マーケットプレイスのプルバック、リスクコントロールの真価

DeepSeek： 崖のようなプルバック：$23,000から$15,671へ、2日間で$7,000（-30%）の損失。利食いメカニズムがなく、ピーク時に利益確定できず。95.6%のロングポジション時間、ヘッジ手段なし、損切りも遅れた。30%のプルバックでも2位に$3,000差をつけて首位を維持、序盤の優位性が厚い。
Qwen3：粘り強さを発揮、$17,000から$12,520へプルバック（-26%）、DeepSeekより低い。82.4%のショートポジション率、素早くポジションを閉める、ショート（平均9.7時間）、エクスポージャー時間が短く、損切りも迅速で損失拡大を防ぐ。
BTC Buy & Hold：シンプル戦略の勝利、アカウント$10,146（+1.47%）、ClaudeとGrokを抜いて3位。皮肉なことに、4つの「スマート」AIが数百回の取引を重ねても、「買って放置」戦略の方が優れていた。多く取引する＝良い結果ではなく、シンプルな戦略が過剰取引と高コストを回避した。
Claude：保守的戦略が失敗、+0.93%から-7.09%（$10,093→$9,290）へ。取引手数料の侵食が深刻、利益/損失(PNL)比が低い（1.34:1）、小さな利益に大きなコスト、プルバック時の頻繁なポジション調整が損失を加速、上昇時は大きなポンプを逃し、下落時は防御できず。
Grok：崩壊が加速、損失は-8%から-29.7%（$7,030）へ拡大。90.6%ロングポジションだが勝率は22.7%、実現損失-$2,449、元本はほぼ消失、$1,611の未実現利益で支えられているが、いつでもゼロになる可能性。
Gemini/GPT：瀕死のあがき、GPTは$2,749（-72.51%）、Geminiは$3,446（-65.54%）まで下落。失敗は全方位：過剰取引、低勝率、悪い利益/損失(PNL)比、高レバレッジリスク。

下落プルバックが示す深層課題

1. 「トレンドフォロー」の両面性

DeepSeekの成功は「トレンドフォロー」に基づいています：95%の時間ロングポジション、トレンドの継続を信じる。上昇トレンドではこの戦略が95%の最高収益をもたらしました。しかしトレンドが反転すると、同じ戦略で30%の損失を被りました。

ここで重要なのは、トレンドフォロー戦略には有効な利食い・損切りメカニズムが必要ということです。「利益を伸ばす」だけで「損失を断ち切る」ことがなければ、一度の大きな反転でほとんどの利益が消失します。

DeepSeekは「長期保有」の価値を過信し、市場の不確実性を軽視した可能性があります。最大利益$7,378はETHを60時間保有した取引から生まれ、この成功体験が「長期主義」への信念を強化したかもしれません。しかし金融市場は一本道ではなく、トレンドはいつでも反転します。

2. ショートポジションは知恵であり防御でもある

Qwen3は実際のパフォーマンスでショートポジションの価値を証明しました。82.4%のショートポジション時間は上昇期には「機会損失」に見えますが、下落期には「損失回避」となります。

プルバック26% vs 32%、差は6ポイントですが、複利効果でこの差は拡大します。さらに重要なのは、Qwen3がより多くの元本と心理的優位性を保ち、マーケットプレイスが安定すればすぐにポジション構築できることです。DeepSeekがさらにプルバックすれば、「含み損→迷い→反転を逃す」の悪循環に陥る可能性があります。

3. シンプル戦略の生命力

BTC Buy & Holdのパフォーマンスは、すべての「賢い」AIへの痛烈な一撃です。この戦略はテクニカル分析も複雑なアルゴリズムもなく、頻繁なポジション調整もありませんが、現在3位でAIモデルの半分を上回っています。

この結果が示すのは、トレードでは「多く正解する」より「ミスを減らす」方が重要だということです。Geminiは193回の取引で66%の損失、BTC Buy & Holdは0回の取引で元本を守りました。どちらが成功か？答えは明白です。

4. リスク管理の欠如

Qwen3以外、ほぼすべてのAIがリスクコントロールの重大な欠陥を露呈しました。

DeepSeek：利食いメカニズムなし、130%のピーク収益が57%までプルバック
Claude：「ショートしない」片側思考に依存、ヘッジ手段が不足
Grok：勝率22.7%と分かっていながら90.6%の時間ロングポジションを維持
GPT：BTCポジションで40倍レバレッジ、清算価格は1.2%の許容範囲しかない
Gemini：リスクコントロールが全くなく、193回の取引はギャンブル同然

これらのAIは「マーケットプレイスデータを読む」「取引指令を実行する」ことはできても、トレードの核心であるリスクコントロール能力はまだ未熟です。

実験の限界：データの外側にある冷静な考察

データと分析を見て、DeepSeekの56%利回りやGeminiの66%損失に目を奪われがちですが、結論を出す前にこの実験自体のシステム的な限界を直視する必要があります——これらの限界は結果以上に重要かもしれません。

1. 時間ウィンドウが短すぎる：12日間では真実は見えない

この実験は10月18日から30日まで、わずか12日間です。暗号化市場で12日間とは？完全なブル・マーケットとベア・マーケットのサイクルの一部に過ぎません。

「上昇→ピーク→プルバック」という完全なミニサイクルが見られましたが、これはむしろ運が良かっただけです。もし実験開始がマーケットプレイスの天井だったり、「519型」の1日30%暴落があれば、順位は全く逆転していたかもしれません。

DeepSeekの56%収益はこの12日間のマーケットプレイス特性に大きく依存している可能性があります。95%ロングポジション戦略は一方的な上昇では王者ですが、3ヶ月のサイドウェイでは取引手数料と損切りの繰り返しで消耗し尽くします。

同様に、Qwen3の82%ショートポジション率はサイドウェイでは有利ですが、2021年のような狂乱のブル・マーケットでは大きく負けるでしょう。BTCが$10,000から$100,000へ上昇する牛市で、80%ショートポジションなら上昇の20%しか取れません。

12日間のデータでは、どんな戦略も長期的な有効性を証明できません。

2. 同一Prompt：AIの手足が縛られている

6つのAIモデルは同じマーケットプレイスデータと取引指令フレームワークを受け取っています。これは6人のファンドマネージャーが同じレポートを見て意思決定するようなもの——テストしているのはリサーチ力ではなく、実行規律です。

リアルなトレードの世界では、Alphaは情報の非対称性から生まれます。トップクラスのクオンツファンドは独自のオンチェーン追跡システムでクジラの送金を監視し、OTCの大口注文フローで機関の動向を先読みします。

しかしこの実験では、AIが見る情報は完全に同じです。これは「実行力コンテスト」であり、「戦略イノベーションコンテスト」ではありません。

この実験からは、DeepSeekに独自のオンチェーンデータ、Geminiに独自のTwitter感情分析を与えた場合、誰が真の勝者になるかは分かりません。

3. 資金規模の歪み：$10,000のファンタジー

各AIは$10,000の元本のみを管理しています。Hyperliquid上では超小規模資金——いつでも出入りでき、スリッページは無視でき、流動性ショックもなく、大口分割も不要です。

しかしリアルなクオンツトレードの世界では、$1,000万と$10,000の運用は全く別物です。

GPTの40倍レバレッジは$10,000規模ならギリギリ可能ですが、$1,000万×40倍＝$4億のエクスポージャーでは、3%のリバース変動で即清算、しかも自分の注文がマーケットプレイスを崩壊させます。
Qwen3の9.7時間ショート戦略は小資金なら機動的ですが、大資金では取引コスト（スリッページ＋取引手数料）が戦略を無効化します。ポジションを開くと価格を押し上げ、閉めると価格を押し下げ、最終的にマーケットプレイスに資金を提供するだけです。
DeepSeekの高レバレッジトレンド戦略は$10,000規模なら高速で出入りできますが、$100万運用時はHyperliquidの板に明確な痕跡を残し、他のトレーダーが逆張りしてきます。

この実験は「小資金の機動性」をテストしているだけで、「拡張可能な戦略の堅牢性」ではありません。

4. マーケットプレイス環境の幸運：本当の地獄は未経験

実験期間中のマーケットプレイスは比較的安定し、ボラティリティは中程度でした。以下のような事態は発生していません：

システム崩壊：FTX破綻のような、全銘柄が同時に急落し、流動性が瞬時に枯渇
単一銘柄のフラッシュクラッシュ：LUNAのように1時間で$80から$0.0001へ
取引所障害：1011 Binanceダウンのように、ポジションはあるがポジションを閉めることができず、清算を見守るしかない
極端な流動性枯渇：週末深夜に板が薄くなり、損切り注文が20%のスリッページで約定

すべてのAIのリスクコントロール体系は極端なストレステストを受けていませんが、これこそが暗号化トレーダーが本当に直面する課題です。DeepSeekの損切りメカニズムは「連続ストップ安で約定不可」の場合どうなるのか？不明です。Qwen3の素早いポジションを閉めるは取引所ダウン時に有効なのか？これも不明です。

運が、この12日間の実験では想像以上に大きな要素かもしれません。

5. 単発実験の偶然性：第2シーズンの検証なし

これは一度きりの実験であり、「第2シーズン」で戦略の安定性を検証していません。判断できないこと：

DeepSeekの首位は本物の実力か、ランダムウォークの幸運か？
6つのAIの戦略パラメータをシャッフルして再実行したら、DeepSeekはまた1位になるのか？
11月1日から次の12日間に切り替えたら、順位は完全に逆転するのか？

現状の結果は、6人がサイコロを振ってDeepSeekが最大値を出しただけかもしれません。しかしそれはサイコロが優れているのではなく、運が良かっただけかもしれません。

では、これらの順位をどう捉えるべきか？

これらの限界を見た上で、「この実験に意味はあるのか？」と疑問に思うかもしれません。

意味はありますが、「誰がチャンピオンか」ではありません。この実験の本当の価値は、以下の点にあります：

AIがリアルトレードを実行できる——これ自体がマイルストーンです。1年前はAIがトレーダーを代替するか議論していましたが、今やAIがリアルな取引で答えを出しています。
リスクコントロールは予測より重要——すべてのAIがK線を「読める」ものの、リスクを管理できるのは一部だけ。これはウォール街の古い知恵を裏付けます。
シンプル戦略の粘り強さ——BTC Buy & Holdの3位は、不確実なマーケットプレイスでは「ミスを減らす」方が「多く正解する」より価値があることを示しています。
戦略に永遠の優劣はない——DeepSeekの今日の優位性は明日の罠かもしれません。マーケットプレイス環境が変われば、最適戦略も変わります。

もしDeepSeekが1位だからといって自分の資金を預けたり、その戦略を丸ごとコピーしようとするなら、それは大きな間違いです。

12日間のチャンピオンは12ヶ月のチャンピオンではありません；$10,000のチャンピオンは$1,000,000のチャンピオンではありません；この相場のチャンピオンは次の相場のチャンピオンではありません。

投資に簡単な答えはありません。この実験は貴重なデータを提供してくれましたが、データの背後にある限界こそ、データ以上に深く考える価値があります。

本レポートのデータはWolfDAOが編集・整理しました。ご質問があればご連絡ください。

執筆：Riffi / WolfDAO( X : @10xWolfdao )

BTC-3%

ETH-5.92%

SOL-8.88%

LUNA-9.42%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。