遅れをとる部分:マルチタスクベンチマークのMMLU-Pro )Gemini-3.1-Proは91.0%に対し、V4-Proは87.5%(、専門知識のベンチマークGPQA Diamond )Geminiは94.3%対90.1%(、そしてHumanity’s Last Exam(大学院レベルのベンチマーク)では、Gemini-3.1-Proの44.4%がV4-Proの37.7%を上回る。
長いコンテキストに特化しては、V4-Proはオープンソースモデルをリードし、CorpusQAベンチマーク)一百万トークンの実文書分析テスト(ではGemini-3.1-Proに勝つが、MRCR(長い干し草の中に埋もれた特定の針を見つける能力を測るテスト)ではClaude Opus 4.6に負ける。
エージェントを動かすために設計されており、質問に答えるだけではない
エージェント的な部分は、このリリースが実際に製品を出荷している開発者にとって興味深いポイントだ。
V4-ProはClaude Code、OpenCode、その他のAIコーディングツールで動作可能だ。DeepSeekの内部調査によると、V4-Proを主要なコーディングエージェントとして使った85人の開発者のうち、52%がこれをデフォルトモデルにする準備ができていると答え、39%はそうしたいと答え、9%未満は否定した。内部の社員は、Claude Sonnetを上回り、Claude Opus 4.5に近づいていると述べている。
AIの独立評価を行うArtificial Analysisは、V4-Proをすべてのオープンウェイトモデルの中でGDPval-AA(金融、法律、研究の知識作業をエロススコアで評価するベンチマーク)で1位にした。V4-Pro-Maxは1,554エロスを記録し、GLM-5.1の1,535やMiniMaxのM2.7の1,514を上回る。参考までに、Claude Opus 4.6は同じベンチマークで1,619を記録しており、依然としてリードしているが、その差は縮まっている。
DeepSeek V4 ついに登場—そのプロバージョンは GPT 5.5 Pro より98%安い
###要約すると
DeepSeekは復活し、OpenAIがGPT-5.5をリリースした数時間後に登場した。偶然か?もしかしたら。しかし、米国政府が過去3年間にわたりチップ輸出禁止で遅らせようとしてきた中国のAI研究所にとっては、タイミングの感覚が非常に鋭くなる。 杭州に拠点を置く研究所は、DeepSeek-V4-ProとDeepSeek-V4-Flashのプレビュー版を今日公開し、両方ともオープンウェイト、両方とも100万トークンのコンテキストウィンドウを備えている。つまり、モデルが崩壊する前に、ほぼ『指輪物語』三部作の長さのコンテキストで作業できるということだ。両者とも、西洋の同等品よりも価格がかなり安く、ローカルで動かせる人には無料だ。 DeepSeekの最後の大きな破壊的変化は2025年1月のR1で、それは一日でNvidiaの時価総額から$600 十億ドルを消し去った。投資家は、米国企業が本当にそのような巨額投資をして得られる結果が、中国の小さな研究所がごく一部のコストで達成したものと比べて必要なのか疑問を持ったのだ。V4は異なるタイプの動きだ:静かで、より技術的で、AIを実際に構築している人々にとって効率性に焦点を当てている。
二つのモデル、非常に異なる役割 新しい二つのモデルのうち、DeepSeekのV4-Proは大きい方で、総パラメータは1.6兆だ。これを理解するために、パラメータはモデルが知識を保存しパターンを認識するために使う内部の「設定」や「脳細胞」のようなもので、パラメータが多いほど理論上より複雑な情報を保持できる。これまでで最大のオープンソースモデルであり、そのサイズは馬鹿げているように聞こえるかもしれないが、実際には推論ごとに49億だけが活性化される。 これはDeepSeekがV3以来洗練してきた「エキスパートの混合」技術だ:完全なモデルはそこにあるが、特定のリクエストに対して必要な部分だけが起きる。より多くの知識、同じ計算コスト。 「DeepSeek-V4-Pro-Maxは、DeepSeek-V4-Proの最大推論努力モードであり、オープンソースモデルの知識能力を大きく向上させ、今日最良のオープンソースモデルとして確固たる地位を築いています」とDeepSeekはHuggingfaceの公式カードに記している。「コーディングベンチマークでトップクラスの性能を達成し、推論やエージェントタスクにおいてリーディングクローズドソースモデルとのギャップを大きく縮めています。」 V4-Flashは実用的なモデルで、総パラメータは2840億、アクティブは130億だ。より高速、より安価に設計されており、DeepSeek自身のベンチマークによると、「より大きな思考予算を与えられた場合、Proバージョンと同等の推論性能を実現している。」 両モデルともに100万トークンのコンテキストをサポート。これは約75万語に相当し、「指輪物語」三部作とほぼ同じ長さだ。これは標準機能であり、プレミアム層ではない。 DeepSeekの(秘密のソース:スケールにおいて注意機構をひどくしない工夫 技術的な部分を詳しく知りたい人や、モデルを動かす魔法に興味がある人向けだ。DeepSeekは秘密を隠さず、すべて無料で公開している—完全な論文もGithubで入手可能だ。 標準的なAIの注意機構—単語間の関係を理解させる仕組み—には厳しいスケーリング問題がある。コンテキスト長を倍にするたびに、計算コストはおおよそ4倍になる。つまり、100万トークンのモデルを動かすのは、50万トークンの2倍ではなく、4倍のコストがかかる。これが長いコンテキストが歴史的にチェックボックスにされ、レートリミットの背後で静かに制限されてきた理由だ。 DeepSeekはこれを回避するために二つの新しい注意タイプを発明した。一つは「圧縮スパース注意」で、二段階で動作する。まず、トークンのグループ—例えば4つずつ—を一つのエントリーに圧縮する。次に、その圧縮されたエントリーすべてに注意を払うのではなく、「ライトニングインデクサー」を使って、クエリにとって最も重要な結果だけを選び出す。モデルは100万トークンに注意を払う代わりに、より小さな重要な塊に注意を集中させる、図書館司書のようにすべての本を読むのではなく、必要な棚だけを知っている。 もう一つは「重度圧縮注意」で、より攻撃的だ。128トークンごとに一つのエントリーに折りたたむ—スパース選択はなく、徹底的な圧縮だけだ。細かい詳細は失われるが、非常に安価なグローバルビューを得られる。二つの注意タイプは交互に層を構成し、モデルは詳細と全体像の両方を得る。
![])https://img-cdn.gateio.im/social/moments-d9d1d6dfd4-7db02574dc-8b7abd-badf29(
技術論文からの結果:一百万トークンで、V4-Proは前身の)V3.2(の必要とした計算の27%を使用し、KVキャッシュ—モデルがコンテキストを追跡するためのメモリ—はV3.2の10%にまで減少。V4-Flashはさらに進めて、計算の10%、メモリの7%に抑える。 これにより、DeepSeekは競合よりもはるかに安価な価格でトークンを提供でき、かつ同等の結果を出せるようになった。ドル換算すると、GPT-5.5は昨日、)入力と$5 出力の各百万トークンあたりの価格でリリースされ、GPT-5.5 Proは$30 入力と$30 出力の各百万トークンあたりの価格だった。
DeepSeek V4-Proは1.74ドルの入力と3.48ドルの出力。V4-Flashは0.14ドルの入力と0.28ドルの出力だ。ClineのCEO、Saoud Rizwanは、もしUberがDeepSeekをClaudeの代わりに使っていたら、2026年のAI予算—およそ4ヶ月分の使用量—が7年間持続しただろうと指摘している。
ベンチマーク DeepSeekは技術レポートで珍しいことをしている:ギャップを公開している。ほとんどのモデルリリースは勝ったベンチマークだけを選ぶが、DeepSeekはGPT-5.4やGemini-3.1-Proと比較した全体の比較を行い、V4-Proの推論能力はこれらのモデルに比べて約3〜6ヶ月遅れているとわかっても、それを掲載した。 実際に勝ったのは:Codeforces(競技プログラミングのベンチマーク、ヒトのチェスのように評価)、スコア3,206で、実際の人間のコンテスト参加者の中で23位に位置する。Apex Shortlist(難しい数学やSTEM問題のキュレーションセット)では、合格率90.2%でOpus 4.6の85.9%やGPT-5.4の78.1%を上回った。GitHubの実際のオープンソースリポジトリから抽出した問題を解決できるかを測るSWE-Verifiedでは80.6%を記録し、Claude Opus 4.6と同等だった。
![])https://img-cdn.gateio.im/social/moments-eb59a0278b-e3a83ea5a6-8b7abd-badf29(
遅れをとる部分:マルチタスクベンチマークのMMLU-Pro )Gemini-3.1-Proは91.0%に対し、V4-Proは87.5%(、専門知識のベンチマークGPQA Diamond )Geminiは94.3%対90.1%(、そしてHumanity’s Last Exam(大学院レベルのベンチマーク)では、Gemini-3.1-Proの44.4%がV4-Proの37.7%を上回る。 長いコンテキストに特化しては、V4-Proはオープンソースモデルをリードし、CorpusQAベンチマーク)一百万トークンの実文書分析テスト(ではGemini-3.1-Proに勝つが、MRCR(長い干し草の中に埋もれた特定の針を見つける能力を測るテスト)ではClaude Opus 4.6に負ける。 エージェントを動かすために設計されており、質問に答えるだけではない エージェント的な部分は、このリリースが実際に製品を出荷している開発者にとって興味深いポイントだ。
V4-ProはClaude Code、OpenCode、その他のAIコーディングツールで動作可能だ。DeepSeekの内部調査によると、V4-Proを主要なコーディングエージェントとして使った85人の開発者のうち、52%がこれをデフォルトモデルにする準備ができていると答え、39%はそうしたいと答え、9%未満は否定した。内部の社員は、Claude Sonnetを上回り、Claude Opus 4.5に近づいていると述べている。
![])https://img-cdn.gateio.im/social/moments-40e70ea42f-c252d119b6-8b7abd-badf29(
AIの独立評価を行うArtificial Analysisは、V4-Proをすべてのオープンウェイトモデルの中でGDPval-AA(金融、法律、研究の知識作業をエロススコアで評価するベンチマーク)で1位にした。V4-Pro-Maxは1,554エロスを記録し、GLM-5.1の1,535やMiniMaxのM2.7の1,514を上回る。参考までに、Claude Opus 4.6は同じベンチマークで1,619を記録しており、依然としてリードしているが、その差は縮まっている。
DeepSeekのV4はまた、「インタリーブ思考」と呼ばれる新しい仕組みも導入している。以前のモデルでは、複数のツール呼び出しを行うエージェントを動かすとき—例えばウェブ検索、コード実行、再検索—に、思考のコンテキストがラウンドごとに消去されていた。新しいステップごとに、モデルは最初からメンタルモデルを再構築しなければならなかった。V4はツール呼び出し間も思考の連鎖を保持し、20ステップのエージェントワークフローでも記憶喪失に陥らない。これは複雑な自動化パイプラインを動かす人にとって、重要な意味を持つ。
米中AI戦争とDeepSeek 米国は2022年以降、中国への高性能Nvidiaチップの輸出を制限している。目的は中国のAI開発を遅らせることだったが、そのチップ禁止はDeepSeekを止めることなく、より効率的なアーキテクチャを発明し、国内ハードウェア供給を拡大させた。 DeepSeekはV4を単独でリリースしたわけではなく、AI分野は最近活発だ:Anthropicは4月16日にClaude Opus 4.7を出し、コーディングと推論に強いと評価されたモデルだ。前日には、AnthropicはClaude Mythosというサイバーセキュリティモデルも持っており、公開できないと述べている。Xiaomiは4月22日にMiMo V2.5 Proをリリースし、画像、音声、動画のマルチモーダル対応を実現した。コストは)入力と(出力の各百万トークンあたり。Opus 4.6とほぼ同じコーディングベンチマークをクリアしている。三ヶ月前はXiaomiを最先端AI企業とは誰も考えていなかったが、今や多くの西洋の研究所よりも速く競争力のあるモデルを出している。 OpenAIのGPT-5.5は昨日リリースされ、Proバージョンのコストは)各百万トークンあたりの出力コストに跳ね上がった。Terminal Bench 2.0ではV4-Proの70.0%に対し、82.7%を記録し、複雑なコマンドラインエージェントのワークフローをテストしている。しかし、同じタスクに対してV4-Proよりもかなり高価だ。その日にTencentはHy3をリリースし、効率性に焦点を当てた最先端モデルだ。 これがあなたにとって意味すること 多くの新モデルが登場する中、開発者が実際に尋ねているのは、「プレミアムはいつ価値があるのか?」だ。 エンタープライズ向けには、計算式が変わった可能性がある。1百万入力トークンあたり1.74ドルのリードモデルは、6ヶ月前には高価だった大規模なドキュメント処理、法的レビュー、コード生成パイプラインを、今やはるかに安価にしている。1百万トークンのコンテキストは、複数の呼び出しに分割せずに、全コードベースや規制提出書類を一度に処理できることを意味する。 さらに、そのオープンソース性により、無料でローカルハードウェア上で動かせるだけでなく、企業のニーズやユースケースに合わせてカスタマイズや改善も可能だ。 開発者や個人ビルダーにとっては、V4-Flashに注目だ。0.14ドルの入力と0.28ドルの出力で、1年前の予算モデルよりも安く、ほとんどのタスクをProと同じように処理できる。DeepSeekの既存のdeepseek-chatやdeepseek-reasonerエンドポイントは、非思考モードと思考モードでそれぞれV4-Flashにルーティングされているため、APIを使っているならすでに利用している状態だ。 現時点ではテキストのみのモデルだが、DeepSeekはマルチモーダル対応に取り組んでいると述べており、XiaomiやOpenAIなどの他の大手研究所もその優位性を持っている。両モデルともMITライセンスで、今日Hugging Faceで入手可能だ。古いdeepseek-chatとdeepseek-reasonerエンドポイントは2026年7月24日に廃止される。