“Introducing GPT-5.5: a new class of intelligence for real work and powering agents.”
新世代の知能、実務のために生まれ、エージェントのために生まれた。
このモデルの内部コード名は「Spud」(ジャガイモ)。The Next Webの報道によると、これはGPT-4.5以来初めて完全に再訓練された基本モデルだ——GPT-4.5以降、OpenAIが最初から訓練した基盤モデル。途中のGPT-5.0、5.1、5.2、5.3、5.3-Codex、5.4、5.4-Cyberはすべて同じ古い基盤上でポストトレーニングされた改良版だ。これが初めての本当の新しい土台である。
Brockmanはプレスコールで二度「super app」と言った。TechCrunchの見出しはこうだ——“OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’”。メディアの解釈は:OpenAIはAnthropicのClaude Desktopに対抗している。
この解釈は半分正しいが、より重要な半分は間違っている。
Super Appの本当の狙いは、三つのツール——あなたのIDE、あなたのブラウザ、あなたのOfficeを置き換えることだ。
Claude Opus 4.7はSWE-Bench Proの単一項目でまだリードしている——64.3%対58.6%。しかし、SWE-Bench Proは「GitHubのissue修正」など小規模なタスクを測るもので、Scaleの大きい長時間の推論を測るTerminal-Bench 2.0では、OpenAIが優位に立っている。エンジニアリングチームはエージェントを買うとき、単点のスコアではなく、全体の流れを重視している。
GPT-5.5であなたが気づいていない10の大きな秘密
著者:シリコンバレーのアラン・ウォーカー
OpenAIが言ったこと、言わなかったこと——新モデル、Code Red、Super App、そしてAI企業の真の戦略的落とし所。
今朝、カリフォルニア通りの陽光はいつもより少し怠けている。
Zombie Caféの第一波のお客は散った、第二波はまだ来ていない、カウンターの古いコーヒーミルは空回りし、バリスタはゆっくりと水杯を拭いている。スマホの画面にはOpenAIの噂が満ちている。
数時間前、太平洋標準時の早朝、GPT-5.5がリリースされた。
基本情報をまず整理しよう
OpenAI公式ブログのタイトルは素朴に書かれている——
新世代の知能、実務のために生まれ、エージェントのために生まれた。
このモデルの内部コード名は「Spud」(ジャガイモ)。The Next Webの報道によると、これはGPT-4.5以来初めて完全に再訓練された基本モデルだ——GPT-4.5以降、OpenAIが最初から訓練した基盤モデル。途中のGPT-5.0、5.1、5.2、5.3、5.3-Codex、5.4、5.4-Cyberはすべて同じ古い基盤上でポストトレーニングされた改良版だ。これが初めての本当の新しい土台である。
今日のリリースは二つのプラットフォームだけ——ChatGPTとCodex。APIは遅れており、OpenAIは「very soon」と述べている。利用可能なプランはPlus、Pro、Business、Enterprise。GPT-5.5 Pro(より強力な版)はPro以上限定。
OpenAIが見せたいBenchmarkの数字——
Artificial Analysis Intelligence Index——OpenAIは3ポイントリードでトップに立ち、三つ巴の状況を打破した。VentureBeatの統計によると、GPT-5.5は14の公開ベンチマークでSOTAを獲得し、Claude Opus 4.7は4つ、Gemini 3.1 Proは2つを獲得している。
以上は公式の見解。メディアも今日こう書いている。
しかし、Zombie Caféの三杯目のコーヒーの前で、OpenAIのsystem card、BrockmanのXスレッド、Pachockiのプレスコール、そしてAI Twitter全体の反応をすべて見終わった後——
OpenAIが言わなかったことこそが今回のリリースの真の意味だ。
10の秘密。
この詳細はThe Next Webの報道に隠されており、一文の英語で触れられているだけで、中国語メディアには拡散されていない。
翻訳しよう——
過去14ヶ月間、OpenAIはGPT-5、5.1、5.2、5.3、5.3-Codex、5.4、5.4-Cyber、5.4-Codexを連続してリリースしてきた。毎回ベンチマークのアップグレード、プレスブリーフィング、Altmanのツイートとともに。皆の印象は——
OpenAIは狂ったようにイテレーションを重ねている。
その間の六回のリリースはすべて動きがあったが、核心は同じ土台の上での改良だった。
Fortuneの今日の見出しは的確だ——“AIモデルのローンチはまるでソフトウェアアップデートのようになりつつある。” Brockman自身も記者会見でこの感覚を認めている。
この認めは謝罪のように聞こえるが、実は隠れ蓑だ。OpenAIはこの一年、実質的に新モデルを一つだけ出している——今日のこれだ。前の六回は、世間の注目を引きつけ、競合にOpenAIが追いついていると思わせつつ、すべての計算資源、データ、エンジニアのリソースを「Spud」の新基盤の訓練に注ぎ込むためのものだった。
結果が出た今、Claude Opus 4.7は先週リリースされたばかりだが、今日には14のベンチマークで追い越されている。これは偶然ではなく、戦略的な収束だ。
OpenAIの公式ブログに、ほとんどのメディアが見落とした技術的詳細がある———
Handy AIのJake Handyはその真意を掘り下げた——
ゆっくり読もう。
モデルはリリース前に数週間の実トラフィックを分析し、パーティションと負荷分散のアルゴリズムを書き換え、サービス速度を20%向上させた。
モデルは自らのインフラを最適化している。
従来のAI開発プロセス——エンジニアがモデルを訓練し、デプロイし、最適化し、テストし、リリースする。すべて人手のボトルネック、イテレーションコスト、待ち時間があった。
今の流れ——モデルがエンジニアに次世代モデルの訓練を手伝い、インフラの最適化を行い、デバッグやテスト結果もサポートし、人間の役割は「実行者」から「監督者」へと退いている。
これはGPT-5.3-Codexのリリース時に予告されていたことで、当時AltmanはX上でこう語った——
当時、多くの人はこの言葉をマーケティングの一環とみなしていた。今日——それが実現した。
フライホイールの論理はこうだ——前世代のモデルが次世代の開発を最適化し、イテレーション速度を加速させる→次の次の世代もまた次世代を最適化→速度は指数関数的に向上。これが一度動き出すと、AnthropicやGoogleにとっては悪いニュースだ——彼らのエンジニアチームは、どれだけ強くても、「OpenAIエンジニア+前世代モデル」の組み合わせと速度を競っているからだ。
GPT-5.5は今日、ChatGPTとCodexだけで先行リリース。APIは——OpenAIの公式見解は「very soon」。
"very soon"の意味は、歴史を振り返ればわかる——
GPT-5.3-Codex:2月にリリース、「soon」だったが実際には3週間待たされた。
GPT-Rosalind(生命科学専用モデル):4月初めにリリースされたが、今もTrusted Accessのみで、公開APIは未定。
Atlasブラウザ:リリースから未だAPI公開されていない。
つまり、「very soon」の裏には——まず企業顧客をChatGPTとCodexの囲い込みに固定し、十分に時間を稼ぐ狙いがある。
この戦略の背後にはOpenAIのCode Redがある。TNWの報道によると——
AnthropicのARRは$9B から30Bドルに増加し、14ヶ月で3倍以上の成長を遂げている。速度はまるでAI企業というより成熟したSaaS企業のようだ。OpenAIはB2B市場で後退している。
OpenAIにとって、GPT-5.5は企業市場を取り戻す武器だ。しかし、その使い方が武器の本質以上に重要だ。
シンプルな論理——企業顧客は今、5.5を使いたいなら一つの道しかない:ChatGPT BusinessまたはEnterpriseのサブスクリプションを契約すること。APIを待つ?「very soon」を待つ?この空白期間にCIOは決断を下し、依存関係を築く。CIOの世界では、CIOの言葉はどんなベンチマークスコアよりも価値がある。「hallucination resistance」の四文字は、長期の企業契約を獲得する鍵だ。
Bank of New YorkのCIO、Leigh-Ann Russellはすでに陣営を固めている——
CIOの世界では、CIOの言葉はどんなベンチマークスコアよりも価値がある。「hallucination resistance」の四文字は、長期の企業契約を獲得する鍵だ。
価格をまず整理しよう——
単純に倍だ。The Decoderはストレートに書いている——
“OpenAIは、従来の世代と比べて、フラッグシップモデルのエントリー価格を実質的に倍にした。”
表面上は値上げが一倍になっただけだが、OpenAIのリリース資料にはもう一つの数字も示されている——
この二つの数字を合わせて計算すると、誰の利益が良くなるのか?
今回の値上げの真の狙いは、あなたからより多くを取ることではなく——OpenAI自身の利益構造を緩めることにある。
背景——The Informationは昨年報道した:OpenAIは2024年に50億ドル以上の赤字を出し、2025年はさらに増加、毎日10億ドル超の計算資源を燃やしている。これらはMicrosoft、Oracle、Nvidiaが先に前払いした計算クレジットであり、将来の義務は1兆ドル超に及ぶ。これは研究所の資金浪費ではなく、利益を出す必要のある企業が黒字化前に資金を積み上げている状態だ。
5.5の価格調整は、OpenAIが「流入増加段階」から「収益獲得段階」へと切り替える第一歩だ。より巧妙な表現は——“トークン効率が向上した”。聞こえは節約のようだが、実際には投資家に向けて:マージン問題は解決したと伝えている。
この点は多くの人に誤解されている。
Brockmanはプレスコールで二度「super app」と言った。TechCrunchの見出しはこうだ——“OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’”。メディアの解釈は:OpenAIはAnthropicのClaude Desktopに対抗している。
この解釈は半分正しいが、より重要な半分は間違っている。
Super Appの本当の狙いは、三つのツール——あなたのIDE、あなたのブラウザ、あなたのOfficeを置き換えることだ。
Super Appの構造——
Fidji Simo——OpenAIのアプリケーション担当CEO——が最もストレートに語った——
この言葉はAnthropicに向けてではない。Microsoft、Google、Appleに向けてのものだ。
従来のソフトウェアそのものを置き換える。
Zen Van Rielは彼のAIエンジニアブログで正確に述べている——
この演出は過去にもあった。1990年代——Netscapeの技術は良かったが、MicrosoftがIEをWindowsに統合し、ブラウザを「システム標準」にした。Netscapeは終わった。OpenAIも今、同じことをしている——ツール利用、コーディング、ブラウジングをすべてSuper Appに統合し、ユーザーが個別にIDEやブラウザ、Officeを開く必要をなくす。
6. 長いコンテキストこそが今回の真の飛躍——誰も気づかなかった
今日のAIメディアはTerminal-Bench 2.0とSWE-Bench Proに注目している。これらはコーディングのベンチマークで、最も話題になりやすい。
しかし、真に重要な数字はlong-contextの欄にあり、ほとんど誰も触れていない。
The DecoderのMaximilian Schreinerだけが真剣にこのデータを取り上げている——
エンジニアの言葉に翻訳すれば——
MRCRはモデルが超長文の中で_複数の重要情報点を見つけて確実に記憶できるか_を測るものだ。36.6%→74.0%は何を意味するか——以前は1Mトークンを与えても、モデルは表面的に処理し、推論を始めるとすぐに「失念」し始めていた。今や本当に記憶できるようになった。
これはエージェント的コーディングにとって根本的な変化だ——
例えばKubernetesのような大規模オープンソースプロジェクトは、数百万行のコードとドキュメント、issue履歴を詰め込んで1Mトークンを超えることも容易だ。以前のCodexは長期的なタスクを処理する際、部分的にしか対応できず、推論に30分もかかると「失念」し始めていた——たとえば、「fooモジュールとbarモジュールのレースコンディションを修正する」と指示しても、barを調べているときにはすでにfooの文脈を忘れている。
5.5以降——モデルは全体の百万トークンのリポジトリ内で安定して推論できる。本当に記憶しているのだ。
これが理由でTerminal-Bench 2.0はGPT-5.4の75.1%から5.5の82.7%に跳ね上がった。単にモデルが賢くなっただけではなく、記憶の安定性が一段階上がったのだ。
Claude Opus 4.7はSWE-Bench Proの単一項目でまだリードしている——64.3%対58.6%。しかし、SWE-Bench Proは「GitHubのissue修正」など小規模なタスクを測るもので、Scaleの大きい長時間の推論を測るTerminal-Bench 2.0では、OpenAIが優位に立っている。エンジニアリングチームはエージェントを買うとき、単点のスコアではなく、全体の流れを重視している。
OpenAIは今回、内部ベンチマークとして新たに「Expert-SWE」を導入し、GPT-5.5は73.1%を獲得、5.4の68.5%から約5ポイントの進歩を見せた。
__
この点は技術系メディアではほとんど議論されていないが、重要なのはスコアではなく——このベンチマークの定義だ。
__
中位の人間専門家が20時間かかるコーディングタスク。
この数字は適当に選ばれたわけではない。20時間=3営業日=中規模のエンジニアチケットを一つ完了させる時間だ。OpenAIは「エージェントが完結できる一つの作業単位」を定義している。
これは技術評価ツールのように見えるが、実はビジネスの動き——AI製品の価格設定単位を再定義している。
今のAIモデルの計算コストの見積もりは——
リソースのレンタル(トークン)から、作業の完了(タスク完了)へとシフトしている。
Anthropicは未だSWE-bench Verifiedの古い基準と競っているが、Opus 4.7は87.6%を獲得している。しかし、SWE-bench VerifiedはPythonの小さなバグ修正など小規模なタスクを測るもので、スケールが小さい。OpenAIはすでに新しい評価軸を作り出している。
基準を定義する者が価格支配権を握る。Handy AIのJake Handyは指摘する——:Expert-SWEはOpenAIが初めて「日単位」のコーディング評価を導入したもので、業界の評価軸を「単一タスク」から「一日のエンジニア作業」に引き上げたことを示している。
ベンチマーク表の中に、OpenAIの公式資料ではハイライトされていないデータがある———
なぜこれが重要か——
MCP(Model Context Protocol)は、Anthropicが2024年末に公開したオープン規格だ。解決すべき課題は:AIモデルが安全に、発見可能に、外部ツールを呼び出せる仕組みだ。今やMCPは事実上の標準となっている——Claude、Gemini、Cursor、VS Code、OpenAIのCodexもすべて対応している。
MCP Atlasは、ツール利用能力が最も実運用に近いテストだ。GPT-5.5は最低点——これはモデル自体の性能不足ではなく、MCPがAnthropicの規格だからだ。
Claudeは最初からMCPの思想に沿って訓練されている。OpenAIは後から適応したため、どうしても遅れをとっている。
この数字は、OpenAIの戦略的選択を説明している——
戦略的に、OpenAIはクロスプラットフォームのツール利用規格をAnthropicに決めさせるわけにはいかない。だから、ツール利用能力を自社のエコシステムに内包し——Codexの内蔵ツール、AtlasのWebエージェント、ChatGPTの内蔵コネクタ——を壁の中に再構築し、MCPのようなクロスプラットフォーム規格を自社ユーザーに「必要なく」させる。
MCP Atlasのこの劣勢は、修正すべきバグではなく、避けるべき戦場だ。
OpenAI公式ブログには、非常に珍しい表現がある——
ある技術企業がリリース資料で「ユーザーは面倒に感じるだろう」と積極的に書いている——これは不注意ではなく、意図的な製品戦略の一部だ。困難を認めることで、後の「解決策」の魅力を高めている。
その「解決策」——Trusted Access for Cyber(TAC)——
一般ユーザーはGPT-5.5を使うと、cyber関連の能力が制限され、「面倒に感じるかもしれない」。完全なcyber能力を解放したいなら、TACに参加し、認証を通過すれば、defender(守備側)として認められる。
この仕組みは——**金融業界のKYC(顧客確認)**に似ている。OpenAIはKYCをAI市場に持ち込んだ。
実際の階層構造——
Palo Alto NetworksのCTO、Lee Klarichは今日、支持を表明した——
OpenAIは同時に、$10M APIクレジットをcyber defenderコミュニティに提供すると発表した。これは市場開発費用であり、慈善ではない。
このビジネスの潜在規模は——世界のサイバーセキュリティ市場は年間2000億ドル超。AIの浸透率はまだ数%だ。もしAIが侵入テストや脆弱性発見、インシデント対応を自動化できれば、この市場のAI浸透率は5年以内に30〜50%に跳ね上がる可能性がある。
OpenAIはこの分野の入口を狙い、層別ライセンスで商用化を進めている。Anthropicは別の道を行く——Mythosは外部公開せず、「戦略的パートナー」(実質的には政府や情報機関)だけに提供。より閉鎖的で高級だが、市場規模は小さくなる。
この話は2月、GPT-5.3-Codexリリース当日にさかのぼる。AltmanはXにこう投稿した——
当時、多くの人はこの言葉をtech broの口先とみなしていた。AltmanがAnthropicを皮肉っていると。
違う。これはポジショニングの声明だ。
両社の数字を並べると——
Fortuneの報道は、重要な対比を明らかにしている——AnthropicのARRは30Bドルだが、OpenAIの企業向けARRはそれより高いが、総有料ユーザー数は50M対3M程度。
両社はまったく異なるビジネスモデルだ——
**OpenAIモデル(Googleに似ている):**無料流量(ChatGPT無料版)+大衆向けサブスク(Plus 20ドル)+高価格(Pro 200ドル、Enterprise)。コアの競争優位はユーザ規模と行動データ。9億WAUの利用頻度は、どの競合も短期的に追いつけない。
**Anthropicモデル(Salesforceに似ている):**企業向けSaaSが中心で、顧客一件あたりの契約額(ACV)が高く、深い統合と専門性に粘着性がある。ARRが高いのは単価が高いためで、ユーザ数の多さによるものではない。
Altmanの言葉にある「differently-shaped problem」——は、OpenAIの最適化目標とAnthropicのそれが異なることを示している。Anthropicは一顧客あたりのARRを最適化し、OpenAIはカバレッジと利用頻度を最適化している。
5.5の配信戦略はこれを裏付ける——
Plus 20ドル/月——消費者流入の入口を確保
Pro 200ドル/月——有料アップグレードの梯子
Business/Enterprise——企業向けバルク
API「very soon」——端末ユーザーを先に固定
無料版も維持——新規ユーザーの獲得を継続
主軸は大衆ユーザーへの下位互換だ。OpenAIは「大衆」というアイデンティティを放棄していない。
Altmanは「Texans」と言った——これは、見物人に向けたメッセージだ:私たちとAnthropicをARRで比べるな。私たちは別の戦いをしている。
OpenAIの最終目標は、AI時代のSalesforceではなく——Googleのような流量帝国を築き、それを収益化することだ。
第三杯目のコーヒーを飲みながら
Zombie Caféの客足が増え始めた——スタンフォードの研究生二人、Patagoniaを着たVC二人、ブランチミーティングをしているような創業者の一卓。
10の秘密を整理し終え、最も重要な軸はこの六つだ——
残りは戦術の派生だ——
(03) B端をロックし、値上げとトークン効率向上
(04) 粗利益を調整し、MCP Atlasの弱点を補う
(08) Super App推進と、cyberのコンプライアンス化
(09) 収益化の層別化。
GPT-5.5は単なるモデルのアップグレードではない。戦略的な落とし所の完全な実現だ。
OpenAIはCode Redの状態から4ヶ月、再び戦略の再定義を行い、隠すべきものは隠し、打つべき手は打った。次は——
Anthropicの動きを見守る。Opus 4.7はリリースから一週間、Mythosは手元にあり、Claudeのデザインも進行中。
Google Gemini 4のリリース時期を待つ。
企業CIOの投票動向を注視。
OpenAIのAPI「very soon」がどれほど早くなるかを見守る。
コーヒーはほぼ冷めた。次の一杯はコールドブリューにしよう。