「Spud」という暗号名が示すもの — 完全再学習の意味
GPT-5.5の最大のポイントは、これがOpenAIにとってGPT-4.5以来初の「完全再学習ベースモデル(fully retrained base model)」であるという事実だ。
GPT-5からGPT-5.4までは、同じベース上での微調整(ポストトレーニング)やミクスチャ・オブ・エキスパートの調整で性能を伸ばしてきた。つまり「土台は同じ、チューニングが違う」モデル群だった。GPT-5.5は、その土台ごと作り直している。
項目GPT-4.5(旧最後の再学習)GPT-5.0〜5.4GPT-5.5「Spud」再学習ベースを新規構築ベースは共通、微調整中心ベースを新規構築設計目的汎用知能汎用+推論強化エージェント特化リリース間隔約11ヶ月ぶり約6〜8週ペースGPT-5.4から6週間コードネーム非公表—Spud
OpenAIは公式ブログで、GPT-5.5を「エージェントワークフローのために設計された」と明言している。単に賢くなったのではない。目的関数そのものが変わった。
従来のLLMは「質問に答える」「文章を生成する」ことを中心に最適化されていた。GPT-5.5は、複雑なゴールを理解し、ツールを使い、自分の作業を検証し、多段階のタスクを最小限の人間の介入で完遂することを中心に設計されている。
ブロックマンが「new class of intelligence」と言い切った背景には、この設計思想の転換がある。
ベンチマーク徹底比較 — 14指標でSOTA獲得
GPT-5.5は、発表と同時に公開されたベンチマーク資料で、主要14指標でSOTAを獲得した。同じ土俵で、Claude Opus 4.7は4指標、Google Gemini 3.1 Proは2指標に留まる。
特に目立つのは、エージェント系ベンチマークでの圧勝だ。
ベンチマーク測定対象GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 ProTerminal-Bench 2.0コマンドライン作業82.7%75.1%69.4%68.5%SWE-Bench ProGitHub Issue解決58.6%—64.3%—Expert-SWE20時間規模コーディング73.1%前世代未達——GDPval専門職業務84.9%———BrowseComp(Pro版)Web検索追跡90.1%——85.9%GeneBenchゲノム解析25.0%19.0%——BixBenchバイオインフォ80.5%———
Terminal-Bench 2.0は、コマンドラインでのタスク完遂能力を測るベンチだ。ファイル操作、スクリプト実行、出力の検証など、実エンジニアが日常的にやる作業の連鎖を評価する。GPT-5.4の75.1%から7.6ポイント跳ね、Claude Opus 4.7との差は13ポイント超に広がった。
Expert-SWEはOpenAI内部の評価で、「熟練エンジニアが中央値20時間かかるコーディング課題」をAIがどこまで解けるかを測る。GPT-5.5は、同じタスクをGPT-5.4より少ないトークンで解きつつ、成功率を上げた。速くて強い、ではなく、効率よく強い、という結果だ。
GeneBenchの25.0%は数字だけ見れば低いが、GPT-5.4の19.0%から6ポイント改善している点が大きい。バイオインフォマティクス系のBixBenchで80.5%を叩き出したことと合わせて、OpenAIは「AIが科学研究の現場に入り込める閾値」を意識的に狙いに来ている。
Claude Opus 4.7に負ける領域 — SWE-Bench Proでの敗北
勝ちっぱなしではない。この記事で一番興味深いのは、OpenAIが自らSWE-Bench Proの数字を公開した点だ。
GPT-5.5のスコアは58.6%。同じベンチでAnthropicのClaude Opus 4.7は64.3%を記録しており、5.7ポイント差でOpusの勝ちだ。
SWE-Bench Proは、実在のGitHub Issueを受け取り、エンドツーエンドで修正PRを出すまでを評価する。単発のタスクではなく、複数ファイルをまたぐリファクタリングや、テストコードと実装コードの整合性維持が求められる。Anthropicが2025年以降「長時間・多ファイル・自己検証」を集中的に最適化してきた領域で、OpenAIはまだOpusに届いていない。
公式ブログでOpenAIは、この結果を隠さずに掲載した。Claudeに負けているベンチを自分から出す姿勢は、ここ数年のAI競争では珍しい誠実さだ。同時に、「多くのベンチで勝っているのだから総合力は我々が上だ」という政治的メッセージでもある。
読み手として押さえておきたいのは、「エージェント向けか、長時間の構造的コーディングか」で、モデルを使い分ける局面に入ったという事実だ。ツールを次々と叩いてタスクを回す用途ではGPT-5.5、10個以上のファイルに跨る本格的なPR生成ではClaude Opus 4.7、という棲み分けが実務レベルで見え始めている。
価格は2倍になった — "double the API price"戦略
GPT-5.5のもうひとつの衝撃は、価格だ。ドイツのメディア「The Decoder」の見出しは率直で、「OpenAI unveils GPT-5.5, claims a new class of intelligence at double the API price」と打った。
APIの参考価格(発表時点の公開情報)はこうなっている。
モデル入力トークン出力トークンコンテキストGPT-5.55ドル / 1Mトークン30ドル / 1Mトークン1MトークンGPT-5.5 Pro30ドル / 1Mトークン180ドル / 1Mトークン1MトークンClaude Opus 4.5(比較)5ドル / 1Mトークン25ドル / 1Mトークン—
無印版のGPT-5.5は、Claude Opus 4.5とほぼ同じ価格帯に着地した。出力が30ドルと、Opusの25ドルから20%高い。ここだけ見ると「強気だが許容範囲」だ。
問題はGPT-5.5 Proだ。出力180ドル / 1Mトークンは、GPT-5.4の3〜5倍水準で、OpenAI最強モデルとしての「プレミアム価格」を明確に打ち出している。100万字の長文レポートを一本書かせれば、出力代だけで数千円が消えていく計算だ。
この価格設定の裏には、OpenAIの事業戦略の転換がある。2025年までは「安くて強い」で覇権を取りに行ったが、2026年は「高くても払う法人顧客」をロックインするフェーズに入った。エンタープライズが年契約でGPT-5.5 Proを買えば、Anthropic・Googleに乗り換えるスイッチングコストも膨らむ。価格は、単なる値付けではなく、囲い込みの装置になっている。
API遅延の裏にある "different safeguards"
発表と同時にAPIが出なかった点は、開発者界隈で小さな動揺を呼んだ。ChatGPTとCodexには即日ロールアウトされたのに、API提供は「very soon(ごく近い将来)」とだけ告知された。
OpenAI側は理由を「different safeguards(別の安全装置)」が必要だからと説明している。ChatGPT経由の利用はOpenAIの管理下にあり、ログ取得やコンテンツフィルタが同社のインフラ側で回る。APIは第三者のプロダクトに組み込まれるため、OpenAI自身が挙動を常時監視できない。GPT-5.5は自律的にツールを使い、ブラウザを操作し、コードを実行する設計なので、誤作動した際の被害半径が従来モデルより大きい。
これは建前ではない。2025年後半から2026年にかけて、エージェント型AIが引き起こした「意図せぬ外部API呼び出し」「想定外の課金」「公開チャンネルへの誤投稿」といった事故が、複数のスタートアップで報告されている。GPT-5.5 APIを解放する前に、レートリミット、サンドボックス、監査ログの仕様をどこまで詰めきれるかが、今後数週間の焦点になる。
開発者にとって、ここは実務的に重要なポイントだ。GPT-5.5をプロダクトに組み込む計画を前倒ししたいチームは、API公開のタイミングと、その際のセーフガード仕様を見切ってから本番投入を判断したい。
6週間のリリース間隔が意味するもの — 加速する争奪戦
GPT-5.4からGPT-5.5までの間隔は、わずか6週間。これは歴史的に見ても異例のペースだ。
モデルリリース日前モデルからの間隔GPT-42023年3月—GPT-4.52025年2月約23ヶ月GPT-52025年8月約6ヶ月GPT-5.22025年12月約4ヶ月GPT-5.42026年3月約3ヶ月GPT-5.52026年4月6週間
リリース間隔は指数関数的に縮んでいる。Fortune誌の取材に対し、複数のAI研究者は「完全再学習モデルを6週間で出してきたのは、Anthropicの『Claude Mythos Preview』を意識した前倒しだろう」と分析している。
Mythos Previewは、Anthropicが限定的に公開しているフロンティアモデルで、商用には解放されていない。しかしベンチマーク上はClaude Opus 4.7を超える数字が出ており、OpenAIとしては「表に出ているOpusだけに勝っても市場メッセージとしては弱い」と判断した可能性が高い。
エンタープライズ営業の現場では、「直近6ヶ月で最強ベンチを取ったラボ」がほぼ機械的に選ばれる傾向がある。OpenAI、Anthropic、Googleの3社は、半年ごとの更新ではなく、月次に近い頻度で「ベンチで勝ったニュース」を投入する競争に移行した。
この先、GPT-5.6、GPT-5.7が数週間ごとに出てくる可能性は高い。Claude Opus 4.8、Gemini 3.2 Proも同ペースで追ってくるだろう。ユーザーから見ると、どのモデルを基盤にプロダクトを作るかの意思決定は、数ヶ月単位で賞味期限切れになる。
TechCreateの視点 — 「走り続けて勝てるのか」
GPT-5.5の発表には、OpenAIの焦りと自信が同居している。
自信は数字に表れている。14ベンチでSOTA、完全再学習ベース、エージェント特化設計、GPT-5.5 Proの強気な価格。どれも「我々は先頭にいる」という主張だ。
一方の焦りは、リリース間隔に滲んでいる。完全再学習モデルを6週間で投入する意思決定は、通常の研究開発サイクルでは出てこない。Anthropic、Google、そしてMeta、DeepSeek、xAIといった後続勢に対して、止まった瞬間に追い抜かれるという恐怖がOpenAI社内にある。
問題は、このペースが持続可能かどうかだ。完全再学習には数千万ドル規模の計算資源が必要とされ、それを6週間ごとに繰り返すのは、マイクロソフトの資金援助を前提にしても重い。また、半年後のユーザーが「先月のモデルより5ポイント良いベンチ数字」に反応するかどうかも怪しい。ベンチの飽和が近づけば、差別化の軸は別の場所に移る。
SWE-Bench ProでClaudeに負けていることを自社で公開した姿勢は、裏を返せば「ベンチ一つ一つの勝敗ではなく、総合力で勝つ」というメッセージ発信でもある。つまりOpenAIは、単純なベンチ競争から一歩離れた"プロダクトとしての勝ち方"を模索し始めている。
ChatGPTの月間アクティブユーザー、Codexの企業導入数、GPT-5.5 Proの法人契約額。こちらが次の戦場になる。
GPT-5.5は、AIの歴史における「技術ジャンプ」というより、「プロダクト戦略の転換点」として記憶されるかもしれない。モデルを出し続けるだけで勝てる時代は終わり、出したあと何を握るかが問われる時代に入った。
あなたがGPT-5.5を使って何を作るか。その意思決定の賞味期限は、もう6週間を切っている。
出典・参考
-
OpenAI launches GPT-5.5 just weeks after GPT-5.4 as AI race accelerates | Fortune
-
OpenAI announces GPT-5.5, its latest artificial intelligence model | CNBC
-
OpenAI unveils GPT-5.5, claims a "new class of intelligence" at double the API price | The Decoder
-
OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark score | Interesting Engineering
