2026年3月──AI三国志は、新たな局面を迎えた。
OpenAIのGPT-5.4(3月5日リリース)、AnthropicのClaude Opus 4.6(2月5日)とSonnet 4.6(2月17日)、そしてGoogleのGemini 3.1 Pro(2月〜3月にかけて段階的リリース)。三大テック企業のフラッグシップモデルが出揃い、かつてない激戦が繰り広げられている。
「結局どのモデルを使えばいいのか?」
開発者、ビジネスパーソン、クリエイター──立場を問わず、これが2026年春の最大の問いだろう。本記事では、ベンチマークデータ、実使用感、API料金、ユースケース適性まで、全方位で三大モデルを徹底比較する。結論を先に言えば、「万能の最強」は存在しない。だが、あなたのタスクにとっての最適解は、必ずこの中にある。
モデル概要──2026年春、各社のラインナップ
まず、各社が2026年春時点で展開するモデルファミリーの全体像を押さえておこう。
OpenAI
| モデル | リリース | 概要 |
|---|---|---|
| GPT-5.4 | 2026年3月5日 | 最新フラッグシップ。1Mコンテキスト、ネイティブコンピュータ制御、GDPval 83% |
| GPT-5.2-Codex | 2025年12月 | ソフトウェアエンジニアリング特化。コード生成・レビューに最適化 |
| GPT-5 mini | — | 無料ユーザー向け。ChatGPTの基盤モデル |
OpenAIの戦略は明確だ。GPT-5.4を「AIが人間の代わりにコンピュータを操作する」時代のフラッグシップと位置づけ、OSWorldベンチマークで人間超えを達成。GPT-5.2-Codexはコーディング専門として切り分け、GPT-5 miniは無料ユーザーの間口を広げる。
Anthropic
| モデル | リリース | 概要 |
|---|---|---|
| Claude Opus 4.6 | 2026年2月5日 | 最新フラッグシップ。1Mコンテキスト、Adaptive Thinking、SWE-bench 80.8% |
| Claude Sonnet 4.6 | 2026年2月17日 | Opusの98%性能を約1/5の価格で実現。開発者の主力モデル |
| Claude Haiku 4.5 | 2025年10月 | 高速・低コスト。リアルタイム処理やバッチ処理に |
Anthropicの強みは「深さ」だ。コーディングと長文理解で圧倒的な実力を持ち、Claude Codeというネイティブ開発環境との統合が他社にない武器になっている。Sonnet 4.6のコストパフォーマンスの高さも見逃せない。
| モデル | リリース | 概要 |
|---|---|---|
| Gemini 3.1 Pro Preview | 2026年2〜3月 | 最新。科学・推論ベンチマークで突出した性能 |
| Gemini 3 Flash | 2026年初 | Google AIのデフォルトモデル。速度とコストのバランス型 |
| Gemini 3.1 Flash-Lite | 2026年3月3日 | 最安値・最速。大量処理向け |
Googleの武器は「広さ」だ。唯一の動画・音声ネイティブ対応、Google Workspace統合、そして最安値帯の料金設定。Gemini 3.1 Proは科学と推論のベンチマークで驚異的なスコアを記録している。
ベンチマーク総合比較──数字が語る各モデルの実力
言葉より数字で語ろう。主要ベンチマークのスコアを一覧にした。
| ベンチマーク | 測定領域 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | 勝者 |
|---|---|---|---|---|---|
| SWE-bench Verified | コーディング | 74.9% | 80.8% | 80.6% | Claude |
| AIME 2025 | 数学 | 100% | — | 86.7% | GPT |
| GPQA Diamond | 科学 | — | — | 94.3% | Gemini |
| ARC-AGI-2 | 汎用推論 | 54% | 37% | 77.1% | Gemini |
| MMLU | 知識・学術 | 90%+ | 91.3% | 94.3% | Gemini |
| GDPval | 業務能力 | 83.0% | — | — | GPT |
| OSWorld | コンピュータ制御 | 75.0% | 72.7% | — | GPT |
一目で分かるのは、どのモデルも「全勝」していないことだ。
GPTは数学と業務能力で圧倒し、Claudeはコーディングとコンピュータ制御で首位を取り、Geminiは科学・推論・知識の3領域で他を引き離す。この三つ巴の構図こそが、2026年のAI競争の本質だ。
注意すべきは、ベンチマーク間の比較には限界があることだ。「—」は未公表または測定条件の差異により直接比較が困難なケースを示す。各社とも自社に有利なベンチマークを強調する傾向があり、全体像を見ることが重要になる。
コーディング能力──開発者が最も知りたい比較
ソフトウェア開発者にとって、AIモデル選択の最重要指標はコーディング能力だ。
SWE-bench Verified スコア比較
| モデル | SWE-bench Verified | 備考 |
|---|---|---|
| Claude Opus 4.6 | 80.8% | 全モデル最高スコア |
| Gemini 3.1 Pro | 80.6% | Claudeと僅差 |
| Claude Sonnet 4.6 | 79.6% | Opusの98%性能を1/5の価格で |
| GPT-5.4 | 74.9% | 三大フラッグシップでは最下位 |
| GPT-5.2-Codex | — | コーディング特化だがSWE-benchは未公表 |
SWE-bench Verifiedは、実際のGitHubイシューを解決する能力を測定するベンチマークだ。人間のソフトウェアエンジニアが日常的に行うバグ修正や機能実装を再現しており、実務的なコーディング能力の指標として最も信頼性が高い。
ここでの注目ポイントは三つある。
第一に、Claude Opus 4.6が僅差ながらトップを維持していること。 80.8%というスコアは、提出されたパッチの8割以上が正しくイシューを解決したことを意味する。
第二に、Claude Sonnet 4.6の異常なコストパフォーマンス。 Opusの$15/$75(入力/出力、100万トークンあたり)に対し、Sonnet 4.6は$3/$15で79.6%を達成。1/5の価格で98%の性能を得られる計算だ。大量のコーディングタスクを日常的に回す開発者にとって、Sonnet 4.6は現時点で最合理的な選択肢と言える。
第三に、GPT-5.4がコーディングでは明確に劣る点。 74.9%は決して低いスコアではないが、Claude・Geminiの80%超と比較すると差は歴然だ。OpenAIはGPT-5.2-Codexをコーディング特化モデルとして別途用意しているが、SWE-benchのスコアは未公表であり、実力は未知数だ。
エージェントコーディング
2026年のコーディングは「人間がコードを書く」時代から「AIエージェントがコードを書く」時代に移行しつつある。この文脈で突出しているのがAnthropicだ。
Claude Codeは、Claude Opus 4.6をバックエンドとしたネイティブなAI開発環境だ。ターミナルから直接Claudeを呼び出し、リポジトリ全体を理解した上でコード生成・修正・テスト実行を一貫して行える。VS Code、JetBrains IDEとの統合も完了しており、既存の開発ワークフローにシームレスに組み込める。
GPT-5.4もCodex CLIを提供しているが、Claude Codeほどの成熟度には達していない。Geminiについては、Google Cloud上のコーディングアシスタント「Gemini Code Assist」が存在するが、ローカル開発環境との統合度ではClaudeに一歩譲る。
| 環境 | バックエンド | IDE統合 | 特徴 |
|---|---|---|---|
| Claude Code | Claude Opus 4.6 / Sonnet 4.6 | VS Code, JetBrains | リポジトリ全体理解、ターミナル統合 |
| Codex CLI | GPT-5.4 / Codex | VS Code | サンドボックス実行、マルチファイル |
| Gemini Code Assist | Gemini 3.1 Pro | Cloud IDE, VS Code | Google Cloud統合 |
推論・数学・科学──知的能力の頂点はどこか
数学:GPT-5.4が前人未踏の100%
| モデル | AIME 2025 | MATH | 備考 |
|---|---|---|---|
| GPT-5.4 | 100% | — | 初の満点達成 |
| Gemini 3.1 Pro | 86.7% | 95.1% | MATHでは最高 |
| Claude Opus 4.6 | — | — | 数学ベンチマーク未公表 |
AIME(American Invitational Mathematics Examination)は、全米数学コンテストの上位者のみが受験できる難関試験だ。GPT-5.4がここで100%を達成したことの意味は大きい。人間のトップ数学者レベルの問題を、AIが完全に解ける時代に入ったことを示している。
一方、MATHベンチマーク(大学レベルの数学問題セット)ではGemini 3.1 Proが95.1%で最高スコアを記録している。数学領域全体で見れば、GPTとGeminiの二強体制と言えるだろう。
科学:Gemini 3.1 Proの独壇場
| モデル | GPQA Diamond | 測定条件 |
|---|---|---|
| Gemini 3.1 Pro | 94.3% | 大学院レベル科学問題 |
| GPT-5.4 | — | 未公表 |
| Claude Opus 4.6 | — | 未公表 |
GPQA Diamond(Graduate-level PhD Questions and Answers)は、物理学・化学・生物学の大学院レベルの問題で構成されるベンチマークだ。Gemini 3.1 Proの94.3%は驚異的なスコアであり、科学研究支援においてGeminiが最適な選択肢であることを示している。
汎用推論:ARC-AGI-2でGeminiが圧勝
| モデル | ARC-AGI-2 | 備考 |
|---|---|---|
| Gemini 3.1 Pro | 77.1% | 2位以下に大差 |
| Claude Sonnet 4.6 | 58.3% | Opusではなく中位モデル |
| GPT-5.4 | 54% | フラッグシップとしては低め |
| Claude Opus 4.6 | 37% | 意外な低スコア |
ARC-AGI-2は、AIの「汎用知能」を測定する目的で設計されたベンチマークだ。パターン認識と抽象的推論を要求するタスクで構成され、暗記や統計的パターンマッチングでは解けない問題が多い。
ここでのGemini 3.1 Proの77.1%は他を圧倒している。興味深いのはClaude Opus 4.6が37%とフラッグシップモデルとしては低いスコアを記録している点だ。コーディングでは最強のClaudeが、抽象的推論では苦戦する──モデルごとの得意不得意がこれほど鮮明に出る指標も珍しい。
創作・文章力──AIの「個性」が問われる領域
ベンチマークでは測れない領域がある。文章の質、表現の豊かさ、創作における独自性──いわゆる「AIっぽさ」の有無だ。
Claude Opus 4.6:最も「人間的」な文章
Claude Opus 4.6は、ユーザーコミュニティから一貫して「最も自然な文章を書くAI」と評価されている。その特徴は以下の通りだ。
- 文体の多様性: 論説、物語、詩、ビジネス文書まで、求められるトーンに応じて自然に書き分ける
- AI臭さの少なさ: 「〜と言えるでしょう」「〜が重要です」といった定型的な締め方への依存が少ない
- 反復の回避: 同じ構造や表現の繰り返しを避け、文章にリズムと変化を持たせる
- Adaptive Thinking: 必要に応じて内部で思考プロセスを拡張し、深い文脈理解に基づいた文章を生成
GPT-5.4:高性能だが「無個性」の批判
GPT-5.4は技術的には高水準の文章を生成するが、ユーザーコミュニティからは厳しい評価も聞こえてくる。ある技術ブロガーは「コンプライアンス研修を終えたばかりのAIが書いた文章」と表現した。
具体的な批判点としては、以下が挙げられる。
- 過度に「安全」な表現を優先し、エッジの効いた主張を避ける傾向
- ルーターモデルアーキテクチャにより、プロンプトによって出力品質にばらつきが生じる
- 長文生成時に構造が平板になりやすい
Gemini 3.1 Pro:ガードレールの壁
Gemini 3.1 Proは高い知識量を活かした情報密度の高い文章を生成できるが、安全ガードレールの厳しさが創作を阻害するケースが報告されている。
- フィクション内の暴力描写や対立的な議論を過度に回避
- 「バランスの取れた」表現を強制し、断定的な主張を弱める傾向
- 結果として、論説やオピニオン記事では「どっちつかず」な印象を与えることがある
| 評価軸 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| 文章の自然さ | ★★★★★ | ★★★★ | ★★★★ |
| 創作の独自性 | ★★★★★ | ★★★ | ★★★ |
| 論説・主張の鋭さ | ★★★★★ | ★★★ | ★★★ |
| 情報密度 | ★★★★ | ★★★★ | ★★★★★ |
| 安全性バイアスの少なさ | ★★★★ | ★★★ | ★★★ |
マルチモーダル──見て、聴いて、理解する
2026年のAIモデルは「テキストだけ」の時代を完全に脱した。画像、音声、動画、PDF──どのモダリティに対応しているかが、実用性を大きく左右する。
| モダリティ | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| テキスト入出力 | ○ | ○ | ○ |
| 画像理解 | ○ | ○ | ○ |
| 画像生成 | ○(DALL·E統合) | × | ○(Imagen統合) |
| 音声入力 | ○ | × | ○(ネイティブ) |
| 音声出力 | ○ | × | ○(ネイティブ) |
| 動画理解 | △(フレーム抽出) | × | ○(ネイティブ) |
| PDF解析 | ○ | ○ | ○ |
| コード実行 | ○ | ○(Claude Code) | ○(Google Colab連携) |
Geminiが明確にリードしている領域がここだ。 動画と音声のネイティブ対応は、2026年3月時点ではGeminiのみの特権と言ってよい。YouTubeの動画を直接入力として処理し、音声の文脈を理解した上で回答を生成できるのはGemini 3.1 Proだけだ。
Claude Opus 4.6は画像・PDF・コードの処理に優れるが、音声と動画には非対応。テキストと画像に特化することで、その領域では最高品質を維持する戦略をとっている。
GPT-5.4は画像生成(DALL·E統合)と音声トランスクリプトに対応しているが、動画のネイティブ処理はフレーム抽出による限定的なものにとどまる。
コンテキストウィンドウ──「記憶力」の比較
長文処理やコードベース全体の理解において、コンテキストウィンドウの大きさは決定的な差を生む。
| モデル | 最大コンテキスト | 標準コンテキスト | 価格への影響 |
|---|---|---|---|
| GPT-5.4 | 1,000,000トークン | 272,000トークン | 272K超は入力価格2倍 |
| Claude Opus 4.6 | 1,000,000トークン | 1,000,000トークン | 追加料金なし |
| Claude Sonnet 4.6 | 1,000,000トークン | 1,000,000トークン | 追加料金なし |
| Gemini 3.1 Pro | 1,000,000トークン | 1,000,000トークン | 128K超は入力価格2倍 |
| Gemini 3 Flash | 1,000,000トークン | 1,000,000トークン | 128K超は入力価格2倍 |
数字だけ見れば「全社1Mトークン」だが、価格設計に大きな差がある。
Claudeは1Mトークンを標準価格で利用できる。追加料金は一切かからない。大規模コードベースの分析や、長大なドキュメントの処理を日常的に行う開発者にとって、これは無視できないアドバンテージだ。
GPT-5.4は272,000トークンを超えると入力価格が2倍になる。100万トークン級のプロンプトを頻繁に送るユースケースでは、コストが急増する。
Geminiは128,000トークンを超えると入力価格が2倍だが、元の単価が安い(Gemini 3.1 Proで$2.00/MTok)ため、2倍になっても$4.00/MTokと、Claude Opusの$15.00/MTokより大幅に安い。
API料金徹底比較──開発者のための損益計算
コストは性能と同等以上に重要な選択基準だ。全モデルの料金を一覧にする。
フラッグシップモデル
| モデル | Input ($/MTok) | Output ($/MTok) | コスパ評価 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | ★★★ |
| Claude Opus 4.6 | $15.00 | $75.00 | ★★ |
| Gemini 3.1 Pro | $2.00 | $12.00 | ★★★★★ |
中位モデル(コスパ重視)
| モデル | Input ($/MTok) | Output ($/MTok) | コスパ評価 |
|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | ★★★★★ |
| GPT-5.3 Instant | — | — | — |
| Gemini 3 Flash | $0.50 | $3.00 | ★★★★★ |
軽量モデル
| モデル | Input ($/MTok) | Output ($/MTok) | コスパ評価 |
|---|---|---|---|
| Claude Haiku 4.5 | $1.00 | $5.00 | ★★★★ |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | ★★★★★ |
フラッグシップ同士の比較で最も衝撃的なのは、Claude Opus 4.6の価格がGemini 3.1 Proの約6倍だという事実だ。Input $15.00 vs $2.00、Output $75.00 vs $12.00。同等レベルのベンチマークスコアを持つ二つのモデルで、これほどの価格差がある。
ただし、Claude Opus 4.6は「最高品質を求めるタスク」に特化したプレミアムモデルとして位置づけられている。日常的な利用にはSonnet 4.6($3/$15)が推奨されており、これはGPT-5.4とほぼ同等の価格帯だ。
コスト最適化の結論:
- 最安で大量処理: Gemini 3.1 Flash-Lite($0.25/$1.50)
- コスパ最強のコーディング: Claude Sonnet 4.6($3/$15、SWE-bench 79.6%)
- バランス型フラッグシップ: Gemini 3.1 Pro($2/$12)
- 品質最優先: Claude Opus 4.6($15/$75、SWE-bench 80.8%)
サブスクリプション料金比較──個人ユーザー向け
API利用ではなく、チャットインターフェースで使う個人ユーザー向けのプラン比較も重要だ。
| 項目 | ChatGPT (OpenAI) | Claude (Anthropic) | Google AI Premium |
|---|---|---|---|
| 無料プラン | GPT-5 mini利用可 | 制限付きSonnet 4.6 | Gemini Flash利用可 |
| 標準プラン | Plus $20/月 | Pro $20/月 | Premium $19.99/月 |
| 上位プラン | Pro $200/月 | Max 5x $100/月 | Ultra ~$30/月 |
| 最上位プラン | — | Max 20x $200/月 | — |
| 標準プランの主要モデル | GPT-5.4(80msg/3h) | Opus 4.6 + Sonnet 4.6 | Gemini 3.1 Pro |
| 特徴的な付加価値 | Codex CLI、DALL·E | Claude Code利用可 | Workspace連携 |
価格帯は三社ほぼ横並びだが、提供される体験は大きく異なる。
ChatGPT Plusは、GPT-5.4へのアクセス(3時間あたり80メッセージ上限)に加え、Codex CLIやDALL·E画像生成を含む総合パッケージ。$200のProプランでは制限が大幅に緩和される。
Claude Proは、Opus 4.6とSonnet 4.6の両方にアクセスでき、Claude Codeの利用権も含まれる。開発者にとっては実質的に「AI開発環境込み」のプランだ。Maxプラン($100〜$200/月)ではClaude Codeの利用量が5倍〜20倍に拡大する。
Google AI Premiumは最安値帯だが、最大の差別化ポイントはGoogle Workspace統合だ。Gmail、Drive、Docs、SheetsにGeminiが直接組み込まれ、既存の業務フローを変えることなくAIを活用できる。
ユースケース別おすすめ──あなたのタスクに最適なモデルは?
ここまでの分析を踏まえ、ユースケースごとの最適モデルを整理する。
| ユースケース | 最推奨モデル | 次点 | 理由 |
|---|---|---|---|
| ソフトウェア開発(品質重視) | Claude Opus 4.6 | Claude Sonnet 4.6 | SWE-bench最高80.8%、Claude Code統合 |
| ソフトウェア開発(コスパ重視) | Claude Sonnet 4.6 | Gemini 3.1 Pro | $3/$15でSWE-bench 79.6%は破格 |
| 数学研究・数値解析 | GPT-5.4 | Gemini 3.1 Pro | AIME 2025で100%達成の唯一のモデル |
| 科学研究・論文支援 | Gemini 3.1 Pro | GPT-5.4 | GPQA Diamond 94.3%、MATH 95.1% |
| 業務自動化・エンタープライズ | GPT-5.4 | Gemini 3.1 Pro | GDPval 83%、44職種で人間と同等以上 |
| 創作・コンテンツ制作 | Claude Opus 4.6 | GPT-5.4 | 最も自然な文章、AI臭さが最少 |
| マルチモーダル処理(動画・音声) | Gemini 3.1 Pro | GPT-5.4 | 唯一の動画・音声ネイティブ対応 |
| Google Workspace業務 | Gemini 3 Flash | Gemini 3.1 Pro | Gmail/Drive/Docs直接連携 |
| 低コスト大量バッチ処理 | Gemini 3.1 Flash-Lite | Claude Haiku 4.5 | $0.25/$1.50は全モデル最安 |
| コンピュータ操作自動化 | GPT-5.4 | Claude Opus 4.6 | OSWorld 75%で人間超え |
| 長文ドキュメント分析 | Claude Opus 4.6 | Gemini 3.1 Pro | 1M追加料金なし、長文理解力最高 |
各モデルの強みと弱み──正直な評価
GPT-5.4
強み:
- 数学:AIME 2025で前人未踏の100%
- 業務能力:GDPval 83%で9産業44職種をカバー
- コンテキスト:1Mトークン対応
- コンピュータ制御:OSWorld 75%で初の人間超え
- エコシステム:ChatGPT、Codex CLI、DALL·E、APIの総合力
弱み:
- コーディング:SWE-bench 74.9%はClaude・Geminiに明確に劣る
- 創作力:「無個性」「コンプライアンス過剰」との批判
- ルーターモデル:内部でモデルを切り替える設計が、出力品質のばらつきを生む
- 長文コスト:272K超で入力価格2倍
Claude Opus 4.6
強み:
- コーディング:SWE-bench 80.8%で全モデル最高
- コンピュータ制御:OSWorld 72.7%
- 文章力:最も自然で個性的な文章生成
- Claude Code:ネイティブ開発環境との統合
- コンテキスト:1M追加料金なし
- Adaptive Thinking:タスクの複雑さに応じて思考プロセスを自動調整
弱み:
- API最高額:$15/$75はGemini 3.1 Proの約6倍
- マルチモーダル:音声・動画に非対応
- 一部推論:ARC-AGI-2で37%と低スコア
- エコシステム:画像生成機能なし、Workspace統合なし
Gemini 3.1 Pro
強み:
- 科学:GPQA Diamond 94.3%
- 推論:ARC-AGI-2 77.1%で圧勝
- マルチモーダル:動画・音声のネイティブ対応は唯一無二
- 料金:フラッグシップで$2/$12は最安値
- Google統合:Workspace、YouTube、Google Searchとの連携
- 知識:MMLU 94.3%
弱み:
- 長文品質劣化:コンテキストが長くなるほど出力精度が低下する報告あり
- 安全ガードレール:創作やオピニオン系で過度に慎重な出力になる
- 構造化出力:JSONやXMLの出力フォーマットが不安定な場合がある
- レート制限:無料枠・低価格帯でのレート制限が他社より厳しい
2026年後半の展望──三国志の行方
三社はすでに次の一手を準備している。
OpenAIは「コンピュータを操作するAI」を軸に、エンタープライズ市場への浸透を加速させるだろう。OSWorldでの人間超えは、業務自動化サービスの信頼性を裏付ける強力な実績となる。GPT-6の噂も絶えない。
Anthropicは「最も信頼できるAI」というポジショニングを深化させる。Claude Codeの進化、Sonnetシリーズのコストパフォーマンス強化、そしてマルチモーダル対応の拡張が予想される。米国国防総省との契約も注目される。
Googleはインフラの強みを活かした「AIをどこでも使える」戦略を推し進める。Workspace統合の深化、Android/Pixelへの組み込み、そしてGemini 3.2以降での更なる性能向上が期待される。
三つの異なる哲学が、三つの異なる方向に進化を続ける。「最強のAIモデル」という問い自体が、もはや意味をなさなくなりつつある。コーディングならClaude、数学ならGPT、科学とマルチモーダルならGemini。正解は1つではなく、タスクの数だけ最適解がある。
2026年後半──この三国志はどこに向かうのか。次の一手を打つのは、どの企業だろうか。
出典・参考
- OpenAI「Introducing GPT-5.4」(2026年3月5日)
- Anthropic「Claude Opus 4.6 System Card」(2026年2月5日)
- Anthropic「Claude Sonnet 4.6 Release Notes」(2026年2月17日)
- Google DeepMind「Gemini 3.1 Technical Report」(2026年2月)
- SWE-bench Verified Leaderboard(2026年3月時点)
- AIME 2025 AI Performance Tracking
- GPQA Diamond Benchmark Results
- ARC-AGI-2 Public Leaderboard
- OSWorld-Verified Benchmark(オープンソース・コンピュータ操作評価)
- GDPval Test Results(OpenAI知的労働評価フレームワーク)
- 各社API Pricing Pages(2026年3月時点)
- gHacks「OpenAI Launches GPT-5.4 With AI Agents That Can Use Computers」(2026年3月6日)
- The Verge「Anthropic's Claude Opus 4.6 tops coding benchmarks」(2026年2月)
- TechCrunch「Google's Gemini 3.1 Pro sets new records in science reasoning」(2026年3月)

