200万トークンとは何か——「作業記憶の爆発的拡張」が変えること
AIモデルのコンテキストウィンドウとは、一度の推論で参照できるテキストの最大量だ。 200万トークンは英語で約150万語、日本語では約100万字に相当する。 これは小説15冊分、あるいは大規模なソフトウェアプロジェクトのコードベース全体を丸ごと「記憶」した状態で会話できることを意味する。
比較すると:
- GPT-4oの最大コンテキスト:128,000トークン
- Claude Opus 4.8の最大コンテキスト:100万トークン(Anthropicが5月28日に発表)
- Gemini 3.5 Proの予定コンテキスト:200万トークン
この違いは単なる数値の差ではない。 コンテキストが長くなるにつれて、モデルは複雑な推論タスクを「一気に」こなせるようになる。 法律契約書数百件の比較分析、複数の医学論文からの矛盾点の抽出、大規模コードベース全体を把握した上でのリファクタリング提案——これらのユースケースが現実的になる。
Anthropicの100万トークン対比でも、Googleは倍の長さを提供することになる。 ただし「長いコンテキスト=賢い」ではない。長文の中央部に埋もれた情報をモデルがどれだけ正確に参照できるか(「ロスト・イン・ザ・ミドル」問題)が真の評価ポイントだ。
Deep Think——推論専用モードが意味する「遅いが深い思考」
Gemini 3.5 ProのもうひとつのターゲットがDeep Thinkだ。 これはOpenAIのo3シリーズやAnthropicの「extended thinking」に相当する「推論専用モード」で、回答を返す前に内部で長時間の思考チェーンを展開する。
通常のトークン生成(「速い思考」)と推論チェーン(「遅い思考」)を使い分けることで、数学的証明、多段推論、競技プログラミング問題、科学的仮説検証などの「答えが自明でないタスク」で精度が大幅に上がることが実証されている。
GoogleはDeep Thinkを月額250ドルのUltra会員向けに提供する方針を示しており、最高精度の推論が必要なユーザーに絞り込む形だ。 これはAnthropicが「Claude Code」の月額課金(エージェントSDKの別枠クレジット制)で開発者向けプレミアム体験を提供する戦略と、方向性が一致している。
Claude Codeが開発者の46%に「最も愛されるツール」に選ばれた背景にも、推論能力の高さがある。 Gemini 3.5 ProのDeep ThinkはAnthropicへの直接的な対抗措置だ。
価格設定の構造——Flashとの10倍差が生む「使い分け戦略」
Gemini 3.5 Flashが1Mトークンあたり入力$1.50・出力$9.00で提供されている中、Gemini 3.5 Proは入力$15・出力$60前後になると予想されている。 これはFlashの約10倍のコストだ。
この「10倍差」は偶然ではない。 Flashは「エージェントの行動ループ」「チャットボットの日常対話」「コード補完」といった高頻度・低コスト用途に向き、Proは「長文書類の分析」「複雑な法務審査」「研究論文の合成」などの低頻度・高価値用途に向く。
AIモデルの価格戦争が始まったで報じたように、MicrosoftとGoogleはAnthropicとOpenAIへの対抗として価格競争を激化させている。 Gemini 3.5 Proが高価格帯に置かれても、Flashとの組み合わせでトータルコストを下げるという戦略が見えてくる。
GoogleのAIアーキテクチャ戦略——「速さのFlash、深さのPro」
GoogleがI/Oで「今月中にリリース」と明言してから3週間が経過し、Gemini 3.5 Proのリリースは6月中旬〜下旬が予想されている。 遅延の理由についてGoogleは公式に言及していないが、200万トークンコンテキストの安定稼働と、Deep Thinkの品質保証に時間をかけていると見られる。
AIモデルの評価において、「平均的な性能」よりも「最悪ケースを避けること」の重要性が増している。 特に200万トークン全体を均一に参照できるかどうかは、長文書類を扱う法務・医療・金融分野の顧客にとって死活問題だ。
GoogleがWebMCPをW3C標準として提案したことで示されたように、GoogleはブラウザとAIエージェントの統合という独自ポジションを持つ。 Gemini 3.5 ProがGemini Enterprise Agent Platformに統合されれば、1億件以上のGoogleサービスユーザーへのダイレクト展開という圧倒的な流通力が働く。
研究者が注目するGemini 3.5 ProのベンチマークとAIME 2026
Googleが開示しているGemini 3.5 Flashのスコアは、Terminal-Bench 2.1で76.2%でGemini 3.1 Proを上回る結果を示した。 Gemini 3.5 Proでは、同ベンチマークでさらに高い数値が期待される。
数学推論の観点では、Deep ThinkモードでのAIME 2026スコアが業界の注目点だ。 MicrosoftのMAI-Thinking-1が97.0%のAIME 2025スコアを記録したが、Gemini 3.5 ProのDeep Thinkはこれを超えることを目指していると見られる。
ただしベンチマークスコアは「特定のテスト問題への最適化」になりがちで、実際の業務使用感とは乖離することも多い。 真の性能評価は、リリース後の独立した第三者検証を待つ必要がある。
Gemini 3.5 Proのリリースは、今夏のAIモデル競争の台風の目になる。 200万トークンとDeep Thinkが実際にどれだけの業務価値を生み出すか——それは、あなた自身が試した時に初めてわかるだろう。
ソース:
- Gemini 3.5: frontier intelligence with action — Google Blog(2026年5月19日)
- Google Gemini 3.5 Pro Nears June Launch With 2 Million Token Context And Deep Think Reasoning — TechTimes(2026年6月6日)
- With Gemini 3.5 Flash, Google bets its next AI wave on agents, not chatbots — TechCrunch(2026年5月19日)
- Gemini 3.5 Pro and Flash: What Builders Should Know — WaveSpeed Blog(2026年6月)
- Gemini 3.5 Pro: The June 2026 Launch Guide — Codersera(2026年6月)