2026/4/26|更新: 2026/5/12

Google、第8世代TPUを学習用と推論用に分割——「数百万の並列エージェント」が要求するAIインフラ再設計の全貌（2026年4月）

Engineeringニュース

Rei·11分で読める

Googleは2026年4月22日、Google Cloud Nextにおいて第8世代TPU（Tensor Processing Unit）を発表した。

今回の最大の特徴は、従来の「汎用TPU」という思想を捨て、学習専用の「TPU 8t」と推論専用の「TPU 8i」の2種類に分割したことだ。「数百万の並列エージェント実行」を想定した設計思想は、AIインフラが単なる計算資源からエージェントランタイムへと進化する転換点を示す。

この記事の要点

Googleが第8世代TPUを発表、学習用「TPU 8t」と推論用「TPU 8i」に分割した
TPU 8tは前世代Ironwood比で同コスト2.8倍の学習性能向上を実現した
TPU 8iは1チップ384MBのSRAMを搭載し、推論スループットを80%引き上げた
CUDAエコシステム未成熟・マルチクラウド対応の遅れが採用上の課題として残る
NVIDIA一強体制への対抗としてAmazonやMicrosoft、テスラも自社チップを加速する

TPU 8t vs TPU 8i：分割の技術的意味

TPU 8t（学習用）は、前世代「Ironwood」と比べて同コスト比で2.8倍の性能向上を達成した。大規模モデルの事前学習・ファインチューニングに特化した設計であり、数千チップを束ねたGoogle AI Hypercomputerクラスタでの稼働を前提としている。

TPU 8i（推論用）は、スループット80%向上・1チップあたり384MBのSRAMを搭載する。レイテンシを極小化しながら、大量の並列リクエストを処理するエージェントアーキテクチャに最適化されている。 384MBのオンチップSRAMは、モデルのKVキャッシュをオフチップメモリに逃さず処理できることを意味し、レイテンシ面での優位をNVIDIA H100系に対して主張する設計だ。

エンジニア視点での技術的優位点と課題

エンジニア視点では、TPU 8の最大のインパクトは「学習と推論の完全分離」というアーキテクチャ転換にある。

従来、汎用GPUがモデルの学習も推論も担ってきたことで、「学習と推論で最適化が異なる」という根本的な非効率が存在した。 GoogleがTPUで学習・推論を分けることは、CPUとGPUの分業という数十年前の設計判断の繰り返しに見える——それだけ自然な分割だと言える。

一方で課題もある。 TPUはNVIDIAのエコシステム（CUDA/cuDNN）に比べてソフトウェアスタックの成熟度が低く、PyTorchやHugging Faceとの互換性は改善途上だ。 JAX/XLAベースの開発体験はGoogleクラウドに依存しており、マルチクラウド戦略を採る企業が採用しにくい構造的な問題は残る。

NVIDIAがハノーバーメッセ2026でAI工場の設計図を提示したことと合わせて見ると、AIインフラ競争は「チップ単体性能」から「エコシステム＋ランタイム」の戦争になっている。

NVIDIAへの対抗という地政学的文脈

Google TPU 8の発表は、純粋な技術的改善にとどまらない地政学的含意も持つ。米中間の半導体輸出規制が強化されるなか、中国（DeepSeek等）は華為技術（Huawei）のAscend 950チップに依存せざるを得ない状況にある。一方、米国勢はNVIDIA H100/H200、Google TPU、Amazon Trainium/Inferentia、Microsoft Maia等で「NVIDIA以外の選択肢」を整備しつつある。

テスラが2026年に2.5兆円の設備投資を宣言した背景にも、自社AIチップ（Dojo）の内製化がある。ビッグテックが揃って「チップ自製」を加速するトレンドは、NVIDIAの独占的地位への危機感と表裏一体だ。

「数百万の並列エージェント」が問う設計思想の転換

Googleが「エージェント時代のTPU」と銘打ったのは偶然ではない。従来のAIインフラは「一つのリクエストを速く処理する」最適化だったが、エージェント型AIは「数百万の並列タスクを同時に管理する」という全く異なる要件を持つ。

具体的には、エージェントは「小さなLLMコール×大量回数」のパターンをとるため、スループットとレイテンシのトレードオフが従来と逆転する。 TPU 8iの384MB SRAMは、この「大量・短時間・並列」の推論パターンに対応するための投資だ。

この設計思想は、MicrosoftのAzure AI InfrastructureやAWSのTrainium 2とも共通する方向性であり、「次の5年のAIインフラ」は明らかにエージェント向けへとシフトしている。

Google Cloud Nextで示されたロードマップ

Google Cloud Nextでは、TPU 8の他にもエージェントAI向けの複数製品が発表された。 Vertex AIとの統合強化、Agent Development Kit（ADK）の機能拡張、BigQueryへのエージェント機能追加が中心だ。

TPU 8の一般提供は2026年後半を予定しており、クラウド顧客がどこまで採用を広げるかは今後の焦点だ。

今後の注目点：CUDAエコシステム代替の成熟度

「NVIDIA一強」に一石を投じるには、CUDA代替のソフトウェアスタックの完成度向上が不可欠だ。 Google TPU 8がどれだけ優れた計算性能を持っていても、エンジニアが使い慣れたPyTorchのコードをそのまま動かせない限り、採用は進まない。

JAXエコシステムの成熟とHugging Face連携の強化——この二点が、Google TPUが「本当の選択肢」になるかどうかを決める。エンジニアの立場からは、TPU 8iの実機ベンチマーク結果と、自社ワークロードへの適用可能性の検証が当面の最優先事項になるだろう。

ソース:

他社カスタムシリコンとの比較：Trainium・Maia・MTIAの戦略

Google TPU 8の位置づけを正確に理解するには、競合各社のカスタムシリコン戦略との比較が欠かせない。

AmazonはTrainium 2（学習用）とInferentia 3（推論用）の二本立てを採用しており、Anthropicとの戦略提携でClaudeの学習・推論に大量採用されている。 2025年12月にAnthropicが発表した次世代モデルClaude Opus 4.7はTrainium 2クラスタで学習されたとされ、AWSの内製チップが商用最先端モデルを動かす実証例となった。

MicrosoftはMaia 100を2024年に投入し、OpenAIワークロードの推論側を担いつつある。第二世代Maia 200の開発も進んでおり、2026年下半期の投入が予定される。 Microsoft独自の点は「電力効率」を全面に押し出していることで、データセンターの空冷・液冷インフラまで含めた統合設計を提唱する。

MetaはMTIA（Meta Training and Inference Accelerator）の第三世代を2026年中にリリース予定だ。レコメンデーションエンジン特化型の設計が特徴で、汎用LLM学習よりもMeta社内ワークロードへの最適化を優先している。

GoogleのTPU 8がこれらと差別化される点は「外販戦略の積極性」だ。 AWS・Microsoft・Metaの自製チップは自社クラウド・自社サービスでの使用が主体だが、Googleはサードパーティへの貸出を積極化している。 Vertex AI経由でTPUにアクセスする企業数は2025年に前年比2倍以上に増加しており、エコシステム拡大の本気度が違う。

エンジニアの実践課題：JAX/PyTorchエコシステムのギャップを埋める方法

TPU 8を実務で使うエンジニアが直面する最大の壁は、PyTorchとの互換性だ。

GoogleはPyTorch/XLAというブリッジを提供しているが、CUDAネイティブのPyTorchコードをそのまま動かすには制約が多い。特に問題になるのは、独自のCUDAカーネル（Flash Attention・Triton実装等）への依存だ。

対応策は3つに分かれる。

第一に、JAXへの全面移行だ。 DeepMindやGoogle Brain系の研究室はJAXネイティブで開発しており、TPU 8の性能を最大限引き出せる。しかし、HuggingFaceエコシステム・PyTorch Lightning・既存のpre-trainedモデル資産との互換性が低下するため、研究機関以外では移行コストが高い。

第二に、PyTorch/XLA経由でのハイブリッド運用だ。標準的なTransformerモデルであればPyTorch/XLAでTPU性能の70〜85%程度を引き出せる。 LLaMA 2/3、Mistral系モデルのファインチューニングは比較的スムーズに動く事例が増えている。

第三に、TPU 8iを推論専用として位置づけ、学習はNVIDIA・推論はTPUという分業を採る方法だ。 vLLMがTPU対応を強化しており、推論パイプラインだけTPUに切り出す構成は実装難度が下がってきている。コスト削減効果は学習・推論分離型の方が大きい場合もあり、ワークロード特性に応じて選択する。

エネルギー制約：データセンター電力という新たなボトルネック

AIインフラ競争で見落とされがちなのが、電力供給の制約だ。

Google TPU 8tのクラスタは1ラックあたり最大100kW級の電力消費が見込まれ、従来のデータセンター設計（1ラックあたり10〜20kW）の5倍以上の電力密度になる。冷却も従来の空冷では対応できず、液冷・直接冷却の導入が必須だ。

米国ではバージニア州・テキサス州・アリゾナ州のデータセンターハブで電力グリッドの逼迫が深刻化しており、新規データセンター建設が電力会社との交渉で2〜3年遅れる事例が増えている。 Microsoftがスリーマイル島原発の再稼働契約を結び、Amazonが小型モジュール炉（SMR）への投資を加速する背景には、この電力制約への危機感がある。

日本でも同様の課題がある。国内データセンターの集積地である東京圏（千葉・印西）と関西圏（堺・大阪）では、東京電力・関西電力との特別高圧契約の確保が新規参入の障壁となっている。さくらインターネットが石狩データセンターでAI特化型施設を増強する戦略は、寒冷地という冷却優位性と電力余剰のある北海道に活路を見出した動きだ。

Google TPU 8がいかに優れていても、データセンター側の物理制約が普及速度を決める時代になっている。エンジニアがインフラ選定をする際は、チップ性能だけでなく「どこのデータセンターで、いつ実際に使えるか」というキャパシティ計画まで確認する必要がある。

よくある質問

Q1. なぜTPUを学習用と推論用に分けたのか？

学習と推論で求められる最適化が根本的に異なるためだ。汎用GPUが両方を担う構造の非効率を解消し、CPUとGPUの分業のように役割を明確化する設計判断である。

Q2. NVIDIAに対する優位点はどこか？

TPU 8iの384MBオンチップSRAMはモデルのKVキャッシュをオフチップに逃さず処理でき、レイテンシ面でH100系への優位を主張する。数百万の並列エージェント実行を前提に設計されている。

Q3. 採用に向けた課題は何か？

CUDA/cuDNNに比べてソフトウェアスタックの成熟度が低く、PyTorchやHugging Faceとの互換性は改善途上である。JAX/XLA基盤はGoogleクラウド依存で、マルチクラウド戦略の企業には採用しにくい。

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#半導体 #Google #AI #AI Infrastructure #Cloud #エンジニアリング #NVIDIA

Reiテクノロジー・ジャーナリスト

ドットコムバブルの崩壊も、スマートフォン革命も、クラウドの台頭も見届けてきた。いま追いかけているのは生成AIがもたらす地殻変動。信条はファクトファースト。プレスリリースの行間を読み、数字の裏側を掘り、一次ソースに当たる。バズワードを剥がした先にある本質を、冷静に、でも熱量を持って伝えたい。

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

【完全ガイド】MCP（Model Context Protocol）とは｜AIエージェントの"USB-C規格"が97M installsを超えた理由

AnthropicのClaudeエージェントに「ドリーミング」機能——過去セッションを自動分析して自己改善、法律AIで完了率6倍を達成

GoogleがAIブラウザエージェント「Project Mariner」を終了——17ヶ月の実験が証明した「見えないUI」の限界とエージェント設計の転換

週刊テックニュースレター