GPUを積んでも速くならない問題
まず、なぜCPUが新たなボトルネックになったのかを、物理から理解しよう。
大規模言語モデル(LLM)の推論は、大きく二つのフェーズに分かれる。プロンプト処理(プリフィル)と、トークン生成(デコード)だ。プリフィルはGPUの計算能力が律速するが、デコードは「GPUがメモリからパラメータを読み出す速度」が律速する。
ここで登場するのが、HBM(High Bandwidth Memory)だ。GPUに直結された高速メモリで、H100でおよそ3TB/秒、H200で4.8TB/秒、Blackwell B200で8TB/秒程度の帯域を持つ。
しかし、モデルサイズが数千億から1兆パラメータに達すると、1枚のGPUのHBMには収まらない。複数のGPUに分散させ、GPU間をNVLinkやInfiniBandで繋ぐ。そして、GPUクラスタの外側では、CPUがストレージやネットワークからデータを引っ張ってきて、GPUに流し込む役割を担う。
この「CPUがデータを供給する速度」が、GPUの計算速度に追いつかなくなる瞬間が、実運用の多くの局面で発生している。
たとえば、マルチテナントの推論サービスで、複数のユーザーリクエストを並列処理する場合。GPUは余力があっても、CPUがリクエストのバッチング(束ね処理)や、KVキャッシュ(対話履歴の中間表現)の管理で律速する。
結果、GPUの実効利用率が30〜50%に留まる運用が、業界内で頻繁に観測されるようになった。H100を1枚100万円で調達しても、その半分は休んでいる、というのが2026年春の実態だ。
```mermaid flowchart LR subgraph Old["従来構成"] CPU1["x86 CPU"] -.->|"PCIe 遅い"| GPU1["独立GPU"] GPU1 --> HBM1["HBM"] end subgraph GH["Grace Hopper / Blackwell"] CPU2["Grace Arm CPU"] ==>|"NVLink-C2C 高速"| GPU2["Hopper/Blackwell GPU"] GPU2 --> HBM2["HBM3/3e"] CPU2 -.->|"共有メモリ空間"| HBM2 end subgraph APU["AMD MI300A(APU)"] Combined["Zen CPU + CDNA3 GPU 同一チップ"] --> HBM3["HBM3"] end ```
NVIDIA Grace Hopper ── GPUとCPUを"同じ住所"に置く発想
この問題に対するNVIDIAの答えが、Grace HopperとGrace Blackwellと呼ばれる統合アーキテクチャだ。
Grace Hopperは、NVIDIA独自設計のArm CPU(Grace)と、Hopper世代のGPU(H100)を、NVLink-C2Cという超高速バスで接続した設計。CPUとGPUが、同じメモリアドレス空間を共有し、データ移動のオーバーヘッドを劇的に削減する。
従来のx86 CPU(Intel Xeon、AMD EPYC)+ 独立GPUの構成では、CPUからGPUへのデータ移動は、PCIeという比較的遅いバスを経由していた。この「荷物の積み替え」が、AI推論の実効速度を大きく削っていた。
Grace Hopperは、この積み替えを物理的に不要にする設計思想だ。
2026年時点で、Grace Hopper(GH200)とその後継Grace Blackwell(GB200)は、大規模AIデータセンターでの採用が急速に進んでいる。Microsoft、Google Cloud、Oracle Cloud、CoreWeaveなどの主要クラウドプロバイダが、Blackwell世代のGB200 NVL72(72基のGPUと36基のCPUを1ラックに統合したシステム)の導入を公表している。
つまり、AIインフラの勝敗は、GPU単体の性能ではなく、「CPU-GPU統合アーキテクチャ」で決まるフェーズに入った。
AMD MI300A ── APUという別解
NVIDIAに対抗するAMDは、別のアプローチを取っている。
MI300Aは、CPU(Zenコア)とGPU(CDNA3)を、同じシリコン・インターポーザー上に載せた「APU(Accelerated Processing Unit)」設計だ。NVIDIAのGrace Hopperが「別チップをNVLinkで繋ぐ」のに対し、MI300Aは「ひとつのチップにCPUとGPUを押し込む」。
この設計の利点は、CPU-GPU間のレイテンシがさらに小さくなること、そしてメモリ(HBM3)を両者が完全に共有できることだ。
MI300Aは、米エネルギー省のスーパーコンピュータ「El Capitan」の主力アクセラレータとして採用された。科学計算とAI推論の両方で、統合アーキテクチャの優位性を示す実運用例となっている。
ただし、AMDはAIソフトウェア・エコシステム(CUDAに相当するROCm)でNVIDIAに大きく遅れており、この差を埋めるのが2026年の最大の課題だ。MetaやMicrosoftがMI300Aの大量採用を進めているのは、単に価格だけでなく、ソフトウェア・エコシステムの追撃を加速させる戦略的な選択でもある。
Apple M系シリコン ── エッジ側の統合アーキテクチャ
統合アーキテクチャの思想は、データセンターの外にも広がっている。
AppleのMシリーズ(M1〜M4、そしてM5以降)は、CPU、GPU、Neural Engineを同一ダイに統合した設計で、ユニファイド・メモリ・アーキテクチャ(UMA)を採用している。これは、MacやiPad、iPhoneのAチップ系列にも共通する思想だ。
Apple Siliconのベンチマーク結果を見ると、特にメモリ帯域を必要とするLLM推論で、Intel/AMDのx86+独立GPU構成を上回るケースが頻繁に報告されている。M3 Ultra搭載のMac Studioで、70億〜1300億パラメータのローカルLLMが実用速度で動くというのは、統合アーキテクチャの威力の一例だ。
これは、先に触れたAppleのオンデバイスAI戦略の物理的基盤になっている。エッジで動かすためには、CPUとGPUとNeural Engineの統合設計が不可欠で、Apple Siliconはその最先端を走っている。
主要AIアクセラレータの設計思想比較
| 製品 | ベンダー | アプローチ | 主な採用先 |
|---|---|---|---|
| Grace Blackwell GB200 | NVIDIA | CPU+GPU を NVLink-C2C で統合 | Azure / Google Cloud / Oracle / CoreWeave |
| MI300A(APU) | AMD | CPU+GPU を同一ダイに統合 | 米DOE El Capitan / Meta / Microsoft |
| Apple Silicon M/A系 | Apple | CPU+GPU+NE を UMA で統合 | Mac / iPad / iPhone(オンデバイスAI) |
| TPU v5/v6 | 自社ワークロード最適化 | Google Cloud / Gemini学習 | |
| Trainium / Inferentia | AWS | 自社ワークロード最適化 | Amazon Bedrock / 内部サービス |
CXL ── メモリを"プール化"する次世代標準
統合アーキテクチャが一方の流れだとすれば、もう一方には「メモリをプール化する」思想がある。
CXL(Compute Express Link)は、CPU、GPU、メモリ、ストレージを、統一されたプロトコルで接続する標準規格だ。2026年時点でCXL 3.0が主流になりつつあり、ラック全体で数百TBのメモリプールを構築できるようになってきた。
CXLの何が革命的か。
従来のサーバー設計では、CPUに直結されたDRAMだけが「そのサーバーのメモリ」だった。別のサーバーのメモリを借りたければ、ネットワーク経由でデータをコピーするしかなく、レイテンシも帯域も大幅に劣化した。
CXLは、この常識を書き換える。あるサーバーのCPUが、別のサーバーのメモリを、あたかもローカルメモリのように参照できる。メモリは、サーバー単位ではなく、ラック単位、データセンター単位でプールされる。
AIワークロードにおいて、これが何を意味するか。
モデルのパラメータやKVキャッシュが、特定のGPUに張り付かなくてよくなる。必要なとき、必要な場所で、メモリを割り当てられる。サーバー間のデータ移動が激減し、AI推論のスループットが大きく向上する。
IntelとAMDは、CXL準拠のCPUをすでに市場投入しており、SamsungやSK HynixはCXL専用のメモリモジュールを量産している。2026年のAIインフラ投資の相当部分が、CXL対応の新設計ラックへと振り向けられている。
「データを動かさない」方向への収斂
ここまで整理してきた流れを俯瞰すると、AIインフラの進化には、ひとつの共通方向が見える。
「データを動かさない」ための設計。
Grace Hopperは、CPUとGPUの間でデータを動かさない。MI300Aは、同じチップに両者を統合して、そもそもデータ移動を発生させない。CXLは、メモリを共有プール化して、サーバー間のコピーを不要にする。Apple Siliconは、ユニファイド・メモリでCPU/GPU/Neural Engineが同じメモリを見る。
この収斂は、AIの計算量がムーアの法則を超える速度で膨張し続ける中で、データ移動のコスト(電力、時間、冷却負荷)が相対的に大きな重みを持つようになった結果だ。
半導体の歴史は、しばしば「計算の局所化」で進歩してきた。真空管から集積回路、マルチコア、GPU、そしてCPU/GPU統合へ。計算単位がデータに近づくほど、全体の効率が上がる。
次の段階として業界が見据えているのは、「データセンターの物理設計そのもの」の見直しだ。
クラウドの地理的集中モデルが揺らぐ可能性
AIインフラの「データを動かさない」トレンドが、極限まで進むと何が起こるか。
ひとつの帰結は、クラウドの地理的集中モデルの再考だ。
これまでのクラウドは、バージニア、アイオワ、フランクフルト、東京、シンガポールといった少数の巨大データセンターに、計算と記憶を集中させるモデルだった。これは、スケールメリットと運用効率の最適化だ。
だが、AI時代のデータ移動コストを考えると、別のモデルが浮上する。「ユーザーの近くで計算する」エッジコンピューティングだ。
たとえば、自動運転車が生成する映像データを、数千キロ離れたデータセンターに送って処理するのは、電力とレイテンシの両方で不合理だ。車内のApple Silicon相当のチップか、最寄りのエッジノードで処理する方が、桁違いに効率が良い。
Appleのオンデバイス+Private Cloud Computeモデルは、この流れに先取り的に位置している。20億台のデバイスが、それぞれ微小なデータセンターとして機能する世界観。
NVIDIAもこの流れを読んでおり、Jetsonシリーズ(エッジ向けAIコンピュータ)の強化と、5Gネットワーク・スライスを活用したエッジAIインフラへの投資を進めている。
つまり、クラウドの巨大データセンター集中モデルと、エッジ分散モデルが、AI時代には並立することになる。どちらに振るか、そのバランスを決めるのは、CPU/GPU/メモリの統合アーキテクチャが、どこまでエッジに降りてくるかに依存する。
半導体投資マップの再配置
このシフトは、半導体投資の地図も書き換える。
従来のAI半導体投資は、「NVIDIAのGPUを買う」という一点に収斂していた。2026年のAIインフラ投資は、より複雑な配分になる。
一、Grace Blackwell系の統合アクセラレータへの投資。データセンター主戦場。
二、MI300A系のAPU設計への投資。スーパーコンピュータ・AI推論両用。
三、Apple Silicon、Qualcomm Snapdragon X Elite、Intel Lunar Lake系のエッジAI。
四、CXL対応のCPU、メモリ、スイッチ。Samsung、SK Hynix、Astera Labs、Microchipなどが主要プレイヤー。
五、TPU(Google)、MTIA(Meta)、Trainium/Inferentia(AWS)などのカスタム・アクセラレータ。自社ワークロード最適化の延長線。
この配分をどう設計するかが、2026〜2028年のクラウドプロバイダの競争力を決める。
```mermaid timeline title AIインフラのボトルネック・シフト 2010-2020 : 計算能力 : GPU投入で解消 2020-2023 : メモリ帯域 : HBM投入で解消 2024-2026 : CPU-GPUデータ移動 : 統合アーキテクチャで解消中 2026-2028 : メモリプール/CXL : 標準化進展 2027- : 電力・冷却 : 次の主戦場 ```
日本企業にとっての意味
日本勢にとって、この構造転換は、逆に参入の機会を生む。
CPU-GPU統合アーキテクチャの競争で、NVIDIAとAMDが寡占しているGPU単体市場と比べ、周辺半導体(メモリ、ストレージコントローラ、ネットワークチップ、パッケージング)には、日本企業の得意領域が残っている。
キオクシアのNANDフラッシュ、ソニーのCMOSセンサー、東京エレクトロンの半導体製造装置、ディスコのダイシング装置、レーザーテックのEUVマスク検査装置。こうした領域は、CXLやエッジAIの拡大に伴って需要が増える見込みだ。
半導体業界の時価総額トップ10にキオクシアが入った(2025年末43位から2026年4月に10位)のも、この構造転換が市場に織り込まれ始めた兆候と読める。
終わりに ── 次のボトルネックを探せ
AIインフラの競争は、ひとつのボトルネックが解消された瞬間に、次のボトルネックが現れる構造になっている。
計算(GPU)が足りなければ、それを増やす。メモリ帯域(HBM)が足りなければ、広げる。CPU-GPU間のデータ移動が律速すれば、統合する。サーバー間のメモリ共有が要求されれば、CXLで繋ぐ。
このボトルネック・シフトの連続が、AIインフラの進化そのものだ。
2026年時点で顕在化している「CPUボトルネック」の次に何が来るかは、2027〜2028年のトレンドになる。候補はいくつかある。電力(データセンターの冷却含む)、ネットワーク(データセンター間の帯域)、そして人材(これらの複雑なアーキテクチャを設計・運用できるエンジニア)。
どれが次の主戦場になるかを見極めるには、「計算を増やしたときに、何が最初に詰まるか」を現場で観察し続けるしかない。
GPUが、長らく「詰まる場所」の代名詞だった時代は、終わりつつある。次の詰まりどころを押さえた者が、次の10年のAIインフラを制する。