3月25日、Google Researchが一つの論文を公開した。
「TurboQuant」と名付けられたそのアルゴリズムは、AIモデルのメモリ使用量を6分の1に圧縮する。 しかも、精度の低下はゼロだという。
翌日、韓国の半導体市場が揺れた。 SK Hynixの株価は6%下落、Samsungも5%近く値を下げた。 米国ではMicronにも売り圧力がかかった。
ソフトウェアの進化が、ハードウェアの需要を一夜にして書き換えた。
TurboQuantとは何か — 3ビット圧縮の衝撃
TurboQuantは、大規模言語モデル(LLM)の推論時に使われる「KVキャッシュ」を圧縮する技術だ。
KVキャッシュとは、AIモデルが文章を生成する際に過去の文脈を記憶しておくためのメモリ領域のこと。 コンテキストウィンドウが長くなるほど、このキャッシュが膨大になり、メモリを圧迫する。
TurboQuantは、このKVキャッシュを1値あたり3ビットにまで圧縮する。 通常は16ビットや8ビットで保持されるデータを、3ビットに縮めても精度が落ちない。
| 項目 | 従来 | TurboQuant適用後 |
|---|---|---|
| KVキャッシュのビット幅 | 16ビット / 8ビット | 3ビット |
| メモリ使用量 | 1倍(基準) | 約6分の1 |
| 精度低下 | — | なし(測定可能な劣化ゼロ) |
| 再学習の必要性 | — | 不要 |
| NVIDIA H100での性能 | 1倍(基準) | 最大8倍のアテンション処理速度 |
「再学習不要」という点が特に重要だ。 既存のモデルにそのまま適用できるため、導入コストが極めて低い。
なぜ半導体株が急落したのか
TurboQuantの発表直後、メモリ半導体メーカーの株価が急落した理由は明快だ。
AIブームの恩恵を最も受けてきたのが、高帯域幅メモリ(HBM)を製造するSK HynixやSamsungだった。 NVIDIA H100/H200などのAIアクセラレーターには、大量のHBMが搭載されている。
TurboQuantがメモリ使用量を6分の1にできるなら、同じ処理をするのに必要なHBMの量も減る。 つまり、AI向けメモリの需要成長予測が下方修正される可能性が出てきた。
- SK Hynix: 6%下落(3月26日、韓国市場)
- Samsung Electronics: 約5%下落
- Micron Technology: 米国市場で売り圧力
Google Researchのポストは7,700万回以上閲覧された。 技術論文がこれほどの市場インパクトを持つのは異例だ。
技術的に何が起きているのか
もう少し踏み込んで、TurboQuantの仕組みを理解する。
LLMの推論では「アテンション」と呼ばれる処理がボトルネックになる。 文章中の各単語が、過去のすべての単語との関連性を計算する処理だ。
この計算に使われるデータ(Key-Valueペア)がKVキャッシュとしてメモリに保持される。 GPT-5.4のような105万トークンのコンテキストでは、KVキャッシュだけで数十GBに膨れ上がる。
TurboQuantは、このKVキャッシュに対してベクトル量子化を最適化して適用する。
従来の量子化手法では、ビット幅を極端に下げると精度が劣化した。 TurboQuantが画期的なのは、この「量子化による精度劣化」をゼロに抑えたことだ。
具体的な技術上の特徴を挙げる。
- ベクトル量子化のコードブック設計を最適化
- キャッシュデータの統計的分布に基づく適応的量子化
- ハードウェア(GPU)の演算パイプラインに最適化された実装
- NVIDIA H100の4ビット演算ユニットを活用した高速デコード
結果として、圧縮しただけでなく処理速度まで8倍に向上させた。 メモリが減れば、データの読み書き量も減り、計算が速くなる。 これは副次効果ではなく、設計段階から意図された成果だ。
「Pied Piper」とインターネットが沸いた理由
TechCrunchはこの技術を「Pied Piper」と呼んだ。
HBOのドラマ「シリコンバレー」に登場する架空の圧縮アルゴリズム企業の名前だ。 フィクションの中で「あらゆるデータを驚異的に圧縮する」とされたテクノロジーが、現実になりつつある。
ソーシャルメディアでは、Google Researchの論文が公開されるやいなや「Pied Piperが現実になった」という投稿が拡散した。
もちろん、TurboQuantはあくまで推論時のKVキャッシュに特化した技術だ。 あらゆるデータを圧縮するわけではない。
だが、AI推論のメモリコストが業界全体の最大課題の一つであることを考えると、その影響範囲は決して小さくない。
TurboQuantの限界と今後
冷静に見るべきポイントもある。
TurboQuantが対象とするのは、あくまで推論時のメモリだ。 モデルの学習(トレーニング)には依然として大量のメモリが必要であり、その部分には効果がない。
現時点での制約を整理する。
- 対象は推論のみ。トレーニングのメモリ削減には適用不可
- まだ研究段階。Google内部での大規模デプロイメントは未発表
- 他社のモデルへの汎用的な適用実績は限定的
- ハードウェアとの相性(NVIDIA以外のチップでの効果は未検証)
つまり、半導体メーカーへの短期的なダメージは「織り込みすぎ」の可能性がある。 トレーニング需要は変わらないし、推論需要自体もAIの普及で増え続ける。
それでも、長期的なトレンドとしては明確だ。 ソフトウェアの最適化が進めば、ハードウェアの需要曲線は変わる。
ソフトウェアがハードウェアの運命を決める時代
TurboQuantが突きつけた問いは単純だ。
AIの進化は、GPUやメモリを増やし続けることでしか実現できないのか。 それとも、ソフトウェアの知恵で「もっと少ないリソースで同じことを実現できる」のか。
Google Researchの答えは、後者だった。 そしてその答えは、数兆円規模の半導体市場を一夜にして揺らした。
次にこの技術がトレーニングにも適用される日が来たとき、業界地図はどう変わるか。 その可能性を、市場は織り込み始めている。
出典・参考
- Google Research Blog「TurboQuant: Redefining AI efficiency with extreme compression」(2026年3月25日)
- TechCrunch「Google unveils TurboQuant, a new AI memory compression algorithm」(2026年3月25日)
- VentureBeat「Google's new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50% or more」(2026年3月25日)
- CNBC「Memory stocks fall after Google posts AI development TurboQuant」(2026年3月26日)
- Tom's Hardware「Google's TurboQuant compresses LLM KV caches to 3 bits with no accuracy loss」(2026年3月25日)
