DiffusionGemmaとは何か——拡散でテキストを生成する
従来のLLMは「左から右へ一トークンずつ」順番に出力する自己回帰生成モデルだ。 100トークン出力するには100回のforward passが必要であり、これが推論速度の理論上限を決める。
DiffusionGemmaはまったく異なる原理で動く。
まず256個のランダムなプレースホルダートークンをブロックとして出力し、それを複数の「ノイズ除去パス」で精製していく。 画像拡散モデルがランダムノイズから徐々に意味のある画像を生成するのと同じ発想で、テキストを「一括で」生成する試みだ。
性能数値——4倍高速、ただしベンチマークは低い
Googleが公表した主要な性能数値は次のとおりだ。
Nvidia H100 GPU一枚の単体で毎秒1,000トークン以上を実現し、同等のパラメータ規模の自己回帰モデル(Gemma 4)と比較して「4倍以上の生成速度」を達成した。
一方でGoogleは明示的に注意書きを付けている。 MMLUや各種コーディングベンチマークでは、Gemma 4に対してDiffusionGemmaのスコアは低い。 「本番用途にはGemma 4を使え、DiffusionGemmaは実験的な研究モデルだ」という位置づけを変えていない。
速いが精度が落ちる——この特性が、DiffusionGemmaをどんなユースケースに向かわせるかを決める。
AI研究者視点の分析——何が革新的で、何が課題か
速度と精度のトレードオフは、AI研究の世界では「永遠の問い」の一つだ。 DiffusionGemmaが示した方向性は、次の点で重要な意味を持つ。
第一に、「並列トークン生成」という新しい可能性の実証だ。 自己回帰モデルが「逐次処理の壁」を持つのに対し、DiffusionGemmaは「256トークンを同時精製する」ことで、理論上は入力長に依存しない高スループットを実現できる。 リアルタイム対話では速度が体験品質を左右するため、精度とのバランス次第で採用場面が広がる。
第二に、「拡散アーキテクチャの汎用化」への示唆だ。 画像生成AI(Stable Diffusion、Midjourney等)が商業的に成功した拡散モデルの仕組みを、テキストという離散的なシンボル空間に適用する試みは学術的に非常に難しかった。 DiffusionGemmaはこの問いに「動く解」を示したことで、後続の研究加速が期待される。
第三の課題は「品質一貫性」だ。 自己回帰モデルは「前のトークンに条件付けながら次を生成する」ため、文脈の整合性が保ちやすい。 拡散モデルはブロック全体を一度に精製するため、文章の論理的整合性が保たれるかどうかが構造上の難点だ。 現時点のベンチマーク低下はこの問題を反映している可能性がある。
エコシステムへの影響——NVIDIA・Hugging Face・Kaggleとの統合
DiffusionGemmaはApache 2.0ライセンスのもとHugging Face、Kaggle、Google CloudのVertex AI Model Gardenで公開された。 NVIDIAはday-zeroでGPU最適化を提供し、ローカル開発者が試せる環境を即日整えた。
Googleが2026年5月に公開したAntigravity CLIと合わせて考えると、GoogleはAI開発ツールの「オープンソース化と標準化」によってエコシステム主導権を握ろうとしている戦略が見えてくる。
また、DiffusionGemmaがローカルデバイスでの高速推論を可能にするなら、エッジAI(スマートフォン・IoT機器上でのAI推論)という大きな市場が開く。 Snapの新ARグラス「Specs」がオンデバイスAI推論を組み込んでいるように、「端末で動く高速LLM」の需要は確実に存在する。
今後の注目点——拡散LLMの次のステップ
DiffusionGemmaは「実験的モデル」として公開されたが、研究コミュニティの反応は即座だった。
Hacker News、r/MachineLearning、Hugging Faceのディスカッションでは「実際に動いてみたら思ったより自然な文章が出る」「100トークン以下の短文生成では特に速い」という報告が相次いでいる。
研究者が注目している次のステップは三つある。
一つ目は「拡散パスの回数と精度の最適化」——どれだけノイズ除去ステップを減らしても品質を維持できるかを探る研究だ。
二つ目は「コンテキスト長への拡張」——256トークンのブロック制約を、1,024・4,096トークンへ拡張した場合の挙動だ。
三つ目は「マルチモーダル拡散」——画像と文章を同一の拡散フレームワークで扱う統合モデルへの発展可能性だ。
LLMアーキテクチャの「Transformer後」を問う声は2024年頃から強まっていたが、DiffusionGemmaはその問いに一つの実装を提示した。 あなたが次に使うAIアシスタントは、拡散モデルで動いているかもしれない——それはいつ頃になると思うか。
ソース: