Googleは2026年4月2日、オープンモデルシリーズ「Gemma 4」を公開した。2Bから31Bパラメータまでの4サイズ展開で、高度な推論とエージェントワークフローを主眼に設計されている。Apache 2.0ライセンスで商用・研究利用が可能であり、公開初日から主要な推論フレームワークへの対応が整っている。
4サイズ構成、エッジデバイスからエンタープライズまで
Gemma 4は2B・4B・26B・31Bの4モデルで構成される。小型の2Bと4Bはスマートフォンやラズベリーパイ、NVIDIA Jetson Orin Nanoといったエッジデバイスでのオフライン動作を想定しており、クラウドへの接続なしに低遅延で推論を実行できる。
26BモデルはMoE(Mixture of Experts)アーキテクチャを採用し、推論時に実際に活性化するパラメータ数を絞り込むことでメモリ使用量と処理速度を両立する。31Bの密集型モデルは研究・エンタープライズ向けに最高品質の出力を提供する位置づけだ。Googleは「パラメータ当たりの知能の高さ」を前面に出しており、同社のオープンモデルシリーズとして最高の性能を主張している。
256Kコンテキスト・マルチモーダル・140言語対応
大型モデルのコンテキストウィンドウは最大256Kトークンで、長文書の解析や複雑な会話履歴の処理に対応する。小型モデルでも128Kトークンまでを処理できる。
画像と音声の両方をネイティブに処理できるマルチモーダル設計で、対応言語は140以上にのぼる。エージェント機能の観点では、組み込みの関数呼び出しと構造化レスポンス生成によって、APIや外部ツールとの自動連携が可能だ。「複数ステップにわたるタスクを自律的に処理する」ことを念頭に置いたアーキテクチャとなっている。
前世代からのエコシステムと対応ツール群
Gemma 4は公開初日からHugging Face・LiteRT-LM・vLLM・llama.cppなど主要な推論フレームワークへの対応を完備する。Google Cloud上でも即日利用可能だ。
前世代のGemmaシリーズはすでに400万回以上のダウンロード、10万件以上のカスタマイズ実装を記録しており、開発者コミュニティの裾野は広い。エッジAIの応用範囲は急速に拡大しており、Gemma 4の「ローカル実行+アジェンティック処理」という組み合わせが、どのような新しい利用シーンを生み出すか注目される。
ソース:
Gemma 4: Byte for byte, the most capable open models — Google (2026年4月2日)
Gemma 4 available on Google Cloud — Google Cloud Blog (2026年4月2日)
Google Unveils Gemma 4: Next-Gen Open AI Model — Blockonomi (2026年4月3日)
