2026/3/20|更新: 2026/4/27

公務員18万人がAIを使う日。日本が選んだ国産LLM 7モデル

Q: Q. 選定された7モデルはどこが開発しているのか？

NEC（cotomi v3）、KDDI／ELYZA（Llama3.1ELYZAJP70B）、Preferred Networks（PLaMo 2.0 Prime）、ソフトバンク（Sarashina2 mini）、富士通（Takane 32B）、NTTデータ（tsuzumi 2）、カスタマークラウド（CC GovLLM）の7社です。 15件の応募から9項目の基準で選ばれました。

Q: Q. 海外のGPT-4などと比べて性能は足りるのか？

NECのcotomi v3はGPT4比10倍の推論速度、ELYZAの70Bモデルは日本語ベンチマークでGPT4超えを実現しています。 一方で汎用的な推論能力やマルチモーダル対応ではギャップが残ります。 2027年3月までの大規模実証で海外モデルとの競争力が試される段階です。

AIニュース

中村響·9分で読める

この記事でわかること

デジタル庁が政府AI基盤「源内」で選定した国産LLM 7モデルの中身

cotomi v3・ELYZA 70B・PLaMo 2.0など各モデルのパラメータ数と特徴

2026年5月から39機関18万人で始まる大規模実証の全体像

「源内」4層アーキテクチャと既に動く国会答弁検索AIなど20以上のアプリ

440億円投資と経産省1.23兆円計画が描く国産AI戦略

英国Redbox・シンガポールPAIRなど海外政府AI基盤との比較

デジタル庁は2026年3月6日、政府職員向けの生成AI基盤「源内（Gennai）」で試用する国産大規模言語モデル（LLM）7モデルを選定したと発表した。15件の応募から選ばれたこの7モデルは、2026年5月から全府省庁39機関、約18万人の公務員を対象とした大規模実証の中核を担う。

「源内」——その名前は「生成AI（Gen AI）」と、江戸時代の発明家・平賀源内に掛けたものだ。

選定された国産LLM 7モデルの全貌

15件の応募から選ばれた7モデルは、日本のAI企業の技術力を映し出している。

モデル名	開発元	パラメータ数	特徴
CC Gov-LLM	カスタマークラウド	非公開	ガバメントクラウド上で閉域環境動作。機密性2情報に対応
cotomi v3	NEC	約130億	GPT-4比10倍の推論速度。AIエージェント「cotomi Act」はWebArenaで人間超え（80.4% vs 78.2%）
Llama-3.1-ELYZA-JP-70B	KDDI／ELYZA	700億	Meta Llama 3.1ベースに日本語ファインチューニング。日本語ベンチマークでGPT-4超え
PLaMo 2.0 Prime	Preferred Networks	310億（8Bモデルも）	ハイブリッドSambaアーキテクチャ。構造的枝刈りで8Bモデルが100Bモデルの性能を実現
Sarashina2 mini	ソフトバンク（SB Intuitions）	700億	460Bパラメータの大型モデルから蒸留。2.1兆トークン以上で学習（日:英:Code = 5:4:1）
Takane 32B	富士通	320億	カナダCohere社と共同開発。JGLUE（日本語理解ベンチマーク）で世界最高スコア。オンプレミス対応
tsuzumi 2	NTTデータ	300億	H100 GPU 1枚で動作。GPT-3.5に対し81.3%の勝率。ドメイン適応に必要な学習データ量が10分の1

選定基準は9項目。国内開発であること、行政業務への実用性、デジタル庁の50問評価テストの成績、海外LLMとのベンチマーク比較、学習データの法的コンプライアンス、そして「機密性2情報」（政府の内部文書レベル）の処理能力が求められた。

「源内」の4層アーキテクチャ——内製にこだわる理由

「源内」は民間SaaSの導入ではない。デジタル庁AI実装総括班が内部で開発した、政府独自のプラットフォームだ。

層	役割
インフラ層	ガバメントクラウドの計算リソース
AIエンジン層	マルチLLM選択・実行基盤（用途に応じてモデルを切り替え）
API層	各省庁の既存システムとの連携インターフェース
行政アプリ層	20以上の専用AIアプリケーション

すでに稼働中のアプリケーションには「国会答弁検索AI」（国会議事録から関連する過去答弁を検索）、「Lawsy」（法令横断検索・報告書生成）、「公用文チェッカーAI」（公用文作成ルールへの自動照合）などがある。

2025年5月のデジタル庁内パイロット（約1,200名対象）では、80%の職員が利用し、3カ月で6万5,000回以上の利用を記録した。

なぜ「国産」にこだわるのか——デジタル主権と440億円の投資

内製と国産LLMへのこだわりには明確な理由がある。

論点	背景
安全保障	政府の機密文書や国民の個人情報をOpenAIやGoogleのサーバーに送信するリスクの回避
デジタル主権	EU同様、AIにおける「技術的自律性」の確保
産業育成	政府が最大のユーザーとなることで国産LLM市場を底上げ
マルチベンダー	特定1社への依存を回避。用途に応じた最適モデルの使い分け

令和5年度補正予算ではAI基盤整備に440億円が計上された。デジタル庁全体の令和6年度予算要求額は6,143億円で、前年比29%増。過去最大の600億円超えとなった。

さらに上位の国家戦略として、経産省はAI・半導体関連に約1.23兆円（前年比約4倍）を投じる。ソフトバンクなど約10社との官民JV構想では、政府が5年で1兆円、ソフトバンクが6年で2兆円を投資し、1兆パラメータ規模の国産モデル開発を目指す。

世界の政府AIプラットフォームとの比較

18万人規模の政府AI導入は世界的にも最大級だ。

国	プラットフォーム	規模	状況
日本	源内	18万人・39機関	2026年5月実証開始。マルチLLM・20以上の専用アプリ
英国	Redbox → Humphrey	約6,000人が利用	Redboxは2025年12月に終了。各省庁がGoogle Gemini等に移行中
シンガポール	PAIR / SENSE / SEA-LION	各省庁で展開	SENSEは保健省で政策レビュー期間を3カ月短縮。SEA-LIONは東南アジア言語対応の国産モデル
エストニア	Burokratt	国家レベル	行政サービス向けAIチャットボット。情報検索から許可申請に拡張中
米国	統一プラットフォームなし	省庁ごと	ガバナンス枠組みは強いが採用は不均一。州レベルの実験が先行

英国のRedboxがわずか1年で終了した（「日の出と日没を経験した」と開発チーム自ら記述）のに対し、源内は内製アプローチで長期運用を前提としている点が異なる。

今後のロードマップと課題

時期	マイルストーン
2026年5月	全府省庁39機関への大規模実証開始
2026年8月	国産LLM 7モデルの本格統合
2027年1月	中間評価・検証結果の公開
2027年3月	大規模実証終了
2027年度	最優秀モデルの正式採用判断

最大の課題は、国産LLMの性能が海外の最先端モデルとどこまで競争できるかだ。NECのcotomi v3はGPT-4比10倍速の推論を実現し、ELYZAの日本語モデルはGPT-4をベンチマークで上回っている。しかし、汎用的な推論能力やマルチモーダル対応では、まだギャップがある。

それでも、この大規模実証から得られるフィードバックは、国産LLMの進化を加速させる。政府自身が「最大の顧客」となり、国産AI産業を育てる——源内は単なるツール導入ではなく、日本のAI戦略そのものだ。

出典・参考

デジタル庁「国産LLM選定結果」（2026年3月6日）
Japan Times「Digital Agency AI test May」（2026年3月7日）
ITmedia「政府AI 7モデル選定」（2026年3月6日）
OpenAI「Strategic Collaboration with Japan's Digital Agency」（2025年10月）
日経新聞「国会答弁AI 源内」
NTT「tsuzumi 2プレスリリース」（2025年10月）
PFN「PLaMo Translate政府AI源内への採用」（2025年12月）

一社の動きから読む業界構造

企業単独の発表は、業界全体の力学の一部でしかない。

競合、顧客、サプライヤー、規制当局、地政学。

これらの要素を重ねて見ることで、一社の動きが何を意味するかが立体的に理解できる。

断片的なニュースを、業界全体の地図に翻訳する訓練が、テックを読む力を育てていく。

よくある質問（FAQ）

Q. なぜ「源内」という名前なのか？

生成AI（Gen AI）と江戸時代の発明家・平賀源内を掛けた命名です。

国産AIで行政を刷新するという政策的メッセージが込められています。

デジタル庁AI実装総括班が内部開発した政府独自プラットフォームで、民間SaaSの導入ではありません。

Q. 選定された7モデルはどこが開発しているのか？

NEC（cotomi v3）、KDDI／ELYZA（Llama-3.1-ELYZA-JP-70B）、Preferred Networks（PLaMo 2.0 Prime）、ソフトバンク（Sarashina2 mini）、富士通（Takane 32B）、NTTデータ（tsuzumi 2）、カスタマークラウド（CC Gov-LLM）の7社です。

15件の応募から9項目の基準で選ばれました。

Q. 海外のGPT-4などと比べて性能は足りるのか？

NECのcotomi v3はGPT-4比10倍の推論速度、ELYZAの70Bモデルは日本語ベンチマークでGPT-4超えを実現しています。

一方で汎用的な推論能力やマルチモーダル対応ではギャップが残ります。

2027年3月までの大規模実証で海外モデルとの競争力が試される段階です。

Q. なぜ海外モデルではなく国産にこだわるのか？

政府の機密文書をOpenAIやGoogleのサーバーに送信するリスクを避ける安全保障の観点、EU同様のデジタル主権確保、そして政府自身が最大の顧客となって国産LLM市場を底上げする産業育成の3点が理由です。

特定1社への依存を避けるマルチベンダー方針も採用しています。

Q. いつ本格導入されるのか？

2026年5月に39機関18万人の大規模実証開始、8月に7モデル本格統合、2027年1月に中間評価、3月に実証終了、2027年度に最優秀モデルの正式採用判断というロードマップです。

このような記事を毎週お届けします

メールアドレスだけで登録完了。いつでも解除できます。

タグ:#AI #デジタル庁 #海外ニュース #LLM #日本

中村響AIリサーチャー / LLMスペシャリスト

東京大学大学院情報理工学系研究科修了。大手IT企業のAI研究部門を経て、LLM・生成AIの技術解説と社会実装を専門に執筆活動を行う。Claude、GPT、Geminiなど主要モデルの比較分析や、プロンプトエンジニアリング、RAG、AIエージェント設計に精通。AI技術を「使える知識」に変換することをモットーに、実践的な解説を心がけている。

※ AIを活用して取材・執筆を行うバーチャルジャーナリストです

この記事が参考になったら、シェアしてください。

Claude 4.5 vs GPT-5 vs Gemini 2.5——三大LLMの実力を徹底比較

Anthropic、ライバルMuskの巨人データセンターを丸ごと借り上げ。Claudeはコンピュート飢餓を脱するか

AlphabetがNvidiaの時価総額に肉薄——AI時代のテック企業ヒエラルキーが400億ドル差まで縮まった

週刊テックニュースレター