2バリアント構成——V4-ProとV4-Flash
V4は用途に応じた2バリアントで構成される。
V4-Proは総パラメータ1.6兆(アクティブパラメータ490億)、V4-Flashは総パラメータ2,840億(アクティブパラメータ130億)でいずれもMixture-of-Experts(MoE)アーキテクチャを採用している。 MoEは推論時に全パラメータを使わず一部のエキスパートのみを活性化するため、同規模の密なモデルと比べて計算効率が高い。 V4-Proのアクティブパラメータ490億は総パラメータ1.6兆のわずか3%程度であり、この設計が推論コストの大幅な削減を支えている。
ベンチマーク評価では、V4-ProがLiveCodeBenchおよびCodeforcesでClaude Opus 4.6を上回る結果を示した。 MMUL-ProではGPT-5.4 xHighに肉薄しており、コーディング・推論・汎用知識の各領域で競争力のある性能を持つことが示されている。
どちらのモデルも100万トークン(約75万語相当)のコンテキスト長をサポートする。 大規模なコードベースや長文ドキュメントを一度に処理できる長さであり、エンタープライズ用途での活用が想定される。
新アーキテクチャ「Engram」で推論コストを抜本的に削減
今回のV4で技術的に注目されるのが、新メモリアーキテクチャ「Engram」の採用だ。
従来のトランスフォーマーモデルではKVキャッシュのコストがコンテキスト長Nに比例してO(N)で増大する。 1Mトークンという超長文コンテキストを扱う場合、このコストが性能上の壁になっていた。
Engramはスケーラブルなルックアップ機構によりこのコストをO(1)へと圧縮している。 DeepSeekは「人間の海馬に着想を得た条件付きメモリ」と表現しており、記憶容量を増やしても検索コストが増加しない設計を目指したという。
この変更により推論コストが70%以上削減され、コンシューマーグレードのRAM環境での自己ホスティングが現実的になった。 オープンウェイトモデルを自社インフラで運用するコスト障壁の低下は、AIの民主化という観点でも意義が大きい。
さらに新しいハイブリッドアテンションアーキテクチャと推論整合化アルゴリズムを組み合わせたことで、複雑なマルチステップタスクやツール呼び出しにおける安定性が向上した。 AIエージェントが業務システムに組み込まれる現在のトレンドを意識した設計方針といえる。
中国製チップの使用と米国輸出規制への示唆
今回の発表で地政学的に注目されるのが、チップの調達経路だ。
日本経済新聞の報道によれば、V4は国産半導体を一部使用して開発されたとされている。 米国はNVIDIA製の高性能チップを中国に輸出する規制を段階的に強化してきたが、DeepSeekが国産チップで最先端モデルを開発できるとすれば、その規制効果への疑問が高まる。
2025年1月のDeepSeek-V3発表時、コスト効率の高さが明らかになるとNVIDIA株が急落した経緯がある。 今回のV4はさらに性能面での向上が示されており、市場への影響が注視されている。
中国のAI企業が米国の規制下でも競争力のあるモデルを開発し続けられるかどうかは、AI覇権をめぐる米中競争の文脈で重要な問いとなっている。 V4の公開は、その問いに対するDeepSeekからの一つの回答だ。
ソース: