イーロン・マスク率いるxAIが開発するAI動画生成モデル「Grok Imagine」が、Artificial AnalysisのVideo Arenaベンチマークでテキスト・トゥ・ビデオ、画像・トゥ・ビデオの両部門で首位を獲得した。OpenAIのSora 2やGoogleのVeo 3.1を上回る品質を、大幅に低い価格で実現している。
ゼロから8カ月で首位へ
xAIの動画生成への参入は急速だった。2025年7月時点では動画プロダクトを持っていなかったが、最初のクリップを出荷した後、動画生成スタートアップ「Hotshot」を買収。2026年1月末にはベンチマーク首位でデビューした。
2026年3月には新機能「Extend from Frame」を導入。あるクリップの最終フレームを次のクリップの開始点として使用し、最大15秒のシーケンスを連鎖的に生成できるようになった。
価格破壊と規模
Grok Imagineの最大の競争力は価格にある。動画1分あたりの生成コストは4.20ドルで、Sora 2 Proの30ドル、Veo 3.1の12ドルと比較して、それぞれ86%、65%安い。この価格設定が利用の爆発的な増加を後押ししており、2026年1月だけで12.45億本の動画が生成された。3月初旬までにGrok Imagineへのアクセスは3.14億回に達している。
X(旧Twitter)プラットフォームとの統合
Grok ImagineはXプラットフォームに直接組み込まれており、ユーザーはGrokのチャット画面からテキストプロンプトを入力するだけで画像や動画を生成できる。xAIはGrok Imagineの技術をX上のテキスト・トゥ・ビデオツールとして統合する計画も進めており、ソーシャルメディアとAI生成コンテンツの融合が加速している。
ソース: