Guide / News
Grok Imagine 1.5とは?画像から動画を作るxAIの新モデルを解説
イーロン・マスク率いるxAIが2026年6月3日、動画生成AI「Grok Imagine 1.5 Preview」を発表しました。1枚の画像から最大15秒の動画を生成する画像→動画特化モデルで、第三者ベンチマークのImage to Video部門で1位を獲得。この記事では、できること・スペック・料金・既存ツールとの位置づけを公開情報ベースで整理します。

Grok Imagine 1.5 Previewとは
Grok Imagine 1.5 Previewは、xAIが2026年6月3日に発表した画像→動画(image-to-video)特化の生成AIモデルです。1枚の静止画を「開始フレーム」として指定し、動きをテキストで指示すると、元画像のディテール・照明・雰囲気を保ったまま動く映像を生成します。
- 最大解像度:720p(1280×720)
- 最大動画長:15秒
- 提供形態:xAI APIのプレビュー版(2026年6月時点)
- 公表料金:動画1分あたり8.40ドル(API)
ベンチマークで何が評価されたのか
報道によると、第三者評価のArtificial Analysisで、Image to Video部門1位(ByteDanceのSeedance 2.0を上回るスコア)、音声付き動画部門で2位を獲得しています。注目すべきは品質だけでなく生成速度とコスト効率で、平均生成時間約41秒・低価格帯での提供がアピールされています。
ここ数年の動画生成AIは「テキストから一発生成」の品質競争が中心でしたが、Grok Imagine 1.5は「手元の画像を起点に動かす」方向で頭ひとつ抜けた形です。商品写真・イラスト・建築パースなど、既にあるビジュアル資産を動画化したいニーズと相性が良いアプローチです。
既存ツールとの位置づけ
- テキストから高品質な映像を作りたい:GoogleのVeo系・Klingが引き続き有力
- 映像制作の細かい制御がしたい:Runway(モーションブラシ・カメラ制御)
- 手元の画像を動かしたい:Grok Imagine 1.5が新たな選択肢。画像→動画の作り方全般は画像からAI動画を作る方法で解説しています
- ナレーション付き解説動画を量産したい:FlikiやPictoryの領域(Grokとは用途が異なる)
ツール選び全体の整理はAI動画ツールおすすめ比較をどうぞ。
利用前の注意点
- プレビュー版:仕様・料金は正式版で変わる可能性があります
- API中心の提供:現時点ではノーコードで使える一般向けUIの提供範囲が限定的です。一般ユーザーは既存のGrok製品側での展開を待つのが現実的です
- 商用利用・権利関係:生成物のライセンスはxAIの利用規約で必ず確認を(AI動画の商用利用の注意点)
まとめ
Grok Imagine 1.5 Previewは、「画像を起点にした動画生成」で現時点トップクラスの品質とコスト効率を示した新モデルです。Sora終了後の動画生成AI市場(経緯はSora終了と代替ツール参照)で、xAIが本格参入してきた形になります。API提供が中心の現段階では開発者向けの色が濃いですが、一般向け展開が進めば有力な選択肢になりそうです。続報があれば本サイトで追っていきます。
よくある質問
Grok Imagine 1.5は何ができるAIですか?
1枚の静止画と動きの指示文(プロンプト)から、元画像の構図や照明を保ったまま動く映像を生成する「画像→動画(image-to-video)」特化のAIモデルです。最大720p・15秒の動画を生成できます。
Grok Imagine 1.5はどこで使えますか?
2026年6月時点ではxAIのAPIでプレビュー提供されています。動画1分あたり8.40ドルのAPI料金が公表されています。一般ユーザー向けのGrokアプリ等での提供範囲は変わる可能性があるため、最新はxAIの公式情報を確認してください。
Grok Imagine 1.5の性能は他のAIと比べてどうですか?
第三者ベンチマーク(Artificial Analysis)のImage to Video部門で1位、音声付き動画部門で2位を獲得したと報じられています。特に「画像を起点にした動画生成」の品質とコスト効率に強みがあります。
日本語のプロンプトでも使えますか?
APIベースのモデルのため、プロンプトの言語対応はxAIの公式ドキュメントで確認が必要です。動きの指示は英語で書くほうが安定する場合が多い、というのが画像・動画生成AI全般の傾向です。