本文へスキップ
MoviAI

Guide / News

Grok Imagine 1.5とは?画像から動画を作るxAIの新モデルを解説

イーロン・マスク率いるxAIが2026年6月3日、動画生成AI「Grok Imagine 1.5 Preview」を発表しました。1枚の画像から最大15秒の動画を生成する画像→動画特化モデルで、第三者ベンチマークのImage to Video部門で1位を獲得。この記事では、できること・スペック・料金・既存ツールとの位置づけを公開情報ベースで整理します。

監修・執筆:MoviAI編集部公開 2026-05-01更新 2026-05-26
情報基準: 2026年6月時点
PR当サイトはアフィリエイトプログラムによる収益を得て運営しています。記事内の一部リンクは広告(アフィリエイトリンク)です。掲載している料金・報酬条件は 2026年5月時点 の公開情報をもとにしており、最新の内容は必ず各公式サイトでご確認ください。
1枚の画像から動画が生成されるGrok Imagine 1.5のイメージ

Grok Imagine 1.5 Previewとは

Grok Imagine 1.5 Previewは、xAIが2026年6月3日に発表した画像→動画(image-to-video)特化の生成AIモデルです。1枚の静止画を「開始フレーム」として指定し、動きをテキストで指示すると、元画像のディテール・照明・雰囲気を保ったまま動く映像を生成します。

  • 最大解像度:720p(1280×720)
  • 最大動画長:15秒
  • 提供形態:xAI APIのプレビュー版(2026年6月時点)
  • 公表料金:動画1分あたり8.40ドル(API)

ベンチマークで何が評価されたのか

報道によると、第三者評価のArtificial Analysisで、Image to Video部門1位(ByteDanceのSeedance 2.0を上回るスコア)、音声付き動画部門で2位を獲得しています。注目すべきは品質だけでなく生成速度とコスト効率で、平均生成時間約41秒・低価格帯での提供がアピールされています。

ここ数年の動画生成AIは「テキストから一発生成」の品質競争が中心でしたが、Grok Imagine 1.5は「手元の画像を起点に動かす」方向で頭ひとつ抜けた形です。商品写真・イラスト・建築パースなど、既にあるビジュアル資産を動画化したいニーズと相性が良いアプローチです。

既存ツールとの位置づけ

  • テキストから高品質な映像を作りたい:GoogleのVeo系・Klingが引き続き有力
  • 映像制作の細かい制御がしたいRunway(モーションブラシ・カメラ制御)
  • 手元の画像を動かしたい:Grok Imagine 1.5が新たな選択肢。画像→動画の作り方全般は画像からAI動画を作る方法で解説しています
  • ナレーション付き解説動画を量産したいFlikiPictoryの領域(Grokとは用途が異なる)

ツール選び全体の整理はAI動画ツールおすすめ比較をどうぞ。

利用前の注意点

  • プレビュー版:仕様・料金は正式版で変わる可能性があります
  • API中心の提供:現時点ではノーコードで使える一般向けUIの提供範囲が限定的です。一般ユーザーは既存のGrok製品側での展開を待つのが現実的です
  • 商用利用・権利関係:生成物のライセンスはxAIの利用規約で必ず確認を(AI動画の商用利用の注意点

まとめ

Grok Imagine 1.5 Previewは、「画像を起点にした動画生成」で現時点トップクラスの品質とコスト効率を示した新モデルです。Sora終了後の動画生成AI市場(経緯はSora終了と代替ツール参照)で、xAIが本格参入してきた形になります。API提供が中心の現段階では開発者向けの色が濃いですが、一般向け展開が進めば有力な選択肢になりそうです。続報があれば本サイトで追っていきます。

よくある質問

Grok Imagine 1.5は何ができるAIですか?

1枚の静止画と動きの指示文(プロンプト)から、元画像の構図や照明を保ったまま動く映像を生成する「画像→動画(image-to-video)」特化のAIモデルです。最大720p・15秒の動画を生成できます。

Grok Imagine 1.5はどこで使えますか?

2026年6月時点ではxAIのAPIでプレビュー提供されています。動画1分あたり8.40ドルのAPI料金が公表されています。一般ユーザー向けのGrokアプリ等での提供範囲は変わる可能性があるため、最新はxAIの公式情報を確認してください。

Grok Imagine 1.5の性能は他のAIと比べてどうですか?

第三者ベンチマーク(Artificial Analysis)のImage to Video部門で1位、音声付き動画部門で2位を獲得したと報じられています。特に「画像を起点にした動画生成」の品質とコスト効率に強みがあります。

日本語のプロンプトでも使えますか?

APIベースのモデルのため、プロンプトの言語対応はxAIの公式ドキュメントで確認が必要です。動きの指示は英語で書くほうが安定する場合が多い、というのが画像・動画生成AI全般の傾向です。

次に読む