Gemini Omni Flashとは?会話型で動画を作るGoogleのAI ― 料金・使い方・Veoとの違いを解説

この記事のポイント
Gemini Omni FlashはGoogleの会話型・動画生成AI。1秒0.10ドルの料金、テキスト/音声/画像/動画の統合入力、キャラ・スタイル一貫性、会話型編集の仕組み、できること・制約、Veoとの違い、向いている人までを一次情報ベースで整理します。
Gemini Omni Flashは、Googleが2026年6月30日にAPI提供を開始した「会話しながら動画を作る」マルチモーダルAIです。テキスト・画像・音声・動画をまとめて理解し、720pの動画を1秒あたり0.10ドルで生成、さらに自然言語の指示で「照明だけ変える」「背景だけ差し替える」といった部分編集ができます。
この記事では、Gemini Omni Flashの基本から、実際にできること・できないこと、実額でわかる料金、会話型編集の仕組み、使い方、そして従来の動画生成AI「Veo」との違いや向いている人までを、公式ドキュメントを根拠に整理します。
この記事でわかること:
- Gemini Omni Flashの正体と、Gemini Omniファミリー内の位置づけ
- 1秒0.10ドルを実額に換算した料金の目安とVeo各グレードとの比較
- 「会話型編集」がなぜ画期的なのか(非エンジニア向けの噛み砕き解説)
- キャラクター・スタイル一貫性が「保てる範囲」と「崩れる条件」
- できないこと・制約(最大10秒・音声参照未対応など)
- APIとGeminiアプリ/Flow/YouTubeの使い分け
- こんな方におすすめ/おすすめしないケース
動画生成AIの導入を検討している開発者・プロダクト担当者、Geminiアプリで手軽に動画を作りたい個人の方を想定しています。
なお、Gemini Omni FlashはPreview(プレビュー)段階のため、料金・仕様・提供範囲は変更される可能性があります。本記事は公式情報に基づいて整理しています。
Gemini Omni Flashとは ― 会話で動画を作るGoogleのAI

出典: Google 公式ブログ
Gemini Omni Flashは、Google(Google DeepMind)の「any-to-any(任意の入力→任意の出力)」マルチモーダルモデルGemini Omniの高速・高性能版です。テキスト・画像・音声・動画を入力として受け取り、現時点では音声付きの動画を出力します。
親モデルの「Gemini Omni」はGoogle I/O 2026(2026年5月)で発表され、そのファミリーのなかで「高速な動画生成・編集・シネマティック制御」に特化したのがこのGemini Omni Flashです。2026年6月30日に、Gemini API・Google AI Studio・Gemini Enterprise Agent PlatformでPreview提供が始まりました。
項目 | 内容 |
|---|---|
正式名称 | Gemini Omni Flash |
開発元 | Google DeepMind |
ファミリー | Gemini Omni(any-to-anyマルチモーダル) |
API提供開始 | 2026年6月30日(Preview) |
モデルID |
|
入力 | テキスト・画像・音声・動画 |
出力 | 音声付きMP4動画(現時点) |
最大動画長 | 10秒(現時点) |
解像度・アスペクト比 | 720p / 16:9(横)・9:16(縦) |
料金 | 1秒あたり0.10ドル(720p基準) |
最大の特徴は会話型編集(conversational editing)です。従来は動画生成モデル「Veo」が担っていた生成能力に、テキスト・画像・音声・動画を同時に理解するGeminiの推論レイヤーを統合した点が、本質的な差別化になっています。
Geminiシリーズ全体の位置づけや他モデルとの関係を先に押さえたい方は、Geminiとは何かを解説した記事や、テキスト推論の最上位モデルであるGemini 3.1 Proの解説もあわせて参照してください。
Gemini Omni Flashでできること
Gemini Omni Flashは、単なる「文章から動画」だけでなく、複数の素材を組み合わせて一貫した映像を作り、さらに会話で編集していける点が強みです。主な機能を整理します。
テキスト・画像・音声・動画をまとめて入力できる
入力モダリティは、テキスト、画像(JPEG/PNG)、動画(MP4、Files API経由でアップロード)、音声に対応します。1つの指示のなかで複数の素材を同時に扱えるため、「この画像のキャラクターを、この動画の雰囲気で動かす」といった複合的な指示ができます。
最大7枚の参照画像・3本の参照動画でキャラを揃える
最大7枚の参照画像と最大3本の短尺動画クリップを渡すことで、キャラクターの同一性・設定・ビジュアルスタイルを保った新しいクリップを合成できます(reference_to_videoタスク)。同じ登場人物・同じ画風で複数カットを作りたい、という用途に向いています。
音声をネイティブに同時生成する
出力される動画には、音声がネイティブに(後付けではなく)同時生成されます。キャラクター・オブジェクト・スタイルの一貫性を保ちながら、映像と音を一体で作る設計です。出力は音声付きMP4で、4MBを超える場合はURI配信、それ以下ならBase64データで返されます。
物理法則や知識を踏まえて「次に起きること」を推論する
重力・運動エネルギー・流体力学といった物理法則の直感的な理解に加え、歴史・科学・文化的な文脈の知識を組み合わせ、「次に何が起きるべきか」を推論して映像を構成します。単にプロンプトを絵にするのではなく、辻褄の合う動きを組み立てる点がGeminiの推論レイヤー統合の効果です。
生成物にはSynthID透かしが自動で入る
生成された全動画に、視聴者には知覚できないが機械的に検出可能なSynthID電子透かしが付与されます。Geminiアプリ・Chromeの Gemini・Google検索で「Gemini Omniが生成した動画」であることを検証でき、来歴(プロベナンス)の確認ができます。
会話型編集の仕組み ― なぜ「作り直し」がいらないのか

Gemini Omni Flash最大の売りが会話型編集です。多くの人がつまずくポイントなので、非エンジニアにもわかるように噛み砕いて説明します。
従来の動画生成AIは、気に入らない部分があればプロンプトを書き直して丸ごと生成し直すのが基本でした。すると照明も構図もキャラの顔も全部変わってしまい、「照明だけ夕方にしたい」といった局所的な修正が難しかったのです。
Gemini Omni Flashは、Interactions APIという仕組みでこれを解決します。流れはこうです。
- まずクリップを1本生成する
- すると、そのクリップに紐づく「interaction ID(会話の続き番号のようなもの)」が返ってくる
- 次の指示のときに、そのIDを
previous_interaction_idとして渡す - すると前のクリップの文脈を保ったまま、「照明を夕方に」「背景をオフィスに」など指定した部分だけを変更できる(他は保持される)
このように会話のキャッチボールで映像を仕上げていけるため、「作り直し」ではなく「対話で微修正」ができます。連続編集は最大3回まで対応し、セッションの履歴も維持されます。Interactions APIはすでに一般提供(GA)済みで、Googleは最新機能・モデルへのアクセスにこのAPIの利用を推奨しています。
同時発表された画像モデル「Nano Banana 2 Lite」ともInteractions API経由でチェーン接続でき、「画像を作る→その画像から動画を起こす」といったワークフローも組めます。
Gemini Omni Flashの料金 ― 1秒0.10ドルを実額に換算する
Gemini Omni FlashのAPI料金は、720pで1秒あたり0.10ドルです。トークン換算では動画出力が100万トークンあたり17.50ドルとされています。これは既存の動画生成モデルVeo 3.1 Fastと同水準の価格帯です。
「1秒0.10ドル」はイメージしづらいので、動画の長さで実額に直したのが次の表です(720p基準)。
動画の長さ | 料金の目安(720p) |
|---|---|
5秒 | 約0.50ドル |
8秒 | 約0.80ドル |
10秒(現時点の上限) | 約1.0ドル |
10秒動画1本が約1ドル、という感覚で捉えると見積もりしやすいはずです。仮に月100本(各10秒)を生成すると、単純計算で約100ドルが動画生成コストの目安になります。
参考までに、Google公式Pricingに基づくVeo 3.1系との横並び比較が以下です。Gemini Omni Flashは720pで最安クラスのVeo 3.1 Fastと並びます。
モデル | 720p | 1080p | 4K |
|---|---|---|---|
Gemini Omni Flash | $0.10/秒 | 未確認 | 未確認 |
Veo 3.1 Standard | $0.40/秒 | $0.40/秒 | $0.60/秒 |
Veo 3.1 Fast | $0.10/秒 | $0.12/秒 | $0.30/秒 |
Veo 3.1 Lite | $0.05/秒 | $0.08/秒 | — |
※出典: Gemini API Pricing(公式)。Gemini Omni Flashの1080p/4K出力の秒単価は公式Pricingで未記載(未確認)です。0.10ドルはあくまで720p基準の数値です。
個人・非エンジニア向けの提供(サブスク経由)
API以外に、エンドユーザー向けにも展開されています。
- Google AI Plus / Pro / Ultra加入者は、GeminiアプリおよびGoogle Flow経由で利用可能(グローバル展開)
- YouTube Shorts / YouTube Createアプリでは無料で利用可能(順次展開)
APIの従量課金を気にせず手軽に試したい個人は、Geminiアプリやサブスク経由が入り口になります。
Gemini Omni Flashの使い方 ― 2つの導線

Gemini Omni Flashには、大きく分けて「開発者向けAPI」と「一般ユーザー向けアプリ」の2つの導線があります。目的で使い分けるのが基本です。
開発者・組み込み用途(API)
自社サービスやツールに動画生成を組み込みたい場合はAPIを使います。おおまかな手順は次の通りです。
- Google AI Studioまたは Gemini APIでアクセスを有効化する
- モデルID
gemini-omni-flash-previewを指定する - テキスト・画像・動画(Files API経由)などの入力を渡してクリップを生成する
- 会話型編集をする場合は、返ってきたinteraction IDを
previous_interaction_idとして次の呼び出しに渡す - 生成された音声付きMP4を受け取る(4MB超はURI、以下はBase64)
Gemini API・Google AI Studioのほか、Gemini Enterprise Agent Platform(Vertex文脈のエンタープライズ)でも提供されます。Runwareなどサードパーティ経由の開発者向けAPIアクセスも登場しており、配信チャネルは広がっています。
個人・クリエイティブ用途(アプリ)
コードを書かずに使いたい場合は、Geminiアプリ・Google Flow・YouTube Shorts/Createアプリが入り口です。自然言語で指示するだけで動画を作り、会話しながら仕上げていけます。まず品質や使用感を確かめたい段階では、こちらのほうが手軽です。
動画生成AIを横断的に比較して選びたい方は、動画生成AIツールのおすすめ比較記事も参考になります。
Gemini Omni Flashでできないこと・制約
Preview段階のため、明確な制約があります。導入前に必ず押さえておきたいポイントを、公式ドキュメントを根拠に整理します。
制約項目 | 内容 |
|---|---|
動画長 | 現時点で最大10秒 |
シーン延長 | scene extension機能はAPIで未対応 |
音声参照 | 音声リファレンスのアップロードは未対応 |
動画参照 | 最大3秒まで受け付けるが、モデルが正しく処理できないと公式が明記 |
複数動画参照 | multi-video referencingは未対応 |
キャラ一貫性 | シーン切り替え・パン動作を伴う場面では一貫性が保たれにくいと公式が明示 |
生成パラメータ | システム命令・temperature・top_p・ネガティブプロンプトは未対応 |
スループット | Provisioned throughput(予約スループット)非対応 |
言語 | 英語は完全サポート。それ以外の言語は「未評価(not evaluated)」 |
とくに実務で影響が大きいのは、10秒という長さの上限と、シーン切り替え・パンでキャラの一貫性が崩れやすい点です。長尺の作品や、大きくカメラが動くシーンを1本で完結させる用途には現時点で向きません。短いカットを積み上げる使い方が現実的です。
また、日本語プロンプトの生成品質は公式に保証されていません(英語は完全サポート、他言語は未評価)。日本語で使う場合は、品質を自分で検証したうえで採用するのが安全です。
セキュリティ・ガバナンス上の注意点
- 全生成動画にSynthID透かしが自動付与され、来歴検証が可能です
- EEA・スイス・英国では、未成年者の画像のアップロード/編集が不可。同地域ではアップロード動画の編集も不可(モデルが生成した動画の編集は可能)
- Preview段階のため、モデルID・料金・提供範囲が変更される可能性があります
生成AI全般のセキュリティ観点を押さえておきたい方は、生成AIのセキュリティ解説もあわせて確認してください。
Veoとの違い ― 「生成専用」か「推論を統合した会話型」か

Gemini Omni Flashを検討する人の多くが気にするのが、Googleの既存動画生成モデルVeoとの違いです。役割の違いを整理します。
比較ポイント | Gemini Omni Flash | Veo 3.1 Fast |
|---|---|---|
位置づけ | any-to-anyマルチモーダル。推論レイヤーを統合 | 動画生成に特化した専用モデル |
会話型編集 | 対応(Interactions APIで部分編集・最大3回) | 生成中心 |
入力の統合理解 | テキスト・画像・音声・動画を同時理解 | プロンプト+参照が中心 |
音声 | ネイティブに同時生成 | モデル/構成による |
720p料金 | $0.10/秒 | $0.10/秒 |
高解像度料金 | 720p基準(1080p/4Kは未確認) | 1080p $0.12・4K $0.30/秒 |
Veoは「高品質な動画を生成する専用エンジン」、Gemini Omni Flashは「複数の入力を理解し、会話で編集しながら動画を組み立てる推論つきモデル」です。作りっぱなしで高品質を狙うならVeo、素材を組み合わせて対話で仕上げたいならGemini Omni Flash、という選び分けが基本になります。
Sora系を含めた他の動画生成AIと比較したい場合は、Soraの代替ツールをまとめた記事や、中国発の高品質モデルを解説したKling AIの記事も参考になります。
こんな人におすすめ
Gemini Omni Flashの特性を踏まえると、次のような方に向いています。
- 短尺(〜10秒)の動画を大量に、安く作りたい人・チーム(SNS向けクリップ、広告素材のたたき台など)
- 同じキャラ・同じ画風で複数カットを揃えたいクリエイター(参照画像7枚・参照動画3本を活用)
- 生成後に「照明だけ」「背景だけ」を対話で微修正したい人(会話型編集が刺さる)
- 自社サービスに動画生成を組み込みたい開発者(API+Interactions APIで柔軟に統合)
- まずは手軽に試したい個人(Geminiアプリ/YouTube Shorts経由で無料〜サブスクで利用可)
- Google/Geminiエコシステムを既に使っており、SynthIDによる来歴検証を重視する組織
おすすめしない人
一方で、現時点では次のようなケースには向きません。
- 10秒を超える長尺動画を1本で完結させたい人(現状の上限は10秒)
- 大きなシーン切り替えやパンを多用する映像を作りたい人(キャラ一貫性が崩れやすい)
- 日本語プロンプトの品質を保証してほしい人(日本語は未評価。英語のみ完全サポート)
- 音声リファレンスやシーン延長機能が必須の制作フロー(いずれも未対応)
- 1080p/4Kの明確な料金を事前に確定させたい人(高解像度の秒単価は未確認)
- 仕様が固定された安定運用を求めるエンタープライズ(Preview段階で変更の可能性)
これらに当てはまる場合は、Veo 3.1系や他の動画生成AIと併用・比較しながら判断するのが現実的です。テキスト中心の作業がメインなら、動画生成ではなくGemini本体の解説や、ClaudeとGeminiの比較のほうが参考になるでしょう。
よくある質問(FAQ)
Q. Gemini Omni FlashとGemini Omniは違うものですか?
A. Gemini Omniが親となる「any-to-anyマルチモーダル」モデルファミリーで、そのなかで高速な動画生成・編集に特化したのがGemini Omni Flashです。API提供されているモデルIDはgemini-omni-flash-previewです。
Q. 1本の動画はどのくらいの長さまで作れますか?
A. 現時点では最大10秒です。シーン延長(scene extension)はAPIで未対応のため、長尺は短いカットを積み上げる形になります。
Q. 料金はいくらですか?
A. 720pで1秒あたり0.10ドルです。10秒動画なら約1.0ドルが目安で、Veo 3.1 Fastと同水準です。1080p・4Kの秒単価は公式Pricingに未記載です。
Q. 日本語のプロンプトでも使えますか?
A. 技術的には入力できますが、公式では英語のみ完全サポートで、他言語は「未評価」とされています。日本語での生成品質は保証されていないため、実際の出力を検証したうえで採用するのが安全です。
Q. 生成した動画がAI製だとバレますか?
A. 全動画にSynthID電子透かしが自動で付与されます。視聴者には知覚できませんが、Geminiアプリ・Chromeの Gemini・Google検索で「Gemini Omni生成」であることを機械的に検証できます。
Q. コードを書かずに使えますか?
A. 使えます。Geminiアプリ・Google Flow・YouTube Shorts/Createアプリ経由なら、自然言語の指示だけで動画を生成・編集できます。Google AI Plus/Pro/Ultra加入者はGeminiアプリ・Flowから、YouTube Shorts/Createでは無料で順次利用可能です。
まとめ
Gemini Omni Flashは、Googleが2026年6月30日にAPI提供を始めた「会話しながら動画を作る」マルチモーダルAIです。テキスト・画像・音声・動画を統合的に理解し、720pの動画を1秒0.10ドル(10秒で約1ドル)で生成、さらにInteractions APIによる会話型編集で「一部分だけ」を対話で修正できるのが最大の強みです。
一方で、最大10秒という長さの制約、シーン切り替え・パンでのキャラ一貫性の崩れ、日本語未評価、音声参照・シーン延長の未対応など、Preview段階ならではの制約もはっきりしています。短尺クリップを安く量産したい人・同じキャラで複数カットを揃えたいクリエイター・動画生成を組み込みたい開発者には有力な選択肢ですが、長尺・大きなカメラワーク・日本語品質保証が必要な用途には、Veo 3.1系など他モデルとの比較・併用がおすすめです。
Preview段階のため仕様・料金は変わり得ます。導入前にはGemini API公式ドキュメントと公式Pricingで最新情報を確認してください。
この記事の著者

AI革命
編集部
AI革命株式会社の編集部です。最新のAI技術動向から実践的な導入事例まで、企業のデジタル変革に役立つ情報をお届けしています。豊富な経験と専門知識を活かし、読者の皆様にとって価値のあるコンテンツを制作しています。
最新記事

福祉・NPO・非営利組織のAI活用事例|申請支援・多言語対応・業務自動化AI徹底解説【2026年最新】
2026/05/08

Nano Banana 2 Liteとは?4秒生成・1枚約0.034ドルのGoogle高速画像生成AIを料金・NB2/Pro比較まで解説
2026/07/03

IT・ソフトウェア業のAI活用事例|コード生成・QA自動化・セキュリティ診断AIを徹底解説【2026年最新】
2026/05/08

Cursorモバイルアプリとは?iOS/Android対応・機能・料金・使い方とClaude Code比較【2026年6月最新】
2026/07/03

音楽・レコード業界のAI活用事例 2026|AI作曲・楽曲推薦・権利管理AIを徹底解説
2026/05/07

アニメ業界のAI活用事例|中割り・背景・彩色・翻訳の導入事例と主要サービス比較【2026年最新】
2026/07/03

