seedance

evolution

tutorial-series

controllability

director-mode

ランダムから監督へ：制御性の覚醒

"生成して祈る"時代の終わり。Seedance 2.0の監督モードと内部ショットリストがどのように映画製作者に制御を取り戻すか

公開日 2026-02-09

ランダムから監督へ：制御性の覚醒

「生成して祈る」の終焉

AI動画の「プロンプトして祈る」時代には根本的な問題がありました：モデルが監督で、ユーザーはただのプロンプトエンジニアでした。

「女性が部屋に入り、窓の前で止まり、カメラが追従し、次にアークで周りを回り、彼女は微笑む」と入力すると——出力は：彼女は横に歩き、カメラは固定され、彼女は壁の前で止まり、表情はニュートラルです。もう一度試す：彼女はフレームから出て行き、カメラは間違った方向にパンします。3回目の試行：アークは耳障りなジャンプカットになり、微笑みは変な顔のように見えます。

23のバリエーション、ビジョンに合うものはありませんでした。最も近いものは、3つの異なる生成を一緒に編集し、照明がマッチすることを祈ることで、多大な編集が必要でした。

これはツールの問題ではなく、制御の問題でした。クリエイターは何が欲しいかを説明し、モデルは自分がしたいことをしました。時々運が良く、通常は妥協しかありませんでした——AIの出力に最終結果を決定させました。力関係は逆でした。

真の映画制作には制御性が必要です。クリエイターは監督である必要があり、受動的な受け取り手ではありません。

進化のタイムライン

2019-2021：全く制御がない

初期のGANベースの動画生成はゼロの制御性を提供しました。シードを提供します。モデルが何かを生成します。気に入らなければ、シードを変更して再試行します。「カメラムーブメント」や「動作の指導」の概念は、インターフェースには存在しませんでした。

研究の焦点は存在性にありました：私たちは動画を生成できますか？制御は後の問題でした。

2022-2023：基本的な条件付け

拡散モデルが成熟するにつれ、基本的な条件付けが現れました：

テキストプロンプト：何が欲しいかを説明する（曖昧に）
シード制御：再現可能なランダム性
画像条件付け：特定のフレームから開始

一部のツールは基本的な制御を追加しました。Runway Gen-2は「モーションブラシ」を導入しました——領域を描き、動きの方向を定義します。当時は革命的でしたが、限られていました：「この領域が上に動く」は指定できますが、「カメラがプッシュインしながら主体が離れていく」は指定できませんでした。

Pika Labsは「Pikaffects」を提供しました——「バレットタイム」や「爆発」などのプリセット変換。面白いですが、映画制作ではありません。

2024：カメラムーブメントの出現

ブレークスルーは明示的なカメラ制御から来ました。Runway Gen-3は、テキストプロンプトを通じて「高度なカメラ制御」を導入しました——パン、トラッキング、ズーム、オービットを指定します。Higgsfield AIは50以上の映画ムーブメントプリセットを示しました。Pika 2.2は「ラックフォーカス」と動きの方向を追加しました。

これらは真の進歩でした。初めて、クリエイターは主体の動作とは独立にカメラの動作を指定できました。しかし、それらは限られていました：

カメラムーブメントはプリセットであり、精密な制御ではありませんでした
主体の動作は基本的に予測不可能なままでした
組み合わせ（カメラが左に動きながら主体が右に動く）は信頼性がありませんでした
マルチショットシーンは手動スプライシングが必要でした

業界は「制御がない」から「いくつかの制御がある」に移行しました。しかし、これは映画製作者の制御ではありませんでした。パラメータ制御でした。

2025：Seedance 2.0監督モード

Seedance 2.0は、異なるものを導入しました：内部ショットリスト（Internal Shot List）を持つ監督モードです。これはパラメータを追加するのではありません。モデルに監督意識を追加するのです。

Seedance 2.0：監督アーキテクチャ

監督モードが実際に何をするか

従来のAI動画：単一のプロンプト、単一の出力、最善を祈るのみ。

監督モード：構造化された入力、計画的な実行、予測可能な結果。

内部ショットリストは、生成をコンポーネントに分解します：

ショット定義：カメラアングル、動き、レンズ、構図を指定
動作のオーケストレーション：主体の動作、タイミング、パスを定義
時間構造：単一の生成内で複数のビートを順序付け
環境制御：照明、雰囲気、背景の動作

これらは別々のプロンプトではありません。モデルが全体として解釈する構造化された入力です。

マルチモーダル入力：完全なパレット

Seedance 2.0は同時に最大12の入力を受け入れます：

9枚の画像：リファレンスフレーム、スタイルガイド、キャラクターシート
3つの動画：動作の例、連続性の前のクリップ
3つの音声：音楽トラック、音声リファレンス、サウンドデザイン
テキスト：詳細な指示、ショットの説明、タイミングのヒント

これは「画像をアップロードしてプロンプトする」ではありません。これは「完全なクリエイティブブリーフを提供し、モデルがそれを実行する」です。

技術的実装

制御性のアーキテクチャ：

構造化プロンプト解析：モデルは映画制作の語彙を理解します——ラックフォーカス、パン、ズーム、オービット、ワイドショット、オーバーザショルダー
動き軌道エンコーディング：カメラと主体のパスは、テキストの説明だけでなく数学的な曲線として表現されます
マルチスケール生成：シーケンスレベルで計画し、フレームレベルで実行し、ピクセルレベルで最適化
フィードバックループ：カメラムーブメント、主体の動作、環境が一貫性を保つための内部チェック

比較：制御の忠実度

制御側面	2023「プロンプトして祈る」	2024カメラプリセット	Seedance 2.0監督モード
カメラムーブメント	予測不可能	プリセットオプション	精密な軌道制御
主体の動作	ランダム	限定的な影響	オーケストレートされた動作
マルチショットシーン	手動スプライシング	サポートなし	内部シーケンス計画
タイミング/リズム	制御不能	固定時間	可変ビートタイミング
スタイルの一貫性	世代ごとに変化	限定的	ショット間でロック
必要なイテレーション	10-50回	5-10回	2-3回

リアルな例：カフェシーン

この複雑な指導を考えてみてください：

「カフェのワイドなエスタブリッシングショット。カメラがドアを通ってプッシュイン。テーブルに座っている主人公のミディアムショット。彼らが顔を上げるときにカメラが90度アークで周りを回ります。彼らの反応のクローズアップ。」

2023アプローチ：4つの別々の生成。照明、服装、背景を手動でマッチさせます。4時間以上の作業。ショット間の目に見えるカット。

Seedance 2.0監督モード：単一の構造化入力と内部ショットリスト。モデルは計画します：

ショット1：ワイド、固定、3秒
ショット2：ドアへのプッシュイン、2秒
ショット3：ミディアム、90°アーク、主人公が顔を上げる、6秒
ショット4：クローズアップ、反応、4秒

出力：計画的なトランジション、一貫した照明、連続的な動作を持つ15秒の連続シーケンス。一度の生成。実現されたビジョン。

今すぐ始められること

最初のステップ

撮影したり、ストーリーボードを作成したりしたシンプルなシーンを持ってきてください。それをビートに分解します：

ショットリスト付きの監督モード構造化プロンプトを書きます
特定のカメラムーブメントを含めます
タイミング付きの主体の動作を含めます
生成し、以前の「プロンプトして祈る」試行と比較します

制御は最初は慣れない感じがするかもしれません——オートマチックからマニュアルトランスミッションに切り替えるようなものです。しかし、精度は学習曲線に値します。

監督モードのプロンプトテンプレート

プロジェクト：[シーンの目標の簡潔な説明]

ショットリスト：
ショット1：[タイプ、時間、カメラの動作]
  - 主体の動作：[何が起こるか]
  - タイミング：[ショット内でいつ起こるか]

ショット2：[タイプ、時間、カメラの動作]
  - 主体の動作：[何が起こるか]
  - タイミング：[いつ起こるか]

[すべてのショットを続ける]

リファレンス：
- スタイル：[画像リファレンスまたは説明]
- キャラクター：[画像リファレンスまたは説明]
- 照明：[リファレンスまたは説明]

オーディオ：
- 音楽の雰囲気：[説明]
- サウンドデザイン：[重要な要素]

連続性の注釈：
- [ショット間で一貫性を保つ必要がある要素]

例：
プロジェクト：朝の日常の発見

ショットリスト：
ショット1：ワイド、4秒、固定エスタブリッシュ
  - 主体：ベッドで寝ている人、窓から朝の光
  - タイミング：固定保持、微妙な呼吸

ショット2：ミディアム、5秒、スロープッシュイン
  - 主体：目を開け、起き上がり、伸びをする
  - タイミング：1秒で目を開け、2秒で起き上がり、4秒で伸びをする

ショット3：クローズアップ、6秒、主体を中心に軽いアーク
  - 主体：窓の外を見て、表情が眠そうから希望に変わる
  - タイミング：1秒で顔を向け、4秒で微笑みを形成し、終わりまで保持

リファレンス：
- スタイル：柔らかい朝の光、暖かいトーン、映画感
- 照明：薄いカーテンを通るゴールデンアワー

オーディオ：
- 音楽：柔らかいピアノ、わずかに強調
- 音：外の鳥、布のサラサラ音

今後12ヶ月

制御性は最後のフロンティアです。急速な進歩が期待されます：

キーフレームベースのガイダンス：特定のフレームを設定し、モデルが意味のある補間を行う
物理制御：物体の重さ、運動量、衝突動作を指定
感情アーク制御：ビートごとに表情のトランジションを微調整
標準ツールとの統合：Storyboarderからのインポート、Premiereへのメタデータ付きエクスポート
協調的監督：複数のユーザーが同時に異なる側面を調整

AIがランダムジェネレーターとしての時代は終わりつつあります。AIが制作ツールとしての時代が始まっています。

シリーズナビゲーション

これはSeedance 2.0 Masterclass進化シリーズの第1課、第5篇です。

前の記事：E04: 無音から交響曲へ：オーディオネイティブの革命
シリーズ概要：Masterclass インデックス
次の課：第2課：実践的応用（近日公開）

あなたはプロンプトエンジニアではありません。あなたは監督です。Seedance 2.0はついにあなたを監督として扱います。