ブログに戻る

nano-banana

conversation

editing

workflow

multimodal

iterative-design

テキストから画像へ、そして会話から画像へ

プロンプトを書くのをやめて、会話を始めましょう。Nano Banana 2 のマルチモーダル対話が、スロットマシンだった画像生成を協力型デザインプロセスへと変革する方法。

公開日 2026-02-27

テキストから画像へ、そして会話から画像へ

プロンプトエンジニアリングの罠

2024 年、AI 画像生成はスロットマシンでした。

レバーを引き——プロンプトを書き、生成を押し——そしてジャックポットを期待しました。ほとんどの場合、レモンが出ました。だからまた引きました。そしてまた。そしてまた。各生成にお金がかかりました。各失敗で時間が失われました。

デイビッドに会いましょう。彼は SaaS スタートアップのマーケティングディレクターです。2024 年 10 月、彼はランディングページのヒーロー画像が必要でした：「スタンディングデスクで働く開発者、モダンオフィス、自然光、集中した表情、ミニマリスト美学」。

彼のワークフロー：

生成 1：「開発者が退屈そうに見える。もっとエンゲージさせることはできますか？」 生成 2：「表情は良いが、照明が厳しすぎる。」 生成 3：「照明は良いが、デスクの色が違う。」 生成 4：「デスクの色は修正されたが、ポーズがぎこちない。」 生成 5：「ポーズは良いが、背景が気を散らす。」 生成 6-15：様々な問題を修正する様々な試行。

合計コスト：$8.50。合計時間：47 分。結果：「これでいい。このものを使いましょう。」

これが従来の AI 画像生成の隠れたコストです。API コールではありません。イテレーションです。千の微調整による死に至る病です。

そして最悪の部分？各生成は独立していました。モデルはデイビッドが生成 3 で気に入ったものを、生成 2 で作業するときに「覚え」ていませんでした。毎回、グラウンドホッグデーでした。

従来の修正（そしてそれが壊れている理由）

修正 1：より長く、より詳細なプロンプト

誰もが与えたアドバイス：「より良いプロンプトを書きましょう。」

だからデイビッドはプロンプトエンジニアリングを学びました：

"8k, highly detailed, professional photography"
"Unsplash style, shot on Canon R5, 50mm lens"
"soft diffused lighting from window at 2pm, ISO 100, f/2.8"
"minimalist Scandinavian office interior with Eames chair"

彼のプロンプトは 200 語以上に増えました。結果？わずかに良くなった。しかし今、各プロンプトを書くのに 10 分かかりました。そしてクライアントが「実際、スタンディングデスクの代わりに座りデスクを試してみましょう」と言った時、彼は全体の小説を書き直しました。

努力が 10 倍増加。結果が 20% 改善。

修正 2：イメージトゥイメージ

ほとんどのツールが img2img 機能を追加しました。ほぼ正しい画像をアップロードし、変更を説明し、バリエーションを生成します。

改善されましたが、ぎこちない：

画像をダウンロード
img2img インターフェースにアップロード
変更を説明する新しいプロンプトを書く
強度スライダーを調整（0.5？0.7？0.9？）
3-4 のバリエーションを生成
どれも正しく見えない
強度を再度調整
繰り返す

そして img2img には致命的な欠陥がありました：破壊的でした。各パスで品質が低下しました。詳細がぼやけました。アーティファクトが現れました。生成 5 までには、画像はコピーのコピーのように見えました。

修正 3：レイヤー編集 + インペインティング

Photoshop スタイルのワークフロー。変更したい領域をマスク。変更を説明。生成。

強力ですが：

技術スキルが必要（マスキング、レイヤー、ブレンディング）
時間がかかる（編集あたり 5 分のマスキング）
スタイルが一貫しない（新しい要素が古いものと常にマッチしない）

デイビッドは複雑な編集にデザイナーの助けが必要でした。AI の「民主化」はそれほど民主的には感じられませんでした。

Nano Banana 2：会話モデル

2026 年 1 月。Nano Banana 2 がゲームを変えます。

より良いプロンプトではありません。より良い img2img でもありません。会話です。

同じランディングページ画像のデイビッドの新ワークフロー：

ターン 1：

デイビッド："デスクで働く開発者、モダンオフィスを生成"
Nano Banana 2：[画像を生成]

ターン 2：

デイビッド："立っているようにして、座っているのではなく、そして 2 台目のモニターを追加"
Nano Banana 2：[画像を更新、同じ人物、今は立っている、デュアルモニター]

ターン 3：

デイビッド："照明が人工的すぎる感じがする。自然な窓光、午後遅くにして"
Nano Banana 2：[画像を更新、暖かい夕暮れ時の照明]

ターン 4：

デイビッド："完璧な照明。隅に植物を追加できますか？背の高いフィカス"
Nano Banana 2：[植物を追加、照明と構図を保持]

ターン 5：

デイビッド："植物が目立ちすぎる。小さくして、デスクの後ろに移動"
Nano Banana 2：[植物のサイズと位置を調整]

合計コスト：$0.45（5 ターン）。合計時間：6 分。結果：「これはまさに私が欲しかったものです。」

違いはパラダイムを変えるものです。デイビッドはプロンプトを書いていません。彼は会話をしています。モデルはコンテキストを覚えています。各ターンは前のものに基づいています。品質の劣化はありません。最初からやり直す必要はありません。

会話から画像への仕組み

技術アーキテクチャ

従来の拡散モデル：

[プロンプト A] → [生成] → [画像 A]
[プロンプト B] → [生成] → [画像 B]（A と無関係）

Nano Banana 2 マルチモーダル対話：

[プロンプト A] → [生成] → [画像 A + コンテキスト]
                                     ↓
[プロンプト B + 画像 A + コンテキスト] → [生成] → [画像 B]
                                     ↓
[プロンプト C + 画像 B + コンテキスト] → [生成] → [画像 C]

鍵：永続的なマルチモーダルコンテキスト。Nano Banana 2 は以下を維持し続けます：

視覚的状態（現在の画像）
会話履歴（何が求められ/変更されたか）
ユーザーの意図（達成しようとしていること）

最初から再生成しているのではありません。理解を持って編集しています。

「ネイティブ」とは何か

他のツールは既存のモデルに会話を追加しました：

GPT-4V が画像を説明 → DALL-E が新しいものを生成
複数の API コール、複数のモデル、各ハンドオフでコンテキストが失われる

Nano Banana 2 はネイティブにマルチモーダルです。1 つのモデル。1 つのコンテキストウィンドウ。真の理解。

結果：

一貫性：変更は視覚的に意味があり、ランダムな変異ではない
メモリ：「植物を小さくする」はどの植物、どこにあったかを覚えている
意図の保持：「照明を保持してデスクを変更」は重要なものを維持する

会話の深さ

どれだけのターンが可能か？Google のドキュメントは、効果的なコンテキストは 10-20 ターンのやり取りを示唆しています。実際には：

ターン数	有効性	最適な用途
1-3	100%	クイックな単一変更
4-7	95%	複数要素の調整
8-12	90%	複雑なシーン構築
13-20	80%	拡張された洗練
20+	劣化	新しいセッションを開始

プロのヒント：複雑なシーンでは、5-7 ターンで基礎作業を行い、キーポイントで参考画像を保存し、微調整のために新しい会話を開始してください。

今すぐアクションを起こせる

最初の会話

所要時間：10 分。コスト：約 $0.30。

ステップ 1：Google AI Studio を開く。Gemini 3.1 Flash Image を選択。

ステップ 2：シンプルに始める：

"朝の光の中、木製テーブルの上のコーヒーカップ"

生成。

ステップ 3：変更を加える：

"カップを青い陶器に変更"

生成。同じテーブル。同じ光。違うカップ。

ステップ 4：要素を追加：

"カップの隣にノートとペンを追加"

生成。青いカップ、ノート、ペン。一貫した構図。

ステップ 5：構図を調整：

"ノートを左側に移動して開く"

生成。レイアウトが調整されました。他のものは保持されます。

ステップ 6：雰囲気を変更：

"朝の代わりに、暖かいランプ光で夜にする"

生成。同じオブジェクト。新しい照明。一貫した影。

これで 6 ターンの会話ができました。合計時間：4 分。従来の img2img でこれを試してみてください。

機能する会話パターン

パターン 1：彫刻アプローチ

広く始めて、狭く洗練させる。

T1: "街のシーン"
T2: "雨の夜の東京にする"
T3: "日本語のネオンサインを追加"
T4: "前景に傘を持った人物を含める"
T5: "傘を赤にする"
T6: "濡れた路面に反射を追加"
T7: "反射がネオンサインを映すようにする"

彫刻のように：粗い形 → 中程度の詳細 → 細かい詳細。

パターン 2：A/B テストアプローチ

基盤を失うことなくバリエーションを探索。

T1: "ミニマリストスタイルのモダンリビングルーム"
[良いベース]

T2: "ソファを青に変更"
[オプション A を見る]

T3: "実際、元に戻してソファを緑にする"
[オプション B — 待って、「元に」覚えている？]

制限：Nano Banana 2 は従来の意味での「元に戻す」はありません。会話は覚えますが、任意の以前の状態に戻ることはできません。

回避策：キーポイントで参考画像を保存。T3 が間違っていたら、T1 の画像を参考として新しい会話を開始。

パターン 3：修正ループ

デザイナーと一緒に働くような自然なやり取り。

T1: "山でハイキングする人"
[画像生成]

T2: "その人はハイキングブーツを履くべきで、スニーカーではない"
[修正済み]

T3: "良いブーツ。でも新しすぎる見た目。使用感があり泥だらけにする"
[修正済み]

T4: "素晴らしいブーツ。今、リュックが小さすぎる見た目。大きなハイキングパックにする"
[修正済み]

T5: "完璧。最後の 1 つ——トレッキングポールを追加"
[完了]

各修正はコンテキストで理解されます。再説明は不要。やり直す必要はありません。

パターン 4：シーンの進化

段階的に複雑なシーンを構築。

T1: "空の教室"
T2: "円形に配置された 6 つの机を追加"
T3: "前面にラップトップがある教師の机を置く"
T4: "数学の方程式が書かれたホワイトボードを追加"
T5: "窓から光が差し込む晴れた午後にする"
T6: "床に窓枠の影を追加"

従来のアプローチ：これをすべて説明する 200 語のプロンプトを書く。モデルが正しく解析することを期待。

会話アプローチ：ライブで構築し、各要素を確認し、必要に応じて調整。

機能するもの（そして機能しないもの）

流れるような会話

空間調整：

"車を左に移動"
"建物を高くする"
"2 人の間にスペースを追加"

属性変更：

"色を青に変更"
"昼から夜にする"
"霧/靄を追加"

要素の追加/削除：

"空に鳥を追加"
"シャツからロゴを削除"
"彼らの手にコーヒーカップを持たせる"

スタイル転送（合理的な範囲内）：

"水彩画のように見せる"
"ヴィンテージフィルムルックを適用"
"よりフォトリアルにする"

苦労する会話

極端な視点変更：

"シーンを 90 度回転"
"鳥瞰図でこれを表示"
"顔だけのクローズアップにする"

これらは参考を使った新しい生成として機能する方が良いことが多い。

一度に複数の複雑な要素を追加：

"群衆を追加し、照明を夕暮れに変更し、雨にし、ネオンサインを追加"

ステップに分ける：

"群衆を追加" → 確認 → "照明を夕暮れに変更" → 確認 → など。

以前の変更を元に戻す：

"実際、3 ターン前のように戻って"

Nano Banana 2 は履歴ツリーを維持しません。キーポイントで参考画像を使用。

矛盾した指示：

"明るくするが、暗くもする"
"もっと人を追加するが、ミニマルに保つ"

モデルは最善を尽くしますが、対立する方向は混乱した結果を生みます。

本番ワークフロー

ランディングページヒーロー画像

従来：

50 のプロンプトバリエーションを書く
100 枚の画像を生成
10 のオプションにフィルタリング
クライアントが 1 を選択
さらに 5 回イテレーション
時間：3-4 時間

会話アプローチ：

コンセプトから始める
洗練のために 10 ターンの会話を行う
クライアントがリアルタイムで見て/アドバイスする
最終バージョンをロック
時間：20-30 分

ソーシャルメディアキャンペーン

A/B テスト用に同じシーンの 20 のバリエーションが必要？

ターン 1-5：会話を通じてベースシーンを構築 ターン 6：「これをバージョン A として保存" ターン 7："ヘッドラインテキストの色を赤に変更" → バージョン B ターン 8："バージョン A に戻って、背景画像を変更" → バージョン C

実際、「保存状態」がないので、より良いアプローチ：

ベースシーンを完了（5 ターン）
その参考画像を保存
その参考から 3 つの新しい会話を開始：
- 会話 B："ヘッドラインの色を赤に変更"
- 会話 C："背景を街並みに変更"
- 会話 D："推薦の引用を追加"

ストーリーボードイテレーション

映画監督がシーン構図をイテレーションする必要がある：

T1: "暗いオフィスに座る探偵、ノワールスタイル"
T2: "窓からのベネチアンブラインドの影を追加"
T3: "机にウイスキーグラスを置く"
T4: "グラスには氷があり、半分満たされているべき"
T5: "グラスの隣に銃を追加"
T6: "銃が窓光を反射するようにする"
T7: "探偵はカメラではなく銃を見ているべき"
T8: "窓の外に雨を追加"

監督は構図の進化を見ます。リアルタイムで決定を下します。「見たらわかる」生成宝くじはありません。

会話の経済学

コスト比較

シナリオ：10 回のイテレーションを通じてマーケティング画像を洗練。

メソッド	イテレーション	コスト/回	合計コスト	時間
従来の生成	10 個別	$0.05	$0.50	30 分
img2img	10 パス	$0.05	$0.50	25 分
Nano Banana 2	10 ターン会話	$0.03	$0.30	10 分

節約は財務的なものだけではありません。時間と精神的帯域も重要です。

隠れたコスト：意思決定疲労

従来の AI 画像生成：

20 のオプションを生成
20 のオプションを比較
1 を選択
選択を疑う
さらに 20 を生成
決して満足を感じない

会話アプローチ：

段階的に構築
各決定を検証
自然に満足に到達
なぜ最終画像が機能するかを知る

制限

真の元に戻すはなし

一度パスを下ると、任意に分岐して戻ることはできません。回避策：キーポイントで参考画像を保存。

コンテキストウィンドウの制限

約 20 ターン後、モデルは早い会話の詳細を忘れ始めることがあります。複雑なプロジェクトでは、参考画像で複数の会話に分割。

単一画像フォーカス

各会話は 1 つのアクティブ画像を維持。複数の構図を同時に作業できない。回避策：複数のブラウザタブ/会話。

言語のニュアンス

"よりダイナミックに" vs "よりエネルギッシュに"——微妙なプロンプトの違いは依然として重要。モデルは自然言語を上手く理解しますが、完璧ではありません。

大きな絵

会話から画像へは、ただの機能ではありません。パラダイムシフトです。

従来の AI 画像ツールはユーザーを機械のオペレーターのように扱いました：正確な指示を書き、出力を得て、繰り返す。

Nano Banana 2 はユーザーを協力者のように扱います：話し合い、イテレーション、一緒に洗練させる。

これは人間のデザイナーが実際に働く方法を反映しています：

"何か見せて"
"うーん、暖かく"
"はい、そのように、でも大きく"
"完璧、ただ追加..."

最高のクリエイティブツールは単にコマンドを実行するのではありません。対話に参加します。

シリーズナビゲーション

これは Nano Banana 2 マスタークラスシリーズの記事 2です。

前：E01：LoRA からゼロトレーニングへ：キャラクター一貫性の革命
次：E03：プロンプト推測から空間論理へ
シリーズ概要：マスタークラスインデックス

会話革命はここにあります。レバーを引くのをやめて。話し始めましょう。