nano-banana

character-consistency

tutorial-series

brand-design

workflow

从 LoRA 到零训练：角色一致性革命

Nano Banana 2 如何解决 AI 图像生成中最大的痛点——角色一致性——无需训练、无需等待、无需头痛。

发布于 2026-02-26

从 LoRA 到零训练：角色一致性革命

角色一致性的噩梦

在 2024 年，AI 图像生成有一个肮脏的秘密：你可以生成一个漂亮的角色一次，但永远无法生成他们的第二个��本。

认识一下 Sarah。她在奥斯汀经营一家小型设计公司。2024 年 3 月，她成功争取到一个梦想客户——一家儿童书籍出版商需要 24 幅同一主角的插图。这个角色是一只好奇的红狐狸，名叫 Rusty，有独特的斑纹、绿色围巾和琥珀色的眼睛。

Sarah 的工作流程是这样的：

第 1 周：在 Midjourney 中生成 200+ 张图像。找到 3 张与客户愿景相符的图像。展示。

第 2 周：客户选择了 Rusty v2。现在 Sarah 需要在 24 个不同的场景中生成 Rusty。同一只狐狸。同一条围巾。同一双眼睛。

尝试 1：在提示词中添加"角色一致"。结果：24 只不同的狐狸。有些橙色。有些棕色。有一只莫名其妙是紫色的。

尝试 2：使用 Midjourney 的角色参考（CF）功能。更好，但围巾的颜色漂移。眼睛的形状改变。背景元素混入了角色。

尝试 3：训练一个 LoRA。Sarah 花费 50 美元购买云 GPU 配额。等待 6 小时进行训练。LoRA 过度拟合——每个 Rusty 都有完全相同的姿态。客户想要 Rusty 跑步、跳跃、睡眠。LoRA 只能做"Rusty 站立和可爱地看"。

总时间：3 周。总成本：800 美元的工具和修订。客户满意度："你能让第 7 集的 Rusty 看起来更像第 3 集的 Rusty 吗？"

这是 2024 年 AI 图像生成的现实。角色一致性是行业的开放性伤口。

旧的解决方案（以及它们为什么失败）

解决方案 1：提示词工程

承诺：编写详细的提示词，AI 将记住。

现实：

"A red fox named Rusty, orange fur with white chest patch,
wearing a forest green scarf, amber eyes, friendly expression..."

生成 10 张图像。你得到 10 条不同的围巾。3 种不同的眼睛颜色。一只有两条尾巴的狐狸。

目前的扩散模型不会"记住"角色。它们生成概率。每张图像都是一次全新的掷骰子。

成功率：简单角色约 15%，复杂角色约 3%。

解决方案 2：角色参考（Midjourney CF）

Midjourney 的 2024 年角色参考是向前迈出的一步。上传参考图像，添加 --cref URL，然后希望最好。

问题：

风格渗漏：参考图像的光线和背景污染新的生成
特征漂移：面部特征在各代之间漂移
控制有限：对肖像有效，对复杂姿态或极端角度失败

成功率：头部特写约 40%，全身动作拍摄约 10%。

解决方案 3：LoRA 训练

"专业"解决方案。在 15-30 张角色图像上训练小模型。然后在生成中使用该 LoRA。

工作流程：

收集 20+ 张角色的高质量图像（或费力地生成它们）
用标题标记每张图像
租赁 GPU（0.50-2 美元/小时）
训练 2-6 小时
测试，意识到它过度拟合，调整参数
重新训练
发现 LoRA 适用于正面姿态但在侧面失败
收集更多侧面图像
重新训练
最终得到可接受的结果——仅针对一个特定角色

每个角色的时间：8-20 小时。成本：计算中的 30-100 美元。需要的专业知识：显著。

当客户说："我们喜欢 Rusty！现在我们需要他的妹妹，一只蓝灰色的狐狸，有黄色围巾"时——你重新开始。

Nano Banana 2：零训练革命

2026 年 1 月。Google 发布 Nano Banana 2（Gemini 3.1 Flash Image）。重要的功能：原生参考图像支持。

不是 LoRA。不是训练。上传最多 6 张参考图像。模型理解。角色保持一致。

Sarah 的新工作流程（2026 年 2 月）

同一个客户。同一个 Rusty。新方法：

步骤 1：生成或上传 3-6 张 Rusty 的参考图像：

正面，中立表情
侧面
3/4 视角，围巾可见
面部斑纹特写
全身站立
动作姿态（奔跑）

步骤 2：生成场景 1：

"Rusty the fox exploring a forest clearing, morning light,
curious expression, children's book illustration style"

参考图像：[上传 6 个 Rusty 参考]

结果：Rusty。正确的橙色毛发。白色胸部斑点。森林绿色围巾。琥珀色眼睛。

步骤 3：生成场景 2：

"Rusty jumping over a stream, dynamic pose, water splashing"

参考图像：[同样 6 个参考]

结果：同一个 Rusty。在运动中。围巾流动正确。眼睛仍是琥珀色。

步骤 4-24：对剩余场景重复。每个 Rusty 都是同一个 Rusty。

总时间：2 天。总成本：API 调用约 15 美元。客户满意度："这正是我们所设想的。"

区别不是增量的。这是绝对的。

原生参考图像如何工作

技术转变

传统扩散模型：[文本] → [噪声] → [图像]

Nano Banana 2：[文本 + 参考图像 + 上下文] → [多模态理解] → [一致图像]

关键：多模态推理。Nano Banana 2 不会从参考中"复制"像素。它理解是什么让 Rusty "成为 Rusty"——毛发图案、围巾颜色、眼睛形状、个性——并将该理解应用于新的上下文。

6 个参考的最佳点

为什么是 6 个？通过广泛的测试，Google 发现超过 6 个参考的边际收益递减：

参考数量	一致性	生成时间	使用场景
1-2	60%	快速	快速测试，简单物体
3-4	85%	常规	标准角色
5-6	95%+	常规	生产角色
7+	96%	较慢	边际改进

推荐的参考集：

正面肖像（中立表情）
侧面（显示轮廓）
3/4 视角（最多功能角度）
细节特写（脸部/独特特征）
全身（比例）
动作/表达变化（个性）

什么保持一致（什么不会）

高度一致（95% + 可靠性）：

面部特征和结构
配色方案（毛皮、衣服、配件）
比例和身体类型
独特的标记（疤痕、图案）

中等一致（80-90% 可靠性）：

光线方向（模型适应场景）
表达强度（情绪随上下文变化）
衣服细节（可能简化复杂图案）

有意变量（按设计）：

姿态和角度（适应每个场景）
背景（因上下文而异）
光线质量（适应环境）

你现在可以采取行动

你的第一个角色一致性测试

所需时间：15 分钟。成本：约 0.50 美元。

步骤 1：创建一个简单的角色

转到 Google AI Studio。选择 Gemini 3.1 Flash Image。

提示词：

"A friendly robot mascot for a tech startup, rounded design,
blue and white color scheme, LED face display, minimalist aesthetic"

生成 4-6 个变化。选择最好的。

步骤 2：构建你的参考集

从生成的角色来看，创建 6 张参考图像：

裁剪/调整大小以关注不同的角度
或使用"正面"、"侧面"、"脸部特写"等提示词重新生成

步骤 3：测试一致性

新的提示词：

"The robot mascot working at a desk, typing on a laptop,
office environment, soft lighting"

上传你的 6 张参考图像。生成。

步骤 4：使用不同的上下文再次测试

"The robot mascot presenting on stage, spotlight, confident pose,
audience visible in background"

同样的 6 张参考。生成。

比较：同一个机器人？同样的颜色？同一张脸？这就是角色一致性。

生产工作流程模板

对于品牌吉祥物

参考集：

3-4 个显示完整设计的中立姿态
1-2 个表达变化
1 个细节特写

生成策略：

始终为所有品牌材料使用相同的参考集
在参考中锁定调色板，让模型适应光线
每个场景生成 3-4 个选项，选择最好的

成本估计：每张图像 0.10-0.30 美元 vs. 每个角色 LoRA 训练 50-200 美元。

对于故事书插图

参考集：

角色 A：6 个参考
角色 B：6 个参考
设置/风格：2-3 个参考

生成策略：

使用一致的参考批量生成场景
分别生成角色，如需复杂交互则复合
使用"儿童书籍插图风格"提示词修饰符以保持一致性

时间节省：3 周 → 3 天每本书。

对于产品可视化

参考集：

产品：4-6 个参考（不同角度）
风格/环境：2 个参考

生成策略：

产品参考确保 SKU 一致性
环境参考控制情绪/光线
生成 50+ 个场景而不改变产品

使用场景：电商团队为数百个 SKU 生成生活方式图像。

高级技术

技术 1：角色 + 风格分离

问题：你想要一致的角色和一致的艺术风格跨越场景。

解决方案：使用 4 个参考作为角色，2 个作为风格。

参考 1-4：[你的角色以各种姿态]
参考 5-6：[风格示例 - 例如，"Studio Ghibli 风格艺术作品"]

提示词："角色在森林场景中，风格与参考 5-6 匹配"

模型从参考 1-4 维护角色一致性，从参考 5-6 维护风格一致性。

技术 2：季节性/时间变化

问题：你的角色在场景 7 需要冬装，但仍必须可识别。

解决方案：保留 4 个核心参考（脸/身体），用季节变体替换 2 个。

参考 1-4：[核心角色 - 脸、身体、比例]
参考 5-6：[冬装的角色、角色与雪景背景]

提示词："角色走过雪街，穿着冬装"

结果：维护核心身份，应用季节性变化。

技术 3：多角色场景

问题：两个角色在一张图像中互动。

当前限制：Nano Banana 2 支持总共 6 个参考，不是每个角色 6 个。

解决方案：

单独生成角色 A（带 A 的参考）
单独生成角色 B（带 B 的参考）
生成背景/环境
在传统编辑软件中复合

或者：使用 3 个参考作为角色 A，3 个参考作为角色 B，谨慎提示：

"Character A and Character B having coffee together, cafe setting"

结果会有所不同。对于具有非常不同的轮廓/配色方案的角色最佳。

零训练的经济学

成本比较：传统 vs. Nano Banana 2

场景：50 张儿童书籍，3 个经常出现的角色。

方法	设置时间	每张图像成本	总成本	修订灵活性
LoRA 训练	24-40 小时	0.02 美元	120-200 美元	低（需要重新训练）
手动提示	0 小时	0.05 美元	150+ 美元	中等（不一致）
Nano Banana 2	1 小时	0.03 美元	75 美元	高（只需重新生成）

第一张图像的时间

方法	时间
LoRA 训练	6-12 小时（训练）
手动提示	5 分钟
Nano Banana 2	2 分钟（上传参考 + 生成）

对于客户工作，这意味着：同一天的角色批准，第二天的场景交付。

真实案例研究

案例研究 1：电商时尚品牌

客户：直面消费者的时尚品牌，200 个 SKU。

旧工作流程：

雇用模特：500 美元/天
工作室租赁：300 美元/天
摄影：每个系列 2 天
后期处理：3 天
总计：每个系列约 2000 美元 + 5 天

Nano Banana 2 工作流程：

生成品牌模特参考：30 分钟
生成 200 个生活方式场景：4 小时
选择和小型修饰：1 天
总计：每个系列约 100 美元 + 1.5 天

结果：成本降低 80%，时间节省 70%。所有 200 张图像的模特一致性。

案例研究 2：独立游戏开发者

客户：创建视觉小说的独立开发者。

旧工作流程：

委托艺术家：每个角色 50-100 美元
等待时间：2-4 周
修订：25 美元每个
12 个角色 × 75 美元 = 900 美元

Nano Banana 2 工作流程：

生成角色概念：2 小时
锁定参考，生成所有表达/姿态：4 小时
12 个角色：30 美元 API 成本

结果：成本降低 97%。完全创意控制。同一天迭代。

限制和解决方案

限制 1：复杂交互

两个角色牵手？拥抱？战斗？

当前状态：具有挑战性。Nano Banana 2 处理单个角色非常出色。多角色交互可能会融合特征（"嵌合体效应"）。

解决方案：单独生成角色，手动复合。或结合使用专业的姿态控制工具。

限制 2：极端角度

俯视图？极端缩小？

当前状态：参考图像有帮助，但极端视角可能会漂移。

解决方案：在你的 6 个参考中包含一个极端角度拍摄。或首先生成标准角度，使用 img2img 和透视变换。

限制 3：细节一致性

特定的珠宝图案？衣服上的文字？精确的纹身设计？

当前状态：广泛的特征保持一致。细节可能会有所不同。

解决方案：对于关键细节，在 Nano Banana 2 中生成基础角色，然后在后期处理中覆盖精确细节。

未来 12 个月

角色一致性已解决——目前为止。接下来是什么？

预测的演变：

2026 年 Q2：12+ 个参考图像对复杂角色的支持
2026 年 Q3：内置的角色记忆/"人物"，你可以保存和重用
2026 年 Q4：视频角色一致性（视频帧中的同一角色）
2027：3D 角色一致性（从任何角度生成同一角色）

军备竞赛已经转变。它不再是"我们能保持角色一致吗？"而是"我们能管理多少角色，能有多快？"

系列导航

这是 Nano Banana 2 大师课系列的第 1 篇。

下一篇：E02：从文本到图像到对话到图像
系列概览：大师课索引

角色一致性是第一道关卡。它已经倒下。演变还在继续。