nano-banana

character-consistency

tutorial-series

brand-design

workflow

从 LoRA 到零训练：角色一致性革命

Nano Banana 2 如何消除 AI 图像生成最大的痛点——角色一致性——无需训练，无需等待，无需头疼。

发布于 2026-02-26

从 LoRA 到零训练：角色一致性革命

角色一致性的噩梦

2024 年，AI 图像生成有一个公开的秘密：你可以生成一次漂亮的角色，但你永远没法生成第二次同样的角色。

认识一下 Sarah。她在 Austin 经营一家小型设计工作室。2024 年 3 月，她接到了一个梦想客户——一家儿童图书出版社，需要 24 张插画，主角是一只反复出现的狐狸。角色设定：一只叫 Rusty 的好奇红狐狸，有特定的斑纹、一条绿色围巾、还有富有表现力的琥珀色眼睛。

Sarah 的工作流是这样的：

第一周：在 Midjourney 生成 200+ 张图。找到 3 张 vaguely 符合客户 vision 的图。展示给客户。

第二周：客户选中了 Rusty v2。现在 Sarah 需要在 24 个不同场景中生成 Rusty。同一只狐狸。同一条围巾。同样的眼睛。

尝试 1：在提示词里加 "consistent character"。结果：24 只不同的狐狸。有的是橙色。有的是棕色。有一只莫名其妙是紫色的。

尝试 2：用 Midjourney 的 Character Reference (CF) 功能。好一点了，但围巾颜色漂移。眼睛形状变化。背景元素渗入角色。

尝试 3：训练 LoRA。Sarah 花了 $50 租用云 GPU。等了 6 小时训练。LoRA 过拟合了——每只 Rusty 都是完全相同的姿势。客户想要 Rusty 奔跑、跳跃、睡觉。LoRA 只会"Rusty 站着卖萌"。

总时间：3 周。总成本：$800 的工具和修改费。客户满意度："第 7 集的 Rusty 能不能长得更像第 3 集的 Rusty？"

这就是 2024 年 AI 图像生成的现实。角色一致性是行业的 open wound。

旧解决方案（以及它们为什么失败）

方案 1：提示词工程

承诺：写详细的提示词，AI 会记住。

现实：

"一只叫 Rusty 的红狐狸，橙色皮毛配白色胸斑，
戴着森林绿围巾，琥珀色眼睛，友善表情..."

生成 10 张图。你得到 10 条不同的围巾。3 种不同的眼睛颜色。一只狐狸长了两个尾巴。

当前的扩散模型不会"记住"角色。它们生成的是概率。每张图都是重新掷骰子。

成功率：简单角色约 15%，复杂角色约 3%。

方案 2：Character Reference (Midjourney CF)

Midjourney 2024 年的 Character Reference 是向前一步。上传参考图，加 --cref URL，然后祈祷。

问题：

风格渗透：参考图的光线和背景污染新图
特征漂移：面部特征在各代之间游走
控制有限：头像可以，复杂姿势或极端角度失败

成功率：头像约 40%，全身动作镜头约 10%。

方案 3：LoRA 训练

"专业"解决方案。在 15-30 张角色图片上训练一个小模型。然后在生成中使用该 LoRA。

工作流：

收集 20+ 高质量角色图片（或费力生成）
给每张图标注 caption
租用 GPU（ $0.50-$ 2/小时）
训练 2-6 小时
测试，发现过拟合，调整参数
重新训练
发现 LoRA 只对正面姿势有效，侧面失败
收集更多侧面图
重新训练
终于得到可接受的结果——仅针对这一个特定角色

每个角色时间：8-20 小时。成本：$30-100 计算费。所需技能：相当多。

当客户说："我们喜欢 Rusty！现在我们需要他妹妹，一只蓝灰色狐狸配黄围巾"——你从头再来。

Nano Banana 2：零训练革命

2026 年 1 月。Google 发布 Nano Banana 2（Gemini 3.1 Flash Image）。关键功能：原生参考图支持。

不是 LoRA。不是训练。上传最多 6 张参考图。模型理解。角色保持一致。

Sarah 的新工作流（2026 年 2 月）

同样的客户。同样的 Rusty。新方法：

步骤 1：生成或上传 3-6 张 Rusty 参考图：

正面，中性表情
侧面轮廓
3/4 角度显示围巾
面部斑纹特写
全身站立
动作姿势（奔跑）

步骤 2：生成场景 1：

"Rusty 狐狸探索森林空地，晨光，
好奇表情，儿童图书插画风格"

参考图：[上传 6 张 Rusty 参考]

结果：Rusty。正确的橙色皮毛。白色胸斑。森林绿围巾。琥珀色眼睛。

步骤 3：生成场景 2：

"Rusty 跳过小溪，动态姿势，水花飞溅"

参考图：[同样的 6 张参考]

结果：同样的 Rusty。在运动中。围巾正确飘动。眼睛仍是琥珀色。

步骤 4-24：重复剩余场景。每张 Rusty 都是同一只 Rusty。

总时间：2 天。总成本：约 $15 API 调用费。客户满意度："这正是我们想象的。"

差异不是渐进的。是质变。

原生参考图如何工作

技术转变

传统扩散模型：[文本] → [噪声] → [图像]

Nano Banana 2：[文本 + 参考图 + 上下文] → [多模态理解] → [一致图像]

关键：多模态推理。Nano Banana 2 不会从参考图中"复制"像素。它理解什么让 Rusty 成为"Rusty"——皮毛图案、围巾颜色、眼睛形状、个性——并将这种理解应用到新场景中。

6 张参考图的最佳平衡点

为什么是 6？通过大量测试，Google 发现 6 张以上收益递减：

参考图数量	一致性	生成时间	使用场景
1-2	60%	快	快速测试，简单物体
3-4	85%	正常	标准角色
5-6	95%+	正常	生产级角色
7+	96%	较慢	边际改善

推荐的参考图组合：

正面肖像（中性表情）
侧面轮廓（显示剪影）
3/4 角度（最通用的角度）
细节特写（面部/独特特征）
全身（比例）
动作/表情变化（个性）

什么保持一致（以及什么不保持）

高度一致（95%+ 可靠性）：

面部特征和结构
配色方案（皮毛、服装、配饰）
比例和体型
独特标记（疤痕、图案）

中等一致（80-90% 可靠性）：

光线方向（模型适应场景）
表情强度（情绪随场景变化）
服装细节（可能简化复杂图案）

故意变化（设计如此）：

姿势和角度（适应每个场景）
背景（随场景变化）
光线质量（适应环境）

你可以立即行动

你的第一个角色一致性测试

所需时间：15 分钟。成本：约 $0.50。

步骤 1：创建一个简单角色

访问 Google AI Studio。选择 Gemini 3.1 Flash Image。

提示词：

"一家科技创业公司的友好机器人吉祥物，圆润设计，
蓝白配色方案，LED 面部显示屏，极简美学"

生成 4-6 个变体。挑最好的。

步骤 2：建立你的参考图集

从你生成的角色中，创建 6 张参考图：

裁剪/调整大小以聚焦不同角度
或用提示词如"正面"、"侧面轮廓"、"面部特写"重新生成

步骤 3：测试一致性

新提示词：

"机器人吉祥物在办公桌前工作，在笔记本上打字，
办公环境，柔和光线"

上传你的 6 张参考图。生成。

步骤 4：用不同场景再次测试

"机器人吉祥物在舞台上演讲，聚光灯，自信姿势，
观众在背景中可见"

同样的 6 张参考。生成。

对比：同一个机器人？同样的颜色？同样的脸？这就是角色一致性。

生产工作流模板

品牌吉祥物

参考图集：

3-4 张中性姿势显示完整设计
1-2 张表情变化
1 张细节特写

生成策略：

所有品牌物料使用相同的参考图集
参考图中锁定配色，让模型适应光线
每个场景生成 3-4 个选项，挑选最佳

成本估算：每张图 $0.10-0.30 vs. 每个角色 LoRA 训练$ 50-200。

儿童图书插画

参考图集：

角色 A：6 张参考
角色 B：6 张参考
场景/风格：2-3 张参考

生成策略：

用一致的参考图批量生成场景
角色分开生成，复杂互动时在后期合成
使用"儿童图书插画风格"提示词修饰符保持一致性

时间节省：每本书 3 周 → 3 天。

产品可视化

参考图集：

产品：4-6 张（不同角度）
风格/环境：2 张参考

生成策略：

产品参考确保 SKU 一致性
环境参考控制氛围/光线
生成 50+ 场景而产品不变

使用场景：电商团队为数百个 SKU 生成生活场景图。

高级技巧

技巧 1：角色 + 风格分离

问题：你想要一致的角色 AND 跨场景一致的艺术风格。

解决方案：4 张参考给角色，2 张给风格。

参考 1-4：[你的各种姿势角色]
参考 5-6：[风格示例 - 例如"吉卜力工作室风格艺术作品"]

提示词："角色在森林场景中，风格匹配参考 5-6"

模型保持参考 1-4 的角色一致性 AND 参考 5-6 的风格一致性。

技巧 2：季节/时间变化

问题：你的角色在第 7 场景需要冬装，但必须仍可识别。

解决方案：保留 4 张核心参考（脸/身体），替换 2 张为季节变体。

参考 1-4：[核心角色 - 脸、身体、比例]
参考 5-6：[穿冬装的角色、雪景背景的角色]

提示词："角色走过雪街，穿着冬装"

结果：核心身份保持，季节变化应用。

技巧 3：多角色场景

问题：两个角色在一个图像中互动。

当前限制：Nano Banana 2 总共支持 6 张参考，不是每个角色 6 张。

变通方案：

单独生成角色 A（用 A 的参考）
单独生成角色 B（用 B 的参考）
生成背景/环境
在传统编辑软件中合成

或者：角色 A 用 3 张参考，角色 B 用 3 张，仔细提示：

"角色 A 和角色 B 一起喝咖啡，咖啡馆场景"

结果各异。最适合剪影/配色非常不同的角色。

零训练的经济学

成本对比：传统 vs. Nano Banana 2

场景：50 张图的儿童图书，3 个反复出现的角色。

方法	设置时间	单图成本	总成本	修改灵活性
LoRA 训练	24-40 小时	$0.02	$120-200	低（需要重新训练）
手动提示	0 小时	$0.05	$150+	中等（不一致）
Nano Banana 2	1 小时	$0.03	$75	高（只需重新生成）

首次图像时间

方法	时间
LoRA 训练	6-12 小时（训练）
手动提示	5 分钟
Nano Banana 2	2 分钟（上传参考 + 生成）

对于客户工作，这意味着：当天角色确认，次日场景交付。

真实案例研究

案例研究 1：电商时尚品牌

客户：DTC 时尚品牌，200 个 SKU。

旧工作流：

雇佣模特：$500/天
工作室租赁：$300/天
摄影：每系列 2 天
后期处理：3 天
总计：每系列约 $2000 + 5 天

Nano Banana 2 工作流：

生成品牌模特参考：30 分钟
生成 200 个生活场景：4 小时
选择和轻微修图：1 天
总计：每系列约 $100 + 1.5 天

结果：成本降低 80%，时间节省 70%。全部 200 张图片模特一致。

案例研究 2：独立游戏开发者

客户：独立开发视觉小说。

旧工作流：

委托画师：每个角色精灵 $50-100
等待时间：2-4 周
修改：每次 $25
12 个角色 × $75 =$ 900

Nano Banana 2 工作流：

生成角色概念：2 小时
锁定参考，生成所有表情/姿势：4 小时
12 个角色：$30 API 成本

结果：成本降低 97%。完全创意控制。当天迭代。

限制与变通方案

限制 1：复杂互动

两个角色手牵手？拥抱？打斗？

当前状态：有挑战性。Nano Banana 2 处理单角色出色。多角色互动可能混合特征（"奇美拉效应"）。

变通方案：分开生成角色，手动合成。或结合使用专门的姿势控制工具。

限制 2：极端角度

俯视？极端透视缩短？

当前状态：参考图有帮助，但极端角度可能漂移。

变通方案：在 6 张参考中包含一张极端角度。或先生成标准角度，再用 img2img 透视变换。

限制 3：精细细节一致性

特定珠宝图案？衣服上的文字？精确的纹身设计？

当前状态：宽泛特征保持一致。精细细节可能变化。

变通方案：对于关键细节，在 Nano Banana 2 中生成基础角色，然后在后期叠加精确细节。

未来 12 个月

角色一致性问题已解决——目前。接下来是什么？

预测演进：

2026 Q2：支持 12+ 参考图处理复杂角色
2026 Q3：内置角色记忆/可保存复用的"人物设定"
2026 Q4：视频角色一致性（同一角色跨视频帧）
2027：3D 角色一致性（从任何角度生成同一角色）

军备竞赛已转移。不再是"我们能让角色保持一致吗？"而是"我们能管理多少角色，多快？"

系列导航

这是 Nano Banana 2 大师课系列的第 1 篇。

下一篇：E02：从文生图到对话生图
系列总览：大师课索引

角色一致性是第一道关卡。它已倒下。进化继续。