本以为是撒狗粮,没想到还真撞上了 P 图界的邪修大神。她总能把千奇百怪的睡姿,恰到好处地融进各种场景,脑洞大得能随机笑死一个路人。 这看似沙雕的 P 图背后,其实揭示出了一个趋势:图像编辑的需求正变得越来越个性化,也对工具的智能化程度提出了更高的要求。 具体来说,它有三大优势:更强的指令遵循、更强的主体保持、更强的生成质量,特别是在人像编辑、背景更改、视角与光线转换等场景中,表现更为突出,还在多项关键编辑指标之间取得了极佳平衡。 比如你只想改个背景,结果人物的面部和姿势却变了;你明明下达了精准的指令,它们却偏偏听不懂「人话」,对着原图一顿乱改;好不容易搞对了主体和背景,画面又丑得别具一格。 日常生活中,大概每个人都会遇到这些抓狂的瞬间:出门旅游拍照,忍着羞耻心凹好造型,却半路杀出个路人甲乱入镜头;想用明星美照当壁纸,但正中间打着又大又丑的水印,裁剪都无从下手。 比如在泰勒?斯威夫特的街拍场景中,豆包?图像编辑模型 3.0 可以精准锁定黄衣女生和水印,完成双重清除,同时还不伤及主体人物和背景细节。 它还能同时处理消除路人、雨伞变色两项复杂任务。路人消失后背景自然补全,毫无 PS 痕迹;雨伞变色也严格锁定目标物体,未波及人物服饰或环境。 如果感觉画面平平无奇,想增加点元素提升视觉冲击,同样只需一句指令,就能让安妮?海瑟薇体验一把「房子着火我拍照」的刺激。 在完整保留海边静物原始构图的基础上,该模型精准重构黄昏暖色调光影,使蓝白格子桌布、玫瑰花与海面均自然镀上落日余晖。 我们还可以制作商业产物海报,比如让它根据物品的属性替换为适合的背景,并在海报上添加字体。这下电商老板们该狂喜了,毕竟一年也能省不少设计成本。 提示词:根据图中物品的属性替换为其适合的背景场景,画面中自然融入以下文案文字: 主标题为 “清新自然 静谧之选” 副标题为 “感受肌肤的舒缓之旅” 字体设计感高级,排版自然协调,不添加任何边框、装饰线、图框或圆角,仅保留通透画面与内容构图,适合作为品牌宣传海报,瓶身其他元素保持不变 每次编辑使用单指令会更好;尽量使用清晰、分辨率高的底图;局部编辑时指令描述尽量精准,尤其是画面有多个实体的时候,描述清楚对谁做什么,能获取更精准的编辑效果;发现编辑效果不明显的时候,可以调整一下编辑强度 scale,数值越大越贴近指令执行。 目前,市面上有不少模型可以执行图片编辑功能,比如曾在全球刮起「吉卜力热」的 GPT-4o、谷歌大模型扛把子 Gemini 2.5 Pro,它们的 P 图效果究竟如何,还得来个横向对比。 我们让这三款大模型把写实人物摄影照片转成涂鸦插画风格,豆包?图像编辑模型 3.0 严格遵循双重约束指令,生成的画面审美也在线。 原图元素较多,路人、店招,还有一行浅浅的水印,豆包?图像编辑模型 3.0 成功消除画面中所有路人及文字,包含店铺招牌,同时精准修复背景空缺区域。 整体而言,相较于 GPT-4o 和 Gemini 2.5 Pro,豆包?图像编辑模型 3.0 理解指令更到位,改图效果更精准自然,尤其是「文字生成」功能,几乎不用抽卡,完全可以达到商用的程度。 作为 AIGC 领域的重要分支,可编辑的图像生成要解决结构与语义一致性、 多模态控制、局部区域精细编辑、前景背景分离、融合与重建不自然、细节丢失与伪影等一系列技术难题。 基于豆包文生图模型 Seedream 3.0,SeedEdit 3.0 很好地解决了上述难题,在图像主体、背景和细节保持能力上进一步提升。在内部真实图像测试基准测试中,SeedEdit 3.0 更胜其他模型一筹。 定量比较结果如下所示,其中左图利用 CLIP 图像相似度评估模型编辑保持效果,SeedEdit 3.0 领先于前代 1.0、1.5、1.6 以及其他 SOTA 模型 Gemini 2.0、Step1X 和 GPT-4o,仅在指令遵循方面不如 GPT-4o;右图显示 SeedEdit 3.0 在人脸保持方面具有明显优势。 下图为部分定性比较结果,直观来看,SeedEdit 3.0 在动作自然度、构图合理性、人物表情与姿态还原性、视觉一致性、清晰度与细节保留等多个维度上表现更好。 首先是数据层面,一方面引入多样化的数据源,包括合成数据集、编辑专家数据、传统人工编辑操作数据以及视频帧和多镜头数据,并包含了任务标签、优化后的描述和元编辑标记信息(下图)。而基于这些数据, 模型在真实数据与合成的「输入 - 输出编辑空间」中进行交错学习,既不损失各种编辑任务的信息,又提升对真实图像的编辑效果。 另一方面,为了有效地融合不同来源的图像编辑数据,团队采用了一种多粒度标签策略。对于差别比较大的数据,通过统一任务标签区分;对于差别较小的数据,通过加入特殊 Caption 区分。接下来,所有数据在重新标注、过滤和对齐之后进行正反向的编辑操作训练,实现全面梳理和整体平衡。 其次是模型层面,SeedEdit 3.0 沿用了 SeedEdit 的架构,底部视觉理解模型从图像中推断出高层次语义信息,顶部因果扩散网络充当图像编码器来捕捉细粒度细节。此外,视觉理解与扩散模型之间引入了一个连接模块,将前者的编辑意图(比如任务类型和编辑标签等)与后者对齐。 在此基础上,团队将文生图模型 Seedream 2.0 中的扩散网络升级为 Seedream 3.0,无需进行任何细化便可以原生生成 1K 至 2K 分辨率图像,并增强了人脸与物体特征等输入图像细节的保留效果。得益于此,模型在双语文本理解与渲染方面的能力也得到了增强,并可以轻松扩展到多模态图像生成任务。 而为了训练出现有架构,团队采用了多阶段训练策略,包括预训练和微调阶段。其中,预训练阶段主要对所有收集的图像对数据进行融合,通过图像多长宽比训练、多分辨率批次训练,使模型从低分辨率逐步过渡到高分辨率。 微调阶段则主要优化输出结果以稳定编辑性能,过程中重新采样大量精调数据并从中选出高质量、高分辨率样本;然后结合模型过滤器和人工审核对这些样本二筛,兼顾高质量数据和丰富编辑类别;接下来利用扩散损失对模型进一步微调,尤其针对人脸身份、美感等对用户价值极高的属性,引入特定奖励模型作为额外损失,提升高价值能力表现;最后对编辑任务与文本到图像任务联合训练,既提升高分辨率图像编辑效果,又增强泛化性能。 为了实现更快的推理加速,SeedEdit 3.0 采用了多种技术手段,包括蒸馏、无分类器蒸馏、统一噪声参照、自适应时间步采样、少步高保真采样和量化。一整套的方案,让 SeedEdit 3.0 大幅缩短了从输入到输出的时间,并减少计算资源的消耗,节省更多内存。 最终,在蒸馏与量化手段的多重加持下,SeedEdit 3.0 实现了 8 倍的推理加速,总运行时长可以从大约 64 秒降至 8 秒。这样一来,用户等待的时间大大降低。 也许 AI 圈的人已经注意到了,最近一段时间,包括图像、视频在内 AIGC 创作领域的关注度有所回落,尤其相较于推理模型、Agent 等热点略显安静。然而,这些赛道的技术突破与产物演进并没有停滞。 在国外,以 Midjourney、Black Forest Labs 为代表的 AI 生图玩家、以 Runway、谷歌 DeepMind 为代表的 AI 视频玩家,继续模型的更新迭代,推动图像与视频生成技术的边界,提升真实感与创意性。而国内,以字节跳动、阿里巴巴、腾讯为代表的头部厂商在图像、视频生成领域依然高度活跃,更新节奏也很快,从技术突破与应用拓展两个方向发力。 这些头部厂商推出的大模型产物还通过多样化的平台和形态广泛触达用户,比如 App、小程序等,为创作者提供了便捷的内容创作工具。这种「模型即产物」的能力既提升了易用性,也激发了用户的参与感与创造力。 就拿此次的豆包?图像编辑模型 3.0 来说,它在国内首次做到了产物化,无需像传统图像编辑软件一样描边涂抹、修修补补,输入简单的自然语言指令就能变着花样 P 图。我们在实际体验中已经感受到了它的魔力,换背景、转风格以及各种元素的增删与替换,几乎无所不能。 该模型的出现无疑会带来图像创作领域的一次重大转型,跳出传统图像编辑的桎梏,迈入到自动化、智能化、创意化的阶段。这意味着,没有专业化技能的 C 端普通用户得到了一个强大的图像二创工具,在大幅提升创作效率的同时还能解锁更多创意空间。 当然,豆包?图像编辑模型 3.0 的应用潜力不局限于日常的修图需求,随着更加深入地挖掘广泛的行业特定需求,未来它也有望在影视创作、广告设计、媒体、电商、游戏等 AIGC 相关的 B 端市场激发新的应用潜力,助力公司提高内容生产效率,在竞争中用 AI 抢占先机。 利用该模型,影视制作团队可以快速调整镜头画面、添加特效、替换背景等,从而简化制作流程、缩短制作周期;电商商家可以快速定制化产物图像和宣传图,并根据消费者偏好和市场需求进行个性化创作;游戏开发者可以快速调整角色、场景的设计元素,节省时间。这些看得见的应用前景,显然会带来颠覆性的变化,推动行业朝着高效、便捷的方向演进。


