ۺɫ

EN
www.dcsz.com.cn

yy漫画首页登录入口页面在哪里字节清华推出商用级视频换装模垸𲹳ճհ,保真度显领先մ

服装视频广告太烧钱?卡点变装太难拍?字节跳动智能创作团队联合清华大学最新推出一款全能的视频换装模型DreamVVT,为视频虚拟试穿领域带来了突破性进展。 该模型基于 Diffusion Transformer(DiTs)构建,通过精细的两阶段设计,成功解决了现有技术在复杂场景下的痛点, 能够支持任意类型的衣服、处理大幅度的人物或者相机运动、复杂背景以及不同的风格的输入。 视频虚拟试穿(Video Virtual Try-on, VVT),这项旨在将任意服装魔法般地 “穿” 在视频中人物身上的技术,正逐渐成为电商、广告及娱乐产业的焦点。然而,要实现理想效果,现有技术仍面临着严峻挑战。 主流的端到端方案高度依赖稀缺的 “服装 - 视频” 成对训练数据,同时难以充分利用强大预训练模型的先验知识。这导致在人物 360 度旋转、镜头剧烈运镜或背景动态变化的复杂场景下,生成的视频往往会遭遇服装细节崩坏、纹理丢失与时序抖动等一系列问题。 为攻克这一行业难题,字节跳动智能创作团队与清华大学携手,提出了全新的DreamVVT框架,刷新了该领域的SOTA记录。该框架基于强大的Diffusion Transformer (DiT)构建,并独创性地提出了一套分阶段生成方案,精准解决了现有技术在复杂场景下的核心痛点,能够生成高保真且时间连贯的虚拟试穿视频。 DreamVVT 的核心设计理念,在于其精巧的两阶段框架。这一设计巧妙地解耦了任务难度,使其既能充分利用海量的非成对数据进行学习,又能灵活地融合预训练模型的先验知识与测试阶段的即时信息。其核心贡献主要体现在以下三个方面: 1.创新的分阶段框架:我们首次提出了基于 DiT 的分阶段方案,它打破了对成对数据的依赖,能够有效利用非成对数据、先进视觉模型的先验知识以及测试时的输入信息,显著提升了模型在复杂场景下的虚拟试穿性能。 2.关键帧与大模型结合:我们将静态的关键帧试穿与视频语言模型(Video LLM)的推理能力相结合。这一机制为视频生成提供了兼具丰富外观细节与全局运动逻辑的综合指导,从而在根源上平衡了服装细节的保真度与视频整体的时间一致性。 3.卓越的性能验证:最后,大量的实验结果有力地证明,在多样化的真实场景下,DreamVT 在保留高保真服装细节和确保时序稳定性方面,均显著优于现有的所有方法。 我们的高清视频换装技术,其核心是一个精心设计的两阶段框架。第一阶段负责生成高质量的多张静态换装参考图,第二阶段则基于这些参考图,结合多模态信息,生成时序稳定的高保真换装视频。 为了全面捕捉人物的动态,我们设计了一套智能采样策略。首先,设定一个标准的正面 A 字姿态作为 “锚点帧”。接着,通过计算视频中每一帧与锚点帧的骨骼运动相似度,并结合人物在画面中的面积比重进行加权,为每帧的 “独特性” 打分。最后,我们采用一种反向搜索算法,从高分帧中筛选出一组信息冗余度最低的关键帧,为后续生成提供多样化的姿态或者视角参考。 有了关键帧,我们利用一个在预训练模型Seedream上微调的 Diffusion Transformer 来生成换装后的参考图。我们巧妙地集成了LoRA模块,实现了参数高效的微调。模型会同时接收多个关键帧、服装图以及我们精心设计的 “一致性图像指令”。通过注意力机制中的 QKV 拼接,模型能有效聚合所有关键帧的信息,确保生成的换装参考图在细节上保持高度一致。此外,我们还引入VLM对服装进行详细的文本描述,并进行对齐,进一步强化了多帧间的外观一致性。 第二阶段的核心任务是,基于第一阶段生成的换装参考图,结合多种信息,生成最终的换装视频。我们基于一个强大的图生视频(I2V)框架进行构建。 动作信息:为了精准还原身体动作,我们提取视频的 2D 骨骼序列,并通过一个带有时间注意力机制的 Pose Guider 将其转换为平滑的姿态特征。视觉信息:我们将裁剪后的衣服不可知图像(Agnostic Image)和遮罩送入 VAE 编码器,得到基础的视觉特征。文本信息:考虑到仅靠骨骼无法捕捉精细的服装动态,我们利用 Video LLM 提取详细的动作和视觉文本描述, 为模型提供不同维度和精细地指导。外观信息:第一阶段生成的换装关键帧则作为核心的外观参考,同样被编码为图像特征。 在模型结构上,我们冻结了 Seaweed 模型的所有权重,仅在视频流和图像流中插入轻量化的LoRA适配器,实现了高效训练。所有模态的特征在输入网络后,通过一次全自注意力(Full Self-Attention)操作进行深度融合,使模型能自适应地对齐不同信息。 融合后的特征被送入 DiT 模块进行多轮去噪,最终由 VAE 解码器生成换装视频。我们还采用高效的拉普拉斯金字塔融合技术,将生成的视频无缝地嵌入原始背景中。在训练阶段,我们采用了多任务学习策略,随机切换训练任务,充分利用了不同模态的互补优势,最终实现了卓越的生成效果。 此外,针对长视频生成,团队使用前一段视频最后一帧的潜表示作为后一段的初始帧,避免了因反复编码解码导致的误差累积,显著延长了视频质量明显下降前的持续时间。 在定性对比中,面对 360 度旋转等复杂野外场景,现有方法(如 CatV²TON、MagicTryOn)常出现细节崩坏和模糊,而 DreamVVT 则能稳定生成时空平滑且细节逼真的结果。定量数据更有力地印证了这一点。在 ViViD-S 数据集上,我们的 VFID 和 LPIPS 等关键指标达到 SOTA。在更具挑战性的自建基准Wild-TryOnBench上,DreamVVT 在服装细节保留度(GP) 、物理真实感(PR) 和 时序一致性(TC)三项人工评估中全面领先,展现了强大的泛化能力。 1.关键帧数量:将关键帧从 1 帧增至 2 帧,能为模型提供更丰富的服装与运动信息,显著提升了细节保真度与物理真实感,有效避免了伪影。 2.LoRA 微调:采用 LoRA 进行轻量化微调,相比全参数训练,能更好地继承预训练模型的文本控制能力,在不牺牲其他性能的前提下,显著增强了生成视频的物理真实感,尤其能够实现和服装的交互。 DreamVVT 的出现,为视频虚拟试穿技术开辟了新的道路。它在复杂场景下的出色表现,标志着视频虚拟试穿技术正迈向成熟的商业应用,为电商和泛娱乐行业开启了无限的想象空间。

yy漫画首页登录入口页面在哪里
yy漫画首页登录入口页面在哪里理想可以说是现在增程车的祖师爷,也算是首个提出车是“移动的家”这一概念的车企,从理想one到L6789的销量,可以说是很成功的。但冰箱彩电大沙发这一招,其它车企想学是很简单的,所以这几年不断涌现的“半价理想”,对于L系列销量冲击还是很大的,7月份销量同比下降40%,所以转型纯电是迫在眉睫。而前面推出的MEGA和i8,市场已经给出了答卷,所以喵哥觉得理想i6的配置和价格可能有惊喜。然而,新学期伊始,领导却做出了一个让她无法接受的决定:将这个尖子班交给了“别人”。不仅如此,还把最难带的差班,像扔垃圾一样,又扔回了她的手里。yy漫画首页登录入口页面在哪里适合夫妻⸊看的爱情电视剧推斯柯达Vision O概念车定位纯电动旅行车,基于大众集团SSP电动平台打造,采用名为“Modern Solid”的全新设计语言。从目前透露的车身轮廓线可以看到,其延续了明锐旅行车和速派旅行车的风格,并加入了电动化时代的特点。北京时间9月6日世界杯欧洲区预选赛 第一阶段小组赛 第5轮,法罗群岛对阵克罗地亚。克罗地亚克拉马里奇破门。半场战罢,场上比分法罗群岛 0-1 克罗地亚。
20251015 🍑 yy漫画首页登录入口页面在哪里2025年慕尼黑车展(IAA MOBILITY 2025)将于9月9日至14日在德国慕尼黑展览中心举行,这界车展将以 “‘动’悉一切”(IT'S ALL ABOUT MOBILITY)为主题,聚焦移动出行、可持续发展和技术创新三个核心方向。轮流和两个男人一起很容易染病吗9月5日,今日拳坛爆出了一则超级重磅消息——59岁的泰森将同48岁的梅威瑟,上演一场震撼的史诗级“关公战秦琼”大戏。这场表演赛合同已经签署,定档2026年春天。
yy漫画首页登录入口页面在哪里
📸 王建设记者 王冬 摄
20251015 💌 yy漫画首页登录入口页面在哪里巴尔德吉说道:“这里的生活太棒了,我很享受。这座城市很棒,这家俱乐部也很棒。总而言之,一切都不一样。如果你允许我这么说的话,其实很难用言语描述,因为(两地)存在巨大的差异。”jmcomic官网入口安卓下载事后诸葛亮总是容易的,但我们必须承认,他一直以来都是为了俱乐部的最佳利益着想。我个人与他的交往经历非常好,他是一个非常重视家庭的人,我理解这样的职位对他的家庭和个人生活带来的影响以及他为俱乐部所做出的牺牲。
yy漫画首页登录入口页面在哪里
📸 刘龙进记者 李保卫 摄
🔞 ▲《胭脂》故事取自聊斋,好色的宿介(黎北海饰)垂涎良家姑娘胭脂(林楚楚饰),胭脂拒绝,宿介就设计陷害她喜欢的秀才鄂生(黎民伟饰)。鄂生含冤入狱,幸遇清官,沉冤昭雪,有情人终成眷属。适合夫妻晚上看的爱情电视剧推荐
扫一扫在手机打开当前页