情综合婷婷色五月蜜桃

EN
www.dcsz.com.cn

17.13c起草港科联合厂苍补辫搁别蝉别补谤肠丑发布罢丑颈苍办顿颈蹿蹿,为扩散模型装上大脑

本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,3D/4D 重建与生成,目前正在寻找工业界全职职位或实习职位。 自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。 OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大规模参数和海量数据,展示了强大的多模态推理与生成能力。但在学术与产业环境中算力和数据并不充裕时,用较少数据与计算资源实现类似的功能,依然是一道难题。 在顶级学术会议 ICML2025 上,香港科技大学联合 Snap Research 提出了多模态理解与生成新方法:ThinkDiff。该方法仅需较少的图文对和数小时训练,就能让扩散模型具备思考能力,使其在复杂的图像文本组合输入下,完成推理式生成,为多模态理解与生成开辟了全新路径。 ThinkDiff 这项工作的核心是将现有大规模的视觉语言模型 (VLM) 的推理能力迁移给扩散模型 (Diffusion model)。通过联合 VLM 强大的多模态推理能力和 Diffusion 的高质量生成能力,使得最终的模型能够真正理解图像与文本提示之间的逻辑关系,以此为基础进行高质量的图像生成。 在这种设计下,扩散模型里的扩散解码器 (Diffusion Decoder) 与 T5 解码器 (LLM Decoder) 共享同一个输入特征空间。只要把 VLM 对图像和文本的推理对齐到该特征空间,就能让扩散模型继承 VLM 的推理能力。 直接对齐 VLM 与扩散解码器需要大量复杂数据和低效的 Diffusion 训练,因此,ThinkDiff 通过一个代理任务,将 VLM 与 LLM 解码器做视觉-语言训练 (Vision-language Pretraining)。在将 VLM 与 LLM Decoder 对齐之后,由于共享空间的存在,VLM 就自然地与 Diffusion Decoder 对齐。 在训练过程中,对于每个训练样本,ThinkDiff 将图像 + 文本输入到 VLM,自回归 (Autoregressive) 地生成多模态特征向量,再通过一个轻量级的对齐网络(Aligner),将这些特征向量映射到 LLM 解码器的输入空间,去自回归地重建图像的文字描述,用交叉熵损失进行监督。 经过训练的对齐网络 (Aligner),可以有效地把 VLM 的多模态推理能力传递给了 LLM 解码器。而在推理阶段,只要用同样的对齐网络,通过共享的特征空间,就可以将 VLM 的多模态推理能力传递给扩散解码器,使扩散模型具备多模态理解与生成能力。 对齐 VLM 生成的 Token:传统 Diffusion 在使用 LLM 时,是将 LLM 当做输入文本的编码器,将得到的特征送入 Diffusion 生成像素。而 VLM 的理解与推理能力,来自于它自回归生成的 tokens,而非编码的输入 tokens。因此在 ThinkDiff 中,我们选择将VLM (大型视觉-语言模型) 自回归生成的 tokens 的特征对齐到扩散模型,使扩散解码器能够真正继承LVLM的多模态推理能力。 掩码训练 (Masked Training):为了避免对齐网络走捷径,而非真正对齐特征空间,ThinkDiff 在训练阶段对 VLM 输出的 token 特征使用随机掩码策略,随机丢掉一部分特征,让对齐网络学会仅从不完整的多模态信息中恢复语义。这种掩码训练使得对齐网络深度理解图像 + 文本,从而高效地将理解能力传递给扩散解码器。 依据使用的 VLM 的不同,ThinkDiff 有ThinkDiff-LVLM和ThinkDiff-CLIP两种变体。ThinkDiff-LVLM将大规模视觉语言模型 (LVLM) 对齐到 Diffusion,使得 Diffusion 继承 LVLM 的多模态理解能力。ThinkDiff-CLIP将 CLIP 对齐到 Diffusion,使得 Diffusion 拥有极强的文本图像组合能力。 ThinkDiff 将多模态推理能力传递给扩散模型,创造出高质量的统一多模态理解与生成模型。它用极少的训练资源和常见的数据,让扩散模型具备了在多模态上下文中进行推理和创作的能力。在定量和定性实验上,都优于现有的开源模型,并展现出与商业模型相当的潜力。无论是在科研领域还是工业应用,都对图像生成与理解技术做出重要贡献。

17.13c起草
17.13c起草不常有。我很少发火,因为我总是把精力放在积极的方面——赢得比赛、帮助队友。我专注于前进,相信总会有新的机会,所以不愿浪费时间在愤怒上。去年销量增长后,他对“每一毛钱”都格外敏感,“一天200单,一毛两毛累积下来,一年能省不少。”如今快递每单上涨0.45元,利润空间几乎被压缩一半。他咨询过其他快递公司,价格都在1.6—1.7元。17.13c起草内衣办公室姆巴佩表示:“他为后辈开辟了道路,我对他充满尊重与敬佩。这么年轻就达到这个进球数,简直不可思议,但我很喜欢这种感觉。我会继续前进,更重要的是帮助球队赢下比赛、夺得冠军。”“他一直是个慷慨的人,无论是在困难时刻还是美好时刻,他总是那个你可以依靠的人。齐沃就是这样一个人,他能将自己的全部热情传递给球员们。
20250923 ? 17.13c起草与之形成鲜明对比的是,来自清华、北大的博士们,他们跨越千山万水,从繁华的京城来到了中原大地的河南大学。还有来自武大、华科等知名高校的博士,加起来足有10个之多。《《朋友的未婚妻》电视剧在线观看》●俄美不会快速实现关系正常化俄罗斯总统新闻秘书佩斯科夫5日说,俄罗斯和美国不会快速实现关系正常化,相关进程复杂且需要耐心。
17.13c起草
? 赵康记者 张秀梅 摄
20250923 ? 17.13c起草拉门斯的职业生涯始于布鲁日俱乐部,之后加盟安特卫普,在上赛季为球队出场44次,并帮助球队获得了欧洲赛事资格。在2024/25赛季中,他做出了173次扑救,超过了欧洲前十联赛中的任何其他守门员。《Exo妈妈mv高清视频》但今日我们必须就国家队征召期间我国脚球员的健康保护问题,表达深切忧虑与不满。这一根本性问题应以最大严谨态度处理,纯粹以相关球员利益为出发点,因为现状令人极度不安。
17.13c起草
? 赵素彦记者 廖书清 摄
? 基米希说道:“今天整场比赛,我们在任何阶段都没有展现出勇气和态度。从第一分钟开始,对手就获得了角球和机会。这和阵型、战术、三后卫还是四后卫无关,而是态度的问题。我们必须在下一场比赛里做得更好,必须互相支持,让彼此更轻松。我们知道自己踢得非常糟糕,每个人都一样——互相指责毫无意义。我们清楚今天的表现远远不够。赛前我们还在谈论世界杯夺冠,但首先我们得确保晋级。如果我们继续像今天这样踢,那将会非常困难。”轮换女儿小说免费阅读
扫一扫在手机打开当前页