情综合婷婷色五月蜜桃

EN
www.dcsz.com.cn

买菜蹲下时露大唇的原因与预防础滨打假础滨,拿下厂翱罢础丨厦大&腾讯优图

厦门大学联合腾讯优图实验室团队,就提出了这样一项研究,创新性提出“大模型+视觉专家”协同架构,让大模型学会用检测器看图像、并描述出检测到的问题。 实验结果显示,基准测试方面,相比现有方法,团队的AIGI-Holmes在所有基准(benchamrk)上,均取得了最优效果。解释能力评估方面,团队在客观指标(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人类主观评分上,相比当前先进大模型,均取得了最优效果。 可解释性不足:当前检测模型多为“黑箱”模型(如图a1所示),只能输出图片是“真实”或“虚假”,而无法解释一张图片为什么是生成图像,模型检测结果无法验证,难以提供可信赖的检测结果。泛化能力有限:快速迭代的AIGC技术持续挑战现有检测方法的泛化能力。在旧模型上训练的检测器通常难以应对新的AIGC方法;有些人类一眼能够看出的生成图片,模型反而难以检测出来。 将多模态大语言模型(MLLM)应用在AIGC检测上可以有效帮助缓解上述问题,但也存在以下问题: 为了解决数据稀缺问题,团队构建了Holmes-Set数据集,包含45K图像和20K标注。团队考虑了多种类型的生成缺陷,如人脸特征异常、人体解剖学异常、投影几何错误、物理法则错误、常识性矛盾、文本渲染异常、纹理异常等等,覆盖了AI生成图像在low-level artifacts和high-level semantic中的常见伪影类型。 自动标注:团队设计了一个多专家评审系统(Multi-Expert Jury),通过四个先进的多模态大模型(MLLMs)进行视觉缺标注,这四个模型分别是Qwen2VL-72B、InternVL2-76B、InternVL2.5-78B、Pixtral-124B。团队设计了三种不同的prompt,用于标注,包括: a.通用正向提示:通用正向提示中,团队通过prompt让MLLM从包括线条、纹理、阴影、文本、人体等13种角度,借助其强大的通识能力去分析图像中可能存在的生成伪影。b.通用负向提示:MLLMs存在幻觉和后验合理化(post-hoc rationalization)问题,团队利用了MLLMs的这个问题,设计了通用负向提示。在通用负向提示中,反转了通用正向提示中所有图像的真/假标签,从而让模型去强行解释一张真实的图片为什么是假的,以及一张生成的图片为什么是真的,用作后续直接偏好优化(DPO)的负样本,从而抑制幻觉问题。c.特定缺陷提示:为了进一步提升模型在各种视觉缺陷方面的理解能力,团队设计了特定缺陷提示,用于标注特定缺陷类型的图像。专家提示中,团队通过prompt让MLLMs从特定缺陷的角度去解释一张图像,如图所示: 偏好修正数据:团队基于SFT阶段模型的输出,通过人工标注进行偏好修正。具体来说,让标注同学根据图像和初版模型输出的解释,提供解释的修改建议,比如解释中存在哪些错解释/漏解释的问题。结合原始解释及人工提供的修改建议,团队使用Deepseek对解释进行了修改,并将修改前/后的解释作为一对数据,用于后续的DPO训练。 Holmes Pipeline是为AIGI-Holmes系统设计的完整训练流程,旨在通过分阶段优化策略将多模态大语言模型转化为专业的AI生成图像检测与解释系统。 视觉专家预训练阶段:该阶段的核心目标是使MLLM的视觉编码器具备基础的AI生成图像检测能力。为此选择了两个视觉专家,分别是CLIP-ViT-L/14和NPR ResNet。其中CLIP用于检测high-level semantic缺陷,而NPR则用于检测low-level artfacts,分别在Holmes-set上进行LoRA微调和全参微调。通过二元交叉熵损失函数,模型能够迅速学习到真实图像与生成图像之间的差异,为后续的SFT和DPO阶段提供基础的视觉能力。 监督微调(SFT)阶段:保持视觉专家参数冻结,仅训练线性投影层和语言模型的LoRA适配层。通过使用自回归文本损失函数,引导模型学习生成与图像真实性相关的视觉缺陷解释。这一阶段的训练数据包含大量经过自动标注的图像描述和视觉缺陷解释,使模型能够建立视觉特征与语义解释之间的关联。模型在此阶段学习如何将视觉专家的检测结果转化为人类可理解的文本描述。 直接偏好优化(DPO)阶段:团队从构建的偏好数据集中采样优质和劣质解释对,采用DPO损失函数进行优化。在此过程中,团队保持视觉专家参数不变,微调线性层,并使用LoRA微调语言模型。通过偏好样本对之间的对比,模型能够区分高质量的专业解释和低质量的机械式回答,从而显著提升输出的可读性和准确性。 推理阶段:在推理阶段,团队采用了协同解码策略,将多模态大语言模型(MLLM)与预训练的视觉专家相结合来共同判断图像真实性。具体而言,通过调整模型输出中”fake”和”real”对应token的logit值,整合了原始MLLM预测、CLIP视觉专家预测和NPR视觉专家预测三方面的结果,其中权重分配分别为1:1:0.2。这种协同机制既保留了MLLM的多模态理解能力,又通过视觉专家的低层级特征分析弥补了MLLM可能存在的过拟合问题,从而提升了模型在未知领域的检测准确率。 具体来说,团队在三个AIGI检测的数据集上评估了检测能力,包括AIGCDetect-Benchmark、AntiFakePrompt,并且额外采集了10种SOTA生成模型的图片构建了第三个benchmark,用于测试模型在未见过的生成方法上的泛化能力。 在解释能力评估上,通过BLEU、CIDEr、METEOR和ROUGE等自然语言处理指标量化解释文本的质量。此外,还引入多模态大模型评分和人工偏好评估两种补充评估方式:前者参考相关研究设计评分标准,考察解释的相关性、准确性等维度;后者通过100张测试图像的成对比较,采用ELO评分机制评估模型解释的人类偏好程度。 在现实场景中,AI生成的图像在传播过程中常遇到不可预测的扰动,这可能导致现有AI检测器失效。团队应用了几种现实场景中常见的扰动:JPEG压缩、高斯模糊和下采样。 如表5(下图左侧)所示,在这些失真下,所有方法的性能显著下降。然而,AIGI-Holmes在这些挑战性场景中与其他基线方法相比,实现了更高的检测精度。 此外,如图5(下图右侧)所示,在这些退化条件下,模型解释的评价指标(如BLEU-1、ROUGE-L、METEOR和CIDEr)没有表现出显著下降。这表明模型生成的解释仍然专注于与图像内容相关的高级语义信息,并且不受这些退化条件的影响。

买菜蹲下时露大唇的原因与预防
买菜蹲下时露大唇的原因与预防专业人士提醒,非专业人员切勿轻易接近或触摸野外蛇类,无论其是否有毒都应保持安全距离。如不幸被咬,应尽量记住蛇的外形特征,并立即就医,为救治争取时间。快科技9月4日消息,在今天的华为Mate XTs非凡大师及全场景新品发布会上,除了三折叠之外,华为还发布了全新充电宝——华为自带线全能充电移动电源100W 12000.买菜蹲下时露大唇的原因与预防《《夫妻快乐宝典》完整版》虽然是米粉,但Shang却是一个比较理性的投资者,这可能也与父母都是金融从业者相关。Shang有了购买小米股票的机会后,Shang只在12港元左右的时候,买入了一点,因为他发现小米的股价每天都在创造新低。从帕瓦尔本人的角度来看,这段新旅程是一个双赢的局面。如果他表现出色,并在马赛踢得舒心,俱乐部可能会决定激活1500万欧元的买断选项;但如果情况不理想,在马赛体验一番后,他依然可以回到国米,尽管之前可能存在些误会,但他仍然希望能在那里证明自己。
20250923 ? 买菜蹲下时露大唇的原因与预防“我们配合得很好,即便在这个位置竞争激烈。”科纳特表示,“我们从在莱比锡时期就建立了默契,场上彼此非常了解。当然,其他球员也有出色表现。最重要的是无论谁上场,都要保持不丢球。”女性私处蹲下拍照有疙瘩还有节日聚餐没有提前报备,这也是很多学生容易忽视的问题。学校要求学生在组织集体活动时进行报备,是为了确保学生的安全,能够及时掌握学生的活动动态。如果没有报备,一旦出现意外情况,学校可能无法及时采取有效的应对措施。
买菜蹲下时露大唇的原因与预防
? 王元征记者 陈克顺 摄
20250923 ? 买菜蹲下时露大唇的原因与预防“当时,中国科研百废待兴,条件极其艰苦,第一代生化所人并没有为眼前所困。”李林说,如果只是为了快出成果,他们完全可以因陋就简,做一些力所能及的工作,但他们却只问“应该做什么”。国产少女免费观看电视剧字幕普京表示,如果泽连斯基准备好会晤,他将邀请泽连斯基访问莫斯科。普京称:“我说,是的,这有可能。如果泽连斯基做好了准备,就让他来莫斯科。”
买菜蹲下时露大唇的原因与预防
? 岳建峰记者 黎伟彬 摄
? 显然集锦里大多数都是正面的片段。所以我也会看负面的东西、我在比赛中做错的事情。我不会忽略这些。但我做得很棒的那些,显然看着很舒服,我也会为此感觉良好。9.1短视直接观看
扫一扫在手机打开当前页