通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。
比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。
这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。
这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。
结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。
原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。
但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。
研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。
通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。
更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。
除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。
研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。
通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
www.5566e.gov.cn在这三个转会窗口中,比利亚雷亚尔总共获得了近3亿欧元的转会费,这是俱乐部历史上最重要的几次收入。其中,几乎有2亿欧元(具体为1.91亿欧元)来自青训球员的转会,这些球员当初加盟时的成本为零。这些资金使球队得以签下新球员,逐步构建起当前的阵容。“科学问题解决了,剩下就是堆肽链的技术活了。”在这种乐观情绪下,很多单位“一拥而上”,上海分院的合成团队扩大到300多人,进行“大兵团作战”。www.5566e.gov.cn樱花笔笔迟网站大片综合岳各庄地块周边的新房二手房情况,包哥觉得地块在5万/平的楼面价基础上,大概率可以卖到8W+,如果想再卖高点,可能要在产品和装标上下功夫,争取更高的溢价。通义千问大模型开源闭源两手抓,已代表了中国大模型的技术新高度。Qwen3-Max-Preview刷新了阿里大模型参数新纪录,其试图用更加强悍的性能,证明规模化扩展的效果——更大的模型拥有更强的性能。
20251012 ? www.5566e.gov.cn我认为这五个进球来自于我们这些天从教练那里得到的渴望、饥饿感和凶狠劲,抛开技术层面不谈,正如你所说的,我们一直都是这样,所以当你在国家队的时候,你的质量是存在的,我们必须将其发挥出来,我们必须承担起责任,因为在球场上显然是我们亲自上场比赛。这是一次很好的测试,抛开对手的实力不谈,我们始终保持着决心、专注,并时刻准备着防守,大家进球的欲望很强烈,所以我们对这个夜晚感到高兴。《满18岁免费观看高清电视剧推荐》他同时也承认,外界对他抱有更高期待:“可以说我现在的压力比第一次登陆意甲更大了。那时我才19岁,只踢了6个月的职业足球。而现在,我已经有过英超、欧冠和欧洲杯的经历。”
? 赵航记者 乔立峰 摄
20251012 ? www.5566e.gov.cn当千年古都的文脉底蕴邂逅现代极简的美学灵感,一座承载自然、艺术与生活共鸣的“住假”作品——招商序,正于北京悄然成序。这不是寻常的住宅项目,而是亦庄首座“好房子”,它代表着一种生活方式的革新,一次对东方美学的当代诠释。《weyvv国产的suv视频》据一位知情人士对媒体透露,OpenAI正给予现任与前员工出售约103亿美元股票的机会,远高于最初设定的60亿美元。该知情人士对媒体表示,此次出售的估值为5000亿美元,与市场预期一致。今年早些时候,OpenAI最新一轮融资时的公司估值为3000亿美元。
? 司玉芬记者 刘海港 摄
? 德容与巴萨的合同将于2026年6月到期。鉴于球员合同仅剩最后一年,拉波尔塔不愿看到核心球员处于这种状态。双方在公开和私下场合都表达了继续合作的意愿。《女人一旦尝到粗硬的心理》