【新智元导读】华南理工大学计算机学院AI安全团队长期深耕于人工智能安全,近期联合约翰霍普金斯大学和加州大学圣地亚戈分校聚焦于联邦学习中防范恶意投毒攻击,产出工作连续发表于AI顶刊TPAMI 2025和网络安全顶刊TIFS 2025。 FedID通过多种度量标准和动态加权检测恶意梯度,有效应对复杂攻击和非IID数据分布;Scope则通过逐维归一化和差异化缩放,揭示攻击梯度中的后门维度,显著提升防御效果。 联邦学习(Federated Learning,FL)因其去中心化和保护隐私的特性而备受关注,但其也面临后门攻击的脆弱性,这类攻击旨在操控模型在攻击者选定输入上的行为。 现有大多数基于统计差异的防御方法,仅在特定攻击下有效。当恶意梯度与正常梯度高度相似,或者数据呈现非独立同分布(non-IID)特征时,这一局限性尤为显著,使得这些防御手段难以识别隐藏性较强的攻击。 研究人员重新审视了基于距离的防御方法,并揭示了两个关键洞见:第一,在高维空间中,欧几里得距离失去了意义;第二,单一的度量标准无法识别具有多样化特征的恶意梯度。 此外,研究人员还引入了改进的z-score方法,用于选择用于聚合的梯度。值得注意的是,FedID不依赖于对于攻击设置或数据分布的预设假设,并且对正常性能的影响极小。 研究人员在多个数据集和攻击场景下进行了广泛实验,以评估其有效性。FedID在所有情况下均优于以往防御方法,尤其在复杂的边缘情况(Edge-case PGD)下表现突出。 实验结果表明,FedID在面对旨在突破防御机制的自适应攻击时仍具有强大的鲁棒性,并能适应各种非IID数据分布,而不会影响模型在正常任务上的表现。 联邦学习(FL)是一种在保护客户数据隐私安全的同时,能够高效训练深度学习模型的分布式框架。但也由于其对隐私的考虑,导致其容易受到数据投毒的攻击,尤其是隐蔽性更强的后门攻击(Backdoor attack)。 为了提高FL的鲁棒性,人们提出了多种防御方法,例如基于评分的方法,这种方法利用特定的指标来区分恶意梯度和良性梯度。尽管这种方法对某些后门很有效,但研究人员发现,精心设计的攻击,其梯度与良性梯度无法区分,可以轻松绕过这些防御措施。 基于差分隐私(DP)的方法是在观察到传统上用来对付差分攻击的 DP 方法也能有效对付后门的基础上发展起来的。通过向全局模型添加高斯噪声,这些方法可以淡化潜在中毒模型更新的影响。 令人惊讶的是,基于DP的方法在抵御这种高级后门方面表现出很强的能力。尽管DP有能力抵御隐形后门,但它所增加的噪声会显著降低整体性能和收敛速度。 为了实现这一目标,研究人员转向了不牺牲良性性能的基于距离的方法,并提出了以下研究问题:如何才能成功利用距离度量来区分敌意更新和良性更新? 虽然无法彻底解决维度诅咒带来的问题,根据理论证明,曼哈顿距离在高维空间中的识别能力要远远好于常用的欧式距离,可以缓解维度诅咒效应。 1. 三种距离有着不同的尺度,由于每个度量都是相关的,因此需要一种新的正则化方法,而不是通常的按最大值进行归一化; 为了解决上述问题,研究人员提出了一种通过浓度矩阵(协方差矩阵的逆)进行白化的方法如上图所示,其中x为客户端距离特征向量,Σ为协方差矩阵,其能够根据每个客户端上三个指标特征的分布动态地决定每个指标的权重,以适应不同的数据分布情况和攻击策略。 在得到了客户端的距离得分δ后,便可以根据该分数聚合更优梯度。通过这种机制,方法不仅能够容纳三种指标,同时也能根据需要容纳更多的指标去分析各个梯度。 传统的基于检测的防御方法依赖特定度量标准来区分客户端的梯度。然而,具备防御认知的攻击者可以利用这一点,通过在这些度量上对攻击梯度施加约束,从而逃避检测,形成度量约束攻击。 为应对上述挑战,研究人员提出了一种新颖的防御机制Scope。该方法通过揭示攻击梯度中被约束的后门维度,在使用余弦距离的同时,能够检测出余弦约束攻击。 Scope采用逐维归一化和差异化缩放策略,以放大后门维度与正常或未被使用维度之间的差异,有效对抗高级攻击者掩盖后门特征的行为。 在多个数据集、模型、联邦学习设置以及不同攻击者场景中进行的广泛实验表明,Scope在检测和防御后门攻击方面显著优于现有方法,特别是在应对余弦约束攻击方面效果尤为突出。 研究人员还提出了一种专门针对Scope的定制攻击,试图最大限度地增强其隐蔽性以规避Scope的检测,但实验结果显示该攻击依然失败,这进一步凸显了Scope防御机制的鲁棒性和先进性。 由于大多数后门检测方法依赖特定的度量标准(如欧几里得距离或余弦距离)来区分正常梯度与恶意梯度,因此它们容易受到度量约束攻击(metric-constrained attacks)的影响。 当攻击者完全了解服务器端部署的防御算法时,他们可以有针对性地对其恶意梯度在防御所使用的度量上进行约束,从而绕过检测。 已有研究表明,基于欧几里得距离的防御方法无法有效抵御在该度量下受到约束的攻击。尽管使用余弦距离的方法能够识别受欧几里得距离约束的攻击,但却难以抵挡余弦约束攻击(cosine-constrained attack)。 在该研究中,研究人员采用了一个全新的视角,聚焦于检测恶意梯度向量中潜藏的后门特征。已有研究表明,神经网络(Neural Networks, NNs)的不同维度承载着不同的任务,例如正常任务与后门任务。 后门梯度主要作用于后门维度,而正常梯度则主要更新正常维度。研究人员认为,度量约束攻击中后门维度难以被区分的原因有两个: 因此,研究人员将重点转向关注各维度的变化率而非其具体数值,以消除高绝对值维度对检测结果的显著干扰。为了计算每个维度上的变化率,研究人员将客户端的梯度(即)在全局模型和客户端模型之间逐维分解,并将每个维度的梯度变化缩放到区间 [0,1],从而统一量纲并实现对不同维度变化的相对比较。 由于所有维度在归一化后被映射到区间[0,1][0,1],研究人员将每个维度的归一化值gi自身幂乘?次,以进一步压低更新幅度较小的维度值,使其趋近于0,从而消除这些微弱更新维度的影响。 通过这种方式,有效削弱了大量未被使用维度对少数关键后门维度的干扰,使后门相关的关键维度在梯度向量中占据主导地位。


