在强大的机器学习模型中确保后门的安全
软件系统就在我们身边——从计算机操作系统到搜索引擎再到工业应用中使用的自动化。所有这一切的核心是数据,数据用于机器学习 (ML) 组件,这些组件可用于各种应用,包括自动驾驶汽车和大型语言模型 (LLM)。由于许多系统都依赖于机器学习组件,因此保证其安全性和可靠性非常重要。
对于使用鲁棒优化方法训练的 ML 模型(即鲁棒 ML 模型),其针对各种攻击的有效性尚不清楚。主要攻击媒介的一个例子是后门中毒,它指的是输入模型的训练数据受到损害。在标准机器学习模型中检测后门攻击的技术是存在的,但稳健的模型需要不同的后门攻击检测方法,因为它们的行为与标准模型不同,并且持有不同的假设。
新加坡科技设计大学 (SUTD)信息系统技术与设计 (ISTD)支柱助理教授 Sudipta Chattopadhyay 博士旨在弥合这一差距。
在发表在《计算机与安全》杂志上的研究《稳健机器学习模型中的后门攻击和防御》中,Chattopadhyay 助理教授和 SUTD 研究人员研究了如何在称为图像分类器的特定 ML 组件中注入和防御稳健模型的后门攻击。具体来说,所研究的模型是使用最先进的投影梯度下降(PGD)方法进行训练的。
后门问题既紧迫又危险,特别是考虑到当前软件管道的开发方式。Chattopadhyay 助理教授表示:“如今没有人从头开始开发 ML 模型管道和数据收集。他们可能从互联网下载训练数据,甚至使用预先训练的模型。如果预先训练的模型或数据集被毒害,那么使用这些模型生成的软件将是不安全的。通常,只需要 1% 的数据中毒就可以创建后门。”
后门攻击的困难在于只有攻击者知道中毒模式。用户无法通过此中毒模式来识别他们的 ML 模型是否已被感染。“这个问题的难度让我们着迷。我们推测后门模型的内部结构可能与干净模型不同,”助理教授 Chattopadhyay 说。
为此,Chattopadhyay 助理教授研究了稳健模型的后门攻击,发现它们非常容易受到攻击(成功率 67.8%)。他还发现,中毒训练集会为中毒类创建混合输入分布,从而使鲁棒模型能够学习特定预测类的多个特征表示。相比之下,干净的模型只会学习特定预测类别的单个特征表示。
Chattopadhyay 助理教授与其他研究人员一起利用这一事实开发了 AEGIS,这是第一个用于经过 PGD 训练的稳健模型的后门检测技术。AEGIS 分别使用 t-分布式随机邻域嵌入 (t-SNE) 和均值平移聚类作为降维技术和聚类方法,能够检测类中的多个特征表示并识别受后门感染的模型。
AEGIS 的运行分为五个步骤 - (1) 使用算法生成翻译图像,(2) 从干净训练和干净/后门翻译图像中提取特征表示,(3) 通过 t-SNE 减少提取特征的维度, (4) 采用均值平移来计算减少的特征表示的聚类,并且 (5) 对这些聚类进行计数以确定模型是否受后门感染或干净。
如果模型中有两个集群(训练图像和翻译图像),则 AEGIS 会将该模型标记为干净。如果有两个以上的集群(训练图像、干净的翻译图像和有毒的翻译图像),则 AEGIS 会将此模型标记为可疑且受后门感染。
此外,AEGIS 有效检测了 91.6% 的后门感染鲁棒模型,误报率仅为 11.1%,显示出其高效性。由于即使是标准模型中顶级的后门检测技术也无法在鲁棒模型中标记后门,因此 AEGIS 的开发非常重要。需要注意的是,AEGIS 专门用于检测稳健模型中的后门攻击,而在标准模型中则无效。
除了能够在稳健的模型中检测后门攻击之外,AEGIS 还非常高效。与需要数小时到数天才能识别后门感染模型的标准后门防御相比,AEGIS 平均只需要 5 到 9 分钟。未来,Chattopadhyay 助理教授的目标是进一步完善 AEGIS,使其能够处理不同且更复杂的数据分布,以防御除后门攻击之外的更多威胁模型。
Chattopadhyay 助理教授承认当今环境下人工智能 (AI) 的热度,他表示:“我们希望人们意识到与人工智能相关的风险。ChatGPT 等由 LLM 支持的技术正在流行,但存在巨大风险,后门攻击只是其中之一。通过我们的研究,我们的目标是实现值得信赖的人工智能的采用。”
版权声明:本文由用户上传,如有侵权请联系删除!