◆ 译者序◆
本书旨在讨论机器学习中的安全性问题,即讨论各种干扰机器学习系统输出正确结果的攻击方法以及对应的防御方法。众所周知,机器学习自出现之初就因其优异的性能,应用于各种分类和回归任务。随着深度学习的提出,这一领域更是得到前所未有的蓬勃发展。目前,深度学习在计算机视觉、语音识别、自然语言处理等复杂任务中取得了已知最好的结果,已经被广泛应用于自动驾驶、人脸识别等领域。在一系列重大进展面前,人们很容易忽视阳光背后的阴影——对抗攻击。与很多实用性技术一样,机器学习同样面临着安全性的考验。从早期的垃圾邮件过滤程序开始,已经体现出对抗的思想,其本质是双方的对抗博弈:一方面,垃圾邮件制造者想方设法躲避过滤程序的筛选;另一方面,过滤程序又尽可能正确地筛选出垃圾邮件。
2014年,Christian Szegedy等人首次提出针对图像的对抗样本这一概念。他们将计算得到的扰动噪声加入原始图像,使得能够正确分类原始图像的分类器对加入扰动的图像产生错误分类。而这个扰动的幅度很小,人眼观察是不会错分的。这一发现揭露了深度学习技术在安全方面的极大缺陷,从而使得人们更加谨慎地看待深度学习在实际中的应用。随后的研究进一步发现,不仅是像素级别的扰动,真实世界中的扰动即便通过摄像机采集,也具有攻击性。例如,对停车标志附加一些贴纸或涂鸦,它便被交通标志识别系统错误识别为限速标志;真人戴上一副特制的眼镜,就被人脸识别系统错误识别为另一个人。如果这些对抗攻击方法被用来干扰自动驾驶、人脸识别等应用系统,后果将不堪设想。
于是,深度学习中的对抗攻击引起了研究人员的极大关注,他们也相应提出了一系列的攻击和防御方法。然而,随着各种攻击方法的产生,提出的防御方法看似抵御了这些攻击,但是新出现的攻击却又轻而易举地躲避了这些防御方法。研究在不断发展,但仍距真相甚远。这是因为一旦涉及深度学习,问题就变得极端复杂。至今,人们仍不完全清楚神经网络这个黑盒里面到底学到了什么特性。甚至有研究指出,神经网络完成的分类任务仅是靠辨别局部的颜色和纹理信息,这使得自然的对抗样本,即便不是人为加入的扰动,而是真实采集到的图像,也能够成功地欺骗神经网络。这也支持了许多学者的观点,即神经网络只是学习了数据,而非知识,机器学习还无法像人一样学习。这项难题的最终解决,或许依赖于对神经网络的透彻理解,以及对神经网络结构的改进。弄清楚神经网络内部的学习机制,并据此进行改进,或许才能真正解决目前神经网络对于对抗攻击的脆弱性。
以对抗样本生成和防御为核心的对抗深度学习,无疑是对抗机器学习领域目前最受关注的研究热点。但是,本书涉及更宽广的主题,从攻击时机、攻击者可以利用的信息、攻击目标三个维度,全面论述了监督学习、无监督学习以及强化学习系统中的攻击和防御技术。这对于读者全面系统地掌握对抗机器学习的理论、方法及应用,以及深入开展深度学习的攻击和防御问题研究,都是至关重要的。
本书的翻译工作是由王坤峰和王雨桐合作完成的。王坤峰负责第1~5章的翻译初稿,王雨桐负责第6~9章的翻译初稿。最后,王坤峰对全书进行了校正统稿。
我们非常荣幸受到机械工业出版社的邀请翻译本书。在翻译过程中,我们努力将内容讲解清楚,但是限于我们的英文能力和专业水平,译文中难免出现疏漏和错误,欢迎读者批评指正。翻译本书的目的,不仅是希望研究人员更多地关注对抗攻击和防御的思想,更希望大家把目光跳出机器学习本身,全面了解它的脆弱性,推动机器学习技术更好地发展和应用。
王坤峰 王雨桐
2019年9月30日
◆ 前言◆
近年来,对抗机器学习研究领域受到了广泛的关注,其中很多关注都集中在一种称为对抗样本的现象上。它的常见形式是,对抗样本获取一幅图像,并添加人类观察者通常看不见的少量失真,从而改变图像的预测标签(举一个最著名的例子,将熊猫预测为长臂猿)。但是,本书不是专门针对对抗样本的探索。相反,我们的目标是更宽泛地解释对抗机器学习领域,顾及监督学习和无监督学习,以及对训练数据的攻击(投毒攻击)和决策(预测)时攻击,其中对抗样本只是一种特殊情况。我们试图传达这个快速发展领域的基本概念,以及技术和概念上的研究进展。特别是,除了介绍性材料外,本书的流程是首先描述用于攻击机器学习的算法技术,然后描述使机器学习对此类攻击具有鲁棒性的算法进展。在第8章,我们概述了针对深度学习方法的一些最新进展。虽然在更宽广的对抗学习领域看到这类方法很重要,但是在深度神经网络背景下,这一章描述的动机、技术和经验观察最为突出(尽管许多技术方法在原理上是相当通用的)。
本书假设读者对相关知识有足够的了解。虽然书中介绍了机器学习的概念、术语和符号,但可能需要读者事先对机器学习有一定程度的熟悉,这样才能完全掌握技术内容。另外,我们希望读者对统计学和线性代数具有某种程度的熟悉,并对优化有一些先验知识(特别是,本书关于凸优化的叙述和对梯度下降等技术的讨论都假设读者熟悉这些概念)。
Yevgeniy Vorobeychik
Murat Kantarcioglu
2018年6月
致 谢
Adversarial Machine Learning
我们要感谢许多同事和学生,他们通过与我们合作进行相关研究,或者通过以书面或口头报告形式对一些内容进行评论并纠正错误,帮助我们使本书面世。特别感谢Bo Li、Chang Liu和Aline Oprea对部分技术内容的贡献以及众多的相关讨论。我们还要感谢围绕本书陈述的主题进行讨论的许多人,包括Daniel Lowd、Pedro Domingos、Dawn Song、Patrick McDaniels、Milind Tambe、Arunesh Sinha、Michael Wellman。我们特别感谢Matthew Sedam发现了书稿内容的一些错误,感谢Scott Alfeld和Battista Biggio提出了显著改进本书质量的建议。最后,我们衷心感谢资助本书以及许多相关研究论文的组织/机构:美国国家科学基金会(IIS-1649972)、陆军研究局(W911NF-16-1-0069)、海军研究局(N00014-15-1-2621)和美国国家卫生研究院(R01HG006844)。
Yevgeniy Vorobeychik
Murat Kantarcioglu
2018年6月