教学参考-19

来自cslt Wiki
跳转至: 导航搜索

教学目标

  • 理解深度神经网络的黑盒特征,以及由此引发的可解释性危机
  • 理解对抗样本,以及由此引发的AI系统脆弱性问题


教学内容

成功与挑战

  • 深度学习自2006年开始起步,2011年以后形成热潮。十多年过去了,深度学习已经取得了一系列重大成果,深刻改变了我们对人工智能边界的认知。今天,深度神经网络依然是人工智能领域最重要的模型。然而,这一模型的一些弱点也逐渐为人们所认知。
  • 深度神经网络让人担心的问题至少有两个:一是复杂网络本身是个黑箱,导致可解释性缺失,二是广泛存在的对抗样本,使得网络输出难以信任。这两点使得深度神经网络模型超出了人类的可控泛围,因而在关键任务中难以应用。
  • 除此之外,深度神经网强行还有很多问题需要研究,如:数据依赖过强,成本过高,模型难以连续学习和继承,公平性问题,长尾问题等。

可解释性问题

  • 神经网络中包含数庞大的神经元,这些神经元互相配合,共同得到合理的预测或生成结果。然而,这些神经元是如何互相配合的,到目前为止还很难厘清。后果是,我们从神经网络得到了结果,但不论是人还是机器,都无法解释这一结果是如何得到的。
  • 可解释性下降是所有复杂机器学习模型的通病,越复杂的模型,可解释性越差。
  • 可解释性差是一个非常重大的缺陷。因为无法解释,也就无法信任,在一些无关紧要的任务上还可以,一旦到关键任务上,就不能应用了。如医疗诊断,防御性攻击武器等。
  • 人们很早就意识到了这个问题,并提出了一些方法来理解神经网络的决策机制。一些研究通过找到输入数据中对网络决策影响最大的部分来间接推论神经网络的决策过程。然而,这种个例的、事后的解释远远达不到模型可解释的要求。

对抗样本

  • 2013年,来自Google、纽约大学和Facebook的研究者发现,深度神经网络其实非常脆弱,给它一张图片,通过一种称为FSGM的算法对图片进行一些微小的扰动,将使神经网络的输出发生显著变化。这些人眼无法察觉,但可以骗过机器的样本称为对抗样本。
  • 研究者们进一步发现,对人来说毫无意义的图案有可能被机器非常自信地识别成某种东西。这些图片同样是对抗样本。
  • 人们对对抗样本的产生机理进行了长期研究,倾向于认为对抗样本中存在对机器敏感的模式,而这些模式对人类视觉并不敏感。这可能意味着人类所看到的世界和机器所看到的世界可能是不同的,如果不考虑这种差异,有可能会带来极大风险甚至灾难。

对抗攻击与防范

  • 对抗样本的存在使深度学习模型面临被攻击的风险:只要故意加入一点噪音,人无法察觉,却很容易骗过机器。
  • 例如,研究者在“停止”标帜上添加了一些黑白块,就轻松骗过了机器,让它大摇大摆地违规。在语音识别任务中,研究者也发现在声音中加入一些人耳听不到的改动,即可让语音识别引擎输出任意文本。
  • 为防范对抗样本攻击,研究者提出了很多方法,典型的包括对抗训练法、多模型组合法、随机扰动法等。然而,对抗攻击本身的算法也在改进,如何防范对抗样本带来的风险依然是一个重要的研究课题。