教学参考-17

教学目标

研究者很早就意识到多层神经网络具有更强的学习能力，然而在实验中，多层网络并没有表现出比三层网络更好的性能，一个重要原因是多层网络的训练非常困难。
原则上，反向传播算法可以训练任意深度的神经网络，然而实际情况却并不乐观。这是因为神经网络非常复杂，训练过程中会遇到很多马鞍点和局部小点，要想避开这些点，并不容易。
2006年，多伦多大学的杰弗里·辛顿提出了一种预训练方法，先训练浅层网络，再一层层叠加起来，最终得到深层网络。辛顿发现，通过这种预训练得到的深层网络具有比浅层网络更好的性能。
在此之后，众多学者投入到这一研究方向，深度学习成为人工智能最活跃的方向和代表性技术。因在深度学习研究中的突出贡献，约书亚·本吉奥、杰弗里·辛顿、杨立昆共同荣获2018年图灵奖。

深度神经网络之所以如此强大，一个很重要的原因在于它可以通过层次性处理逐渐提取抽象特征。在网络底层，神经元被一些简单的线条所激发，但到了网络高层，激发神经元的将是一些有代表性的图案。这说明网络以一种层次性的方式对特征进行提取，越到后面得到的特征越高级，越抽象。因此，深度学习也常被称为表示学习。
对抽象特征的学习具有重要意义，可以带来更强的可扩展性。例如，我们把一张人脸照片加入各种变化，如噪点，缩放、旋转，这时低层特征会发生显著变化，但人脸依然是人脸，在抽象的概念层次不会发生变化。这种不变性是实现可扩展性的基础。
抽象特征学习可以从原始数据开始，不需要人为的特征设计。这一强大能力使得研究者不再需要专门设计特征提取过程，只要数据足够，机器可以自动从数据中提取出有价值的特征。自动特征学习不仅简化了模型设计与构造，也避免了人为设计特征可能存在的缺陷。
最后，人们发现深度学习和人类的信息处理方式很相似。人类处理信息是层次性的，深层网络的处理方式和人类大脑里的处理方式很像。

深度神经网络兴起之后，在机器视觉、机器听觉、自然语言处理、机器人等众多领域取得极大成功。现在我们知道，辛顿当初提出的预训练方案并不是必要的，只要数据量足够大，计算资源足够丰富，就可以成功训练一个强大的深度神经网络模型。从这个角度上看，与其说是深度学习多么强大，不如说是大量数据的积累和计算机性能的提高使得大规模机器学习成为可能。
最后，开源成为研究界的共识，出现了大量开源的代码、数据和论文。这些开源资源的出现极大促进了技术交流和技术进步，为当前人工智能浪潮打上了独特的历史烙印。