人工智能革命：历史、当下与未来：计算机的无师自通 ——深度学习_王天一

2006年，加拿大多伦多大学教授、机器学习领域的泰斗辛顿在国际权威学术期刊《科学》上刊文，深度学习就此闪亮登场。辛顿的文章表达了两个主要观点：首先，具备多个隐藏层的人工神经网络（也就是深度学习）具有优异的特征学习能力，习得的特征能够实现对数据更加本质性的刻画，有利于对数据的可视化或分类；其次，深度学习在训练上的难度可以通过“逐层初始化（Layer-wise Pre-training）”来有效克服，逐层初始化则可以通过无监督学习实现。

深度学习在功能上受启于大脑视觉系统中感受视野特征的方式。在深度学习中，这个过程被利用多个隐藏层进行模拟：第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到的是由“边缘”组成的“形状”的特征，第三个隐藏层学习到的是由“形状”组成的“图案”的特征，最后的隐藏层学习到的是由“图案”组成的“目标”的特征。当然，这样的识别思想不只适用于视觉信息的处理，对其他类型的信息同样适用。

与深度学习相对应的是浅层学习（Shallow Learning），其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。深度学习克服了浅层学习的弱点，通过深层非线性网络结构实现复杂函数逼近和表征输入数据分布式表示，展现出强大的从少数样本集中学习数据集本质特征的能力。学习特征的过程可以被视为特征空间变换的变换过程，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间。这样的变换能够有效去除不同特征之间的相关性，从而使分类或预测更加容易。

方向选择性细胞提示人们：神经-中枢-大脑的工作过程，或许是一个不断迭代、不断抽象的过程。人眼处理来自外界的视觉信息时，遵循的是这样的流程：首先提取出目标物的边缘特性，再从边缘特性中提取出目标物的特征，最后将不同的特征组合成相应的整体，进而准确地区分不同的物体。在这个过程中，高层的特征是低层特征的组合，从低层到高层特征变得越来越抽象，语义和意图的表现就越来越清晰，存在的歧义越来越少，对目标物的识别也就越来越精确。

这一实验的目的是验证一个假设：位于后脑皮层的不同视觉神经元与瞳孔感受到的刺激信号之间，存在某种相关性。一旦瞳孔受到某种特定的刺激，后脑皮层的某些特定神经元就会活跃。经过长期枯燥的试验后，胡贝尔和魏泽尔发现了“方向选择性细胞（Orientation Selective Cell）"：当瞳孔发现了眼前物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。这一发现不仅在生理学上具有里程碑式的意义，更激发了人们对于神经系统的进一步思考，促成了人工智能在四十年后的突破性发展。

图3-6 乔弗·雷辛顿

要介绍深度学习的原理，就不得不说些题外话。1981年，两位神经生物学家大卫·胡贝尔（David Hubel）和托尔斯滕·魏泽尔（Torsten Wiesel）连同另一位科学家分享了诺贝尔医学奖，他们二位的主要贡献在于“发现了视觉系统的信息处理方式：可视皮层是分级的”。1958年，胡贝尔和魏泽尔在美国的约翰霍普金斯大学开展关于瞳孔区域与大脑皮层神经元的对应关系的研究。他们给小猫展现形状和亮度各不相同的物体，并改变每个物体放置的位置与角度。在这一过程中，小猫的瞳孔感受不同类型和不同强度的刺激，小猫的后脑上则被插入电极，用来测量神经元的活跃程度。

深度学习的另一个主要优势是能够从海量数据中进行特征的自动提取。在浅层学习中，依赖先验知识的手工设置特征处于统治地位，这类特征的设计中只允许出现少量的参数，设计出的特征的不变性与可区分性也远非最佳。可深度学习可以从大数据中自动学习特征的表示，其中可以包含成千上万的参数，手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史，往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。

深度学习又被称为深度神经网络（Deep Neural Network），其基础也是人工神经网络，“深度”则体现在神经网络的层数以及每一层的节点数量。传统的神经网络最多只包含3个层次，结构的简单决定了它能够运行的功能相当有限。在此基础上，深度学习采用由包括输入层、多个隐藏层和输出层组成的多层网络，这种分层结构是深度学习模仿人类大脑的核心结构特征。

深度学习虽然通过特征的自动提取将人从手工特征设计中解放了出来，但目前在神经网络架构中，网络层数、每层神经元的种类和个数、训练算法参数等超参数可能对学习结果有着决定性的影响。这些超参数的设置和调节，仍然高度依赖人的经验。自动网络结构学习和超参数调节是深度学习从技术走向科学的必由之路。此外，深度学习从原始自然信号中提取特征完成任务的过程是个“黑盒子”，缺乏可解释性，类似于哺乳动物的低级认知功能。与之相对，基于抽象符号和规则的逻辑推理作为人工智能的早期方法，虽然能部分模拟人的高级认知功能，却和现有的神经网络框架“水火不容”。如何把深度学习过程和人类已经积累的大量高度结构化知识融合，发展出逻辑推理甚至自我意识等人类的高级认知功能，是下一代深度学习的核心理论问题。

人工神经网络的本质是通过计算机算法来模仿、简化和抽象人脑的若干基本特性。起起落落之后，人工神经网络产业如今迎来了第三个高速发展时期，正是得益于深度学习的研究。