人工智能革命：历史、当下与未来：最初的一步 ——模式识别_王天一

模式识别的流程可以概括如下：首先要通过各种传感器把被研究对象的各种物理变量转换为计算机可以识别的数值或符号的集合，这个集合被称为模式空间，相应的数值或符号则被称为信号。对模式空间的必要处理——去除噪声的干扰、排除不相关的信号——是抽取有效识别信息的基础。在数据的识别中，模式空间中的信号经过特征量的提取和变换后，被映射到新的空间上，这个新的空间就是特征空间。与原始的模式空间不同的是，特征空间之中的元素是相互独立的，任意两两之间都不存在相关性，这显然构成了描述信号的一组基本元素，这个过程也可以被看作特征抽象的过程。模型匹配正是借助特征空间上的基本元素进行的：通过对输入的对象进行同样的空间转换，模式识别系统会输出对象所属的类型或者是模型数据库中与对象最相似的模型编号。为了提升模式识别的精确性，往往需要加入一些预先设定的规则以对可能产生的错误进行修正，或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间，以减少匹配计算量。

早期的计算机模式识别研究将重点放在数学模型的建立上。1958年，供职于美国康奈尔航天实验室的心理学家罗森布拉特（神经网络的先驱者，参见第一章）提出了一种模拟人脑进行识别的简化数学模型——感知机，初步实现了通过给定类别的各个样本对识别系统进行训练，使系统在学习完毕后具有对其他未知类别的模式进行正确分类的能力。1974年，供职于美国普渡大学的华裔计算机科学家傅京孙出版了专著《句法模式识别及其应用》，系统梳理了模式识别在自然语言处理中的成果。就职于美国加州理工学院的科学家约翰·霍甫菲尔德（John Hopfield）则于1982年和1984年分别发表了两篇重要论文，深刻揭示出人工神经元网络所具有的联想存储和计算能力，进一步推动了模式识别的研究工作，从而形成了模式识别的人工神经元网络方法的新的学科方向，也将神经网络这一新的研究议题推到了聚光灯下。

目前，模式识别技术最成功的实际应用，非光学字符识别（Optical Character Recognition）莫属。光学字符识别本质上是利用光学设备去捕获图像，并从中读取出出现的文字。未来的办公室中很可能出现这样的景象：只要使用手机等具备拍照功能的智能设备对会议白板进行拍照，系统便能自动识别出照片中的讨论内容，分检出相关人员的后续工作，并将待办事项自动存放到各自的电子日历中。正是光学字符识别的出现，使这样的场景成为可能。

模式识别意在学习人类（或其他生物系统）在所处环境中发现、区别和找出特征从而标识出观察结果的本领，这属于认知科学的范畴，是生理学家、心理学家、生物学家和神经生理学家的工作范围；同时也专注于开发和评价模仿或辅助人类识别模式能力的系统，这是数学家、信息学专家和计算机科学家的用武之地。模式识别中工程的观点则是试图建立模拟生物识别能力的系统，这方面的研究已经取得了系统的成果，也给人工智能的发展打下了良好的理论基础。

光学字符识别技术的发展经历了超过半个世纪的摸爬滚打。1965年的纽约世界博览会上，IBM公司展出了其研发的光学字符识别产品——IBMl287。这款元老产品只能识别特定印刷字体的数字、英文字母及部分符号，在当时却已经是了不起的成就。IBM公司的研发成果在日本被迅速跟进：数年之后，日本东芝公司和NEC公司先后研制出手写体邮政编码识别的信函自动分拣系统，并广泛应用在邮政系统中，让信函的自动分拣率达到92%。1983年，东芝公司又发布了印刷体日文汉字的识别系统——OCRV595，其识别率高达99.5%。20世纪90年代后，平板扫描仪的应用与普及又成为光学字符识别技术走向下一个高潮的东风：谷歌公司雄心勃勃的数字图书馆计划正是由此而来。

具体来说，人们在观察事物或现象的时候，常常要寻找它与其他事物或现象的不同之处，并根据一定的目的把各个相似的但又不完全相同的事物或现象组成一类。字符识别就是这其中最典型的一个例子。在不同的字体中，数字“3”可以有不同的写法，但所有的写法都属于同一类别。更为重要的是，即使对于以前从未出现过的“3”的写法，识字的人凭借直觉和智慧也能够把它划分到“3”所属的这一类别之中，而不是错误地辨别为“8”或者“B”。“模式”的概念正是源于人脑的这种抽象思维能力：只要认识这个集合中的有限数量的事物或现象，就可以识别属于这个集合的任意多的事物或现象。为了强调从一些个别的事物或现象推断出事物或现象的总体性质，这些个别的事物或现象就被称作模式。

光学字符识别中的技术难点在于字符的辨认与区分，其技术手段包括模式匹配识别法和特征提取识别法。模式匹配识别法是将数字图像中的字符与已有数据库中的标准字符相比较，以找到最相似的匹配，寻找的过程通常是以迭代方式进行的。特征提取识别法则是将每个字符分解为若干独立的字符特征，比如汉字笔划中的横、竖、撇、捺、点等等，再将这些特征与待识别的字符进行匹配，根据不同的笔划凑出识别结果。

通过计算机来实现人工智能，最初的路径是模式识别（Pat-tern Recognition）。模式识别的黄金时代出现在20世纪80年代，它强调的是如何让计算机程序去做一些看起来很“智能”的事情，就像是有个人躲在盒子里伪装成机器的样子。模式识别技术的主要作用在于发现、区分、检测或提取存在于我们周围世界中的模式，这依赖于怎么从观察数据中进行信息提取和表示，结合背景知识，最终得到新知识和概念的形式化内容。学习的结果是得到一个用于表示模式之间相互依赖的形式化知识，以此更好地理解与解释观察数据。当模式的概念被形式化后，它就可以被应用于相同领域未知的用例，包括新的信息，例如对一个新对象进行标识，且对于新用例的处理应当遵从应用于原来用例的相同的演绎过程。

模式识别的核心意义在于分类——也就是所谓“模式”的区分，而每个模式的区别又由其与众不同的特征决定。可数据的种类千变万化，要发掘出隐藏在表象下的特征绝非易事。20世纪90年代，研究者开始意识到数据才是更有效地构建模式识别算法的方法——这正是机器学习的思想。事实也渐渐证明，机器在没有人类的干预下学习得到的结果远比各位专家纯手工设定的分类规则要好得多。这也催生了更多人工智能领域的先进技术。