人工智能革命：历史、当下与未来：翻不过的那座山 ——语义理解_王天一

泰恩鲍姆认为，无论这些网络有多大，今天的神经网络都缺少心灵的重要组成部分。人类有能力从相对较少的数据中快速学习，并且具有内置的三维效能模型。泰恩鲍姆说：“语言建立在其他能力上，其基本能力可能更为基础，这些能力在他们有语言之前就存在于年轻的婴儿中：视觉上看待世界，对我们的运动系统进行行动，了解世界物理学或其他代理人的目标。”如果他是正确的话，那么在机器和人工智能系统中重新创建语言理解并不难于模仿人类学习，心理建模和心理学将是困难的。

黎国问，“生活的目的是什么？”，方案回应说：“为更大的利益服务”。没有人知道如何给机器这些人的技能——如果是可能的话。有什么独特的人类关于这样的品质，使他们超出人工智能的范围？

诺亚-古德曼（Noah Goodman）在斯坦福心理学系的办公室几乎是裸露的，除了一些抽象画支持一面墙和一些长满的植物。当我到达时，古德曼打电话给笔记本电脑，他的赤脚在桌子上。我们在晒太阳校园漫步，喝冰咖啡。“语言特别之处在于它依赖于很多关于语言的知识，而且还依赖于大量关于世界的常识知识，而这两种知识都以非常微妙的方式进行。”他解释说。

只有一个问题，当您查看系统的更多答案时，会很快变得明显。当黎国问：“猫有多少腿？”他的系统回答说：“我想，”四点，然后他尝试了一下，“蜈蚣有多少腿？”产生了一个好奇的回应：“八”黎国的节目不知道在说什么。它知道符号的某些组合在一起，但它没有对现实世界的欣赏。它不知道蜈蚣实际上是什么样的，或者它如何移动。它只是智力的幻觉，没有人类认为理所当然的常识。深度学习系统通常可以这样破坏。谷歌创建的用于生成图像字幕的图片将会产生奇怪的错误，例如将街道标志描述为充满食物的冰箱。

古德曼和他的学生已经开发了一种名为Webppl的编程语言，可以用于给计算机一种概率常识，这在交谈中是非常有用的。一个实验版本可以理解双关语，另一个可以应付夸张。如果被告知有些人不得不等待餐厅的桌子“永远”，那么它会自动确定字面意思是不可能的，而且很可能是挂起了很长时间，并且被惹恼了。该系统远非真正的智能，但它显示了新方法如何帮助人工智能程序以更逼真的方式进行通话。

最近，黎国建立了一个能够对开放式问题产生通过回应的方案；它是通过从18900部电影进行对话训练的。其中一些答复看起来很厉害。例如，黎国问：“生活的目的是什么？”，方案回应说：“为了服务更大的利益”，“这是一个很好的答案，”他大笑起来。“可能比我的还要好”。

同时，古德曼的例子也表明，教授语言到机器的困难程度如何。了解“永远”的语境意义是人工智能系统需要学习的东西，但这是一个相当简单和初步的成就。“我想要一种在机器中模拟想法的方法，”他说。“如果你想模拟想法，那么你应该能够问一台机器它在想什么。”

谷歌已经在教电脑基础知识。今年5月，该公司宣布了一个名为Parsey McParseface的系统，可以查看语法，识别名词，动词和其他文本元素。不难看出，更好的语言理解对于公司来说是有价值的。谷歌的搜索算法用于简单地跟踪网页之间的关键字和链接。现在，使用一个名为Rank Brain的系统，它读取页面上的文本，以便收集意义并提供更好的结果。黎国想要更进一步。他和他的同事使用了在翻译和图像字幕中被证明有用的系统，它们构建了Smart Reply，该回复读取了Gmail邮件的内容，并提出了一些可能的回复。他还创建了一个程序，从谷歌的IT支持聊天记录中学习如何回答简单的技术查询。

尽管问题的困难和复杂性，研究人员使用深度学习技术来识别图像并在像围棋这样的游戏中表现出色的令人吃惊的成功至少提供了希望，我们也可能处于语言突破的边缘。如果是这样，这些进步会及时到来。如果人工智能作为一种无处不在的工具，人们用来增加自己的智慧和信任，以无缝协作来接管任务，语言将是关键。尤其是人工智能系统越来越多地使用深度学习和其他技术来自己编程。

坐在位于加利福尼亚州山景城的谷歌繁华总部中心的会议室，公司的研究人员之一，帮助开发这种方法，黎国（Quoc Le），正在考虑一台可以进行适当对话的机器的想法。为什么说话的机器可能是有用的，黎国的野心已经削减了。“我想要一种在机器中模拟想法的方法，”他说。“如果你想模拟想法，那么你应该能够问一台机器它在想什么。”

事实上，随着人工智能系统越来越复杂和复杂，很难设想我们如何在没有语言的情况下与他们进行协作，而无需向他们提出问题，“为什么？”除此之外，与计算机毫不费力地沟通的能力将使他们无限更有用，它会感觉到没有什么奇迹。毕竟，语言是我们最有效的方式来体现世界，并与之互动。这是我们的机器赶上的时间。

通过使用两个这样的网络，可以在两种语言之间以极好的精度进行翻译。并且通过将这种类型的网络与旨在识别图像中的对象的网络相结合，可以产生惊人的似是而非的字幕。

（注：本文英文原文为刊载于《麻省理工学院技术评论》2016年9-10月刊的文章Creating machines that understand language is AI's next big challenge.本文为使用谷歌翻译得到的中文译文，有删节。读者可借由此文领略人工智能在自然语言处理领域的最高水准。）

应用深度学习语言有一个明显的问题。就是字是任意符号，因此它们与图像根本不同。例如，两个词在含义上可以相似，但含有完全不同的字母；同一个词可以意味着不同的语境中的各种事物。在20世纪80年代，研究人员提出了一个关于如何将语言变成神经网络可以解决的问题类型的聪明想法。他们表明，词可以表示为数学向量，允许相关词之间的相似性被计算。例如，“船”和“水”在向量空间中是接近的，即使它们看起来非常不同。蒙特利尔大学的研究人员，由本基奥和谷歌公司的另一个组织领导，利用这种洞察力建立网络，使用一个句子中的每个单词来构建一个更为复杂的代表——这是辛顿教授——多伦多大学和一位深入学习研究员——在谷歌公司的工作兼职，称之为“思想向量”。

即使阿尔法狗不能说话，它包含可能导致更多语言理解的技术。在谷歌、脸书和亚马逊等公司以及领先的学术人工智能实验室，研究人员正试图通过使用一些相同的人工智能工具（包括深入学习）来解决这个看似棘手的问题，这些工具是阿尔法狗成功的基础，今天的人工智能复兴。是否成功决定了人造智慧革命的规模和性质。这将有助于确定我们是否可以轻松地与机器进行沟通，这些机器将成为我们日常生活中的亲密部分——或者人工智能系统是否保持神秘的黑匣子，即使它们变得更加自主。麻省理工学院认知科学与计算教授乔什-泰恩鲍姆（Josh Tenenbaum）说：“没有办法可以拥有人性化的人工智能系统，没有语言的核心。“这是将人类智慧分开的最明显的事情之一。

图9-3 本文原文的二维码

深度学习意味着机器可以越来越多地教会自己如何执行复杂的任务，只有几年前被认为需要人类的独特智慧。自驾车已经是可预见的可能性。在不久的将来，基于深度学习的系统将有助于诊断疾病和推荐治疗。然而尽管取得了令人印象深刻的进展，但一个基本能力依然难以捉摸：语言。像苹果公司的Siri和IBM公司的沃森这样的系统可以遵循简单的口头或打字命令，回答基本问题，但是他们不能对话，也没有真正了解他们使用的话。如果人工智能是真正的变革，这必须改变。