大悟读书网 > 人物传记 > 我看见的世界:李飞飞自传 > 09 万物以外是什么

09 万物以外是什么

“门怎么关着?”她继续问。

是妈妈。我和西尔维奥面面相觑,瞬间睁大了眼睛。

“西尔维奥在……呃,厨房里有很多蒸汽……”

“飞飞?你在里面吗?”

“你这也说不过去呀!”西尔维奥笑着,小声跟我说。

“没错,但令人惊奇的是,我们做这一切都是不假思索的。在一瞬间就发生了,就像我今晚看到你做的菜一样……”

“别傻笑了!”我一边回击,一边把门开了个小缝,刚好能一个人溜出去。我努力表现得很自然,但从母亲怅然的目光中,我知道我还是失败了。

“事物之间的关系。”

读了沃尔夫的论文后,“要点”这个概念一直萦绕在我的脑海里,让我深受鼓舞,因此,在加州理工学院的大部分时间里,我都在自行探索“要点”的本质。这方面的研究与计算机科学或人工智能没有明确的联系,但它直面了一个问题,即人类在看到现实世界时,究竟能感知到什么。虽然我和彼得罗以及克里斯托夫都认为,这种细致入微的感知对计算机视觉来说是个遥不可及的梦想,但我们坚信,只有更好地理解人类的行为,才能开启追逐梦想的旅程,于是我们设计了方法进行相关探索。2007年,我们将研究成果发表在以神经科学为重点的《视觉杂志》(Journal of Vision)上。

“对的,其中当然包括像物体这样基本的东西。我们很擅长快速扫描事物,但我们更擅长留意它们的布局和排列顺序,就是角度、位置之类的。还有我们对这种顺序的解读。”

在实验中,我们向22名实验对象展示了一组照片,共90张,每张照片的曝光时间从500毫秒(半秒)到27毫秒(大约是电影胶片单帧可见时间的一半)不等。这些照片都是简单的日常场景,但细节丰富,包含多个人物、多种事物和多项活动,有室内和室外,有自然环境,也有人工环境。实验对象的任务是尽可能详细地描述他们所看到的内容,准确来说是根据他们的记忆描述自己所看到的内容。

西尔维奥补充道:“他的想法是,我们对某个事物的第一印象就足以让我们理解这个事物,至少在某种程度上理解它,对吗?”

像所有的实验一样,这个实验开始时也是赌博,其中一半的乐趣来自不知道会发现什么的兴奋(虽然可能一无所获)。但努力最终得到了回报,我到现在都觉得我们收集到的反应非常了不起。例如,我们向实验对象展示了一张维多利亚时期的住宅内部照片,持续500毫秒。一个实验对象写道:“19世纪的豪华客厅,装饰华丽的单人座椅,墙上挂着一些肖像。”

西尔维奥讨厌做饭时分心。我知道这一点,他也知道我知道这一点。但他也很喜欢谈科学,而且他早就知道,一旦我因为某个科学话题而兴奋不已、滔滔不绝,他最好还是认真听完。我微微一笑,知道他可能在切辣椒的时候还在心中默默提醒自己:要耐心听她说话。

在短短半秒时间里,他们就看到了足够多的信息,能够对场景进行简单但基本完美的描述,对照片所代表的世纪、墙面装饰的性质和单件家具的结构进行了合理的推断。即使是在27毫秒的时间里,真正的认知也仍然存在(27毫秒大约是1/40秒,短到实验对象几乎没有机会进行深度细致的观察):看不太清;大部分是黑暗的,有一些方形的物体,可能是家具。

“我喜欢这篇文章的一个原因就是他的语言风格。”我接着说道,“他的想法如此宏大,用词却非常直白。”

“可能是家具”这几个字透露了很多信息。家具不是形状,不是颜色,甚至不是某种深植于我们基因中的自然现象,而是人类主观创造出来的现代物品。在如此短暂的时间内,就能记住一个如此复杂的概念,这多么令人惊叹啊。

“对,对。我记得当时觉得‘要点’这个词出现在这样的文章里特别搞笑。”西尔维奥一边用布拉塔奶酪、芝麻菜和西红柿摆盘,一边笑着说,不时还瞥一眼厨房门,确保门还关着。

不管有没有时间的限制,我都觉得这种能力太强大了。照片可能是静止的,但我们善于提取凝固在照片中的运动状态,从幅度很大的动作到几乎无法察觉的微小动作,我们都能敏锐地观察到。我们会自然而然地注意到身体、手臂和腿的角度,并立即感觉到它们从哪里来,要到哪里去,以及速度和力量、重量和平衡、动能和势能。我们可以想象画面捕捉到的瞬间所处的环境,以及可能产生的结果,比如滑板运动员从路边一跃而起之后的一刹那,或是年轻夫妇交换婚礼誓言后的一生。

杰里米·沃尔夫(Jeremy Wolfe)是世界知名学者,主要研究视觉记忆的内部运作机制。他对人类迅速理解场景的能力非常感兴趣,因此大部分研究工作都据此展开。1998年,他发表了一篇名为《视觉记忆:你对所见之物了解多少?》的文章,尽管其语调近乎口语,但其中的结论却异常精辟。他说,当我们看到一幅图像时,我们的大脑会“记住场景的要点”。

我们甚至可以从照片中推断出意图。我们可以从一个人的姿势感受到紧张的情绪、一个人与另一个人的亲密程度,甚至能从像眉毛的角度这样简单的事情中获取大量信息。这些信息足以让我们判断出自己看到的是什么人,他们之间的关系如何,以及他们的意图是什么。一个不耐烦的老板在过度劳累的员工面前晃来晃去;富有同情心的家长帮助孩子解决问题;亲密的朋友;完全陌生的人;喜爱或愤怒;工作或娱乐;安全或危险。

“记性不错!他好像1998年在哪本杂志上发表过一篇特别难懂的文章。不是研究结果,就是一篇观点文章,但绝对是我在加州理工学院读到的最有影响力的文章之一。我现在还在想里面的内容。”

关于自己身上的这个能力,我的感知也越来越强烈。每天晚上,我下班回到家,关上房门,甚至还没来得及放下包,就会做一件事。不算一种仪式,因为没有什么刻意的安排,却在每天的同一时间以同样的方式展开。这是任何病人家属都熟知的时刻:我会先找到母亲,无论她在家里的哪个角落——厨房、客厅,也许是后院——只需看她一眼,我就知道自己是不是应该担心,知道她这一天过得好不好。如果她状态良好,我就可以深深呼出一口气;如果不好,那就另当别论。

西尔维奥搅拌东西的手慢了下来。“沃尔夫……沃尔夫……哦,那个认知科学家?哈佛大学的?那个提出‘要点’的家伙,对吧?”

就是这么简单。这是我能做出的最重要的判断,一切都迅速而自然,仿佛认知魔法在自动完成,即使对我这样研究视觉的人来说,这一过程也几乎是不可察觉的。有时候我回到家,妈妈正在水槽边削土豆。爸爸系着围裙,正在往炉子上的炒锅里倒橄榄油,好像还有一碗准备下锅的鸡丁。两个人看起来都很满足,谁也没有抬头看我一眼,没有困惑或担忧的表情。谢天谢地,我可以舒口气了。这将是个美好的夜晚,至少此时是这样。

“你知道吗,我觉得特别有意思。我一眼就能看出来今晚是怎么回事。我立刻意识到必须让妈妈远离厨房。看到锅碗瓢盆的奇妙排列,听到嘈杂声,我就知道你准备做一顿大餐,一进厨房就感受到了,都没有刻意去想。你知道这让我想到什么了吗?我想到了杰里米·沃尔夫。”

但也有一些时候并不美好。妈妈在沙发上,坐也不是,躺也不是,看起来很不舒服。她一手扶额,眉毛拧在一起。猫蜷缩在她身旁,她的另一只手只是无力地搭在猫背上,并没有在抚摸。

“怎么了?”西尔维奥问。

情况不妙。需要量一下血压,测一下体温和脉搏,然后可能要给医生打个电话。

他知道我是什么意思。在一个三代同堂、融合了两种文化的家庭里,西尔维奥很快掌握了与我母亲共处一室的艺术。母亲对厨房的清洁要求几乎达到了极致的程度——她遵循着一边做饭一边收拾的信条,更准确地说,她的主要精力放在了收拾上,做饭只是顺便为之。尽管她很喜欢西尔维奥的厨艺,但像这样精心制作晚餐往往会导致家庭关系的紧张。我又欣赏了一会儿他的表演,然后暗自发笑。

这种能力迅速而强大。在我的记忆中,我很少有意识地去列举周围的单个物体——一屋子的家具、我的父母、他们穿的衣服、厨房用具、未开封的包裹或信封、西尔维奥的咖啡机、家里的猫等等。我们花了很多精力来教机器对物体进行分类,但分类所依靠的似乎不仅仅是视觉敏锐度。在这样的时刻,发生了一些更深层级的事情:我不仅仅是看到了母亲的本体,而且是在了解她的状态,评估她的姿势,揣摩她的态度,从她眉间的皱纹或靠在柜台上时身体的角度等无形的东西中,得出生死攸关的推论。

“哇,我都等不及了,不过我们还是先把门关上吧。”

即使是最先进的算法,也会立刻被人类这种能力所折服。我们能想象出的最肤浅的感知成就,就是可以识别物体。只要算法的分类错误率稍有降低,我们便大肆庆祝,觉得取得了了不起的进展。与此同时,我们的大脑每时每刻都对世界充满了无比流畅的感知,以至周围环境的无限生机对我们来说几乎就是无意识的存在。早在20世纪70年代,研究员兼数学家阿纳托尔·霍尔特(Anatol Holt)就总结过在研究领域这种小成即满的短视现象。他说,人工智能这种技术,就算房间着火也会不管不顾,完美地走出下一步棋。即使是现在,这一论断依然非常贴切。现代人工智能的表现就像玩游戏的天才,可以熟练应对孤立的任务,应对“错误率”等狭隘指标,却无法注意到落在棋盘上的余烬正在燃烧。

“我就是想做点特别的晚餐,这是意式炖章鱼,我还准备了西葫芦意面、烤辣椒、布拉塔奶酪和芝麻菜什么的。”

人类的感知力虽然有种种局限,但与机器截然相反。我们从整体上看待世界,不仅能识别世界的内容,更可以进一步理解不同事物之间的关系、意义、过去和未来。这就是“要点”。我们不仅是见证者,更是故事讲述者。是时候让算法也学习一下这种本领了。

“你在做什么呢?”我问。

“给你,读读这个。”我把自己发表在《视觉杂志》上的论文打印出来,放到安德烈·卡尔帕西(Andrej Karpathy)的桌子上。安德烈是一名二年级博士研究生,刚刚加入实验室,前途无量。他出生于斯洛伐克,在加拿大长大,身材修长,语速飞快。他热衷于解决复杂的问题,并具有将想法付诸实践的技术天赋。和我实验室里的许多学生一样,他具备工程师的胆识和韧劲,拆卸起晶体管收音机就像在白板上写方程式一样轻松自如。如果说爱因斯坦、玻尔和惠勒是宇宙梦想家,那么像安德烈这样的学生或许与爱迪生或莱特兄弟是同类。外界几乎看不到这两种人的区别,但在我们实验室里,梦想家和实干家的区别无处不在,从每次交谈中都能看出来。两种风格截然相反,但又相辅相成,每一种风格都注定要挑战对方、吸引对方,甚至轻微地激怒对方。但在尝试新事物时(尤其是实验室经常会尝试难度很大的新事物),两者的组合就会产生强大的力量。

厨房里一片狼藉,但非常符合我的心意。西尔维奥好像在自家作坊里的工匠,娴熟地在散乱的锅碗瓢盆之间来回穿梭,偶尔拿起旁边摆放的器皿,还不时地从台面上的各种袋子、盒子和罐子里抓取食材。

“这是什么?”他一边问,一边拿起来浏览摘要。

她已经从理智上充分阐述了自己的观点,但最打动我的是她的热情。作为教授,我们最希望看到的,也是觉得最有价值的,就是学生能够独立提出新创意、新想法,甚至完全出人意料的观点。她的直觉没错。她帮助我们拿到了人口调查数据。仔细研究之后,我们不仅惊叹于数据的广泛性和多样性,还惊叹于它们所探讨的议题维度。我们手头拥有了全美范围内的政治、教育、收入甚至犯罪情况,所有数据都可以与计算机视觉这一关于世界的根本性新信号相结合。我们实验室从来没有遇到过这样的数据,它们为我们的工作注入了前所未有的力量。我们的项目已经不仅仅是数据挖掘这么简单了。

“我们的下一个挑战。”

“可能性是无限的。人口普查绝对是数据宝库,所有数据都是按照社区、县、州甚至选区组织的,但收集这些数据需要花费海量的时间和精力。如果能把人口普查的数据和我们的分类器采集到的事物关联起来,你能想象会产生什么结果吗?”

自此以后,和安德烈的会面便成了我的固定日程。我们的目标是设计一种新的算法,不只是能简单地标记任何出现在前景中的物体,更可以描述整个场景。即使按照我们实验室设定的高标准,这种新算法也感觉像是我们研究的未来,甚至可能是整个领域的未来。但是我的激情让我成为极其严苛的批评者。

“你是建议我们把这个纳入我们的分析吗?”

“好吧,安德烈,这看起来很不错。”

她接着说了下去,我能从声音中听出坚定的信念。“美国人口调查局每年都会在全国范围内开展美国社区调查,追踪全国各地的大量社会学信息。”

“但是……?”他犹豫了一下,笑着说。他知道这句话后面跟的是什么。

我们初次相遇是在一年前,她参加了我的一个高级研讨会。当时她还是电气工程专业的三年级研究生,几乎没有人工智能方面的背景。但我对她印象很深,不仅因为她是唯一一位攻读工程学博士学位的黑人女性,还因为她乐于提问,表现出了教授们一眼就能注意到的强烈的求知欲。当她请求加入实验室时,我毫不犹豫地答应了,甚至连推荐信这样的基本手续都免了。

他工作站上的显示屏似乎展现了我们的想法:只需输入一张图片,就能输出一句图片描述。

蒂姆尼特是三位参与项目的学生中资历最浅的,但她充满激情,干劲十足,气场强大。虽然和我一样个子不高,但她天生自信,具备出色的演讲天赋,能轻松地掌控全场。邓嘉正在为他的博士论文答辩做准备,乔恩则忙于处理其他项目,因此蒂姆尼特毫不犹豫地主导了这项研究。

他的算法很聪明,在某些方面甚至极其聪明;尽管如此,我知道我们还有更长的路要走。这只是解决方案的一个片段,而不是整体。“但是,我们还没有实现目标。”

“我们的想法是将图像分类器应用到所有街景图像上,追踪所有我们能追踪到的汽车型号,看看能揭示出什么样的模式。我一直在研究,我想我们已经找到了完美的实现方法。”

他无力地坐在座位上。

“各位,在休息之前,我有个想法要跟大家分享。”在我们每周一次的街景项目研讨会议即将结束时,一位叫蒂姆尼特·格布鲁(Timnit Gebru)的研究生开口说道。大家聚集在我的办公室里,这是盖茨计算机科学大楼三楼一个长方形小房间,完全符合人们对学术办公室的刻板印象——狭窄的空间里堆满了书籍、文件和小摆设,从书架往房间中央蔓延,让办公室显得更加拥挤不堪。学生三人组在四面杂物的簇拥下,挤坐在鲜红色的沙发上。

方法问题非常微妙。在担任教授的这些年里,我已经敏锐地注意到了与此相关的现象。学生们往往会疯狂地专注于自己的模型是否有效,以至“模型如何运作”的问题被抛到了一边,安德烈就是这种情况。不可否认,他的模型乍一看的确有效,但通过定期的交流,我对他的思路已经非常了解。虽然他的方法有理有据,提供的图片说明也很有文采,但最终得出的模型只是某种图片说明匹配系统。

但要真正揭秘,还需要一番努力。我们计划以汽车为切入点,把汽车和车主的收入、教育和职业等身份方面联系起来,探索更大的社会经济问题。然而,我们不得不面对这样一个事实:货币价值上的巨大差距往往只能表现为外观上的细微差别。尽管我们可以轻易区分凯迪拉克轿车和丰田皮卡,但早期的实验表明,一个经过训练的“天真”的分类器很容易把凯迪拉克误认为本田雅阁,尤其是当两种车颜色相似时——这正是我们希望避免的错误。把凯迪拉克ATS车型与CTS车型区分开来难度更大,更不用说每个车型内部的无数变化了。我们发现,内饰的概念尤其令人头疼,因为总价数千美元甚至更高的选装包通常只是对车身样式和徽标进行微小的改动。

简单来说,他的计算机屏幕上显示的描述似乎过多来自某种形式的训练数据,就好像他的算法是在某种精心设计的数据库中搜索合适的描述一样。我们的最终目标是让算法可以完全从头开始生成图片说明,而在我看来,他的模型无法实现这个目标。我确信他的模型在实践中无法泛化:尽管在测试时表现良好,但它会被训练集之外的图片所迷惑,导致图片说明出现描述错误或语法错误,或二者兼有。但真正的问题在于科学性。模型提供输出图片说明的方式是通过检索,这并不属于真正的创作。

与此同时,我们还要克服一系列常见的障碍。当然,规模是一个无法回避的挑战,但这次我们准备好了。在ImageNet之后,我们已经习惯了处理海量数据所带来的巨大负担。我们仔细搜索了Craigslist、Cars.com、Edmunds和其他一些在线汽车交易市场网站,生成了包含2657种车型的训练图像集,几乎涵盖了2014年在路上行驶的所有车型。我们把图像导入我们构建的最大、最精确的分类器中。我们还利用大量的谷歌街景图像,在服务器中填充描绘整个美国纵横交错的街道、林荫大道、拐角、十字路口和死胡同的照片。在我们的实验室里,世界的另一个缩影正在形成。不久之后,我们就可以直接研究这个缩影,揭开其中隐藏的秘密。

安德烈叹了口气,充分认识到我给他增加了多么大的工作量。他显然很气恼,但我知道他能认识到,这道鸿沟是值得跨越的。

我们能如愿以偿、得到回报吗?我们没有浪费时间去担心这个问题,而是选择拥抱世界,接受世界的真实面貌,不妥协、不简化——仅仅是这一点,就让我们觉得这是一项值得为之献身的使命。无论我们了解世界的窗口是汽车模型、鸟类物种,还是其他事物(也许我们的下一个项目将探索各种铺设道路、爬行动物的鳞片、小提琴的饰面),每一步都让人感觉距离用全新的眼光看待现实的时刻更近了一点。无论我们发现了什么,我都相信这趟旅程是值得的。

“好吧,让我重新思考一下。”他说,“我明白了,图片说明需要逐字逐句地书写。这就产生了很多问题,比如我们怎样才能遵循图像的视觉特征,写出语法正确的内容,但是……我会想办法的。”

我们精心挑选散布在互联网上的资料,不断扩充汽车模型的图片库。我想象着,如果要跟十几岁时的自己解释这种烦琐的工作跟科学有什么关系,可能很难说清楚。当然,具体的工作细节并不重要;它只是再次证明了我们实验室的核心价值:永远尊重世界的复杂性,并渴望不惜一切代价对其进行探索。我们感觉自己就像艺术爱好者在导游的带领下参观博物馆,每一个新的展品都在挑战我们,同时也激起了我们对周围无限细节的敬畏之情。

我笑了笑。他没有掩饰自己的沮丧,但他的思路是对的。作为一名科学家,我拒绝接受任何折中方案,他很清楚这一点。至于他如何实现,谁也说不准,但我知道,他骨子里和我一样不屈不挠。我相信他会成功的。

我越来越觉得,我们研究的主题已经不是“视觉”这么简单了。把视觉敏锐度和百科全书式的知识深度结合,可以带来一种全新的能力。这种新能力是什么尚不可知,但我相信,它绝不仅仅是机器版的人眼。它是一种全新的存在,是一种更深入、更精细的透镜,能够从我们从未想象过的角度揭示这个世界。

语言文字和视觉图像是两个完全不同的领域。图像的基本单位是“像素”,这个术语最初是“图像元素”的缩写,现在已经很常用。像素是一个几乎无法察觉的点,捕捉了场景中单个小点的颜色。要描绘出有意义的画面,可能需要数百甚至数千个像素,或者更多。我们口袋里的手机可以捕捉到由数千万个像素点组成的细节丰富的图像。但是,在单独评估图像时,像素本身基本上不能提供任何信息。无论是我们大脑中的灰质还是机器中的硅,视觉算法的工作就是将这些像素组合成越来越大的二维图像区域,然后以某种方式扫描其中与现实世界的三维特征相对应的模式:空间、体积、表面、纹理等等。

从那时起,种种思考开始以新的方式连点成线。多亏了谷歌的街景系统,我们现在拥有了美国几乎每一个社区的高分辨率图像。虽然谷歌地图的主要用途是帮助导航,但它展现的关于世界的种种细节让我震撼不已。树木、路灯、邮箱,当然还有我们驾驶的汽车——街景图让我们有机会窥探到那些隐匿在我们身边的信息。想到我们实验室在精确区分汽车型号方面所做的工作,我就感觉街景图提供的机会像是又一次意外之喜。

相比之下,英语等语言的基本单位是单词,至少在日常口语和书写中是如此。与像素不同的是,单词通常表达独特的含义,独立存在时同样可以表意。单词的范围虽然很大,但数量是有限的。尽管如此,当我们把单词组合在一起之后,它们的含义就会受到影响,甚至完全改变,比如“rock bottom”(最低点)、“rock fragment”(岩石碎片)和“rock music”(摇滚乐),这几对单词都含有rock一词,意思却完全不同。当更多的单词串联起来构成更长的句子时,这种现象就会变得更加复杂,更不用说段落、文章和书籍了。总之,单词表达思想的组合潜力是无穷无尽的。

在一般物体分类方面,计算机已与人类水平相差无几。当人工智能努力克服相差的最后几个百分点时,它似乎又在其他方面超越了我们,而且超越幅度极大,因为计算机在知识储存方面的能力让人类大脑望尘莫及。

虽然新时代早期的头条新闻主要是计算机视觉的突破,但在同一时期,自然语言处理技术也取得了丰硕成果。其中一颗早期的明珠就是递归神经网络(Recurrent Neural Network,RNN)。递归神经网络是一组专门为处理线性单词序列而设计的算法,能够快速推断文本的基本属性,就像AlexNet这类卷积神经网络处理图像的方式一样。和卷积神经网络一样,递归神经网络也已经存在了几十年,但直到现在,人们才意识到它们的真正威力。

然而,技术表现接近“人类水平”的说法本身,会让人觉得是臆想,甚至是海市蜃楼。人类的能力维度是丰富多样的,远非任何单一指标所能衡量。但我们的缺点和优点一样具有启发性。例如,人类可以用各种常识、视觉线索和直觉来解释为什么自己认为附近树上的鸟是沿海蓝鸦,在这方面,人类比机器做得更好。但人类识别鸟类的能力是非常有限的,即使是经验丰富的鸟类观察者,也很少能识别出几百种以上的鸟类。因此,对普通的观察者来说,绝大多数鸟类是未知的。

然而,比任何一个领域的进展都更具吸引力的,或许是人工智能的众多子领域之间开始出现交叉融合。不断壮大的神经网络家族为视觉、语言、语音和其他形式的感知提供了一个共同的算法框架,激励着像我们这样的实验室去模糊它们之间的界限,以实现更综合、更像人类的能力。

我们之所以知道这一点,是因为许多新的神经网络模型参加了ImageNet挑战赛。自2009年ImageNet数据集在计算机视觉与模式识别大会首次亮相以来,五年多时间里,ImageNet挑战赛已经发展成为计算机视觉领域的基础赛事,为该领域的技术进步提供了共同的基准,这也是我们一直以来的心愿。为了避免任何明显的利益冲突,我们实验室的政策是不提交自己的算法模型,但仅仅是观摩比赛就已经成为一项定期活动,其重要程度可以与圣诞节相媲美。每年都有新的进展,机器表现与人类表现之间的差距不断缩小。机器的误差率越来越小,越来越接近人类的水平,也许未来甚至会超过人类的水平。

“我想我有办法了。”安德烈隔着我办公室的门说。距离我们上次谈话已经过去了几天,这次他显得没那么沮丧了。我甚至看得出他有了好点子。“想象一下,把卷积神经网络和递归神经网络进行配对,”他一边说一边进屋坐到沙发上,“一个负责对视觉信息进行编码,同时将它跟单词配对,另一个负责生成语言。然后我们以成对出现的图像和人类文字描述为基础,来训练我们的模型。”

AlexNet催生了新一代神经网络,每年都取得令人惊叹的飞跃。像任何占主导地位的生物一样,这种新型神经网络几乎垄断了它们所处的环境。它们是如此有效而优雅,适用范围又如此之广,几乎所有其他技术都在一夜之间被淘汰出局。仅在一两年前,支持向量机和贝叶斯网络等算法还是学术界的宠儿、研究人员的迷恋对象,而现在,这些算法几乎从会议讲座、发表的文章甚至实验室里的谈话中消声遗迹了,所有人都只想谈论神经网络的最新发展。

现在总算有些眉目了,我边琢磨边点头。

从个人到社区,汽车可以反映出人群方方面面的信息,但相关信息的评估规模却相当有限。历来的调查都试图收集这类信息,但聘请专业人员绘制整个城市的汽车保有量地图既昂贵又耗时,而且无法在中等规模以上的地区进行实际操作。那么,如果能够克服这些限制呢?如果在我们希望的任何规模上,都能进行汽车保有量分析呢?如果不仅仅是分析汽车,而是能分析一切事物呢?如果我们想分析什么,就能分析什么,结果会怎样?如果我们深入分析日常生活的相关数据,仅仅以这种简单的方式,能获得什么有关社会、文化甚至政治领域的新见解吗?这些问题似乎无法回答,除非我们创造出全新的感知方式。我突然灵感乍现:谷歌街景、汽车识别算法、细粒度分类——原来我们已经在创造新的感知方式了!

“继续。”我好奇他还有什么想法,“然后呢?”

朋友约我去一家新开业的火锅店吃晚饭,我打开谷歌地图,找到了这家店,还用街景模式看了几张店面照片,这样从车上就能认出它。我无时无刻不在观察各种视觉细节。在大多数时间里,这种兴趣会消退为一种白噪声,但在今天开往火锅店的路上,我的注意力比平常更加活跃。如果说我有一半的精力是在导航去往吃晚饭的地方,那么另一半的精力则沉迷于沿途所见。

“肯定还有一些未知的东西需要解决,但我认为递归神经网络会根据语库中已有的单词,有条件地生成图片描述中的每个新单词。这样,我们在描述图像内容的同时,也能遵循从训练数据中推断出的语法模式。至少从理论上来讲,结果应该是一个完全新颖的描述,或多或少是使用自然语言来呈现的。”

又是一辆特斯拉。2012年年中,Model S发布还不到一年,就成了帕洛阿尔托随处可见的时尚标志。这辆车的车主可能是个技术男,或者是搞风投的。我经过的下一辆车没那么豪华,但也能反映一些车主的信息。那是一辆两厢车,车身漆成米黄色,但可能因为常年停在户外而已经褪色。看起来像是我的学生会开的车。

我很难不被这个想法打动。哪怕这招儿只有一半管用,他也能从我给他留下的困境中脱身。我迫不及待地想知道接下来会发生什么。

多年来,这也成了我的习惯。

我们的谷歌街景汽车项目已经完成,收集到的数据深度极为惊人。我们的分类器处理了来自200多个城市的5000多万张图片,覆盖了3000多个邮政编码和近4万个选区。总的来说,算法识别了2200多万辆汽车,几乎占全美汽车总量的10%。从统计学上看,我们的观察结果具有非凡的意义,其中一些证实了人们的刻板印象,特别有意思。比如我们对城市轿车和皮卡比例的研究发现:当轿车比例较高时,这个城市88%的人可能投票给民主党;当皮卡车比例较高时,82%的人可能投票给共和党。但这仅仅是个开始。

生活往往是这样的:为人妻、为人母,同时追求自己的事业,所有的责任似乎在一夜之间爆发。虽然日程繁忙,我还是会偶尔抽出时间,陪父亲去参加他最喜欢的车库市场。我的生活步调似乎永远在加速,而跟父亲一起闲逛是难得的平静和怀旧时刻。他的爱好就像一个纽带,从我们在一个陌生国家最初的日子里就一直伴随着我们。我尤其喜欢他的用心和敏锐,看到陌生人车库桌上摆放的待售物品,就能推断出这个人的生活点滴。不管猜的是对还是错,他的尝试总是带着真诚,而且感觉合乎情理。

例如,在我们的研究结果中,车主的种族和他们喜欢的品牌之间具有极强的相关性,几乎与美国社区调查关于同一社区种族构成的数据完全一致。同样,根据汽车数据,也可以对某个地区的平均教育水平和收入水平做出准确的预测。我们的模型一次又一次地生成了整个城市的彩色编码地图,追踪从一端到另一端的社会经济和政治指标的波动,所有数据都与人口调查局使用传统方法收集的数据惊人地相似。而所有这些,仅仅通过观察街道上的汽车就能实现。

“还挺多的,有些手套我很喜欢。还有一个特别漂亮的工具套装。我看到车库里还有更好的工具,但我觉得不是用来卖的。我觉得这个房主应该会做木工。”

不过,我们真正的发现,是我们所展示的流程有潜力发展成为一种速度快、可扩展、成本相对较低的人工调查替代方法(仅在美国,每年的人工调查费用就超过2.5亿美元)。这是我们实验室历史上规模最大、目标最高的项目之一,我们的论文发表在《美国国家科学院院刊》(Proceedings of the NationalAcademy of Sciences,PNAS)上,蒂姆尼特作为第一作者,因其出色的贡献而实至名归。从技术层面来说,我为这项工作感到骄傲,但最让我兴奋的是,这项工作揭示了人工智能可以用全新的方式向我们展示世界。

可能是,我自言自语着,瞥了一眼另一张桌子:“那边有什么有意思的东西吗?”

我手里拿着钱包、手机,还端着半杯星巴克咖啡,侧身用肩膀推开了实验室的门。这是个典型的上午,我的日程安排得满满当当,但有些心神恍惚,正匆匆忙忙地从一个会议赶往下一个会议,边赶路边熟悉议程。当我经过安德烈的办公室时,他向我招了招手。

“挺好看的,这个……”他说,然后又凑近看了看,“看着像手工做的,你不觉得吗?这里一定住着个木匠。”他放低了声音,好像不想让人听到他在说普通话。

“看看这个。”他说着,朝自己的工作站点了点头。这次他脸上的表情明显自信多了。

一个华丽的木制香料架引起了我的注意。我拿起来仔细看了看。父亲注意到我感兴趣的样子,走过来跟我一起观察。

我匆匆走了进去,兴奋地想看看最新的消息,几乎忘了自己要去哪里。屏幕上是一张少年和滑板的照片,两者都在半空中,背景是蓝天和远处的灌木丛。在图像下方的一个小命令行窗口中,显示着一句话:

比德曼的数字的确很大,但这个虚构的数字很有必要,因为它把“万物”的定义做了删节,方便我们的思维和算法进行理解;当然,即便是这样的数字,我们的思维和算法也只能勉强应对。现在,我们站在了新的起点。我们身处广袤之境的悬崖边缘,即将找到“万物”以外的真相。

一个滑板上的人。

然而,当我环顾教室,我并没有在学生们的脸上看到惊悚或绝望的表情。我看到的是他们眼后的齿轮开始转动。毫无疑问,我们每个人都在想同一个问题:旅程尚未结束,我们还有很多事物要探索。

我还没反应过来,就已经笑了出来。安德烈让这个瞬间停留了一秒钟,然后按下按键。另一张图片出现了,图片上是一个杂乱的建筑工地,两个穿着橙色背心的工人正在浇灌水泥。一两秒后,出现了另一句话:

然而,科学最伟大的优点之一,就是能够将让人谦卑的一刻重塑为充满可能性的一刻。我们花了数年时间收集了数十亿张图片,招募了全球志愿者帮忙标注分类,但只要翻阅一下汽车杂志《凯利蓝皮书》,就能意识到,我们仅仅触及了皮毛而已。比起树叶,我们更接近树根。我们付出了多年的努力,与地球上最聪明的人展开全球竞争,最终也只是向真正的视觉智能迈出了一小步。

建筑工人在路边施工。

下午的这堂实物教学课程的内容后来被称为“细粒度分类”(fine-grained classification)。细粒度分类课题研究的是细节:识别的对象越相似,所需要的细节就越细微。乍一看,我们的研究只是从区分明显的差异延伸到了解析不太明显的差异,但这一过程却向我们传达了更加震撼和富有启发性的信息:即使是我们最大规模的设计,也还是想得过于狭隘了。

他又按了一次键。另一张图片出现,又是一个新的图片说明。然后接连不断地出现。场景的数量和多样性清楚地表明,这些句子并不是从某个训练语料库中提取出来的,而是模型自己写的。

有听众指出,最近有几篇关于鸟类的计算机视觉论文,其中有59种鸟被ImageNet收录,这个规模看起来已经很大了,但跟康奈尔大学一个涵盖了数百种鸟的数据集相比,就相形见绌了。然而据估计,全世界有超过1万种鸟,即使是最先进的数据项目也比现实落后了好几个数量级。我想到了科技媒体上那种激动的口吻,一篇又一篇的文章宣告着机器学习时代已经到来,图像分类难题突然“迎刃而解”。我不禁笑了:这个世界上的梧桐树、百灵鹤和丰田汽车可不是这么想的。

安德烈也喜笑颜开。不过,和其他优秀的科学家一样,自豪之余,他也不忘告诫自己:“当然,还有一些问题需要解决,比如……”

对某些事物来说,同一类别之间的差距微乎其微,汽车就是其中之一。邓嘉和乔恩下午的速成班就让我们见识到了汽车的复杂性。例如,我们可能会明显辨认出一辆丰田汽车的图片(仅管我们中的大多数人可能没有准备好讨论汽车);经过一番研究,我们似乎也能确定这辆车是丰田雅力士。但到底是2008款还是2009款呢?这个问题一下子就把人难住了。是2008款丰田雅力士的炽烈蓝珍珠色,还是2008款的河口蓝珍珠色?当年两种颜色都有,而且都是……蓝色的。是炽烈蓝珍珠色的2008款丰田雅力士基础款,还是炽烈蓝珍珠色的2008款丰田雅力士掀背运动款?神奇的是,还可以再继续追问下去。这一切都是为了了解一个制造商生产的一个车型的一个款式。而这还只是汽车而已。

他又点击了一下,一张新的图片出现了,是一位游客在西班牙乡村风格的广场上拍摄的,后来我才知道,这是特鲁希略的市政广场,这座城市以其丰富的文艺复兴时期建筑而闻名。我正沉浸在这幅画面中,图片说明出现了:

虽然ImageNet规模庞大、细节丰富,但它并非完美之作。虽然有些分类特别精细(树木就是一个很好的例子),但有时候,一些明显存在差异的概念依然会被归为同一类别,概念范围相对粗略,同类概念之间的差异也较为明显。这确保了我们的分类器在很多领域都可以比较轻松地完成任务。

一名男子骑马经过建筑物旁边的街道。

我一直认为,ImageNet的真正贡献在于它的双重性质。其庞大的规模之所以强大,是因为其中数据的组织遵循了本体层级结构,而其本体层级结构之所以强大,是因为数据规模足够庞大和全面,涵盖了如此多样化的类别。这两个优势中的任何一个单独拿出来都是不够的。但就像规模本身一样,“类别”这样的术语也是相对的。如同对冲技术所展示的那样,针对提出的问题,在多个不同的深度层级都能找到有效的类别答案。随着深入层级的加深,概念之间的距离变得更小,分隔的细节也减少了,例如:事物—生物—植物—树木—枫树—欧亚槭。

我们俩都被逗笑了——算法描述得近乎完美,却遗漏了关键的信息:人和马都是青铜做的雕塑。有趣的失误还在继续。在算法看来,睡在沙发上的宠物海豹是一只猫,一个拿着牙刷玩耍的婴儿是一个拿着棒球棒的小男孩。算法完美描述了在草原上吃草的斑马,只是完全没有注意到它们身后那道惊艳的彩虹。算法的错误往往带有一种孩子般的笨拙,而这种笨拙却出奇地可爱,温馨地提示着我们:我们还有很多东西要学,我们的机器也一样。不过,安德烈的成就(虽有瑕疵)才是最令人难忘的。

他不是在开玩笑。这是我们首次窥见一个比我们任何人意识到的都要大得多的话题。

“我们得把这个写出来发表。”我说。

“等一下。”乔恩会意地咧嘴一笑。

“真的吗?”他问,“现在就开始写?”

“汽车吗?”有人问。

“是的,当然。”我急切地回答,急切的程度连我自己都感到吃惊。不知何故,我突然很焦虑。也许是媒体对我们领域的狂热影响到了我,也许是作为实验室主任的自豪感涌上心头。不管是什么原因,焦虑感并未消退。

随着鼠标的点击,画面分成了两屏,一边是一辆汽车的照片,另一边是与之相对应的计算机辅助设计(CAD)线框图,也就是汽车设计师绘制的示意图。然后,后一张图片被叠加在前一张图片上,用数字红线勾勒出真实汽车的格栅、车窗和车身面板的轮廓,突显了分类器为精确识别车型而需要准确辨认出的特征。

“越快越好。”我说。

接着,乔恩站起来回答。他来自俄亥俄州,温文尔雅,穿着T恤和工装短裤时感到最自在。他和邓嘉一样寡言少语,只是表现的方式更怪一点儿,比如,他很快就因迷恋小熊猫而出名,还打印了一张小熊猫的图片,一直贴在工作站显示器的上方。他也是一个不轻易屈服的人,就像我的实验室里其他顶尖研究人员一样,当他觉得有必要让别人听到自己的声音时,他会坚定地发表意见。

“你是说和一台机器约会吗?就像电影《她》一样?”

接下来的演讲提出了一个更广泛、更深奥的问题:如果我们反其道而行之,深入分支,那么等待我们的将会是什么?我们的算法将如何应对比其构建之时所能理解的世界更加微妙、更加复杂的世界?

学生的话引起了全场的笑声。斯派克·琼斯(Spike Jonze)的电影《她》讲述一个男人爱上了人工智能伴侣的故事,大多数人都对这部电影记忆犹新。

邓嘉和乔恩的“对冲”技术是我认为最有启发性的思维方式。对冲技术优雅而直观,一旦理解它之后,甚至会觉得它非常简单,但要完成开发,则需要真正的洞察力。他们的算法巧妙精确,是计算机视觉多种发展方式的杰出典范。

“为什么不行呢?”另一位学生回答道,“如果机器有足够的智能,能够像我们人类一样进行真正的对话,就像我们现在的对话方式一样,那么谁又能说人和机器之间不会有恋爱的可能性呢?”

我不禁注意到,大数据的力量又一次得到了充分展示。如果没有ImageNet这一庞大的图像库,他们的研究就不可能如此精妙。ImageNet不仅提供了探索层级概念宇宙所需的原始数据,更重要的是,正是由于其规模和图像的本体组织形式,不同的概念关系才得以被发现。无须告诉模型如何从较高层级的细节移动到较低层级的细节,也无须设计新的连接或路径列表。ImageNet是如此全面,模型所需的一切都已存在其中。只需要一些新的策略,就可以充分利用之。

“我不知道……对我来说,这听起来有些荒诞。”

猫鲨、西瓜纹河马兽、斑纹羊角袋鼠的奇观告一段落,接下来,他们要展示的是这项技术在更为实际的场景中如何有效地发挥作用。一只柯基犬的特写镜头被传统分类器错误地标记为“金毛寻回犬”,而他们的算法则会对冲风险,采用“狗”这个更加安全的标签;一辆外装奇特、涂装混乱的出租车原本被错误地贴上了“坦克”的标签,现在则被标注为“车辆”;如此等等。

“但原则上没有任何障碍,对吧?我们至少能在这一点上达成一致吧?”

邓嘉和乔恩将这种层级原则引入了计算机视觉领域。如果分类器有充分的理由相信它观察到的可能是鸭子或鳄鱼,却没有足够的信息来判断究竟是哪一种时,明智之举就是将其上移一级,选择概念更宽泛的上义词,以牺牲较深一级的特定性为代价,换取较浅一级的安全性。

那是寒假前的最后一个周五,我正在参加我最喜欢的活动:斯坦福大学人工智能实验室师生每月两次的闭门聚会“人工智能沙龙”,讨论人工智能领域的热门话题。自首次会议以来,我们已经探讨了各种各样的话题,有电影和电视中对人工智能的描述等文化问题,也有哲学辩论,比如范畴和符号结构究竟是语言的基本事实,还是如那次尖锐的讨论题目所示,属于“语言学家的幻想”。

在发表于1975年的开创性论文中,罗施提出了一组更精确的词语来描述“理解层级”。所谓的“理解层级”,是指从“一般”到“特殊”的光谱,无数概念都可以在这个光谱上找到自己的位置。以邓嘉的动物分类“鸭子”为例。“鸭子”存在于一个特定的细节层级上,与“鸭科”(包括鸭、鹅和天鹅的生物科)“动物”、“生物”以及最终的“事物”等浅层分类相比(罗施称之为“上义词”),要理解“鸭子”这一概念,需要更多信息;但与“野鸭”“鸳鸯”“环纹凫”等深层分类相比(罗施称之为“下义词”),理解“鸭子”所需的信息则相对较少。从整体上看,包括ImageNet在内的类似层级结构就像一棵树。向树根移动,意味着更低的特异性和差异性,而向树叶(每根树枝的最远端)移动,则意味着更高的特异性和差异性。

今天我们讨论的是《超级智能》,这本书是牛津大学哲学家尼克·博斯特罗姆(Nick Bostrom)探索人工智能未来的一本颇具争议性的巨著。比尔·盖茨和埃隆·马斯克等人都在推特上对这本书大加赞赏,同时也表达了对其影响的担忧;在他们的推荐下,这本书在大众市场获得了意想不到的成功,重新引发了人们对科幻小说中人类与机器之间即将决一胜负的讨论。我们的谈话不拘一格,涉及机器人杀手、算法中主观意识的潜力,最后还谈到了与电脑相爱的想法。不过,就连那天下午最刺激的漫无边际的讨论,也承载着我在往年不曾预料到的分量。当未来突然如此迅速地来临时,我们很难不去谈论未来。

罗施在范畴及其在思维中的作用方面做出了重大贡献,为我们对这一概念的现代理解提供了关键帮助。她在全球开展了一系列实验,主要研究人类是如何把世界概念化的,研究对象既有加州大学伯克利分校的研究生,也有巴布亚新几内亚的高原部落居民。虽然对范畴的研究可以追溯到亚里士多德,但罗施的实验方法将简洁清晰的逻辑与经验数据相结合,在20世纪70年代掀起了范畴研究的热潮。

2012年ImageNet挑战赛的冲击波仍在回荡。对像我们这样痴迷于计算机视觉的人来说,这是一个分水岭,全世界都开始认识到,比赛结果不仅仅是对图片理解的转折点,更是对一切事物理解的转折点。在这个曾经鲜为人知的竞赛中,AlexNet展示了大规模数据集、高速图形处理器和深度分层神经网络三者近乎神奇的组合。这种组合是一幅蓝图,其应用范围注定要远远超出计算机视觉领域。世界各地的实验室都在构建更加丰富的分层网络,与此相对应的,一个新的名字正在流行——这不仅仅是机器学习的时代,更是深度学习的时代。

这项工作提醒我们,尽管我们的研究主要集中在视觉方面,但语言描述也是不可或缺的一部分。毕竟,没有WordNet,就不可能有ImageNet。WordNet为每个类别提供了框架,使它们不仅拥有自己的标签,还能在相互连接的思维树中找到自己的位置。如果没有心理学家埃莉诺·罗施(Eleanor Rosch)的工作,很难想象WordNet会是什么样子。

一种全新的范式正在诞生,一如20世纪初物理学的崛起。这让我回想起十几岁时那些激发我想象力的故事,我幻想着,在那些激情燃烧的岁月里,物理学家们过着怎样的人生。这些早期先驱一定感受到了无限的神秘和深深的敬畏,量子世界的奥秘和宇宙相对论的威严唤醒了他们,他们对现实的看法发生了翻天覆地的变化,这种变化来得如此彻底、如此突然,让人很难不心生羡慕。他们在正确的时间出生在正确的地点,接受了历史最令人惊叹的礼物之一。我们不禁要问,神经网络这一现代化身是否就是我们这一代人的使命和召唤?

这个标签又引来了大家的一阵哄笑,但邓嘉依然不动声色,这是他的典型风格,低调而出彩。此次演讲以他最新发表的论文为基础,论文题目叫作《赌注对冲:优化大规模视觉识别中的准确性和特异性权衡》,由他与即将毕业的博士生乔恩·克劳斯(Jon Krause)合作完成。他们在论文中指出,即使是最先进的图像分类器,也面临一个日益增长的挑战,即需要在面对模糊不清的物体时做出明智的判断。事实上,虽然“鸭鳄兽”无法被准确分类,但他们的模型并没有贸然做出肯定错误的猜测,而是顺势退而求稳,直接给出了更安全的“动物”分类,这就是模型的高超之处——毕竟,抛开奇怪的细节不谈,它看起来确实像是某种动物。

即便如此,我们也有理由承认,未来不会只有诗意。与人工智能相关的学术会议正在发生转变,这是更令人不安的变化预兆之一。几十年来,这些活动都很低调,只有教授、研究人员和学生参加,幸免于媒体的关注,同时经费也相当紧张。企业赞助商很少,通常仅限于施普林格(Springer)这样的学术出版商,而且只能在展厅角落里摆几张长板凳。但在AlexNet发布之后的几年里,来自《财富》世界500强的全球顶尖企业把学术活动变成了一场场盛宴,每一次新的聚会都更像是拉斯维加斯大道上的行业博览会。在短短几年内,沐浴在彩色灯光下的展台变得司空见惯,这些展台规模宏大,上面的企业标志十分醒目。谷歌和微软等公司还为正在选择职业的研究生举办了奢华的聚会。

邓嘉正在分享如何用一种创新方法解决图像分类失败的问题,他的幻灯片让实验室里爆发出阵阵笑声。这个主题乍看之下并不搞笑,但为了干扰算法,他用Photoshop设计了一些怪物,它们有的古怪可爱,让人哑然失笑,还有的让人胆战心惊,有的长着斑马条纹和公羊角的袋鼠、从海浪中冒出的一直长着鲨鱼牙齿的小猫,还有一只皮肤上长满西瓜纹的河马。然而,真正让大家捧腹的是此时屏幕上出现的图片:一只鸭子的身体上长着一颗完整的鳄鱼脑袋,安静地站在公园里,两条小细腿看上去毫无负担,就像希腊神话中的怪物被改编成了儿童读物。邓嘉不为笑声所动,继续自己的演讲。他解释说:“我管这种动物叫‘鸭鳄兽’。”他的语气如此平淡,我甚至怀疑他是否真的相信这种物种的存在。“乔恩说这是‘鳄鸭’。不过,最重要的是看我们的模型如何对其进行分类。”他再次点击鼠标,这只鸭子和爬行动物的混合体上方出现了算法的描述,只有一个词:“动物”。

随着更多需求的涌现,一种饥饿感笼罩了整个领域。更多的层级使神经网络更深入、更强大。更多的硬件可以加快训练过程,实现更大规模的网络部署。当然,还有更多的数据:更多的图像,更多的视频,更多的音频,更多的文本以及其他任何可能训练网络理解的内容。更多的一切。

在我们这样的学术领域,如此让人激动、回报优厚的前景并不常见。但我们的行动表明,即使是新入行的人,动机也并不复杂:面对绵延不绝的未知世界的地平线,我们从未像现在这样渴望探索。我们被雄心无限的创造力驱使着,夜以继日,废寝忘食。全球各行各业必然已经有了各自的ImageNet计划,会以此为基础开发许多应用程序,但我们知道那是他们的道路,不是我们的。北极星仍在远方。我们的科学研究还没有结束。

想到新组织的数据可能带来的能力,除了兴奋,我也不禁感到忧虑。在我自己的实验室里,我们已经看到,数据中隐藏的东西远超出我们意识到的范围。数据从来都不仅仅是图像、音频或文本。只有通过数据,模型才能对世界形成表征,而更大的数据意味着更强大、更细致的表征;意味着关系、联系和想法;意味着真理与谬误;意味着洞察和偏见;意味着新的理解,同时也伴随着新的陷阱。深度学习革命已经到来,而我们还没有做好准备。

他们每个人都密切关注行业的最新进展,无论是通过网络、电视,还是在大厅漫步或与教授闲聊时偶然听到的谈话。这一切都预示着,未来似乎提前几十年到来了,这个时代为他们提供了超越以往任何时代的机遇。有史以来第一次,计算机视觉专业学生的抱负不再是争夺分散在全美各地的少数几个令人垂涎的教职职位,而是进入科技行业工作,加入初创公司或科技巨头。

与此同时,我们实验室的研究议程也显示出了自身的贪婪。无论我们取得了多大的成果,每一篇新发表的论文似乎都会孕育出10个新的后续想法,无论是博士后还是一年级的研究生,总有人愿意接手,继续深入研究。这正是我喜欢的工作方式,尽管我常常感到力不从心、不堪重负。

与此同时,新一届学生加入了实验室,他们的迫切之情与老生的镇定自若形成了鲜明的对比。由于ImageNet的成功,实验室吸引了一批特殊的年轻思考者。他们是在人工智能复兴时期就开始研究相关学术的首批学生,赶上了难得的际遇。他们已经足够成熟,能够认识到历史正在被创造;同时也足够年轻,可以在职业生涯起步时就抓住机会。

事实上,我在想,以北极星来比喻理想,其真正的价值不仅仅在于北极星可以指引方向,更在于无论怎样努力,到达北极星的距离永远是无限的。我们可以为之苦苦追求,可以为之痴迷一生,却永远无法抵达。北极星象征着科学家最独特的品质:充满永不停歇、永无止境的好奇心,这份好奇心跟满足感永远同极相斥。夜空中的一颗星,远方的海市蜃楼,没有尽头的道路。我意识到,这就是人工智能对我的影响。ImageNet是一个转折点,当然值得庆祝,但它并不是旅程的终点。如果说有什么特别的意义,那么转折点只是一段更伟大旅程的开始。除此之外,我现在可以肯定,等待探索的事物还有太多太多,一个人穷尽职业生涯,甚至一生,都无法抵达终点。

然而,这也意味着邓嘉的研究变得越来越前沿,越来越辛苦。随着他自身学术研究的广度和深度不断扩展,显然是时候找一位继任者来承担竞赛的主要组织工作了。在我们实验室工作了一年的奥尔佳欣然接受了这一重任。从本质上看,我们的竞赛既是技术挑战,也是学术活动,而奥尔佳不仅悉心管理竞赛的诸多运营细节,还将自己打造成了一位能力超群的竞赛代言人。

随着我们图片说明生成技术日臻成熟完善,成果发布指日可待。在接下来的几周里,我和安德烈不断改进方法、记录成果。我们的策略带来了我期望的结果:虽然句子仍然简单扼要,但用词准确、表述相对自然。用杰里米·沃尔夫的话说,这确实是一种能够捕捉所见“要点”的算法。

对我来说,有一件事意义重大:我的第一批博士生即将毕业,其中包括耐心非凡的邓嘉同学。在完成ImageNet之后,他身上的创新之火一直在熊熊燃烧,而现在距离获得博士学位还有几个月的时间,他的热情似乎越发高涨。他的风格也代表了整个实验室的状态:精神焕发、全神贯注、渴望探索。

是时候和全世界分享了。这意味着我们已经吸引了学术界的关注,我们的研究成果已被几周后召开的2014年神经信息处理系统大会(Neural Information Processing SystemsConference,NeurIPS)采纳。与此同时,我受邀在湾区另一边阿拉梅达的IBM研讨会上发表演讲,忍不住提前透露了成果。

从普林斯顿大学来到斯坦福大学之后,我也一直在管理着自己的实验室。我的实验室名为斯坦福视觉与学习实验室,规模较小,位于盖茨计算机科学大楼二楼的东南角,靠近大学校园的边缘,与周围帕洛阿尔托的山丘融为一体。无论日程表上是否有安排,我都喜欢来这里转转。每个办公室似乎都有一群新学生,我都至少能找到一两个有空的学生聊上几分钟,谈谈他们的研究和一些漫无边际的设想。

分享尚未发表的工作成果并不符合传统做法。但随后的一通电话证明我的选择是正确的。电话来自《纽约时报》的技术记者约翰·马尔科夫(John Markoff),当时我还坐在回斯坦福大学的优步车后座上。我一直对约翰很有好感,因为他是在ImageNet早期就意识到其重要性的少数几个媒体人之一,几年前,他还在《纽约时报》上报道过ImageNet。不过,这次他没有事先跟我沟通,就直接打来电话,这个举动很不寻常。

另一个则是长期兼顾教育和硅谷领导职务的吴恩达,他卸任了斯坦福大学人工智能实验室的主任一职。在许多资深同事的支持下,我接任了实验室的第七任主任,也是首位担任这一职务的女性。于是,我联系了电子产品回收专家,并安排了一系列会议(会议提供免费午餐,以此来吸引我的教授同事们参加),着手重建斯坦福大学人工智能实验室。我对实验室的定位不仅是融资渠道,还希望将其打造成人工智能研究领域的社会活动中心、人际交往中心,乃至文化中心。

“喂,约翰,你好啊。”

出于显而易见的原因,我并没有参与对西尔维奥的招聘谈话,但西尔维奥在我心中的种种优点也都被同事看在眼里;他以压倒性优势获批成为斯坦福大学教师队伍的新成员。一个决定结束了我们长达五年、每周一次的跨州飞行,我们终于不用分居两地又共同抚养蹒跚学步的孩子了。母亲的身体一直不好,这意味着父母很可能会一直跟我和西尔维奥生活。毫无疑问,他回来后,家里会比以往更加拥挤,但这个代价微不足道。

“你好,你好,猜猜今天上午IBM的听众里有谁?”

一个是塞巴斯蒂安·特龙。因为他的离职,我和西尔维奥终于有机会实现一直渴望的全家团聚。五年的两地分居虽然辛苦,但我们突然意识到,这五年的辛苦是值得的:在我追逐ImageNet的同时,西尔维奥已经成为3D感知算法开发领域的领军研究者,而这也是我们系非常感兴趣的课题。在塞巴斯蒂安·特龙离开斯坦福大学,去帮助谷歌启动其迅速成长起来的自动驾驶项目时,西尔维奥凭借自己的声望成为填补特龙职位的热门人选。

我没想到会有记者出席,感到事情有些蹊跷。

起初,变化的迹象非常微妙,比如我和同事们开始收到更多媒体采访的请求。然而,最明显的变化是,越来越多的科研人员被科技产业吸引,一些人完全离开了学术界,前往硅谷发展,最初的涓涓细流正在加速形成滔滔洪流。其中有两个离职的人格外值得一提,因为正是他们在一夜之间改变了我的生活。

“你的这个能生成图片说明的算法,你说它还没有发表,是吗?”

然而,突然之间,人工智能的寒冬开始消退。神经网络等灵活的算法重新焕发生机,真正的大规模数据集横空出世,AlexNet展示了算法和数据集在实践中的强大威力。这些曾经只有我最亲密的同行才会关心的发展趋势正在成为热门话题。我们的研究领域似乎正在走向统一,只是这面统一大旗的名称略有不同,是一个热度与日俱增的流行说法——机器学习。

“没错。但我们会在12月的神经信息处理系统大会上正式展示。”

几十年来,曾经大胆自称“人工智能”的领域已经分裂成许多细分的学科,其中许多学科的命名抛却了其认知根源,转而使用更机械化的术语,比如模式识别(pattern recognition)和自然语言处理(natural language processing)。在这个过程中,对中心实验室的需求逐渐消失。当然,人工智能中心实验室仍在支持重要的工作,包括在自动驾驶汽车和计算生物学取得的开创性成就,以及在针对现实世界现象的建模方面,关于概率和统计的新创意出现爆炸式增长。但斯坦福大学人工智能实验室与其支持的研究之间的联系更像是一种形式,而不是其全盛时期的共同使命。

“啊,那真是太好了。”约翰腼腆地说,然后切入正题,“是这样的,我想让你知道,我手里有一些关于另一个研究小组的材料。当然是保密的,我不能告诉你是谁,但他们声称他们已经建立了首个可以——”他尴尬地笑了笑,“生成描述图像的句子的算法。”

这个学生说得没错。灯光闪烁了几下后,照亮了整个大厅,奇特的几何图形瞬间映入眼帘:一排排废弃的阴极射线管显示器摆放在地板上,似乎已深锁在黑暗中多年,不知是准备存放起来,还是要送去回收。整个大厅看上去像一个巨大的古董壁橱,尘封已久,无人问津。很难想象这里曾是学术要地。在2013年年初的一个普通的下午,我们手提垃圾袋,推着小推车,来到了世界闻名的斯坦福大学人工智能实验室曾经的中心实验室。

什么?

“哎呀,有点儿吓人。”

这说不通啊。我和安德烈都不知道还有其他人在研究这个问题。但约翰说得没错。几天后,《纽约时报》就刊登了他的文章,题为《研究人员宣布图像识别软件取得进展》。他写道:“两组科学家独立工作,分别创造出了新型人工智能软件,能够以前所未有的准确性,识别和描述照片和视频内容。”

深度学习革命已经到来,而我们还没有做好准备。报纸上的一篇文章让我看到了世界变化之快。我们的对手不是其他大学的某个神秘研究团队,而是谷歌。

学术竞争并不罕见,而研究人员之间的竞争一直是推动科研创新的关键因素。不过,奇怪的是,我对此完全始料未及。研究领域一直以来都以开放著称,有时甚至达到了极致;除了率先发现某样东西的炫耀权,我们的工作通常不被视为知识产权,更不用说像商业秘密那样的保密内容了。我们的工作是要与全世界分享的,包括我们最强劲的竞争对手,而且在成果发表之前,我们通常至少能知道谁在研究什么。我带着满腹狐疑继续读了下去,然后一切都变得清晰起来。

What Lies Beyond Everything

多年来,我和同事们一直对媒体夸大人工智能进步的报道嗤之以鼻。但这一次,报纸上的一篇文章让我看到了世界变化之快。我们的对手不是其他大学的某个神秘研究团队,而是谷歌。