“糟糕。”我听到邓嘉在实验室的另一边说。
我们的资料库开始像变魔术一般被图片填满。诚然,我们这种广撒网的方式也捞回了很多垃圾,比如低质量的照片、剪贴画等,但也积累了大量高清图片。我们迅速填满了大量硬盘,现实世界的影像逐渐在图片中成形,虽然还很粗糙,却让我们第一次看到了对整个视觉世界的真实描绘。至少有一段时间是这样的。
“怎么了?”
邓嘉实现自动化的第一个环节就是下载。之前下载图片,需要标注员手动在图片搜索引擎输入WordNet中的每个类别,现在邓嘉编写了自动化程序。但由于搜索引擎是为人类用户而不是为机器服务的,所以不会直接返回一组图像,而是以滚动缩略图网格的形式呈现在页面上。这时,邓嘉设计的程序就会解析网页的源代码,找到链接,并下载原图。尽管这个解决方案有些混乱,但可以让我们以最快的速度日夜不停地下载候选图片。我们想要下载多久,就可以下载多久,如果需要的话,连续几个月都行。下载的图片会自动整理在我们自己的机器上。
“看上去出了点儿小问题。呃……没错,我们被谷歌封禁了。”“什么?封禁了吗?为什么?”
我很幸运,遇到了邓嘉这样一个愈挫愈勇的伙伴,他在面临难题时会加倍开动脑筋。在我们的流程中,人工参与是成本最高的部分,包括时间成本和金钱成本。所以他从成本入手,以“将成本降到最低”为个人使命。例如,当我们的标注员开始为特定类别整理照片时(比如“彭布罗克威尔士柯基犬”),最初我们预计每个步骤都需要手动完成:在谷歌图片等搜索引擎中输入关键字进行查询;梳理结果,找到清晰的例子;对每个例子进行标注;将最终选择的照片放在适当的目录中。但这些步骤大部分并不需要人类的智慧。
“显然是他们限制了单个用户在特定时间段内可以提交的请求数量。据我所知,大约在1000个左右。”
接下来的几个月有了一种节奏感,虽然这节奏感无法用优雅来形容。ImageNet是一只拒绝被驯服的野兽,每当我们靠得太近时,它就会猛烈反击。在不懈努力下,我们终于取得了一些胜利——至少是小小的胜利,同时也累积了更多的擦伤和瘀青。但每当我们以为终于把它逼到墙角的时候,它就会发出一声更低沉、更嘶哑的咆哮,把我们吓得四下奔逃。
“特定时间段是多久?”
“好吧。”他微微一笑,“那咱们就看看怎样优化吧。”
“24小时。午夜开始重置。这算是个好消息。”
他沉思了片刻,然后看了看我,眼神里流露出准备撸起袖子大干一场的坚定。
“好吧,那我们每天多久会达到请求数量的上限?”
“等等,邓嘉。”我指了指那些大学生,“这是一个流程,对不对?我的意思是,在某种程度上,这不就是一个工程问题吗?”
“嗯,这就是坏消息了。”邓嘉拿出日志文件,心算了一下,“大约9分钟。”
我想到邓嘉在加入我的实验室之前,一直在跟李凯研究各种极其复杂的系统,在工作中遵循效率为先的原则,以实现更高的性能、更低的成本、最短的路径。作为世界上最重要的微处理器设计师之一的门徒,他肯定能想到办法提高这些大学生的生产力。
大事不妙。
不管怎样,显然我们需要更多的大学生。当年做Caltech 101的时候,招募的大学生勉强够用,而那次的工作量不过是ImageNet的零头。看来,我们必须采取新的策略了。
图片存储库的增长停滞了。但我们的问题不止于此。整个流程的上下游极不平衡,甚至有些可笑。我们搜集的原始图片呈爆炸式增长,在遭到谷歌屏蔽之前,每天都有数以千计的新图片添加进来,但其中只有一小部分得到了准确的标注和整理。虽然我们从一开始就知道标注流程将会是一个瓶颈,但随着时间一周周地过去,这一环节给我们造成的负担还是让我们感到气馁。
“这当然是一种选择,但是得花不少钱。如果真要19年的话,我觉得我们实验室的预算也是不够用的。”
我跟邓嘉在校园的马太餐厅讨论了这个问题。自从ImageNet占据我的大脑,我甚至觉得做饭都是浪费时间,于是对校园餐厅的依赖与日俱增。此外,没日没夜地在实验室工作,我也很想换个环境。餐厅的天花板很高,吊灯简朴,彩色玻璃赏心悦目,让我们觉得仿佛在修道院里找到了避难所。
“那我们该怎么办呢?”他问,“再多找些本科生?”
我们详细讨论了标注员在识别、分类和标注每张图片时所遵循的每个步骤,并尽可能使用快捷方式和定制工具来对它们进行简化。如果一个流程需要点击三次鼠标,邓嘉会想办法实现只需一次点击。减少打字次数,缩短鼠标移动距离,提高所有操作的速度。在我们交谈的时候,我不禁开始仔细观察桌上的物品,默默猜想它们是否属于我们那2.2万个类别。“餐巾”这一条目自然在列,但我们区分布餐巾和纸餐巾了吗?那是一把什么刀?除了“牛排刀”和“黄油刀”,还有多少种刀呢?“切肉刀”,我猜。“面包刀”?也许吧。仔细一想,确实有很多。这些我们都涵盖了吗?我在心里默默记下,打算回到实验室后再确认。
有道理,邓嘉。
“对了,飞飞,你知道什么是动态IP吗?”邓嘉又拿出一个锦囊妙计。
“没错,差不多要19年吧。飞飞,我很看好这个项目,真的,只是我不能等那么久才拿到博士学位。”
“可以把动态IP看作是我们的机器连接谷歌服务器的中间环节。我们的实验室计算机保持不变,但动态IP会将我们与不断变化的中间商连接起来,这样谷歌就会认为那些搜索请求来自不同的用户。”
我用力咽了一下口水。他注意到了。
“这样我们就不会超过限额了?”
“按照目前的速度,预计ImageNet的完工时间是……”
“远远不会。”
不妙。
我们重整旗鼓,至少在一定程度上恢复了工作。标注依然是个问题,但看到备选的图库规模持续增加,我还是长舒了一口气。现在,就算是小小的胜利也值得庆祝。
“对,我也很担心。我对他们的速度做了几分钟计时,计算了一下。”
几个月过去了,ImageNet已深深植根于我的内心,成为我观察一切事物的镜头。无论是在实验室工作,还是在院子里散步,我都偷偷玩着视觉识别游戏。如果有人在遛一种我不认识的狗,我会想,是不是应该专门为这种狗建立一个子类别?骑独轮车的学生可能让我想到数据库里是不是没有“独轮车”这个词,更不用说不同种类的独轮车了——说到这个,有不同种类的独轮车吗?父亲喜欢的车库市场经历成了我的世界。一切都被放大到难以理解的程度,但其精神是一脉相承的——永不满足的好奇心,对新奇事物的渴望。我好奇我们家族是不是有这种基因。
“邓嘉,是我的错觉吗,还是进展确实有点儿太慢了?”
奋斗继续,每走一步都是为了应对新的难题。我们发现特定类别的搜索结果过于相似,无法满足我们多样性的目标。于是,我们使用WordNet的国际翻译来提交不同语言的查询,希望来自世界各地的图像能够带来更大的差异。当找不到足够的图片时,我们就会在搜索词中添加相关术语,比如,不是搜索“柯基”,而是搜索“柯基小狗”或“柯基犬公园”。后来,搜索引擎巧妙地重新设计了搜索结果页面的布局,改变了每个图片链接的位置,导致邓嘉的一个自动下载程序无法继续使用,于是我们重新编写了与之匹配的程序,并开始定期检查是否发生了类似变化。
我和邓嘉在实验室一角,看着一排本科生不断地点击鼠标、敲击键盘。本周早些时候,我们发出了邮件,招募愿意帮忙从网上下载和标注图片的本科生,工作时间灵活,每小时10美元。我们很快就收到了一些回复。这看起来很公平:我们朝着机器智能的新时代迈进了一步,而大学生也能赚到一些啤酒钱。一时间,我们感到心满意足,但没过多久,现实就给我上了一课。
对一年前还在设计微处理器架构的邓嘉来说,这些都是非常平淡无奇的工程挑战。尽管如此,我们两个都知道努力是有意义的。它们可能只是权宜之计,过于简单,甚至粗糙,但每解决一个问题,我们都离自己的愿景更近一步,这个愿景就是让机器看到一个完整的世界;我希望在不久之后,机器甚至可以理解这个世界。
“是啊,是啊。”我回答说,“让我们一次只创造一个奇迹吧。”
“斜管面吗?”我问。
“就算我们想办法组织好了图片,”他补充说,“这些图像本身也没有任何作用,对吧?它们需要先标注,才能用于模型训练,而且每一个标签都必须是准确的。”邓嘉暂停了一下,好像才感受到自己说的话有多么重要,“听上去又是一个浩大的工程。”
“说对了!”西尔维奥把一碗热气腾腾的意大利面放在我的面前,高兴地回答道。
“邓嘉,我们希望算法能够看到的一切事物都存在于这个世界的某个地方。在我们说话的这一刻,就有人在拍摄这所有的细节。现在人人都有翻盖手机,每个人的圣诞节礼物都是数码相机。想象一下,如果把所有这些照片都放在一起,我们会看到什么,我们会看到整个世界的缩影啊!那就是从世界一头到另一头的日常生活的全部。”
“等等,我们上周吃的那种叫什么?也是管状的,但更大,而且边缘不是斜切的。”
他说的当然没错,但是我们需要拥抱现实,而不是逃避现实。我们的目标是捕捉完整的现实世界。如果这个总数不能吓到我们,那才奇怪呢。
“那是粗通心面。”
邓嘉面露疑色。“我从理论上能理解,但这个工作量也太大了,属于天文数字,可不是谷歌搜索几次就能完成的。”
“没错!粗通心面。那个我也喜欢。”
于是我们确定了一个目标,为每个物品类别搜集1000张不同的照片:1000张不同的小提琴照片、1000张不同的德国牧羊犬照片、1000张不同的抱枕照片,直到涵盖全部2.2万个类别,也就是一共需要大约2000万张图片。但即便是这个数字,也只是最终成品数据库的情况。我们可能需要从数亿张照片,甚至10亿张照片中筛选,才能达到目标。
“你这么问,是因为你真的对我们国家的食物感兴趣,还是因为你在想ImageNet里的意大利面的类型够不够多?”
我回答道:“我要说的就是这个,再多的图像也不够。不管我们想到一个多大的数字,我们都应该想到它还可以更大,然后还要更大。反正怎么着都是在猜,那就不如往大里猜吧。”
我赶紧吃了一口面,对他的问题避而不答。而他则坐下来,双臂交叉,显然对自己的侦探技巧颇感自豪。
“你说得对,但我们还是没有确切的数字。”邓嘉边想边说,“到目前为止,我们一直在用无穷大乘以无穷大。到底该怎么办呢?”
“不能两者兼有吗?”我最终回答道。
我越想越觉得我们的研究具有发展潜力——我们正在尝试以数据的形式来复制儿童认知的形成阶段。我想象着孩子玩东西的方式,他们伸出手去抓、戳、摸索、拨弄。他们把东西拿起来,翻来覆去,从不同的角度观察,适应光线和视角的变化。他们玩躲猫猫游戏,了解到即使物体被暂时隐藏起来,它们也依然存在。这些都是我们的算法非常缺乏的本能。
做ImageNet已有一年时间,我感觉我们已经步入正轨。有了标注团队的工作,还有邓嘉在不断努力优化标注流程,我确信我们已经有所突破。我很好奇进展如何,而邓嘉知道我的想法(他经常能知道我在想什么)。
“无限,无限,无限,无限。”邓嘉总结得相当准确。
“你在想我们多久能完成ImageNet?我已经重新预估时间了。”
“我们这才刚刚开始。那角度呢?杯子的把手朝向哪边?是从上方看还是从正面看?还有遮挡物。杯子前面有什么东西吗?是一摞书,还是猫的尾巴?或者是另一个杯子?还有背景。杯子后面是一面墙,还是一扇窗?杯子是在柜子里吗?”
我正准备问他这个问题。于是我兴奋地跑到他的办公桌前。
“一样的,这两种情况都是无限的。”
“好的,如果我们把所有因素都考虑在内:我们所有的优化和快捷方式,再加上已经标注的图片,我们已经设法将19年的预计时间缩短到……”
“很好,很好,那每一个条件会有多少种变化呢?”
我突然失去了勇气,因为我预感结果会很糟糕。
“光线?杯子可能在明亮的光线底下,也可能在阴影中。还有颜色的区别。什么颜色的杯子都有,有些杯子上面还有图案或者文字。”
“……大约18年。”
“又说对了。”我狡黠一笑。邓嘉完全知道我说这些话是什么意思,但他愿意听我细细道来,得出结论。“所以尺寸是无限的。还有什么?”
邓嘉虽然才华横溢,但巧妙地传达坏消息、减轻它对人的打击并不是他的技能之一。这么久以来,我第一次不知道接下来该怎么办了。
他又想了一下,然后耸了耸肩:“那可能是无限多的,对吧?没有办法给出具体的数字。”
绝望激发了一种巴洛克式的创造力——当处境之惨淡变得越来越难以忽视时,我们想出了各种各样的点子,确实显得有些慌不择路。我们甚至想用机器来辅助我们的人工标注员。当然,这里涉及一些循环论证:如果算法能够足够准确地识别物体、帮助我们进行标注,那么我们压根儿就不需要ImageNet了。然而,我们也想知道如果让机器扮演辅助角色,是否会带来一些便利。例如,我们可以让机器利用我和彼得罗开发的单样本学习技术,粗略但快速地标注大量图像,这样人工团队就可以更多地扮演编辑或校对的角色。这样做虽然有一定的道理(道理不多,且有待商榷),但我们始终未能找到合适的平衡点。
“你说的没错,但我想要一个具体的数字。有多少个不同的尺寸呢?”
更重要的是,反对标签过程自动化的真正原因并不是在技术层面,而是在哲学层面。我们意识到,即使是微妙的算法捷径,也与ImageNet的使命背道而驰。我们的目标是在每幅图像中都嵌入纯粹的人类感知,希望在整个图像集上训练出来的计算机视觉模型也能迸发出类似人类的智慧火花。使用机器可能会削弱这一点。
邓嘉想了一会儿,回答道:“首先是尺寸不同。杯子在照片里可能会显得很大,也可能会显得很小,这取决于它跟相机之间的距离。”
如果人力是瓶颈,而我们又无法再继续减少人工参与,那么我们剩下的唯一选择似乎就是蛮干:扩大我们的标注员团队,把预计完成时间从近20年缩至更短的期限。也许只需要增加10倍的人手——考虑到已经完成的工作,这样可能在一年半内就能达到目标。然而,我们的资金根本就不够。在投入了如此多的感情之后,最后竟然因为钱的问题而做不成,想想就令人愤懑。
我说:“那我们从生物学的角度思考吧。孩子是怎么长大的?我们的物种是怎么进化的?现实世界非常复杂,对不对?没有什么是非黑即白的,一切都在不断变化,但是我们依然学会了如何理解世界。我们生活在所有这些细节当中,自然而然地就成了专家。”我拿起桌上的马克杯,“但你问到了数字。那你告诉我,这个杯子在照片里有多少种不同的外观呢?”
“嗯。”我说,身体向后一靠,抬头盯着实验室的天花板。我突然有了一个想法。一个奇怪的想法。
啊,我心想:现在终于有点儿眉目了。
“怎么了?”邓嘉从他的工作台上抬起头。
邓嘉问道:“那多样性要怎么处理?每个类别需要多少张不同的图片呢?”
“我也说不准。我倒是能想到怎么可以筹到一些额外的资金,虽然不多,但聊胜于无。这绝对是万不得已的办法。”
总的来说,WordNet中的14万个条目大部分都被我们删除了,只剩下可以用图像表示且可以计数的一小部分,约有2.2万个,虽然这个数量仍比我听说过的任何机器学习训练图像集都要大很多倍,但与初始的词汇量相比,已经大幅减少,而且跟比德曼估算的3万个种类非常接近。
“我听着呢。”邓嘉说着,凑近了一点儿。
我们以WordNet为起点,开始进行删减。虽然WordNet的卖点是规模巨大、细节丰富,但我们知道,其中的大部分内容对我们来说并不必要。ImageNet的目的是捕捉事物的世界,而不涉及动作或描述,因此我们明确了第一批要删除的内容:所有的动词和形容词。但就算只剩下名词,处理起来也很复杂。像“真相”或“意识”这样的抽象概念是没有办法用影像记录的,只有指代实体对象的名词才会被纳入数据库。一般来说,我们需要的是有形、可数的物体。其他词汇都被删除了。
我深深地陷进椅子里,缓缓地呼出一口气。我简直不敢相信自己即将说出口的话。
“好吧,看看我们能不能弄清楚项目规模究竟有多大。”
“你对干洗了解多少?”
我的新办公室位于普林斯顿大学的计算机科学大楼,虽然已经搬过来快四个月了,但地上依然堆满了半开的纸箱,墙壁上也空空如也。我靠在扶手椅背上,大声呼出一口气,转了转椅子。邓嘉坐在我对面的沙发上——这是我到目前为止为办公室添置的唯一家具。
我把遮光板翻下来,眯起眼睛看着夕阳。当车辆以每小时110千米的速度行驶时,视野会有些模糊,但看到的东西依然非常丰富。反光柱和里程标从我们的右侧飞速闪过,周围是沥青路面上的裂缝、岩石碎片,偶尔还有塑料瓶或皱巴巴的快餐袋。各种各样的标志呼啸而过,提醒我们注意限速、高速公路出口快到了,或者感谢一神论教堂的当地分会对下一千米道路的维护。车牌和保险杠贴纸。一只狗坐在副驾驶座上。
于是,我们两人组成团队,开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲,这一切确实说不通,但这是我人生中第一次感受到一种毋庸置疑的自信。无论需要多长时间,我确信我们正在做一件大事,一件也许具有历史意义的大事。
我们正在前往明尼阿波利斯的路上,2007年的计算机视觉与模式识别大会(Conference on Computer Vision and Pattern Recognition,CVPR)就在那里举行。随着我们的现金储备不断减少,ImageNet已经岌岌可危,但有传言称实验室之外的世界依然存在,人间已是美丽盛夏。这次会议给我提供了一个完美的逃避借口。我租了一辆厢式车,载着实验室的几个学生前往参会。我期待着在这近2000千米单调而幸福的旅途中,可以暂时把工作放到一边,思考一些其他事情,任何事情都好。在接下来的几天里,我们唯一需要关心的事情就是吃饭、上厕所,还有听哪个电台。
除了聪颖过人,我也注意到,邓嘉是计算机视觉领域的新人。他的背景与众不同,因此他不仅具备一般计算机视觉专业学生难以拥有的工程技能,同时还完全没有背负期望的包袱。这个项目不同于传统的研究项目,甚至可以说充满风险,与当时的领域潮流格格不入。对于这一切,邓嘉并不知情。
可惜,没有什么能够阻止我对视觉世界的痴迷。我们开车穿过森林,我就忍不住好奇我们路过的是什么树,是枫树、白蜡树,还是白桦树?我们看到了麦迪逊这样的大学城,霓虹灯招牌闪烁,人行道繁忙,一个戴墨镜的学生躺在长凳上,三人乐队正在卖艺,一个弹木吉他,一个弹立式贝斯,还有一个在吹口琴。我们穿过熙熙攘攘的城市,几何造型的摩天大楼高耸入云,外墙反射着太阳的光芒。我们沿着五大湖行驶,不知道眼前这个是伊利湖还是密歇根湖,太阳照在水面上,浮光跃金,浪花拍打着岸边,孩子们追逐着潮水来回嬉闹,一对夫妇在沙滩上玩飞盘。
李凯和邓嘉在很多方面都截然相反。李凯开朗外向,邓嘉则内敛稳重。李凯激情四射,邓嘉则显得冷漠沉静。因此我担心自己难以判断他对我们的工作是否有兴趣。我们进行了几次交流,我能看出他非常出色,就算没有李凯的推荐,这一点也是显而易见的,但我从来没见过像他那样大智若愚、不露锋芒的人。
我再次想起了父亲。最近我常常想到他。他会在旧货摊之间徘徊,仔细检查二手面包机或录像机,他的痴迷没有止境,他的喜悦充满感染力。我不禁好奇自己的脸上是否也有同样的表情。
随着我对李凯的了解日益加深,我越来越明白他为什么比其他人更看好我的想法。他是高效连接微处理器和巨大内存存储的先驱,与他人共同创办了一家公司,把自己的研究成果商业化,最终以20多亿美元的价格售出。他不仅是大规模数据威力的早期信徒,也是利用大规模数据的专家。不巧的是,他即将休长假,这缩短了我作为他的年轻同事的时间。不过,他的离开也不完全是坏事。他有一个极聪明的一年级研究生叫邓嘉,他要给邓嘉找个新导师。据李凯介绍,邓嘉是一个完美的合作者,他年轻有为,工程天赋出众,对新的挑战充满渴望。
我想,生活中需要了解的东西太多了。很多东西都是通过眼睛看到的,但我的直觉和内心也都感受到了。ImageNet可能注定要失败,但无论结果如何,这个项目的目标都是值得追求的。迟早会有人破解难题。当他们成功的时候,当整个世界连同它所有的色彩、混乱和世俗的魔法都涌进我们机器的思想中时,一切都将改变。
我和李凯是普林斯顿大学计算机科学系教师中仅有的两位中国移民。他出生于20世纪50年代,是中国恢复高考后第一批上大学的人,80年代来到美国攻读研究生。在那个时代,像他这样的移民寥寥可数,他也很难找到有共鸣的同龄人。这段经历塑造了他活泼随和的个性,从他身上,我既能看到我母亲的聪明睿智,又能看到我父亲的谦逊幽默。李凯看起来就是个普通的教授,黑头发,大偏分,衣着朴素。但他笑容温暖,为人慷慨。我们很快成了朋友。
“飞飞,你现在有自己的实验室了,最近在忙什么呢?”
我听到的劝阻之声已经多得够我用一辈子了(可能下辈子也够了),最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。微处理器架构是一门将数百万纳米级晶体管排列到世界上最复杂的设备中的艺术,因此他比大多数人都更了解指数思维的力量。他相信我的方向是正确的。尽管我们都在计算机科学领域,但领域之间没有太多交集,所以他无法直接为我做出贡献,但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。这正是我所需要的支持。
这是我最害怕听到的问题,但这个问题来自吉滕德拉——彼得罗的导师,也是我的“师爷”,他是我此行最想遇到的人。我们已经好几年没有面对面交流了,我知道他会出席计算机视觉与模式识别大会这样的活动。ImageNet项目停滞不前,我的学术生涯前途渺茫,我需要见见熟人。他也不是第一次在这种场合鼓舞我的斗志了。
但恰恰因为如此,我才认为数据值得更多关注。毕竟生物智能与算法存在区别——前者是进化而来的,而进化的本质是环境对生物产生影响。世世代代的祖先在地球上生存繁衍,适应环境,即使在今天,我们的认知也带有祖先所处世界的印记。正是出于这个原因,索普和比德曼的发现,甚至我们在加州理工学院实验室的发现才如此引人注目:我们发现,人类几乎瞬间就能识别出自然图像,因为正是这种感官刺激——或者说正是数据——塑造了我们。ImageNet将为我们的算法提供同样的体验:同样的广度,同样的深度,同样的错综复杂,同样的壮观。
“说实话,吉滕德拉,这个话题有点儿让人郁闷。”
毫无疑问,在2006年,算法是计算机视觉的中心,而数据这个话题并不十分吸引人。如果把机器智能与生物智能做类比,那么算法就相当于机器的突触,或者说是大脑中错综复杂的神经回路。有什么比让这些回路变得更好、更快、更强大还要重要的呢?我回想起我们那篇关于单样本学习的论文所受到的关注——只需要推出一个闪亮的新算法,装饰以华丽的数学公式,就可以立刻引发关注。而数据生活在算法的阴影之下,仅仅被视为训练工具,就像成长中的孩子玩的玩具一样。
“哎呀。”
每当我与同事们讨论ImageNet的想法,我就越发感到孤独。虽然有西尔维奥的鼓励,但这么庞大的工程刚刚起步,就遭到了几乎所有人的一致反对,真是不祥之兆。我需要一群志同道合的伙伴,但现在似乎一个队友都找不到。最糟糕的是,不管我是否同意,我都无法否认他们批评的合理性。
我把一切都如实告诉了他:我和克里斯蒂安的谈话,第一次见到WordNet时的情景,我和邓嘉所做的决定——每个决定都比上一个更艰难,以及这一年来我们为实现一个不可能实现的目标所经历的苦苦挣扎。
不好意思,我真的感觉这个项目没法做。
“还真曲折呀。”他回答道,语气一反常态地平淡。如果他对我目前介绍的进展情况有什么意见的话,他会选择闭口不谈。
具体怎么做,你有计划了吗?几百万张图谁来做标注?要花多长时间?怎么验证所有内容的准确性呢?
“是的。最糟糕的是,这一切归根结底是个后勤问题,而不是科学问题。我始终确信,ImageNet正是计算机视觉所需要的,要是我们能把这玩意儿搞出来就好了。”
别人要怎么下载呢?你这个图像总量比大多数硬盘的存储量还要大。
“飞飞……”他开始小心翼翼地组织语言,“当然,没有人会不认同数据起着一定的作用,但是……”他停顿了片刻,然后继续说道,“坦率地说,我觉得你们在这个想法上投入得过多了。”
你知道用这么多图像训练一个模型要花多长时间吗?飞飞,这个时间可是用“年”来计算的。
我浅浅地吸了一口气。
有上万个类别的数据集有什么用?大部分模型连一两个类别都识别不准!
“科学的诀窍是跟随着你的领域一起成长。不要太超前。”
他想了一会儿才回答:“你不是一直在追寻出格的想法吗?”
这真是出乎我的意料。吉滕德拉竟然站在反对者的一边,让我深受打击。这种打击不仅仅是在个人层面:等到我将来需要请人写终身教职推荐信的时候,我原本计划请他做我的推荐人之一(虽然在这样巨大失败的阴影笼罩下,能获得终身教职的可能性已经变得非常渺茫)。出于多方面的原因,他的观点很重要。
“是啊,但你不觉得这一切都……太出格了吗?”我问。
我几乎可以看到我的北极星在逐渐暗淡下来,我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起:我承担的风险比我意识到的更大,而现在回头已经为时太晚。
我咯咯笑了起来,他能如此轻描淡写,真好。
在计算机视觉与模式识别大会之后的几个月里,我都不知道应该如何处理ImageNet。要担心的事情有很多,但我总会想起邓嘉。他进入计算机视觉领域时才气过人却又稚气未脱,他信任我,让我担任他的导师。现在,我能感觉到他的挫败感越来越强,我知道他在担心自己的博士之路,我完全能理解他。我还记得自己在研究生时期的种种挣扎,一想到现在要把自己的学生引入歧途了,我的胃里就阵阵难受。
“飞飞,你现在拥有的一切都是你多年的努力换来的。你拿到了学位,找到了工作,听起来你还有些灵感,而且你丈夫生活在960多千米之外,所以你肯定也有时间。”
当然,科学研究上的挫败也同样令人痛苦。在经历了如此漫长的旅程之后,我无法接受我的直觉居然导致了错误的道路。我们突然失去了方向,仿佛头顶上是一片空荡荡的天空,在黑色波浪中漂泊。
我从头开始跟他讲清楚了事情的原委——虽然过去几年我一直念叨的就是这些事,他的耳朵都快起茧子了,比德曼的数字、WordNet、ImageNet,还有我的梦想——理论上很完美,要实现很疯狂。
然而,一切都还没有结束。
事实证明,西尔维奥是我无与伦比的知己。我们都是年轻的助理教授,所处的院系竞争激烈,在事业起步的那几年里,我们都面临着“要么发表论文,要么完蛋走人”的局面。压力之下,我们必须马不停蹄、保质保量地完成工作,因为我们知道,稍有懈怠就可能与终身教授的职位说再见,一同失去的还有获得稳定生计的最佳机会。他比我生命中的其他任何人都更清楚其中的利害。
“打扰一下,飞飞。”
“是好事,只是……”我重重地叹了口气,“怎么说呢,这将是一场赌博。”
我正在赶去教职工会议的路上,马上就要迟到了,一个叫孙民的研究生突然出现在我面前。他能看出我在赶时间,但他看上去非常想要跟我聊聊,说话的时候甚至显得有些不安。
“那不好吗?有什么问题呢?”
“请问你现在有空吗?”
“我从来没有对什么事这么坚定过。”
他没等我回答。我对他比较了解,知道他说话时一般都是轻声细语的。看他今天的表现,显然是有大事压在心头。
我哈哈大笑,他也没说错。
“昨天我跟邓嘉在一起,”他继续说,“他跟我说了你们在项目标注问题上遇到的麻烦。我有一个你俩还没试过的办法,真的可以帮你们提高速度。”
“所以你根本没在看电影。”他会意地笑着说。
我立刻忘记了自己还在赶时间,耳朵竖了起来。邓嘉还有社交生活?
我们两个人的职业生涯刚刚起步,压力都很大,来到安阿伯的校园看西尔维奥,对我们两个人来说都是一种短暂的解脱。他会亲自下厨做饭,也会拉着我一起欣赏他喜欢的电影,跟我分享相关的背景故事。最重要的是,我们可以聊一聊工作以外的事,把大脑暂时从几乎占据我们全部生活的工作中抽离出来。看完电影后,我说:“我得跟你说件事,是一个有关研究项目的想法。我过去几周一直在盘算这件事。”
孙民问道:“你听说过众包吗?”
“《野草莓》,别担心,你肯定喜欢,这个电影很经典。”
他解释说,在线平台可以将任务分配和结果收集过程自动化,有效组织远程的临时工作团队,规模小到个人,大到数百万人的团队。“如果你感兴趣的话,亚马逊就在提供这种服务,叫作‘土耳其机器人’。”
“今天看哪部电影?”我坐在沙发上问。
这个名字很妙,源于18世纪的一种会下国际象棋的自动机器“土耳其机器人”。当时,这个机器人在世界各地巡回展出,被视为一个工程奇迹。它棋艺高超,就连国际象棋高手也甘拜下风。但实际上这个装置纯属骗局:在机器人底座里就藏着一个人类国际象棋大师,正是这个人在操控机器,让观众既兴奋又困惑。
西尔维奥跪在DVD播放机前,把碟片推了进去,我听到机器发出嗡嗡声。
几个世纪后,新兴的众包实践基于同样的理念:真正的智能自动化仍然最适合由人类来完成。亚马逊土耳其机器人(Amazon Mechanical Turk,AMT)围绕这个概念建立了一个市场,“请求者”可以发布“人类智能任务”,由贡献者完成,这些贡献者被称为“土耳其人”(Turker),他们可能来自世界上的任何地方。从理论上讲,这个模式很合理,似乎可以提供我们想要的一切:既有人工标注图片带来的智慧成分,又有与自动化相当的速度与规模。有趣的是,亚马逊称之为“人工人工智能”,这个名字相当贴切。
“那么……我可以用ImageNet这个名字吗?它听起来挺完美的。”我略带尴尬地笑着问。
我急匆匆地穿过走廊找到了邓嘉,但他并没有像我这般兴奋。在经历了种种挫折之后,他有充分的理由对再次碰运气保持警惕。但在经历了这一切之后,他可以看到,这真的可能是我们一直在等待的救命稻草。他看起来既犹豫又宽慰。最终他同意了:亚马逊土耳其机器人值得我们再试一次。
我笑了笑,脑海中闪过为我和彼得罗策划的数据集下载图像的记忆。但这不是我提到这件事的原因。
我的北极星开始重新闪耀,我不禁再次感叹时机的重要性。ImageNet之所以能够存在,要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在,一个一年前还几乎不存在的平台提供的众包服务,成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证,它让我深刻了解到,任何一个科学家的默认立场都应该是绝对谦卑,他们应该明白,没有哪个个体的智慧能有意外之力的一半强大。
“对,挺遗憾的,因为我们招募的本科生觉得项目太无聊了,博士生也不愿意碰,因为这算不上什么意义重大的研究。”
亚马逊土耳其机器人改变了一切。它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。随着我们获得的支持不断扩大,邓嘉给出的预计完成时间急剧缩短,先是15年,然后是10年、5年、2年,最后不到1年。这为我们提供了全新的视角来看待预算,彻底颠覆了ImageNet的成本效益。曾几何时,我们的预算只能招到几个标注员,连一个房间都站不满,而现在足以聘请一支遍布全球并通过互联网连接的众包团队。
“你知道吗,我一直在想ImageNet,你之前说这个项目最后没能完成。”
在这个过程中,我开始越来越多地利用我在实验心理学方面的经验,帮助邓嘉创建一套系统,既可以最大限度地利用标注员的时间和注意力,又能尽可能地减少他们被误导、困惑或被操纵系统的机会。有时,土耳其机器人感觉就像我和克里斯托夫在加州理工学院做的人类心理物理学实验,目标是从陌生人的感知中提取微妙但重要的信息,只不过现在将范围扩大到了全球。在某些方面,工作难度降低了:我不需要去阅读别人的想法,而只需要把正确的标注应用到我们批量下载的图片上。然而,与此同时,工作也复杂多了:标注图片看似简单,但在实际操作上,却需要从数以万计的预定义列表中精确选出正确的类别。
在离开克里斯蒂安办公室的路上,我的心中只有一个想法。
然而,并非所有挑战都是技术性的。还有一些人文问题,比如人们对众包可能具有剥削性的担忧。虽然这种可能性直到多年后才引发广泛讨论,但即使在当时,也很难避免这种思考。这种反思促使我们在资金允许的情况下,为每张图像支付尽可能多的费用。ImageNet是一项纯粹的科学研究项目,无须考虑利润问题,这让我们做决定变得容易很多。
无论等待我的是突破还是失败,我都感到激昂振奋。科学的追求可能是循序渐进的,但其突破却是由突如其来的巨变推动的,而这样巨变的引发者,不是某一个孤军奋战、雄心勃勃的天才,而是很多人的贡献被幸运之手汇聚在一起。回想起激发这个想法的种种线索,我不禁感觉即将到来的时刻便是如此。
对相关问题的研究也令人振奋,至少在当时是这样。2007年亚马逊土耳其机器人的一项人口统计发现,大多数贡献者将这项服务视为一种爱好或副业收入,而不是谋生的主要手段。当然,随着零工经济在后来几年的兴起,情况变得复杂很多。如今,已经很难将大数据的力量与其人力成本分离开来。
回到普林斯顿大学几周后,我去找了克里斯蒂安,因为我特别想让她知道我们上次的见面对我产生了多么重大的影响。WordNet和ImageNet,还有这两个项目给我带来的看似荒谬却挥之不去的灵感,这就是所谓的命中注定吧。现在,我自己也加入了普林斯顿大学的教师队伍,我备受鼓舞,渴望再向前一步,将想法变为现实,变成大胆甚至疯狂的项目。
就这样,每天都有成千上万张新图像被标注出来。在ImageNet发展的高峰期,我们是土耳其机器人平台上最大的雇主之一,这一点从我们每月的服务账单上也能看出。成本的确很高,但效果也很显著。
我愣了一秒才明白他的意思。这么久以来,他一直是我的良师益友,就像我的第二个父亲,直呼其名感觉很奇怪,叫他“鲍勃”就好像他只是我认识的某个普通朋友。“飞飞,我已经不是你老师了。”他笑着说,“我们还是别这么正式了,除非你想让我叫你李博士。”
然而,我们的预算困境还没有结束。虽然土耳其机器人价格合理,但ImageNet规模实在太大,所以我们很快发现自己再一次接近预算极限。从严格意义上讲,我们知道我们有能力完成这项工作,但我们不能排除可能发生的附带损失。ImageNet可能是我们最大、最昂贵的单个项目,但它远不是唯一的项目;我们同时还在继续研究算法,研究生和博士后都在探索识别照片中物体,甚至是在视频中识别人类动作的新技术。每位研究人员都享有生活津贴,我们在提供津贴的同时,还为每个实验室都准备了额外的现金,以备不时之需。ImageNet比以往任何时候都更接近完成的目标,但在这个过程中,它也把其他项目都推向了边缘。
“对了,我一直想问你一件事。你什么时候才能开始叫我鲍勃?毕竟这些年来你一直管我的妻子叫琼。是时候改口了,你不觉得吗?”当我朝车子走去,准备搬最后一个箱子时,萨贝拉先生从后面追上来问道。
在两年多的时间里,我们的财务状况一直岌岌可危,那是一段痛苦的日子,哪怕是路途中的一个小颠簸,都有可能让我们人仰马翻、一蹶不振,但ImageNet日臻完善,终于成为我和邓嘉一直憧憬的研究工具。我们实验室自然是第一个将其投入使用的。即使是在未完成的状态下,它的影响力也让我们备受鼓舞。完工在即,我们不再需要依靠想象力;大家第一次清楚地意识到,我们正在创造一个值得与全世界分享的东西。
在我成为伊利诺伊大学厄巴纳-香槟分校的助理教授一年后,普林斯顿大学向我发出工作邀约。这是我职业生涯中最大的突破,我接受了。我终于又回到了新泽西,萨贝拉夫妇非常高兴,全家人都特意赶来帮我收拾住所。在我到达的那天,萨贝拉先生、琼和他们的二儿子马克(如今已大学毕业)都在普林斯顿大学教工住宅区的入口处迎接我。我的住处就在卡内基湖畔,景色美不胜收,三居室的布局与我们全家来到美国后住过的宿舍大小的房子相比,简直如宫殿般豪华。我们的居住面积实现巨大的飞跃,我们很快就意识到,这么大的房子对搬家三人组来说真是大材小用了。西尔维奥还在安阿伯,而我的父母习惯了狭小的住所,所以我们带的家具还不够填满房子的。不过,能跟萨贝拉一家团聚,我感到特别快乐,因为他们已经像我的家人一样重要了。
在那段时间里,我工作之外的生活异常稳定。母亲的健康状况如预期中一样继续恶化,但自她从干洗店退休后,就再也没有遇到过我们一直担心的那种令人心惊肉跳的危机。她甚至还培养了业余爱好,对摄影产生了浓厚的兴趣。父亲的生活方式也变得更加休闲,多年来第一次可以自由地享受烹饪的简单乐趣。我和西尔维奥之间的距离仍然让我们感到困扰,但我们在安阿伯和普林斯顿之间已经往返太多次,几乎形成条件反射了。事实上,由于西尔维奥每次来看我都是同一个路线,后来连飞行员都认得他了。
也许存在这样的可能性:让算法能够识别出任何东西的秘诀,就在于打造一个无所不包的数据训练集。
我还开始不定期地前往旧金山湾区,拜访斯坦福大学的机器学习和计算机视觉先驱,其中包括吴恩达(Andrew Ng)、达夫妮·科勒(Daphne Koller)和塞巴斯蒂安·特龙(Sebastian Thrun)。我们见面时会先进行友好的思想交流,他们会对ImageNet给予肯定(这类对话为数不多)。不过,就像几年前在普林斯顿大学时那样,对话很快就会变得更加正式。最后,我接到了计算机科学系主任比尔·达利(Bill Dally)的电话,他代表了官方的意见,询问我是否有兴趣把实验室搬到加州。
我的思绪翻腾不休,想象着如果以庞大的数据集来训练算法,那么算法就可以将丰富的视觉线索内化:塑料的坚硬边缘、漆木的光泽、动物皮毛的纹理、眼球表面的反射等等——也许算法可以内化一切事物。我设想着我们将设计出更加灵活的算法,它能够区分前景和背景,辨别不同物体的边界,将实体的表面和体积与光影效果区分开来。
我在普林斯顿大学做教师尚不到三年,无法想象在此时另谋职业。但我从来没有亲身体验过斯坦福这样的大学,也没有经历过硅谷这样的地方。我在新泽西州的一个移民社区长大,之后几年一直隐居在学术界,除了中餐馆和干洗店,我对商业世界知之甚少。相比之下,斯坦福大学处于科技行业的核心地带,我们研究探索的想法在这里得到了全球范围的实践。虽然我个人对进入这个世界并不渴望,但斯坦福大学给这个世界带来的影响力给我留下了深刻的印象,惠普、思科、太阳微系统、谷歌等众多公司都与这所学校有着千丝万缕的联系。我在这里遇到的每个人似乎都被触及真实人类生活的可能性激励着。
多年来,我一直沉浸在计算机视觉领域,与彼得罗和克里斯托夫一起研究了数十年的历史。计算机视觉的谜团日日困扰着我,让我食不甘味、夜不能寐。而打造巨型图片数据集的想法让我感觉眼前一亮,它与众不同,甚至具有颠覆性,可以成为我解开谜团的下一步。哪怕有一丝让我更接近新发现的可能性(无论会发现什么),我都必须加以考虑。
尽管如此,对于搬到湾区这件事,我的内心还是非常矛盾。普林斯顿大学对我的职业生涯的帮助比其他任何学校都要大。在我高中毕业时,普林斯顿大学通过一揽子经济援助计划,在一个下午就改变了我的人生,每次回想起来都让我感动不已;然后它又给了我第二次机会,让经验尚浅的我担任助理教授,还为我提供了自己的第一个实验室和第一个博士生,让我有机会与我热爱和敬重的同事们一起成长。
我问了自己一个既荒谬又显而易见的问题:如果以WordNet的规模打造类似Caltech 101的数据集,会发生什么呢?抛开项目带来的海量工作不谈(事实上,我的脑子里只闪现出一个词:不可能),这个想法太有吸引力了,我无法抗拒。数据集必然会达到天文数字的规模,但这不仅仅是规模的问题。规模只是副产品,我们将有更深层次的收获,那就是前所未有的多样性,如同其所反映的世界一样混乱而不可预测。
我还要考虑一些人,而且比以前考虑得更多。父母的需求把我推向了一个方向,因为在帕萨迪纳的生活表明,西海岸的气候对母亲来说更为温和。但对萨贝拉一家的思念又把我推向了另一个方向。他们不再是我的“美国”家人,而是我真正的家人。一想到我们又要远隔几千千米(这次也许是永远分开了),我就非常心痛。西尔维奥介于两者之间,不管怎样,他都会留在密歇根,只是我搬到加州会让我们异地婚姻的距离更远。
那天离开校园之前,既往的点点滴滴开始串联起来。首先是WordNet,一个目标无比宏大的词汇数据库,几乎捕捉了世界上所有的概念,并以人类意义的自然层次组织起来。然后是ImageNet,它致力于为每个概念配上一张图片。比德曼的数字在我的脑海里创造了一个深不可测的神秘空间,而这两个项目似乎是对空间的回应。
然而,如果仅是以一名科学家的身份来做决定,那就简单多了。我处于迅猛发展的年轻领域,这个领域有希望在我的有生之年改变世界。我在斯坦福大学遇到的人同我一样,由衷地相信这一点。普林斯顿大学让我有家的感觉,但我不能否认,斯坦福大学似乎更适合我的研究。事实上,我想得越多,就越担心像“家”一样舒适的地方在这种时候可能会过于安逸。搬到一个新地方之所以吸引我,正是因为那里不舒适。它会让我感到不确定,甚至可能有些冒险,而我就需要这种感觉。
为了帮助我加深理解,克里斯蒂安又提到了一个相关的项目,旨在用视觉示例(如照片或图表)来阐释WordNet包含的每一个概念。虽然这个计划后来被搁置了,但我对它很感兴趣。就连它的名字ImageNet也似乎在向我传递某种信息。命运又把我往前推了一把,这一次力度更大了。
于是,在2009年,我决定再次前往西部,邓嘉和我的大多数学生也跟随我转学。斯坦福大学成了我们新的学术家园,它的面积之大足以让普林斯顿大学和加州理工学院相形见绌。由砂岩、拱门和自行车道构成的独特建筑风格非常引人注目,校园几乎终年都沐浴在阳光下。在这一切的背后隐藏着一个历史悠久、根基深厚的世界,虽然当时很少有人提及,但与我的工作息息相关,甚至连我自己都尚未完全领会。这个世界比机器学习更重要,比计算机视觉更宏大。这是一个几乎被人遗忘的世界,曾经囊括了机器学习、计算机视觉以及众多其他领域,它就是“人工智能”。
WordNet是一个启示。自从大约四年前偶然发现比德曼的数字,只要我醒着,就几乎无时无刻不在思考这个问题。而WordNet给了我答案,或者至少是启发。WordNet是人类意义的地图,在覆盖范围和内容真实性方面都很出色,虽然我还不知道计算机视觉如何才能达到比德曼所设想的规模,但至少我现在有了证据,证明这种努力是可行的。我的眼前第一次出现了一条道路,我看到了前行的下一步。
作为斯坦福大学的新教授,我遇到了很多人,其中就有当时的大学教务长约翰·埃切门迪(John Etchemendy)。当时我已经认识了很多管理者,但我一眼就看出约翰与众不同。他是一位哲学家和逻辑学家,在加入管理部门之前,已经担任教授数十年,讲授符号学、逻辑真理和语言哲学等课题。他极其聪明,似乎不经意间就能散发出智慧的光芒,同时也很友善,是个出色的倾听者。当他随口提到约翰·麦卡锡时,我的心跳漏了一拍——约翰·麦卡锡是人工智能的奠基人之一,也是达特茅斯暑期项目的主要组织者,“人工智能”一词就是从这个项目而来。
1985年启动以来,WordNet已经发展到极其庞大的规模,收录了超过14万个英文单词,并迅速扩展到新的语言。对时任全球WordNet协会(Global WordNet Association)主席的克里斯蒂安来说,这几乎成了一份全职工作。WordNet数据库范围极广,耗时甚久,而且为了精确指导其发展,多年来克里斯蒂安投入了繁重的协调工作,让我深感敬畏。一想到自己只是花了几个月时间,找了几个本科生来给Caltech 101搜集图像,我就感到相当惭愧——Caltech 101的分类深度还不到WordNet的千分之一。此时此刻,我也受到了WordNet的鼓舞,这种感觉久违了。
他说:“你知道,约翰是我的一个朋友。”
这个项目的灵感源于两个同样雄心勃勃的问题:如果我们能够将人类通过语言表达的每一个概念都组织到一个庞大的单词数据库中,会发生什么?如果这些单词不是像词典中那样按照字母顺序排列,而是根据它们之间的意义联系进行连接,会造成什么影响呢?例如,我们不因为拼写接近而把“apple”(苹果)这个词与“appliance”(器具)进行关联,而是将它与“food”(食物)、“fruit”(水果)、“tree”(树)等一系列相关的词汇进行集群配对。这样形成的词汇数据库就像一张地图,将人类所珍视的一切(也就是我们用词汇描述的一切)排列在一个相连的空间里。简而言之,这就是WordNet。
我不确定哪个更离奇:是我的新教务长与这样一位传奇人物私交甚笃,还是他如此淡然地提及此事。无论是哪一个,我都觉得自己来对了地方。
我随后了解到,WordNet是心理学和认知科学领域的传奇人物乔治·阿米蒂奇·米勒(George Armitage Miller)的杰作。乔治出生于1920年,是当代最具影响力的心理学家之一。他与其他心理学家一同致力于超越人类行为的表象,建立起驱动人类行为的心理过程模型。因此,他自然而然地就对语言结构及其在思维中的作用产生了兴趣。他想通过WordNet以极其庞大的规模绘制出语言结构图。
2009年6月,ImageNet的初始版本终于完成了,这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战,但我们最终成功达成了目标:收集了1500万张图片,涵盖了2.2万个不同类别。这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注。ImageNet不仅在规模和多样性上达到了我们多年来梦寐以求的水平,还保持了一致的精确度:每张图片都经过了手工标注,并在层次结构中进行了组织,经过了三重验证。
“你听说过一个叫WordNet的项目吗?”
从数量上看,我们已经实现了既定目标,建立起了当时人工智能史上最大的人工编辑数据集。但在这些数字之外,最让我感动的成就是我们所构建的真实世界本体。这个本体是人类从零开始策划的,既包含视觉图像,又能传达逻辑概念,其唯一的目的就是教导机器。
克里斯蒂安在语言学领域的工作与我的工作几乎没什么关联,但我们的工作有一个关键的共同点:我们都深受认知科学的影响,也都对理解(甚至绘制)大脑如何对世界进行概念化有着极大的兴趣。在研究人类视觉的过程中,对感知的内容进行分类的方式深深吸引着我,而这也是她工作中的核心部分,我们的研究内容非常相似。我们都相信类别是视觉(我们看到的事物)和语言(我们描述事物的方式)之间的交叉点。与她交谈了20分钟后,我突然意识到,我甚至不知道是否应该讨论一下工作机会的事。但不管怎样,这件事已经不是关注重点了,因为她接下来问的问题将永远改变我的职业生涯和人生。
2009年的计算机视觉与模式识别大会在迈阿密举行,我们不仅是参会者,也是演讲者。迈阿密热浪袭人、色彩绚丽,从我们踏出行李提取区的那一刻起,就发现这座城市果真名副其实——霓虹色泳装、锃亮的跑车、高楼大厦在绿树蓝天的背景下交相辉映,周围的声音充满了节奏感。外部环境的活力反映了我们内心的急不可耐;在经历了近三年的跌宕之后,我和邓嘉都迫不及待地想向世界展示ImageNet。
坐在我对面的是克里斯蒂安·费尔鲍姆(Christiane Fellbaum)。她是一位计算语言学家,也是我在演讲结束后的几天里遇到的众多普林斯顿大学的教师之一。她本人并没有出席讲座,但她的一位同事刚好在听众席上。这位同事觉得克里斯蒂安会对我的研究感兴趣,于是在我的演讲结束后立即介绍我们两个认识。
我们已经准备就绪。这个项目的孕育过程异常漫长,给了我们充足的时间来磨炼我们讨论项目的能力,我们急切地想把这项技能付诸实践。长久以来,即使简单提及我们的工作,也会引发极端化的听众反应,因此,无论听众的反应是好奇、困惑,还是抵触,我们都早已习以为常。我们做了相应的准备,反复练习如何慷慨激昂地为自己的目标辩护,并准备好了最佳回答来应对最常见的批评意见。虽然我们意识到自己可能已经在风口浪尖上,但我们还是想挥霍项目预算的最后一点儿钱,进一步自我宣传。
“我不知道一个语言学家为什么去听一个计算机视觉讲座,飞飞,但我很高兴他去了。”
“这是什么?”当我把一个白色纸箱递给邓嘉时,他问道。
我的思绪回到了在普林斯顿大学的演讲。至少,这是一个我有机会解决的问题。
“打开看看!”我说。
正是这些看似再平常不过的时空场景激发了我的执着。这才是视觉的真正意义所在。视觉不仅仅是一种“感觉”,至少不是那种可以用温度计或盖革计数器测量的“感觉”,而是一种体验的催化剂。加油站的招牌在我每小时80千米的车速下一闪而过,它的颜色让我的大脑释放出了大量信息和情感。视觉是定义人类思维情感最为重要的能力之一,是通往整个记忆、联想、概念和推理世界的入口,所有这些都交织在我们与周围环境的视觉联系中。
他撬开固定盖板,往里面看了看。“呃……是笔吗?”
车辆疾驶,时间流逝,我又开始陷入白日梦。太阳石油公司加油站黄蓝相间的标志映入我的眼帘,引发了一连串回忆:以前驾车时沿途的印象不断闪现,色彩和情绪交织在一起,有的细节清晰,有的细节模糊,所有的记忆都被朦胧的色调包围,内容丰富,令人回味,却永远无法聚焦。然后,我不由自主地露出了微笑,因为我的脑海中浮现出一些具体的事物:萨贝拉先生提到他每天从巴德湖的家到帕西帕尼高中都要走这条路,还有他总是一丝不苟地跟踪油价——公立学校教师的工资微薄,他要尽量减少油价对钱包的影响。
“是印有ImageNet标志的笔!我在网上定做的。”
这个数字启发了我的思维,让我对以前从未想象过的规模有了新的认识,但除此之外,它并没有给我带来什么解决之道。3万这个数字当然很有吸引力,但到底是3万个什么呢?我相信,肯定不是将101变成3万、创建包含3万个随机选择类别的数据库这么简单。这样的数据库肯定不仅仅是词典里的一套图解概念。它甚至可能不仅仅是对世界特征的描述,而是对世界进行整体建模的起点,可以逐个描绘出完整的地球生活图景,并暗含事物之间的关系,这样才可以反映整个世界的真正意义。不过这仍然只是我的猜测。
“我的意思是,看着挺酷的,但这些笔是做什么用的?”
一方面,我的直觉与比德曼的一致,我能感觉到他的数字就是对的。“3万”看上去就像一个证据,是我能以某种方式使用的数据。不过,很明显,他从来没有把“3万”当作源于经验的确切数量。这是一个典型的估算,与其说是个假设,不如说是举例说明。然而,出于某种原因,这个数字多年来始终萦绕在我的脑海中。
“我们可以在会议上发放!所有的科技公司都是这么做的。商品推介都是采用这种方式。我们需要人们记住我们。”
不过,我想得最多的并不是讲座,甚至不是我的职业生涯。比德曼估计,要为理解视觉世界提供一个完整的基础,大约需要3万个独立的概念。自从我偶然知道这个数字后,我的生活就完全改变了。这个不起眼的五位数成了我脑海中的黑洞,几乎每时每刻都占据着我的思维。
邓嘉的表情不知为何比平时更加茫然。但我毫不气馁。
对视觉分类本质的研究仍然是我世界的中心。我受邀回到普林斯顿大学,向计算机科学系介绍自己最新的研究成果。对我来说,做讲座已经驾轻就熟,但我感觉到这次邀请另有深意——这是招聘程序的第一步,可能会给我带来在普林斯顿大学的教职。我还不习惯这么大的利害关系,也很庆幸自己养成了每次回到新泽西就先拜访萨贝拉夫妇的习惯。从他们家到母校的蜿蜒道路给了我足够的时间来思考。
作为一个过度劳累的书呆子团队,我们拿出所有自信来到会场,然而气氛从一开始就显得怪异。我们遇到了第一个也是最严重的挫折:ImageNet被降级为“海报展示”。所谓的“海报展示”是一个学术术语,意味着我们将不能按照预定的时间在演讲厅内向听众展示我们的工作,只能在会场的指定区域里摆放一幅印有项目摘要的大幅海报,希望能引起路人的兴趣。当然,在计算机视觉与模式识别大会这样的顶级盛会上,就连海报展示的机会也非常难得,我们能够参与其中就已经很幸运了,但我们还是渴望有机会能够充分展示我们的愿景,而不仅仅是简单介绍。经过这么多年的努力,却只有一个这么潦草的环节,不禁让人感觉高开低走,大失所望。
此时,我从加州理工学院博士毕业刚刚一年,但生活已经发生了翻天覆地的变化。母亲又病了,这次的病情比以往任何时候都严重,然后又突然稳定下来。我也找到了第一份真正的工作,成为伊利诺伊大学厄巴纳-香槟分校的助理教授,并获得了相应的医疗保险。我和西尔维奥结婚了。他也找到了一份工作,不过是在密歇根州。值得感恩的事有很多,但我确实是刚刚开启学术生涯、个人生活动荡不安的典型代表——我结婚了,但却是分居两地,而且仍然和父母住在一起。
我们回答了一些常见问题,也进行了几次愉快的交谈,但最终的成果却微乎其微。我们很快就明白了,无论ImageNet的前景如何(是被当作丰富无比的资源受到欢迎,还是被当作愚蠢的项目弃之不用),在这个大会上都无法得到推动。但好的一面是,这些定制的笔似乎还挺受欢迎。
我开车沿着206号公路疾驰,阳光透过绿荫的缝隙洒落下来,闪烁着一个个刺眼的光点。这条蜿蜒曲折的双车道公路很好开,两旁是高大的乔木,透过树冠的缝隙,会不时露出地平线上的小镇。但我却无暇留意这些美景。我的思绪完全沉浸在另外一个世界。我能集中注意力不至开错车道,但也仅此而已。
与此同时,当我重新适应了没有ImageNet挑战的生活时,我多年来一直拒绝承认的疑虑比以往任何时候都更加真实。那些反对者是对的吗?这一切真的是在浪费时间吗?ImageNet不仅仅是一个数据集,甚至也不仅仅是一个视觉类别的层次结构。它是一个假设、一个赌注,它受到我们自身生物学起源的启发,即实现真正机器智能的第一步,是沉浸在完整的视觉世界中。与我们自身进化过程中的混乱和复杂性相称的体验,可能会对我们的算法产生类似的影响。这个赌注既可能被证明是对的,也可能被证明是错的,对于这两种可能性,我都做好了准备。无论是哪种结果,都会是一个学习的机会。然而,我万万没想到,它被忽视了。
ImageNet不仅是一个数据集,它是一个假设、一个赌注,即实现真正机器智能的第一步,是沉浸在完整的视觉世界中。这个赌注无论被证明是对是错,我都做好了准备。但我没想到,它被忽视了。
我错过了什么?
A Hypothesis