大悟读书网 > 人物传记 > 我看见的世界:李飞飞自传 > 08 实验验证

08 实验验证

有一次晚餐时,氛围异常安静。他问道:“你在想什么?是鲍勃吗?”

生活的脚步并没有放慢的迹象。我缅怀着鲍勃,忍受着让我动弹不得的大肚子,也无时无刻不在惦记着ImageNet。这三重思绪构成了生活的主旋律,因此每当西尔维奥过来看我,我都特别感恩。

“鲍勃一直都在我心里。”我惆怅地笑了一下,“不过不仅仅是他。”

斯人已去,但足迹不灭,思想不朽。鲍勃的梦想是出版自己的科幻作品,虽然这个梦想没能实现,但他始终笔耕不辍,也总会在每个月底把自己的日记通过电子邮件发送给我。我们成了数字笔友,像往昔年代的人一样通过长篇通信保持联系。这些邮件成为我所认识的那个人的最后遗存:每一个黑白网页都记录着他的所思所感,有的深刻,有的平淡。时至今日,这些文字仍让我时而莞尔,时而捧腹,偶尔还会翻白眼,但总能引发我的思考。我的职业生涯致力于理解人类心灵的本质,而我此生最大的荣耀之一就是有机会更好地了解鲍勃的本性。

“ImageNet?”

我仍然记得鲍勃在帕西帕尼高中的办公室“数学实验室”,墙上的书脊如彩虹一般。我还记得,我们的谈话为我提供了每日的避风港。我还记得,如果我考试成绩不好,他会严肃地批评我。在加州理工学院读书的时候,他告诉我研究生宿舍房间应该怎么选,对各种大小事情,他都像慈父一样给我建议。我还记得,我们每周都会打电话,这些通话在我的生活中勾勒出一条连续的轨迹。我还记得,他慷慨解囊,借钱帮我家开干洗店,把我们从绝境边缘拉了回来。我还记得,不到一年前,我最后一次去新泽西是参加鲍勃的退休聚会;他站起来发表演讲,毫不隐晦地说,他为“他的两个儿子……和他的女儿”感到骄傲,听到这样的话,我一时不能自已。

“是啊,我也不知道,整个比赛的想法……感觉很顺理成章,结果才做了两年,参赛的人数就开始下降了。天啊,难道我一直是错的吗?难道答案就这么简单?我的意思是,‘假设’就是这样的,对吧?有时候,‘假设’就是错误的意思。”

我们全家人都沉浸在极大的悲痛之中。父亲一听到这个消息就泪流满面。母亲依旧沉默寡言,但我知道她和父亲的心情是一样的。他们也和这位“大胡子数学老师”有着特殊的情谊,多年来,他们一起帮助我这个容易陷入痴迷的移民女孩度过了艰难的青春期。就连西尔维奥也受到了影响,他只见过鲍勃几次,但已经逐渐明白他在我生命中独一无二的重要性。此外,鲍勃的家人跟西尔维奥一样来自意大利那不勒斯。西尔维奥知道依照医嘱,我不能去参加葬礼,但他担心我会因此遗憾终身,于是他放下手头的一切,从西海岸到东海岸,飞越整个美国,代表我参加了葬礼。

“当然,有时候确实是这样。”

鲍勃对我太重要了,我尽了自己最大的努力,却无法控制病情的发展。他的身体状况急剧恶化,在发现肿瘤短短几天后就完全失去了意识。医生们竭尽所能,但他再也没有醒过来。不到三周,那个从高中起就一直是我的第三位家长、如同我家人一样的人,就这样与世长辞了。

我抬起头来看着他。

我不敢相信。我开始给我认识的每个人打电话,迫切地寻找可以提供帮助的人。在我家多次出现健康危机时,他一直是我们的救命恩人,我也一定要尽全力帮他。一个偶然的机会,我通过一个奖学金项目联系上了附近一所大学医院的神经生物学部门。第二天,他被转到最先进的护理病房。

“但这次不是这样。你知道吗,从你第一次提到这个想法,我从来没有劝你放弃过,这是有原因的。不仅仅因为你是我的妻子,还因为我也相信ImageNet !也许这个数据集太超前了,也许吉滕德拉是对的,你的跨越幅度太大了。但这并不意味着ImageNet是错的。”

鲍勃要死了。

我笑了。他并没有解决我的问题,但他的话鼓励了我。

终于有信儿了——胶质母细胞瘤。晚期。无法手术。

“还有,”他接着说,“我认为潮流正在转向。我们实验室研究的视觉问题跟你们的完全不一样,但你知道大家开始谈论什么了吗?更大的数据集、更多种类、更加广阔的世界图景。这就是假设的另一个特点——有时候,假设需要一些时间才能赢得所有人的认同。”

在接下来的24小时里,我坐立不安,焦急地等待着琼的消息。

即使是西尔维奥最温暖的安慰也充满了理性,他很擅长帮我振奋精神。不过,没过多久,我就不再需要他的鼓励了。科学总是以一种耐人寻味的方式打破预期,即便那些与之最接近的人也始料未及。

“怎么了?飞飞,你对他说了什么?!”

2012年8月,让我夜不能寐的事情终于不再是ImageNet了——我们的孩子出生了,我的生活主题变成了哺乳、换尿布和永远不够的断断续续的睡眠。

沉默。然后是一阵急促的呼吸声。微弱、嘶哑、颤抖。不可能是我想的那样。他……在哭吗?鲍勃从来没有在我面前哭过。我听到了激动的摸索声,琼又拿回了电话。

这一年,ImageNet挑战赛的结果将在意大利佛罗伦萨宣布,因为孩子的原因,我本不打算亲自去参加,但有一天,邓嘉深夜打来电话。这个时间点很不寻常,我的第一反应是出了什么事。

鲍勃在电话那头沉默了片刻,这时我才意识到,我的话让他始料未及。他知道我的预产期还有几个月就到了,也知道医生禁止我出行。在这种情况下,我还提议去看他,已经能够说明事情的严重性了——直到把话说出口,我自己才意识到这一点。

“喂?”

“鲍勃,”我意识到问题的严重性,声音越来越轻,“你想让我飞过去吗?我可以马上过去。”

听得出他很激动,但感觉不像是痛苦,而更像是兴奋,准确地说,是迷茫而兴奋。因为邓嘉一向淡定,所以他的语气让我格外留意。

我本来想跟他说说话,确认他没事,但他的声音听起来很遥远,似乎说话很费力气。

“是这样的……我们一直在评估今年的参赛作品,其中的一个算法是……我的意思是……”

“是鲍勃吗?呃……琼说你摔倒了。你还好吗?现在感觉怎么样?”

他迟疑了一下。

这不是鲍勃的语气。

“怎么了?是什么?”我问道。

“喂?”

“好吧。获胜的团队使用了非正统的算法,是一种神经网络算法,你敢相信吗?”

我使劲咽了咽口水,坐直了身子。我说想跟鲍勃通话。我听到琼把电话递了过去,用我几乎听不清的声音说:“是飞飞的电话。”

我的耳朵竖得更直了。如果说刚才我的注意力还没有完全集中在他的身上,那么现在我肯定百分之百地在听他说话了。

“我现在就是在医院给你打的电话。医生做了快速脑部扫描,我们还在等详细结果,但是……”她慢慢地叹了口气,“飞飞,情况看起来很不好。”

“感觉像是……老古董。”

“你带他去医院了吗?”

我不由得笑了起来。一个21世纪的学生用“老古董”这个词来形容几十年前的工作,足以证明我们的领域是多么年轻(可能也证明我正在变老——我选择无视这种可能性)。但他说得没错。神经网络是由生物学启发、层次分明的相互连接的决策单元阵列。由于计算机视觉领域的迅速发展,到了21世纪初,我们中的大多数人已经把神经网络看成是尘封已久的艺术品,包裹在玻璃罩中,四周用天鹅绒绳索保护,闲人勿近。

我还是没明白。琼听起来像是在描述别人的祖父,而不是鲍勃。鲍勃还年轻,不可能发生这种事。

“真的吗?是神经网络算法?”

“不是,不是。我的意思是,问题挺严重的,他好像失去平衡能力了,感觉很不正常。”

“是的,但还不止这些。飞飞,你不会相信算法的表现有多好。”

“什么?什么意思?他受伤了吗?”

飞机窗外一片漆黑。虽然飞机还在跑道上,但还是什么都看不见。坐在中间座位的我,能看到的只有前排的座椅。我告诉自己:“一会儿就能到佛罗伦萨了。”但我心里清楚,这只是个幻想。因为临时决定参加欧洲计算机视觉大会,我不得不放下一切,家庭生活陷入了混乱,但邓嘉的消息让我别无选择。不得不承认,当婴儿急需照顾时,和父母同住还真是益处多多。

电话那边停顿了片刻。“飞飞,鲍勃摔倒了。”

订票的时候,我回想起我和西尔维奥度蜜月时,从旧金山国际机场到佛罗伦萨机场并没有直飞航班,于是我费了一些功夫找到了能让我最快时间回家、回到孩子身边的航线。虽然很不情愿,但我最后还是选择了一趟20小时的航班,飞机空间狭小,肯定也睡不好,唯一的中途停留休息就是转机,可能在巴黎、苏黎世或其他一些我在迷迷糊糊状态下无法辨认的标志性城市。但现在已经无法回头了。飞机开始在跑道上缓缓滑行,引擎开始轰鸣。扩音系统里传出广播:抬起小桌板,系好安全带。我想睡一会儿,但思绪却翻滚个不停。

“琼,怎么了?”

我一直在思考这次的获胜算法。它的识别准确率高达85%,比上一年的冠军高出10个百分点,创造了计算机视觉领域的世界纪录。可以用一个数据来说明这个准确率的意义:我所看到的研究表明,人类的平均识别准确率约为97%,而这还是对简单得多的二元选择而言(比如判断一张照片上是否有动物)。相比之下,算法需要筛选上千个选项才能找到正确答案。因此,虽然这个算法还没有达到人类的水平,但已经比其他任何算法都更加接近,而且差距已经小到惊人。

有一次,手机突然在半夜震动起来。我拿起手机,发现是琼·萨贝拉打来的。我觉得有些不对劲。

飞机广播“嘟”了一声,然后传来机长的声音:我们已进入巡航高度。

特别是到了孕晚期,我感觉度日如年。除了常见的孕期反应,我还出现了一些找不到原因的症状,医生告诫我,在分娩之前,不可以再出行。但是,世界并没有放慢脚步,时代的洪流继续冲刷着我——学生、研究、教职员工和正在进行的ImageNet项目。我每天都盯着电脑办公,手机震动个不停。

这个参赛算法最令人惊讶的地方,也许在于它提高准确率的具体方法。尽管发展了数十年的支持向量机等现代算法已经引起广泛兴趣,并曾在前两年的比赛中获胜,但这次获胜算法的研发团队却选择了让神经网络重出江湖,并在比赛中大显身手,把第二名远远甩在身后。冠军算法名为AlexNet,是向这项技术和项目的主要作者、多伦多大学研究员亚历克斯·克里热夫斯基(Alex Krizhevsky)致敬。

仅仅几个月后,我就动弹不得了,无形的疲惫感深入骨髓。我步伐沉重,抬不起胳膊,睁不开眼睛,好像有千钧重负压在身上。我和西尔维奥非但没有解决异地婚姻的任何问题,反而做出了一个极其理性的决定,让问题变得更加复杂:我们决定要孩子了。我的孕期反应非常大。

飞机遇到气流,颠簸了一下。

一切都很美好,只可惜,这种美好太过短暂。

准确率竟然在短短一年内大幅提高了10个百分点?而且是通过神经网络实现的?飞机从一个时区穿越到另一个时区,我的大脑运转不停。这就像是听说一辆本田思域以每小时160千米的速度差打破了陆地速度的纪录。根本不可思议。进步不应该是这样的。

作为晚饭现场的唯一翻译,我的任务就是帮助他们交流,主要的聊天内容就是中国美食。在西尔维奥眼里,中国美食文化博大精深,让他深感好奇。他的钦佩之情发自内心,并不是为了讨岳父母欢心。父母做的中餐非常地道,并没有照顾西方人的口味,反而让西尔维奥更加喜欢。吃晚饭的四个人都是移民,但在这张餐桌上,国界似乎消失了。

还是说,进步就是这样的?我想到了邓嘉在论文中阐述的内容,包括在使用ImageNet进行算法训练时的一些发现。在小型数据集上运行良好的技术,在大型数据集上训练时却突然表现不佳,反之亦然。有没有可能,神经网络一直以来都更适合理解ImageNet这种更大、更密集的可能性空间?有没有可能,神经网络一直都能同时应对类别总数的大幅增加和类别间差异的急剧缩小,而它最先进的竞争对手却做不到?我急切地想找到更多线索,于是打开笔记本电脑,调出了AlexNet团队在参赛算法中附带的幻灯片,仔细研究他们所做的设计选择。

尽管如此,在喧嚣的背后,仍能找到一种异常的平静。母亲的病情相对稳定。尽管异地婚姻带来了很多麻烦,但西尔维奥经常过来看我,跟我父母的关系也日渐紧密。每次过来,他都会亲自下厨,想用美食俘虏我父母的胃;而他们也报之以李,每次西尔维奥来到后的第一顿晚餐,他们都会亲手准备丰盛的家常菜。这总会让我想起小时候在成都的日子,每逢周末都会到外祖父母家,品尝他们精心准备的炖肉、炒菜、凉拌菜、米饭和汤。

AlexNet是卷积神经网络(Convolutional Neural Network,CNN)的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中,一系列滤波器在图像上扫过,寻找与网络所识别事物相对应的特征。这是一种独特的有机设计,灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察,即视觉处理在多个层次上进行。就像在自然界中一样,卷积神经网络的每一层都会逐渐整合更多的细节信息,从而形成越来越高层次的感知,最终将真实世界的物体完整地呈现在我们的视野中。

现在,我和父母住在校外教工区的一栋联排别墅里。这里非常舒适,我们心怀感激,但我觉得自己的生活依然七零八落。我和西尔维奥还是两地分居,一有时间就去探望彼此,所以很少跟身边人打交道。跨国飞行仍是家常便饭,大部分时间都用来打包行李、往返机场、协调通勤。我们感觉自己就像是空中居民,并没有生活在陆地上。

这样就形成了一种类似视网膜的算法,凝视着周围的环境。就像真正的眼睛一样,算法的最外层把成千上万个感受野应用于图片的像素,每个感受野都经过特定调整,能够识别出独特的微小图案,并在遇到这种图案时被激活,比如以一定角度倾斜的对角线边缘、两种色调之间的模糊混合、条纹图案或明暗交替等等。在这种感知水平上,滤波器可以对任何事物做出反应,比如小狗皮毛的图案、厨房柜台的边缘,或者阳光下玫瑰花瓣轮廓上的闪光。事实上,AlexNet能够捕捉到所有这些特征,甚至更多,这不仅是因为它接受了ImageNet的训练,更重要的是,这种算法忠实于生物视觉的进化本质。研究团队没有预先决定网络应该寻找哪些特征,而是让数十万个神经元在没有人工干预的情况下,完全依靠训练数据逐渐学习到自己的敏感度。AlexNet就像生物智能一样,也是自身所处环境的自然产物。

“啊。”我听到西尔维奥回应道。我暗自发笑,他的汉语词汇量屈指可数,这个音节就是其中之一。

接下来,来自成千上万个感受野的信号会深入神经网络,汇聚融合成更加丰富、清晰的提示信息。每个新的感知层都在比上一层更加复杂的感知水平上运行,当感知到熟悉的事物时(也就是感知到算法此前已经被训练识别的东西),就会做出反应,就像生物神经元的生化反应被激活一样。微小的图案越来越大。这些图案进一步像拼图一样连接起来,形成越来越容易辨认的片段——老虎的条纹、木头的纹理、映在地上的影子。

我听到父亲在走廊那头得意地喊道,让西尔维奥过去看他在车库市场中的最新收获。我们居住的加州郊区面积大,全年气候宜人,尤其适合进行车库市场。搬到这里后,父亲依然对他最大的爱好充满热情。他还是对那些带有一丝意大利血统的物品情有独钟,尤其引以为豪的是最近买的一条腰带,上面盖着他最喜欢的印章:“意大利制造”。我不禁想,这么多年过去了,他是否意识到,他的女儿其实比他更胜一筹:不仅找到了意大利制造的稀世珍品——一个好男人,还跟他成了夫妻。父亲正拿着一条腰带给这个男人看。

最终,经过各层过滤后,仅剩下少数几个信号被融合成识别对象的详细图像,进入网络的最后阶段:识别阶段。摩托车、豹子、算盘、母鸡、电视机,或是其他上千种选择中的任何一个。所有这些都来自同一种算法,其精确度越来越接近人类水平。

“西尔维奥!快看!我刚才就想给你看!”

当然,这些并不是什么新的创意。自从贝尔实验室成功将卷积神经网络应用于手写邮编,杨立昆多年来一直对卷积神经网络保持着惊人的忠诚。在AlexNet诞生时,他已经花了20年时间坚持不懈地完善算法、发表研究成果,但一直没有必要的资源来充分实现这些成果。现在,几乎在一夜之间,这种常被视为误入歧途的执着似乎变得极具先见之明。杨立昆把自己的卷积神经网络算法巧妙地命名为LeNet(呼应他的英文名Yann LeCun),其指导理念在AlexNet中熠熠生辉,宛如重生般焕发生机。

说这种经历“让人羞愧”已经远远不足以描述我们的心情了。为了推动ImageNet的发展,我们倾注了多年的心血,搜集的图片数量远远超过以往的任何数据集,还精心策划了一场国际竞赛来探索它的能力,但结果却只是简单地重复了现状。如果说ImageNet是一场赌注,是时候开始思考我们是不是已经输了。

这种联系让AlexNet背后的三人团队备受瞩目。他们都是多伦多大学的研究人员,负责人是与项目同名的亚历克斯·克里热夫斯基,以及他的合作伙伴伊利亚·苏茨克维(Ilya Sutskever)。这两个聪明的年轻人资历尚浅,仍在建立自己的声誉。然而,第三个名字立刻引起了我的注意:杰弗里·辛顿。就是这位辛顿,在20世纪80年代中期开发了反向传播技术,成为早期机器学习的先驱。反向传播的突破性方法首次实现了对大型神经网络的可靠训练。就是这位辛顿,曾经指导过彼时还是他实验室学生的杨立昆。和他的学生一样,辛顿拒绝放弃对神经网络的研究,即使这让他在同事中显得形单影只。看来,AlexNet绝不仅仅是一个参赛算法。这是一个历经四分之一个世纪的正名时刻。

我开始意识到自己可能误判了。正如我猜测的那样,大多数算法都难以应对ImageNet,但支持向量机比我想象的要强大,它为参赛者提供了安全的避风港,阻碍了我梦寐以求的激进创新。连续两年,司空见惯的算法都只是在能力上略有提升,几乎没有任何真正的进步。最糟糕的是,参赛人数也出现急剧下降:第二年的报名人数从150人减少到96人,参赛算法也从35个减少到15个。愿意为此付出努力的人似乎越来越少,也许这并不奇怪。

随着我对算法架构研究的不断深入,它根源的意义变得更加清晰。虽然相隔20多年,但AlexNet和LeNet的主要区别似乎微乎其微,两者都运用了传统的神经网络范式。但有一个关键的区别是显而易见的:AlexNet这个新的演化版要庞大得多。

在ImageNet的发展历程中,有很多令人泄气的时刻,这次就是其中之一。如果说2010年的比赛虎头蛇尾的话,那么2011年的比赛则给人一种末日之感。2011年的获胜算法来自法国施乐研究中心,也是一种支持向量机算法,识别表现虽然比前一年有所提高,但也只是将准确率提高了2个百分点左右。

与LeNet相比,AlexNet可以处理大约10倍规模的图像,通过一个大小约为其两倍的卷积核(可以理解为神经网络的“焦点”)来扫描图像。在此基础上,AlexNet通过一个更深的网络对识别的细节进行过滤,这个网络比LeNet多出几层,因此能够更全面地处理所获得的信息,并做出更复杂的推断。最后,LeNet的设计目标是将分析结果转化为10种可能结果中的一种,对应于它要识别的10个手写数字,而AlexNet可以识别出1000个物体类别,也就是比赛中选择使用的ImageNet子集中所包含的类别总数。

获胜算法来自一个由NEC实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。他们采用的是支持向量机算法,这也是我此前认为无法驾驭ImageNet的一种算法。支持向量机这个名字听上去相当晦涩,取自该算法利用的高维几何的一个特征,象征着其抽象本质。支持向量机在过去几年非常流行,到2010年,它似乎已经成为物体识别的实际标准。这个参赛算法的表现确实可圈可点,我们对每位参赛者的努力表示赞赏。不过,与计算机视觉领域其他方面的前沿工作相比,这些算法只能算略有改进,很难说开启了新的时代。

但所有这些都只是程度上的差异,而非本质上的差异;从理论层面看,两种算法几乎没有什么区别。然而,AlexNet的表现却创下了前所未有的辉煌。

然而,现实却与我们的期望背道而驰。

这是如何实现的呢?

就像我们的三叶虫祖先漂流在古老海洋中一样,现代世界的计算机视觉算法即将坠入自己的进化熔炉,接受严峻的考验。提交的作品代表了使用ImageNet完成的第一代研究成果。手握这些作品,我不禁想,这是否就是答案了?我们即将瞥见某个新的前沿了吗?

部分原因肯定是算法运行所需的硬件。在很长一段时间里,神经网络的训练难度很大,硬件的明显限制是致命的。即使是利用过去几十年中规模小得多的网络来训练算法,从操作层面看,也很难实现。事实上,用世界上最大的图像集合来训练类似AlexNet这样的网络似乎是难以想象的。但技术已经取得了长足的进步,尤其是出现了针对特定应用进行了优化的计算机硬件,价格低廉但性能出色,让大规模数据集训练成为可能。有意思的是,一切都要归功于电子游戏的流行。

在某种程度上,在首届ImageNet挑战赛前夕,我们的心情甚至比一年前ImageNet发布的时候还要激动。发布产品是我们向世界展示自己创造的东西;而现在,世界将向我们展示他们用ImageNet创造的东西。我们整个项目都是以生物视觉原理为基础,而挑战赛就是对相关生物影响的有力延续。ImageNet的基本理念是算法需要直面其所处环境的全部复杂性和不可预测性,也就是真实世界的本质。竞赛将使算法面对的环境充满真正的竞争压力。

这就引出了另一个命运转折点:从功能上看,神经网络所倾向的数字运算方式类似于视频游戏的图形渲染方式。自20世纪90年代以来,价值数十亿美元的电子游戏产业一直推动着定制硬件的进步和商业化,助推了英伟达等超级品牌的崛起。到2012年,相关硬件——一种被称为“图形处理器”(Graphics Processing Unit,GPU)的专用处理器——已经以优惠的价格成为消费产品。对辛顿的实验室来说,这意味着实现AlexNet所需的硬件不再需要政府拨款和施工许可,而是可以在百思买电器大卖场的货架上买到。

当时与计算机视觉相关的竞赛相对较少,因此创办新竞赛足以激起不小的水花,吸引一些早期的关注。我们一开始就收到了150份报名表,最终共有11个团队提交了35个参赛作品。虽然参赛算法不是很多,但我们终于迈出了第一步。

然而,“可行”不一定意味着“方便”。即使有如此强大的硬件,利用ImageNet来训练AlexNet也需要使用多个处理器,每天24小时运行整整一周的时间。所以,在2012年年初的某一周,当世界各地数以百万计的图形处理器忙于渲染抖动的机枪、成群结队的僵尸和弹片飞溅的爆炸时,有两台图形处理器却正在多伦多的某个地方将一种新型神经网络从理论变为现实。

考虑到我们缺乏办赛经验,再加上ImageNet的知名度还很低,我们联系了PASCAL VOC的创始组织者马克·埃弗林厄姆(Mark Everingham)。马克是牛津大学的研究员,也是计算机视觉领域冉冉升起的新星。当时PASCAL VOC已经进入第六个年头,而ImageNet才刚刚起步。马克非常热心,同意把ImageNet作为PASCAL VOC竞赛的一个新赛道。这一举动非常慷慨,让我们有机会在已经建立起来的框架中学习相关技巧。

尽管算法性能取得了显著进步,但在严格意义上讲,并没有什么新颖的东西。进步的作用只是让现有进程能够在更加实际的时间内完成。如果要说2012年的世界与LeNet时代有什么真正的不同,那一定是用于训练网络的数据之充裕。毕竟,在1989年,数字图像还处于起步阶段,大规模的图像库也非常罕见。在那个时候,组织一套用于神经网络训练的数据集——不仅仅是数字图像集合,更是一个针对特定应用、每个图像都由人工精确标注的海量集合——似乎完全是无稽之谈。

比赛的正式名称为“ImageNet大型视觉识别挑战赛”(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),对所有人开放,获胜者会即刻获得认可。首届比赛将于2010年举行,5月开放报名,9月统计结果,同年晚些时候,会在克里特岛举行的欧洲计算机视觉大会(European Conference on Computer Vision,ECCV)研讨会上公布获胜者。在研究界看来,赛事的准备工作似乎进行得天衣无缝,但其实这多亏了幕后一些外界力量的帮助。

当然也有例外情况,那就是用来训练LeNet读取邮编的扫描图像。在当年,即使打造一套手写数字图像的训练集,也是勉勉强强才能完成的工作。邮编图片训练集和现代图片训练集的对比情况引人深思。与数百万像素的全彩照片不同,扫描的数字图片尺寸很小,颜色单一,占用的内存也相对较少。而且,只需数千个示例(而不是自然世界所需的数以亿计的示例),就足以涵盖其特异性所需的多样性。因为当时只能找到手写邮编的图片训练集,所以,在20多年的时间里,卷积神经网络算法的唯一成就是识别手写邮编也就不足为奇了。从这个角度来看,数据似乎有种为系统注入活力的能力。

“我不认为ImageNet会把现有的算法变得更好。”我说,“我认为它会让它们过时。”

事实上,在ImageNet的帮助下,AlexNet焕发生机,它贪婪地吸收着ImageNet的内容,在ImageNet规模和多样性的土壤中生根发芽,茁壮成长。一直以来,神经网络并不需要更花哨的数学公式和更奇特的抽象概念。我们期待神经网络能够理解世界,而它们只是在等待我们提供更加清晰的图景,等待一些真正有学习价值的东西。大数据训练了LeNet去理解复杂的人类笔迹,现在它也在训练AlexNet去理解万物。

我乐观地认为突破就在眼前,但又担心通往突破的道路崎岖难行,毕竟ImageNet体量庞大,对任何一种算法来说都是难以驾驭的。我们讨论了目前流行的各种算法,如支持向量机(Support Vector Machine,SVM)、随机森林(random forest)、自适应提升(boosting),甚至是我和彼得罗在单样本学习论文中使用的贝叶斯网络,都会不堪重负,这迫使我们去创造一些真正的新算法。

后来我才知道,在2012年之前的几年里,辛顿重拾激情,想要证明神经网络的可行性。2011年,他认为自己比以往任何时候都更接近转折点,于是开始以一种既对抗又合作的方式与同事沟通,他的表达方式听起来更像是提出挑战,而不是提出问题。他跟同行探讨下一步行动计划,其中一个同行就是吉滕德拉。虽然他们两人早有交情,但吉滕德拉一直对辛顿的项目持怀疑态度。

ImageNet项目进入最黑暗的日子以来,我几乎再也没有思考过其他问题。考虑到我们所做的一切工作,我发现仅仅将ImageNet视为一个数据集就过于狭隘了。即使到了现在——尤其是现在,在比赛近在眼前的时刻——ImageNet仍然只是一个假设、一个赌注,赌的是计算机视觉领域最需要的东西,是获得长久以来哺育着人类感知能力的多样性和变化性。

“我要怎么做,才能让你相信神经网络是未来的趋势?”辛顿问道。

“告诉我,”邓嘉说,“你在这里的终极目标是什么?”

“你真的想打动我吗,杰弗里?那就让我看看它们能不能处理一些真正的任务。”

我确实很激动。网站第二天就要正式上线了,竞赛消息也会同时公布。团队正在实验室里熬夜做收尾工作。

“比如?”

“激动吗?”奥尔佳问道。

“比如物体识别,真实世界中的物体识别。”无论吉滕德拉对ImageNet有什么看法,他的确相信视觉分类的力量,这一点我在加州理工学院时就了解到了,“你参加过PASCAL VOC吗?”

在筹备过程中,邓嘉的支持团队不断壮大,其中就有像奥尔佳·鲁萨科夫斯基(Olga Russakovsky)这样的新人。奥尔佳是一位聪明且充满活力的研究生,一直在寻找有意思的项目来贡献自己的力量。她双眼有神,卷发及肩,说起话来很有感染力,在人群中非常显眼。从我们第一次见面开始,我就很喜欢她,尤其让我印象深刻的是她身上那种不着痕迹的反差:她性格活泼,很容易被误认为是土生土长的加州人,但事实上,她出生在乌克兰,经常谈起她还住在哈尔科夫的祖母。她不仅智商高,也是我们系里少有的社交能手。我知道她有足够的才智在幕后为项目做出贡献,但我也暗自揣测,也许有一天,她可以利用自己天生的才智成为代表项目的公众人物。

“参加了啊。但没什么用,他们的数据集太小了,例子不够,所以我们给神经网络展示新图片的时候,泛化效果并不好。”

就像ImageNet本身的创建过程一样,比赛带来了一连串意料之外的挑战。我们花了数周时间研究与参赛者共享数据集的统筹问题,最终选择分发一个精简的子集:比赛所用数据库约占ImageNet图像总量的十分之一、总类别数的二十分之一,共包含约140万张图片,涵盖1000种日常物品、植物和动物。为了确保为算法提供新颖的测试,我们再现了ImageNet的大部分开发过程——我们重新下载并标注了数十万张新图片,又进行了一轮众包标注。总之,我们花了几个月的时间来筹备比赛。

“那你就需要更大的数据集。你关注过飞飞的实验室吗?等你准备好迎接真正挑战的时候,可以看看她组织的比赛。”

为了避免误判表现优异的算法,我们允许算法给每个条目添加五个标签,标签以相关性排序。比如,在上面的例子中,“草莓”和“苹果”这两个标签都算正确答案。我们把这种评估标准叫作“五大标签错误率”。这种标准可以鼓励参赛者明智地分散识别风险,确保他们的能力得到最充分、最公正的展现。

不管吉滕德拉是真的对我的项目改变了看法,还是只是想打老朋友的脸(这两种情况似乎都有可能),辛顿都认真地听取了建议。

在这种情况下,竞赛的严谨性和透明度都至关重要。为了实现这两大目标,我们起草了大量文件,详细解释算法的分析方法,解读对算法性能进行量化的精确公式。除此之外,灵活性也很重要。毕竟,当给照片分配标签时,就算是人类,也可能会对哪个物体最相关产生分歧。例如,想象在一张水果摆盘的图片里,草莓和苹果都非常显眼,因此都可以被视为照片的核心特征。如果给这张图片标注“草莓”而不是“苹果”,算“错误”吗?

每一个翻腾的思绪似乎瞬间汇聚,让我从迷迷糊糊的旅行中清醒过来,我突然想到了一件事:神经网络与ImageNet对世界的呈现是天然的契合。回顾过去,杨立昆的网络与笔迹识别相得益彰。他的网络对笔迹进行分析,从最小的像素簇到笔触的纹理,再到完整的数字,在每个分析尺度上都发现了有意义的模式。这是从数据中自发产生的感知流畅性,自然而然地形成了意识的层次。休伯尔和威塞尔在猫的视觉皮质中看到了同样的现象。而在加州大学伯克利分校的实验室里,我们看到了更深层次的理念。神经网络一直都能进行物体识别,但直到现在,它们才具备了实现目标所需的计算能力。

在象棋、扑克或篮球等比赛中,胜负的概念简单明了。然而,在科学竞赛中宣布获胜者类似于做出了一项承诺:承诺不仅参赛算法在某些方面表现优异,而且算法设计对整个领域做出了贡献;承诺获胜算法能给我们带来全新的启示、深刻的见解,甚至变革性的成就;承诺比赛结果就是迈向北极星的下一步。这是一个重要而庄严的声明,发表的时候必须充满信心。

ImageNet的数据广泛而全面,覆盖了世界上绝大多数物体。现在看来,AlexNet和ImageNet也属于相互成就。简而言之,这就是最大的不同——现在算法可以探索的数据范围大大增加了。一想到训练完成后AlexNet的层级中包含的内容,我就惊叹不已:形状、边缘、图案、纹理,涵盖我们多年来从互联网上捕捉到的所有人物、动物和物体。现实世界中幽灵般的碎片,以恰到好处的方式组织起来,供算法来查看。

一回到美国,我就开始了比赛的筹备工作。乍看之下,比赛规程似乎简单明了:使用ImageNet来训练算法,用一组算法从未见过的图像对其进行测试,评估算法对图像标注的准确率,以此计算排名,总错误率最低的算法胜出。然而,从实际操作上看,将数据集转化为竞赛本身就是一项科学挑战。

飞机抵达佛罗伦萨,机轮触地,飞机轻轻地颠簸着。我仍然难以相信AlexNet就是我们梦寐以求的进步。这个飞跃似乎太大了。但我越想越觉得它具备每一个伟大突破的特征:疯狂的外表包裹着一个有意义的想法。

这也意味着将ImageNet推向世界的工作尚未结束。

第二天一早,消息就传开了。据传,会上将宣布一个具有历史意义的事件。这些含糊不清的传言激起了与会者的好奇心。当我到达时,研讨会现场已经人满为患,杨立昆本人不得不靠后墙站着,因为他稍微晚了几分钟,没能找到座位。

如果邓嘉论文的核心思想是正确的,如果ImageNet真的会引起一场大洗牌,带来新的规则、新的直觉,甚至全新的范式,那么还有什么比通过比赛来探索这个数据集更好的方式呢?激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则,但又要有探索性。即使经过多年的努力创建了ImageNet,仅仅是想像着把它做成比赛,也为它注入了新的生机。

从研讨会开始的那一刻起,现场的气氛就异常紧张,人群分成了三派。第一派是ImageNet的少数支持者,包括我、亚历克斯·伯格和辛顿实验室的成员。第二派占绝大多数,由中立但感兴趣的观察者组成。第三派虽然人数不多,但态度强硬,也最直言不讳。他们是那些从早期就反对ImageNet理念的批评者,虽然我通常不理会他们的态度,但在会议现场很难忽视他们的存在。

这样一来,ImageNet也成了计算机视觉领域的北极星了,我想。

更糟糕的是,我们并没有形成统一战线。辛顿无法亲自参会,因为他长期患有背部疾病,几乎不可能进行国际旅行,所以他派了亚历克斯·克里热夫斯基代他出席。亚历克斯非常有才华,也是算法的主要作者,所以可以代替辛顿。但就像许多杰出的人一样,他的个人表现与他工作成果的高度并不相符——我不确定他是否完全理解这一点。他的表现笨拙而轻率(这在学术界并不罕见)。一个典型的例子是,我在研讨会开始前多次给他发短信确认会面时间,但他完全没有回应(但幸好,他按时到了现场)。由于听众的怀疑态度空前高涨,他只摆事实、不带情感的演讲更难赢得他们的认同。

“那就有意思了。”亚历克斯回答道,“我都可以想象研究人员在互相交流新想法的时候问:‘它在ImageNet上的表现怎么样?’”

提问环节一开始,现场的紧张气氛就越来越浓。我们听到了所有常见的抱怨:ImageNet太大了,不实用;没有必要包含这么多类别;物体识别模型还太原始,不需要如此庞大的数据集;等等。事实上,AlexNet几乎是逐点证明了相反的观点,但奇怪的是,观众却不信服。同时,也出现了一些新的批评声音,有些甚至非常离谱。一位与会者(来自顶尖大学的后起之秀)煞有介事地提出,描绘T恤的图片类别多样性不够,因而无法可靠地训练模型。对此我更多的是感到好笑。是认真的吗?T恤图片是致命弱点?会议现场的其他人也都一头雾水。

PASCAL视觉对象类别数据集(通常称为PASCAL VOC)是一个欧洲研究团队汇编的数据集,包含大约1万张图片,分为20个类别。PASCAL VOC与Caltech 101类似,但有一个重要区别:PASCAL VOC是年度计算机视觉大赛的基础数据集。该大赛始于2005年,每年都有来自世界各地的参赛者提交经过PASCAL VOC训练的算法,然后用这些算法去识别一组以前没有见过的新图片,最后根据分类的准确度对算法进行排名,错误率最低的即为获胜算法。比赛既具有协作性,又具有竞争性,吸引了各方对计算机视觉领域最新进展的关注。而参赛者所使用的数据集仅有ImageNet的千分之一大小。

但那些认真倾听的人得到了回报。在27张幻灯片中,大多数只有黑白文字和图表,却以我们从未见过的清晰方式展示了神经网络的本质,极具启示性。继罗森布拉特的感知机、福岛的新认知机和杨立昆的LeNet之后,AlexNet实现了计算机视觉领域的新跨越。这一步早就应该迈出,却历经了数十年的酝酿,现在终于横空出世,利用大型数据集充分彰显了潜力。

“你是说像PASCAL那样的吗?”

尤其值得注意的是AlexNet的学习过程。

“那么……如果我们用ImageNet做同样的事呢?”我问道,边思考边说,“或者,干脆我们就用ImageNet搞一个完整的竞赛怎么样?”

与所有神经网络一样,AlexNet的初始状态是无形的、惰性的,就像虚空中的一块挂毯。然后,学习过程就开始了:面对从ImageNet库中随机选择的图片,神经网络的任务是从上千个标签中选择一个正确的标签,对图片进行标注。这个过程周而复始,不断重复。一开始,标注几乎是不可能完成的任务;AlexNet的数千万个神经元是随机配置的,对世界甚至连一点儿模糊的理解都没有,只会产生错误的结果。把一张蘑菇图片标注为“瓶盖”。错误。把一张拖车图片标注为“电吉他”。错误。把一张棱皮龟图片标注为“浴巾”。错误。

就像打赌一样,我喜欢这个说法。

但失败并非无用功。错误会触发纠正信号,在网络的数千万个组成部分中蔓延开来,同时对每个部分对于结果的贡献进行评估,并按比例推动它们下次采取不同的行动。这是最简单的学习方式:减少失败的行为,增加成功的行为。但学习的规模极大,算法会仔细审查每个错误的每个细节:每一片光影、每一个图案和纹理、每一个柔和的渐变和坚硬的边缘。

“没错,这样就很容易衡量进展。还有什么比这更能激励研究人员呢?就像是发起了一个挑战,就像打赌一样。”

在早期阶段,效果并不明显,当AlexNet再次看到类似它之前错误分类的图片时,很可能会再次出错。不过,错误会更小一些。如此循环往复,直到正确为止,哪怕只是靠运气。这一次,信号的目的是强化,而不是削弱:强化任何看似指向正确方向的东西。训练继续进行。错误。错误。错误。正确。错误。错误。正确。正确。错误。

“相当于一个基准。”我回答道。

ImageNet规模巨大,算法学习也注定是个漫长的过程,即使只是为比赛挑选的1000个类别的子集,完成学习也需要很长时间。ImageNet涵盖了各种各样的对象,比如数字钟、篱笆、盘式制动器、秒表、意大利灰狗、微波炉、醋栗,每个类别都有上千个不同的品种。不过,AlexNet本身也是个庞大的网络。它有65万个独立神经元,通过6.3亿个连接组成网络,其中有6000万个微小的、几乎无法察觉的权重影响着连接的强度,当信号从网络的一端流向另一端时,一些连接会增强,另一些则会减弱。

“你知道我最喜欢Caltech 101哪一点吗?”亚历克斯的话把我拉回了现实,“除了里面的训练数据,它还让我有机会用完全相同的图像,把我的研究结果和你的进行比较,做同类对比。”

作为整体,这些连接提供了一张巨大的画布,足以描绘整个世界。在一轮又一轮的标注中,权重不断变化,有的变强,有的变弱,有的摇摆不定,形成了一种柔韧结构,对训练做出有机的优雅反应。承载这些庞大数据的是两个英伟达图形处理器,高度专业化的硅芯片并行工作,以最快速度进行着一轮又一轮运算。

说得更专业一些,ImageNet所提供的“语义空间”在不断扩大的同时,也变得更加密集,导致正确答案与错误答案之间的差距越来越小。在实际应用中,这通常意味着那些在区分少量差异较大的类别时运行出色的技术,在处理ImageNet的上万个类别时会表现不佳,因为很多类别之间的差别都非常细微。有些技术甚至会完全失效。这种现象刚开始时令人羞愧,但最终会催人振奋,因为它表明未来的算法不仅是当前算法的改进,而且会以一种我们预料不到的方式,从根本上发生变化。

训练从早到晚不停地进行,直到每幅图像的每个像素都被研究完毕。几个小时变成几天,几天又变成一周。图形处理器推动之。ImageNet挑战之。AlexNet适应之。随着数以千万计的权重一次又一次地调整,整个网络出现了更庞大、更奢侈的结构。就像铁匠用锤子敲打发光的钢铁。每次微小的增量积累,直到近乎肉眼不可见的扰动变成山脉和山谷,延伸到数千维的超空间。这个网络是世界无数细节的幽灵般的均值,是1000种不同事物、每种事物1000幅不同照片留下的痕迹。这里有1000只达尔马提亚犬,那里有1000个洗衣篮,另一处有1000个马林巴琴。

与此同时,邓嘉也开始在学术领域崭露头角。在ImageNet发布后一年左右,他发表了题为《对超过10000个图像进行分类能告诉我们什么》的论文,总结了ImageNet出现后图像识别领域发生的根本性变化。尽管论文技术性很强,但其中所蕴含的哲学思想使它有别于一般的学术论文。这篇论文宛如一个预言,甚至触及了存在的本质。邓嘉认为,ImageNet不仅代表了规模的扩大,还代表了分类逻辑的转变,类似于物理学领域的“相变”,在这种转变中,甚至现象的最基本属性也会发生变化。ImageNet极大地拓宽了算法面临的可能性,但因为规模太大,也给算法造成了挑战(相比而言,小型数据集就不会有这个问题)。

就像地质变化一样,种种印记凝聚成了地形,从AlexNet的一端延伸到另一端。削笔刀、清真寺、海星、曲棍球——所有事物都镶嵌在这个地形之中。算法不仅“看到”了这些东西,还成为它们。我们花了数年时间在互联网上搜寻照片,这些照片形成了完整多元的机器意识空间,原始而强大,成为世界一切事物的统一表征。

就像我们那个时代的许多实验一样,我们使用的算法准确性很不稳定,还有很大的改善空间。毕竟,就连简单的图像识别也仍处于起步阶段。但困难只会进一步激发我们的冒险精神。我们的研究大胆且具有前瞻性,虽然并不完备,但能引发思考,其中很多在概念上也很简单。但直到ImageNet出现,一切才变得切实可行起来。

在经过140万轮标注后,最后几张图片与其说是一场磨炼,不如说是一场加冕礼。网络的焦点穿过像素,随着熟悉模式的识别而亮起,并传递到下一层,与其他模式相结合,形成越来越强大的感知。算法的反应不再是随机的,大多数也不再是错误的。土狼。正确。台灯。正确。敞篷车。正确。显然,这是硬件、软件和数据的神奇组合,比计算机视觉领域所打造的任何成果都更接近于捕捉到塑造了人类这种哺乳动物思维的进化精神。

我们实验室所做的每一件事都充满了活力。有一次,我们利用ImageNet快速训练了数百个图像分类算法的实例,让它们识别一组日常事物,然后将所有实例应用在一张照片上。实验目的并不是简单地检测单个物体的存在,而是通过寻找物体组合来诠释整个场景。例如,如果检测算法发现了一个人、一艘船、一只桨和一片水域,它就会将照片作为一个整体归类为“划船”。这是一种更深层次的理解,可以说接近于原始的视觉推理。

ImageNet的多样性是在全世界众包志愿者的共同努力下实现的。它所形成的拓扑结构无比多样、强大,达到了圣杯的境地。AlexNet是计算机视觉领域有史以来最大的神经网络,它的训练数据比此前任何神经网络都要丰富,而且具备了泛化能力。

眼下的一切与我们刚搬到斯坦福大学的实验室时的兴奋之情形成了鲜明对比。彼时的我们坚定地认为,我们所掌握的不仅仅是一个数据集,更是一个测试平台,可以把我们的想法与整个视觉世界联系起来,拓宽我们算法的感知能力,同时用比以往更严格的方式对算法进行测试。如果说可以把图像数据集视为计算机视觉研究的语言(也就是算法及其开发人员可以探索的概念集合),那么ImageNet就是词汇量的突然爆发性增长。

我们要花上几个月的时间,才能真正理解在那个会议室里看到的一切,但即使在那一刻,我们也清楚地知道我们正在见证非凡之物。这么多年来,我一直希望ImageNet能够推动新事物的诞生,现在我终于明白,一切的一切,都是为了认可和表彰一种永恒的成就,我们对此刻期待已久。受生物学启发的算法几十年来一直凝视着我们,它只是需要适当的挑战,才能充分展现出来。

现在,提高我们知名度的又一个大好机会就在眼前,今年的国际计算机视觉会议即将在京都召开。与我同行的是亚历克斯·伯格(Alex Berg),他是纽约州立大学石溪分校的助理教授,也是跟我志同道合的计算机视觉研究者,他的研究生导师是吉滕德拉。亚历克斯极具天赋,他本着与我和彼得罗协作时相似的精神,致力于探索“物体识别”的挑战。他在博士论文中使用了Caltech 101,对数据集的价值非常认同,也成为ImageNet为数不多的支持者之一。能与同道中人共勉固然让人振奋,但也凸显了前路之孤寂和艰辛。

这个下午也让我们有机会回顾计算机视觉领域在过去10年的发展历程。我的实验室将所有赌注都押在了长达数年的、规模空前的数据追寻上,而辛顿的实验室则将他们的声誉都押在了卷积神经网络这套几乎已经被专业领域抛弃的算法上。我们都在赌,都有可能赌错。但在那一天,当我们看到神经网络在ImageNet强大训练能力的支持下展现出的惊人能力时,我意识到,虽然两个项目都获得了认可,但这只是因为它们是同步发展的。所有参与者都不知道,我们的每一步都相互依赖。

秋色已尽染日本京都。午后的阳光明媚,从子弹头列车的车窗向外望去,绿色、橙色和红色飞掠而过,如同一幅幅生动的画作。列车以每小时320千米的速度飞驰着,窗外的乡村树木葱郁,景色绚丽。然而,美景当前,我却无心欣赏。这段旅程漫长而艰辛,焦虑如影随形。在之前的计算机视觉与模式识别大会上,ImageNet三流水准的初次亮相令人失望,此后的几个月更是连遭挫败。我们的批评者依然对这个数据集不屑一顾,其他研究实验室也对其兴趣寥寥,ImageNet走向无人问津似乎已经不可避免。为了力挽颓势,我临时决定去尽可能多的大学做现场讲解,尽管听众席上坐的往往是持怀疑态度的研究生和博士后。我能做的不多,但仅仅是让这个不可避免的结局推迟出现,也感觉像是一场小小的胜利。

我往返佛罗伦萨的飞行时间比在佛罗伦萨当地待的时间还长。但在返程的航班上,我的感受与来时完全不同。飞机上的拥挤程度丝毫未减,我的疲惫感更加浓重,但思绪已经不再飞速奔涌——至少不像来时那样。我亲眼见证了成果。没有错误,没有疏忽,也没有文书方面的失误。神经网络起死回生,比以往任何时候都更庞大、更复杂、更强大。ImageNet已经教会了它们所需知道的一切,让它们在一次尝试中就达到了与人类能力相当的水平。

在ImageNet的帮助下,AlexNet焕发生机,它贪婪地吸收着ImageNet的内容,在ImageNet规模和多样性的土壤中生根发芽,茁壮成长。

生物视觉的出现导致远古海洋波涛下的寒武纪大爆发,距今已经5亿年。而如今,我们很难不去联想:我们是不是正处于一个类似拐点的边缘?机器视觉的兴起是否会引发一轮数字进化新浪潮呢?

Experimentation

我在来时飞机上狂躁的思绪和焦灼的问题一扫而空,取而代之的是一种意外的感觉。不是平静,而是大悟,是沉思。这一次,从起飞到着陆,我一直静静地坐着,脑子里只回荡着一个念头:历史刚被创造出来,而世界上只有少数人知道。