彼得罗听到后狡黠地笑了笑。
“好。那就15个?”
“好吧。20个!”
我欣赏他勇于冒险的精神,但也不得不考虑现实情况。我知道收集、标记和组织图像的实际工作将会落在我身上,所以我总是尽力平衡我们的研究需求和日常生活的实际问题。
他仍然不为所动。不会吧?
彼得罗皱了皱眉头:“是比之前多了点儿,但我觉得是不是有点儿过于循序渐进了?”
彼得罗后来告诉我,我提的数字已经很接近了,因为他本来想着30种应该差不多了。但他注意到我俩之间的对话似乎变成了一场谈判,而且我的态度非常慎重,于是他决定采取一种进攻的策略。
“10个怎么样?”我提议道。
“我们搞100个吧,飞飞。”
我放下叉子,思考了片刻。加州理工学院有史以来最大的数据集中包含了7个随机选择的类别,所以明智的做法似乎是稍微增加一点儿,凑个整数。
彼得罗后来告诉我,当时我脸上的表情就像是被他判了死刑。这里面涉及的工作量太大了,未来几个月,我可能会丧失部分理智,还可能牺牲我渴望的社交生活(诚然这部分损失并不大)。但他的提议没错,一想到我们的模型在这种资源下的表现,我就会情不自禁地兴奋起来。不过,为了不让他得意,我尽力让自己淡然地接受了这个提议。当然,要做到不露声色,我还得再修炼几年。
“那我们从最显而易见的问题开始:我们的新数据集应该包含多少个图像类别呢?”
随着我们的极限对话场景从记忆中逐渐消失,我对这个计划的看法也发生了改变。是的,策划100个类别的图片,让每个类别都包含各种各样的例子,这比我这辈子做过的任何事情都要费力(包括周末在干洗店干活)。但这恰恰是我想要的。我的北极星在地平线上闪烁,比以往任何时候都更加明亮。
这是一个大胆的想法,足够冒险,但也有一丝成功机会,所以会很有意思。
“喂,飞飞。”
“我的意思是,如果所有这些新数据本身就是达到下一个阶段的关键所在呢?”
“妈妈,爸爸还好吗?店里怎么样?”
我继续点头。
“有个顾客要改衣服,他不停地说一个我不熟悉的词,我觉得好像说的是缝什么吧,但是……”
“所以我们要是创建一个全新的数据集,你觉得怎么样?这次的规模要更大。我觉得我们可以从头开始全部自己来做。”
接着是一阵奇怪的停顿。“飞飞,我……”
我一边咀嚼一边点了点头。
她的呼吸越来越急促。我能听到她在电话那头的声音,但她似乎无法做出回应。
“我一直在想我们的单样本学习论文。”他转移话题说,“我为我们取得的成就感到自豪,但我们都知道,数据才是真正的主角。”
“妈妈?妈妈?你没事吧?”
彼得罗微笑着看着他的作品,他显然察觉到了我的不耐烦,但他并不在意。我从他手里拿回托盘,开始吃饭。
坏消息总是在最不合适的时候出现。两年的研究生课程已经让我的体力和毅力达到了崩溃的边缘,在这个时候得知母亲患上充血性心力衰竭,我的感受无法用语言来表达。
“嗯,非常漂亮。”我说。我现在连假装欣赏的样子都不做了。
事后看来,几个星期前她就明显感觉不舒服了。
“差不多了……等一下……”我又跟彼得罗在红门咖啡馆一起吃午饭,他又要把我们的拼盘摆成他的霍克尼拼贴画系列新作,我又浪费了几分钟的用餐时间。“完工!”
家里的干洗店基本上相当于母亲独自一人在经营,压力巨大。我以为她只是需要休息一下,于是让她来我这边几天。但下了飞机后,母亲呼吸困难,面色苍白,我这才意识到她的病情比我想象的要严重得多。显然情况已经非常紧急,但父母都没有医疗保险,我也不知该如何应对。惊慌之下,我给所有我能想到的人都打了电话,最终有人介绍了一位在尔湾一家私人诊所工作的会说中文的医生。虽然开车过去要将近两个小时,但她是唯一一位愿意接待自费患者的医生,还好心给我们打了折。医生很快就做出诊断:母亲的心脏状况十分糟糕。
如果数据量大得多呢?
萨贝拉先生依然是我的安慰之源。“你妈妈怎么样了,飞飞?”
事实上,我越想越觉得奇怪。数据具有微妙而神奇的力量,为什么这个话题从未得到任何关注呢?我们的实验材料极少,只不过是从几个随意选择的类别中拿出几百张图片,却获得了意料之外的结果。这不禁让人思考:如果少量数据就可以实现如此强大的能力,那么更多的数据又将带来什么呢?这个问题越想越觉得具有启发性。
“医生说没有生命危险。还好我们及时发现了。”
我们算法的决定性特征是能够从只看过一次的图像中学习新的事物类别,而这一特征对数据的依赖极大。究其根本,是因为我们的算法已经见识到林林总总的各种事物,获得了感知体验,才可以在面对新事物时展现出卓越的识别能力。
“谢天谢地,你还好吗?”
我们选择的机器学习算法的数学核心是“贝叶斯网络”(Bayesian network),这是一种概率技术。接二连三的问题都是有关这种技术的,但没有一个人问及我们训练算法时所用的数据。数据被公然视为一种惰性商品,只在算法需要时才重要,虽然这种观点并不稀奇,但我开始意识到,有一些重要的东西一直都被低估了。
我叹了口气,把一切都和盘托出——我们家最新也是最不得已的计划。我们的干洗店已经经营了七年,现在我们别无选择,只能把店卖掉。当年,在所有其他选择看起来都遥不可及的时候,干洗店成了我们家的救命稻草,然而,由于母亲的病情严重,就算父亲能帮忙,她也没有办法再经营下去。虽然生意尚可,但我们赚的钱远远不够雇人帮忙。是时候另谋出路了。
在我的演讲结束后,大家展开了热烈的讨论。我突然意识到一件微妙的事情——我被问到的每个问题都与算法本身有关:你是如何建立贝叶斯方程来估计后验概率的?你是如何估计图像的先验分布的?你提到使用最近提出的变分推理算法来优化模型参数,能详细说说吗?在未来的改进中,你打算如何扩展算法?算法在不同情况下可能会有什么表现?
我还有一个更极端的决定:让父母搬到美国另一端的帕萨迪纳和我一起生活,我们再次共同面对在美国的生存问题。我的宿舍比我们在帕西帕尼的住处还要小,但这是我们目前唯一的选择。
虽然我听过吉滕德拉的名字,当然也知道他响当当的名声,但这是我们第一次见面。我倾向于从家庭的角度来看待学术关系,所以我把导师的导师视作我的“师爷”。他的陪伴让我倍感平静和鼓舞,他完全无愧于这个称谓。演讲结束后,我被一群渴望了解更多细节的研究人员团团包围,而吉滕德拉成了我的救星。有他陪着,就算他什么都不做,我也觉得这不堪重负的一天可以熬过去了。我们之间也就此开启了一段持久的友谊。
萨贝拉先生在电话那边沉默了许久。“你还会继续你的学业,对吧?”他似乎察觉到了一些连我自己还没有去面对的东西。
“是啊,你知道我是彼得罗以前的导师吧?”他笑着说,“他让我来陪你。你不会以为我们会让你一个人来这里吧?”
“我不知道。”
“吉滕……哦!吉滕德拉·马利克吗?你……”
又是一阵沉默,直到我笑着说:“你觉得我至少可以在报税单上把父母申报成为我的受扶养人吗?”
“终于见到你了,真是太好了!我是吉滕德拉。”
一个新的现实正在浮现,它如此复杂,动摇了我以物理学专业学生的身份走进普林斯顿大学报告厅以来所做的每一个决定。毕生的好奇心把我带进了一个竞争激烈、薪酬低廉、无法保障长久职业生涯的领域,而我的父母现在需要我无法提供的支持。我每天都在追求自己的梦想,这让我觉得自私至极,甚至过于鲁莽。我的实验室伙伴大多来自中产阶级,有些甚至家境非常富裕。我越是反思与他们家庭之间的差异,就越难以否认这样一个事实:成为科学家是一种奢望,我负担不起。
“是的,你是?”我小心翼翼地回答。
但故事并没有到此结束。
“飞飞?”一个声音在我身后响起。我转过身,发现一张陌生的面孔正俯视着我。
几周后,一位同学提到,世界知名管理咨询公司麦肯锡的合伙人过来招聘了。他们正在寻找一个实习级别的分析师,这个职位将提供丰富的在职学习机会,这意味着常春藤盟校里只要跟数学和计算机科学有一点联系的研究人员,都可以成为理想的候选人。在真正绝望的时刻,这似乎是一个值得考虑的机会。
然而,一到会场,我就强烈地感受到没有彼得罗在身边,我心里是多么没底。按照惯例,学生第一次参加会议时,无论是否做报告,导师都要陪同出席,以示支持,同时也可以帮助学生建立人脉。我开始逐渐意识到,我置身于一个挤满数百名陌生人的活动大厅里,不得不独自应对一切。紧张感开始涌上心头。
当然,我以前也经历过这种情况。我的学术目标和现实生活之间一直存在冲突,我很想把这次事件也当成最近的一次小冲突。但这一次,我内心科学家的声音与以往不同。在母亲的健康状况受到新一轮的打击后,它变得不那么坚定,就连我内心那个特殊而戒备的部分也开始屈服了,我知道自己不能永远无视现实。我把犹豫抛到一边(这一举动现在竟然出奇地容易),买了一套远超我预算的衣服,小心翼翼地把标签藏在领子下面,这样穿完后马上就能退货。我申请了一次面试。
在飞往法国尼斯的航班上,我没有时间紧张,因为还有要务在身。在加州理工学院的工作让我一直忙得不可开交,而在约9100米的高空安静飞行的13个小时,是我唯一可以用来准备演讲稿的时间。在旅途的大部分时间里,我都低着头,以最快的速度撰写演讲提纲、制作幻灯片。
跟我预料的一样,一切都感觉很不自然,但我无法忽视的是,命运似乎从一开始就很眷顾我。这可能是我第一次有机会在学术世界之外以一个完全成熟的个体身份展示自己,我充满了平日里没有的信念。当然,我是个不折不扣的书呆子,但这只是我的一面而已:多年的奋斗锻炼了我,让我拥有其他候选人从未有过的拼搏精神,以及一种实用主义本能(我现在才意识到,这种务实使我与众不同)。然后,一个近乎滑稽的巧合出现了。
在国际计算机视觉会议上发言是一个难得的机会,尤其是对一个研究生来说。然而,我可以说完全没有在如此重要的听众面前发言的经验,因此感到压力重重。更糟糕的是,彼得罗不能跟我一同前往。他和妻子的第一个孩子即将出生,预产期近在眼前。这是我第一次参加学术会议,也是我第一次登台演讲,而我要独自前往了。
麦肯锡公司的代表首先说道:“我们喜欢围绕假想的商业场景来组织面试。当然,没有人指望你真正了解这个行业,所以就把它当成一种创造性的练习。我们只是想了解你的直觉,你知道,就是分析推理之类的东西。”
我们的技术将这一概念引入了机器,而且看起来效果不错。如果说实验结果是一个惊喜,那么我们的论文所受到的欢迎程度则是超乎想象的。这是一次突破性的成功,我们的论文不仅被在法国尼斯举办的国际计算机视觉会议(International Conference on Computer Vision,ICCV)所接受,而且为我们赢得了为数不多的口头报告的机会。虽然这篇论文是与彼得罗和另一位名叫罗布·弗格斯(Rob Fergus)的研究员共同撰写的,但我是主要作者。这意味着此次旅程的荣誉和责任都属于我。
很简单,我想。
我们将这种技术称为“单样本学习”(one-shot learning)。这种技术与当时主流的图像识别方法背道而驰,但我们是从一个众所周知的能力中获得了启发。作为人类,我们天生就有一种神奇的本领,那就是可以仅凭对陌生事物的一瞥,再次遇到时就能认出来,不管是一样新的乐器、一种我们从未见过的动物,还是一位新当选的政治家。我们可以对这种能力做出多种解释,但其中最简单、最有力的解释是,即使面对全新的事物,无论多么新奇,我们也会借助一生的经验来加以理解。我们所看到的几乎一切都深深地融入了过往的经验——轮廓、光影、纹理和图案等熟悉的细节,以至我们很难想象能真正孤立地看到任何东西。
“我想让你想象你是一位经理,比方说,服装业的经理。”
我们的创造只是概念验证,仍然存在一些错误。但我们的目标是证明算法和人类一样,能够通过看到更多的现实世界而广泛受益。现在,北极星已成为我视野里的一个坐标点,我们已经朝着这个方向迈出了真正的一步。
哇。
这是一个激动人心的时刻,但并非因为算法的成功识别,而是因为它的运作方式。以往的算法会首先学习数百张飞机的照片,涵盖尽可能多的颜色、风格、角度和光照条件,但在这次研究中,我们只给算法展示了一张飞机的图片。与此同时,我们还向它展示了数百张完全不相关的图片,包括有斑点的丛林猫、摩托车、人脸(我们用彼得罗新买的高级数码相机拍摄了实验室伙伴的笑脸),还有一些从谷歌图片上随机下载的图片。我们的假设是,先让算法充分接触视觉世界里丰富繁杂的各类事物,它就更好地具备了学习特定事物的能力。因此,虽然算法被训练识别过各种各样的事物,但它刚刚识别出的那架飞机是它见到过的第二架飞机——自它被设计出来后见到的第二架。
面试开始时不过是例行的评估,却意外地逐渐演变成一场内容丰富的对话,从我对物理学的热爱和对智能奥秘的痴迷,到洗衣店供应商的世界,再到我作为干洗店主管的业余职业生涯,等等。尽管感觉很不可思议,但谈话似乎进行得非常顺利。
飞机被成功识别出来了。
招聘人员显然也是这样认为的。麦肯锡公司立即给了我肯定的回复,并决定将我的实习机会转为长期的正式职位。
接下来是真正困难的部分。每个突出显示的特征只占据了几个像素,因此算法会将特征进行分组,每个组群都代表了所要识别的对象的较大部件。换句话说,算法通过这种方式大致标示了自己所识别的内容。飞机的每个部分周围绘制着彩色圆圈——蓝色和青色代表机身的不同部位,红色代表垂直稳定器,绿色代表两者的交汇处。果不其然,算法几乎精确地将它们放在了各自所属的位置。
我的心中五味杂陈,难以言表。一方面,我将要抛下这么多人和事——加州理工学院、彼得罗、克里斯多夫、吉腾德拉、我的同学们和我所知道的一切,最糟糕的是,要放弃追求一个具有历史意义的梦想的天赐良机,放弃我的北极星,一想到这些,我的胃里就感到一阵阵难受。另一方面,我亲眼看到父母多年来濒临绝境,越来越觉得他们是为了我才做出这么大的牺牲。这份工作似乎让我终于可以卸下长久背负的重担,而我却从未充分认识到这个重担的分量。为了我能来美国,母亲已经付出了一切。我知道现在是她最需要我的时候,我终于可以报答她了。我径直回到家里,准备分享我认为的好消息。
我兴奋地呼了一口气。到目前为止,一切都很顺利。
“飞飞,你穿这个去实验室了吗?”
屏幕上开始出现粉色的圆点,这些圆点是视觉辅助工具,旨在突出照片中能够吸引算法注意的细节。第一个圆点出现在了停机坪旁的一片草地上,我微微皱了皱眉。算法找错了地方。但趋势很快逆转,接下来的两个圆点出现在了喷气式飞机的机翼上,接着又有一个圆点出现在飞机尾部。再接着,三个圆点出现在驾驶舱附近。最后一个圆点出现了——起落架。这也可以算,我想。严格来说,起落架也是飞机的一部分!
我低头看了看——我都忘了自己还穿着面试的衣服。“哦,是的。”我敷衍一笑,“别担心,这套衣服特别划算。”我说着,向她展示了依然完好无损的标签。
屏幕上出现了一张喷气式飞机的图像,这次算法的任务是在照片上找到飞机。这是连蹒跚学步的儿童都能应对的挑战,但在2003年,机器只有在吸收了大量示例材料后才能应对。即便如此,它们成功的概率也很低。那天下午,我和彼得罗测试了一个想法,希望能够大幅提高机器判断的准确率。我紧紧盯着屏幕,迫不及待地想知道算法会带来什么结果。
“发生了什么事?”她更加困惑了。最近的生活太混乱了,我还没来得及跟父母说我的计划。
我找到了属于自己的北极星。
“妈妈,我们得聊聊。”
我想到了我的榜样们,从物理学的传奇人物到我的教授。多年来,我一直崇敬激励他们成为科学家的思想力量,也敬仰他们在各自领域产生的激励效应。现在,我接受研究生教育不过短短几年时间,但我相信我在自己的视野看到了一丝微光,虽然遥远而朦胧,但足以照亮我前进的道路。无论采取何种方法,我们将要让机器熟悉视觉世界。我本身就比较执着,但这次的痴迷程度是前所未有的。
我跟她说了面试、工作机会和其他所有的一切,告诉她待遇、起薪,以及在我还没来得及答复之前,他们就已经提出了优厚的待遇。我解释说,无论从哪个角度来看,这都是通往每个移民母亲都希望自己孩子拥有的职业生涯的捷径。她礼貌地听着,但我还没说完,就在她脸上看到了那种熟悉的表情。
我很难想象各方协同可能会带来什么发现。人工智能的未来具有无限的想象空间,但我开始认识到,这并非首要问题。我越来越确信,解开人工智能之谜的理想第一步,就是迎接一个特殊的挑战:通过理解各种物体来理解视觉世界。毕竟,人类就是这样看到世界的。我现在相信,这同样适用于我们的机器。
“我们真的要再次讨论这个问题吗?”
这也改变了我对自己所从事的计算机视觉领域的看法。虽然计算机视觉领域的灵感创意层出不穷,但它们都分散在各种各样的研究项目中,整个领域缺乏指向同一目标的共同协作,类似于那股千年来耐心地塑造了我们自己思维发展的专注力量。我不禁思考,如果这种情况改变了,如果研究人员能够联合起来,共同理解并重新创造了人类认知的核心理念,世界将会变成什么样子?
“妈妈,我知道,但听我说——”
我们的视觉系统就像是某个神秘巨人以极大的耐心精雕细琢出的发条装置,而我们的研究工作像是其逆向工程。虽然发条装置的小齿轮在我们面前嘀嗒作响,但其神秘面纱仍然未被揭开,距离完全理解视觉原理还有很长一段路要走,但我们已经窥得一些非凡的东西。生物进化是宇宙中唯一能够从零开始创造真正智能的力量,我觉得我们正在复原其线路图,或者至少是其中的一些片段。
“我了解自己的女儿。她不是管理顾问,或者其他什么职务。她是个科学家。”
我读到的很多内容似乎都在强化这一观点。虽然特雷斯曼揭示了我们识别复杂物体的一种方式,但比德曼、波特和索普的研究成果提供了一种截然不同的可能性,大大增加了视觉研究的复杂性。他们认为,在某些情况下,大脑会完全绕过这种密集的自下而上的视觉信息处理方式。我们自己实验室的研究探索了在没有刻意集中注意力的情况下,视觉识别能够达到的程度。坎维舍的观点尤其具有启发性,他认为这种不可思议的能力是通过特定用途的神经元关联来实现的,这些神经元关联可以映射到现实世界中的特定事物。这些证据有力地证明了大脑在生理上倾向于快速、稳健地检测已知的视觉概念。
“想想你的身体吧,妈妈!想想我们的开销。搞学术能给我们带来什么呢?”
分类的能力赋予了我们难以估量的力量。视觉没有把我们埋没在光线、颜色和形状的无数细节中,而是把我们的世界变成了可以用语言描述的离散概念。有用的观念像地图一样排列在我们周围,把复杂的现实简化成我们可以一望便知、在瞬间做出反应的世界。我们的远古祖先就是这样在纯粹的混沌环境中生存下来的,世世代代的艺术家们就是这样从日常生活中提炼出美感和精华的,即使在今天,我们也是这样在这个日益复杂的世界中找到自己的方向的。
“飞飞,我们走到这一步,不是让你现在放弃的。”
当我在加州理工学院的第二学年即将结束时,我已经阅读了大量文献,参加了许多研讨会和专题会。随着我们的实验结果的发表,我也看到了足够的第一手资料,因而认识到了一个重要的事实:视知觉依赖于分类。我们的大脑会自然而然地将我们所看到的细节归类为更广泛的概念,如物体、人物、地点和事件等。例如,在现实生活中,我们看到的不仅仅是简单的绿色和蓝色的图案,而是会看到在天空映衬下的一棵树。视觉在更高、更有意义的层面上发挥作用,用知识武装我们的头脑——我们可以想象树叶随微风摇曳的样子或夹在指间的感觉,我们也可以立刻估计出一根树枝的质地和重量,这两者都与高悬在数英里高空的不可触摸的大气层和彩色光线截然不同。
“这不是放弃!这是我梦寐以求的工作,一份事业,可以让我们摆脱目前的困境。看看我们现在活成什么样了!三个大人住在一个宿舍里!”
我很荣幸能为这项看起来正在对该领域产生影响的研究做出贡献,但最大的收获在于哲学层面。我们的研究成果跻身过去几十年的成果行列,表明人类视知觉的核心是一个简单的概念:我们的视觉基础在于识别定义明确的类别,也就是对事物的识别。彼得罗神情微妙,但他的喜悦之情明白无误地写在脸上,说明他也认同我的观点。我越发相信,我们即将揭开一切的奥秘。
我不确定自己是否相信这些话,但它们似乎是对的。母亲停顿了一会儿,也许是在思考这些话,然后回答说:“飞飞,你一直在说自己走的路很‘自私’,就好像你追求科学是在牺牲我们一样。”
在一次又一次的测试中,数据清晰地揭示出令人震惊的事实:我们的实验对象在完全专注于其他事情的情况下,也依然能够识别出真实世界场景中的照片。我们知道反应时间会很短,但实验对象的反应速度之快、一致性之强和准确性之高,都完全出乎我们的意料。大脑能够以惊人的辨别力和迅捷的速度识别出无数视觉概念,这是大脑的独特特点,不仅极其强大,而且似乎完全是自动的。
“我怎么能没有这种感觉呢?我现在本来可以养活咱们全家,而且——”
“我知道!简直不可思议!”
“你没明白我的意思。这从来就不是你一个人的路。从一开始,这就是我们全家的路。不管你是注定要成为科学家、研究员,还是其他我没有办法想象的职业,也不管你能不能从中赚到钱,从我们的飞机离开上海的那一刻开始,我们全家就一直在为这个目标努力。”
“飞飞,这些数据……我是说,它们——”
我不知道该说什么。
他刚喝了一口卡布奇诺,我就翻开抄录了最新结果的笔记本,开始大声朗读起来。经过漫长的努力,我很自豪终于有了一些切实的成果可以跟他分享。就在我把数据逐个念出时,彼得罗变得和我一样兴奋。
“我再说最后一次:我们走到这一步,不是让你现在放弃的。”
然而今天,我来到这里不是为了品味生活,而是另具战略目的:实验结果已经出炉,我想马上跟他分享。虽然彼得罗对自己的咖啡仪式全神贯注,但在咖啡时间跟他交流比吃午饭时更容易——吃饭的时候,他喜欢把我们的餐盘摆成五颜六色的画面,说像流行艺术家大卫·霍克尼(David Hockney)的作品。他所谓的“霍克尼拼贴画”主要是他在自娱自乐,一开始很有趣,但等他摆好我早已饥肠辘辘,不禁回想起他对艺术史的热爱曾经看起来多么高深。
她是对的。她总是对的。这一次,不知什么原因,我终于听进去了她的话。我再也不会质疑自己的道路了。
大多数日子里,彼得罗都会在上午到校园的红门咖啡馆,享用一杯卡布奇诺,而我也开始跟着他一起去了。我个人的经济状况并不支持我养成喝咖啡的奢侈习惯,但我喜欢观察他喝咖啡的过程。他会把自己的要求告诉咖啡师,拿到定制的咖啡后,再小心翼翼地加一点点焦糖,轻轻搅拌。对多年来不停东奔西跑的我来说,他的咖啡时间恰好提醒了我,生活中的简单时刻值得细细品味。
“嘿,那狗叫什么?”吃午饭的时候,我隔着空荡荡的实验室问一位同学。
这些发现本身固然令人兴奋,但它们之间的联系就像是尚未被发现的大陆海岸线,让人感觉别具深意。每一个新的想法都指向一些重大的(或许是历史性的)东西,正等待着被发现。这让我更加迫不及待地想要看到我们的实验结果。我们是不是就快揭晓谜底了?还是会迎来更复杂的问题?
“哪个?”
因此,视觉不仅仅是我们所看到的细节问题。虽然像特雷斯曼这样的研究人员提出,图像可以被分解、分层查看,特别是在严格控制的实验室条件下,但我们在混乱世界中生存所依赖的视觉需要处理的对象是事物、人物和地方。事实上,从最早的处理阶段开始,我们在感知周围环境时,并不是将其看作颜色和轮廓的组合,而是以类别的方式来理解。
“就是身上有棕色和白色的毛,可能还有点儿黑色,耳朵耷拉着,特别可爱的那个。天哪,我一点儿也想不起来这种狗的英文名叫什么了。”
在生物学上,个体在某些过程中所付出的努力程度可以说明很多问题。进化极致追求节约体力和脑力,导致生物体只对极端的环境压力做出反应,要么适应,要么灭绝。如果要使一种能力精进到如此程度,使如此复杂的事情变得自动化,那么这种能力必须具有根本性的、独一无二的重要性。
我们在思考只有研究生才敢面对的宇宙级问题。
这些被称为视觉神经关联的结构有一些特别之处:它们似乎都是为特定目的专门打造的。每个结构都能且只能识别特定类别的事物,如面孔、熟悉的地点、身体姿势等。这就解释了为什么我们在完成特定的识别任务时,能够达到惊人的感知速度。我们不需要从头开始,逐个细节地进行解码;我们神经系统的一个专用功能会立即启动,几乎在瞬间就能完成识别任务。从我们的感受来看,这种识别是毫不费力的。
“我知道是字母B开头的……等等,别告诉我……”
研究早期的突破包括发现了“梭状回面孔区”(Fusiform Face Area,FFA),这是颞叶的一个皮质区域,大小不超过一立方厘米,似乎是为识别人脸而量身定做的。接下来是附近的“海马旁回位置区”(Parahippocampal Place Area,PPA),在识别熟悉的地点(比如自家厨房或常走的道路)方面发挥着类似的作用。另一个发现是“纹外躯体区”(Extrastriate Body Area,EBA),可以对周围人的手臂和腿等部位的摆动情况做出反应,帮助我们感知他们的身体方向。
我伸手去拿书桌上的那本英语词典。我成为美国人已经将近10年,尽管互联网逐渐取代了我们生活中的许多物品,但这本字典仍然要偶尔充当我的救命稻草。我翻了几页,一直往下扫视,直至看到……
这样的技术最终出现了——脑电图和功能性磁共振成像(fMRI)等神经科学工具为研究人员提供了前所未有的临床精确度。索普的论文是最受关注的研究成果之一,但相关成果远不止于此。麻省理工学院认知神经科学家南希·坎维舍(Nancy Kanwisher)及其学生完成的研究也同样重要。索普和比德曼等研究人员发现,人类具备快速准确的感知能力,而坎维舍团队通过功能性磁共振成像分析,确定了与之相关的大脑区域。脑电图测量的是整个大脑的电脉冲,它以极快的速度在大脑表面扩散,而功能性磁共振成像则通过检测特定区域的神经元活动,来测量血氧水平的变化。
“对,是Beagle !小猎犬!”
这项研究所用的工具非常原始,因此研究更显得了不起。几十年来,由于无法直接了解研究对象的认知,特雷斯曼、比德曼和波特这群善于思考的人巧妙地在严格控制的环境中,利用行为观察来寻找令人惊叹的线索。但这种方法也有局限性——归根结底,我们能从外部推断出的关于大脑的信息也只有这么多了。要从内部理解这些现象,还需要新一代技术。
“好吧,小猎犬怎么了?”
另一个不同的观点来自心理学家莫莉·波特(Molly Potter)。在使用一台早期计算机显示器向实验对象展示文字段落时,她让大字体的文字一个一个地在屏幕中央闪现。即使以每秒12个字的速度展示(是普通大学生正常阅读速度的两倍),实验对象的辨识表现依然优秀。尽管特雷斯曼的演示证明了视知觉是从微小细节开始逐步建立起来的,但阅读似乎明显是个例外。
我停下来,又看了看那一页。我都忘了自己为什么会提起这件事,但没关系。我突然意识到另外一件事。
与特雷斯曼的观点差异最大的研究成果也许来自视觉研究员欧文·比德曼(Irving Biederman)。他跟同事设计了一项实验,让实验对象快速浏览一些照片(而不是抽象的形状和颜色),然后让他们辨认看到了什么。随着实验的进展,刺激物的复杂程度大大增加,实验对象看图片的时间也越来越短,但实验对象的回答却始终准确无误。比起特雷斯曼的研究对象在一堆五颜六色的字母B中辨认出一个单独的字母A所花的时间,比德曼的实验对象能在更短的时间内从照片中吸收足够的细节信息,分辨出这是一张购物中心停车场的照片,还是一张家庭厨房的照片。
我和彼得罗的目标是建立一个包含100个图像类别的数据集,但我们一直在苦苦思索如何决定应该包括哪些类别。我们担心如果由我们自己来选择,结果可能会带有偏见——甚至在潜意识里,我们会倾向于选择我们知道算法更有可能成功识别的图像类别。
我们的实验固然重要,但彼得罗和克里斯托夫也明确表示,优秀的科学家要广泛阅读文献,紧跟领域的最新发展。我读得越多,就越意识到,索普并不是第一个挑战特雷斯曼的人。我阅读了几十年来的研究成果文章,发现越来越多的线索表明,除了特雷斯曼的观点,还存在很多不同的理论。
我眯起眼睛,更仔细地看了看词典。词典对某些词的解释有一种优雅的意味。大部分词是名词,强调的是有形的、看得见的东西——换句话说,就是物体,或者像小猎犬那样的动物。这些看上去正是我们想要的类别。而且每个字母开头的名词数量基本是均匀的,我觉得分布得很公正。于是我想:让词典来替我们做选择,如何?
从实验对象的角度来看,这个实验的节奏快得让人喘不过气,因为在实验过程中,各种图像和图案会闪电般地转瞬即逝,需要他们几乎立刻做出反应。但是,实验的实施过程就没那么快了。一天又一天过去,我们感觉自己像在照看孩子,而不是在做实验。我们以赚取周末零花钱为诱饵,吸引大学生来参加实验,然后就在隔间外等着他们双眼昏花地走出来。因为愿意参加实验的大学生不够多,所以我们只能趁他们有空的时候做实验。有好几次,我一天的主要任务就是早上6点在实验室门口迎接陌生人。但就算这样,我也乐在其中。这样的工作虽然烦琐乏味,但依然是科学的一部分。
一切堪称完美。这么多年我一直带着这本板砖一样的大词典,现在它竟然成了我作为计算机视觉研究人员实现理想抱负最有用的工具。看来,有时候移民身份还是有好处的。
我们的实验对实验对象的注意力进行了精准的控制,一旦我们确定实验对象的注意力已经完全集中,就会向他们快速展示一张随机选择的户外风景照片,然后提出一个简单的问题:这张照片里有动物吗?他们的答案将充分说明注意力与视知觉之间的关系。
抛开早期的灵感乍现不谈,建立完整的数据集耗时漫长、进展缓慢,而且无聊乏味。我们花了几个月的时间手动查询图像搜索引擎,挑选出最好的结果,然后裁剪和调整照片的尺寸,确保一致性。一个由三到四名本科生组成的小型标签团队也参与到其中,已经搬来与我同住的母亲也想办法帮忙。
这种方法的巧妙之处在于它可以揭示实验对象感官的焦点。因为中心任务需要实验对象集中注意力产生一个客观反应,因此通过几轮反复实验,就可以非常准确地确定实验对象的注意力是否完全集中在该任务上。外围任务虽然相对简单,但也有一个客观正确的反应,由此一来,便可以可靠地测量出实验对象的次要意识。因为这两项任务呈现的时间都只有大约200毫秒(只比眨眼的时间稍长),所以可以排除实验对象有意识地依次执行这两项任务的可能性。
虽然图像整理是个苦差事,但这个过程让我深受启发。在对视觉世界的多样性进行深入思考之后,我开始以一种前所未有的方式看待这个世界:视觉世界本身是单一的现实,其中包含了手风琴、搅拌机、手机、龙虾、比萨、停车标志、雨伞和其他各种各样的东西。这是一种诗意的存在。我意识到这个世界是多么丰富多彩、变幻莫测,而我们留意到的细节却少之又少。
克里斯托夫实验室的访问博士后阿希姆·布劳恩(Achim Braun)为我们提供了实验的灵感。布劳恩当时正在研究一个类似的假设,他假设我们的大脑会在没有意识的情况下处理大量的视觉细节。他提出了一种“双重测试法”。在这种方法中,他让实验对象的注意力集中在一个需要刻意集中注意力的中心任务上,与此同时,展示一个只需要被动观察的外围任务。中心任务需要高度集中注意力,这样能确保外围任务不会被有意识地处理。
浩大的工程终于完成。我们的图像集于2004年完工,成为有史以来为机器学习配置的最大规模的图像集合,里面有超过9000个图像,分布在100个类别中。这是前所未有的,我迫不及待地想看看这个图像集能解锁什么奥秘。我们觉得自己被赋予了前所未有的力量,就好像突然拥有了一件超自然的神器,将赋予我们的创作难以想象的能力。另外,我还忍不住实现了一个细节:我独自完成了一个新类别的图像整理,虽然耗时耗力,但我想用这种开玩笑的方式“嘲笑”导师。如果彼得罗想要100个类别,我就给他101个。
与一般实验不同,我们的目标非常笼统。我们会向实验对象展示照片,每张照片的展示时间只有几分之一秒。我们要看他们能否在不把注意力集中在照片上的情况下,准确识别上面的内容。索普已经确定了完成识别任务的速度,但他没有探究有意识的注意力所起的作用。在观看图像的时候,我们需要有意识地集中注意力吗?还是说我们的识别能力会在无意识的情况下持续运转,无论我们是否刻意关注,都能感知周围的世界?我们怀疑是后者,但我们需要加以证明。
新数据集的官方名称叫“Caltech 101”(加州理工学院101类图像数据集),这套训练图像集内容极其丰富多样。我们现在的模型利用了Caltech 101,性能显著提升,于是我们立即发表了一篇关于单样本学习论文的后续文章。无可否认,模型准确度的提升只是在原来基础上的增量,因此它并没有像第一篇论文那样获得突破性成功,至少在一开始没有。但这个模型树立了更加持久的典范,成为其他开发团队效仿的榜样。模型绘制的性能曲线成为行业基准;在六个月内,来自世界各地的研究人员都将我们的论文引作标准,其中很多人的模型还超越了我们的模型。发表自己的研究成果固然令人兴奋,但知道自己在为他人的构想做阶梯,哪怕只是在他们成功推动该领域发展的过程中扮演了微不足道的角色,也让人无比激动。
在实验室里,经常需要准确捕捉实验对象的感知、期望甚至决策。要设计相应的实验方法,就需要综合运用工程学、心理学、人体工程学,甚至是类似于变戏法的手段。具有讽刺意味的是,虽然我们的实验看起来与在许多其他实验室看到的没有什么不同——都是实验对象身上挂满了电极,助手们处理大量数据,等等——但实验的设计却堪称一种艺术。
很明显,加州理工学院的生活不会轻松,但我对这里的感激之情比以往任何时候都更加深厚。我们卖掉了干洗店,这是我们来到这个国家以来,母亲第一次有机会休息(我也很开心——以后再也不用为了什么浆洗过度的衬衫裙接到长途电话了)。最重要的是,我对学业充满了热情,几乎付出了全部努力,以至每天都会感到筋疲力尽。
如何阅读一个人的大脑?
幸好,在加州理工学院,不难找到像我这样痴迷的人。我在彼得罗的办公室外就遇到了这样一个人。当时,我听到两个明显是意大利口音的声音,我很快便得知,除了我熟悉的彼得罗,另一个声音来自我尚未谋面的研究生同学。他身材高大,说英语时意大利口音特别重(相比之下,彼得罗可以说没什么口音了),他满头乱蓬蓬的卷发,在房间的另一头显得格外显眼。那天他正好赶时间,在彼得罗介绍我们彼此认识之后,我们的第一次见面就匆匆结束了,很快我就忘了这件事,不过我记住了他的名字:西尔维奥。
因为受到热爱的驱使,所以他们都抱持着鲜明的观点,渴望开拓知识的前沿。这意味着要直面索普和特雷斯曼研究成果之间的差异。有强力证据表明,视觉在某些方面(也就是识别现实世界风景的能力)几乎是毫不费力的。但这种毫不费力背后的原因是什么呢?这种原因可以被量化吗?这对我们理解整个大脑有什么帮助吗?这些都是值得探索的问题,而对我的导师们来说,还有一点好处:相关研究工作会非常繁重,足以让他们门下这位执着的新研究生忙上一阵子了。
西尔维奥会来参加我们的实验室会议,很快就吸引了我的注意。跟我一样,他经常以讨论艺术作品作为演讲的开场白。他很喜欢埃舍尔的《手与反射球体》和维米尔的《戴珍珠耳环的少女》等作品,而这些作品都与他在研究中探索的视觉世界的各个方面有关——扭曲表面反射的轮廓、金属表面的闪光,以及日常物品的三维本质。当然,这些赏心悦目的画作很快就让位于堆积如山的方程式。我们在一起的时间越长,我越意识到我们之间有一个共同点,那就是无论在什么情况下,我们都无法抑制自己的好奇心。
我与彼得罗和克里斯托夫相处的时间越长,就越欣赏他们的冒险精神,这也是他们作为学者最明显的特征。虽然他们的背景分别是物理学和工程学,但两人都对心理学、认知科学和神经科学等领域充满了热爱。他们和系里的其他人一样经常阅读计算机科学期刊,但他们还会专注阅读《心理学评论》《美国国家科学院院刊》和享有盛誉的《自然》等刊物。
“快看!看那辆摩托车!”他兴奋地大喊,完全破坏了原本只是一次轻松校园散步的气氛。
“我从来没见过这样的情况。”我说,“这个领域太复杂、太激动人心了,而且几乎是全新的!就在我们聊天的时候,计算机视觉领域很多最牛的学者还在积极地做着研究呢!”
“怎么了?”
于我而言,这篇文章颇为超现实,因为它才发表没多久,就在我来到加州理工学院的前几年。即使在今天,人们也很容易忘记对人类视觉的现代研究历程其实是多么短暂,最早的出版物也只能追溯到几十年前。物理学的传奇历史绵延了数个世纪,从伽利略到牛顿再到玻尔,无不充满传奇色彩。相比之下,不管是过去还是现在,视觉在很大程度上仍是一片未知领域。计算机视觉研究则更为年轻,这感觉就像我手里拿着一张还在绘制过程中的地图,而我的研究生早期生活也因此充满了激情和动力。每周从帕萨迪纳给萨贝拉先生打电话时,我总是滔滔不绝地和他聊个不停。
“你看到镀铬排气管了吗?看到反光了吗?这里面包含了很多信息。你看到了没?排气管的弯曲方式?”
在特雷斯曼的实验中,实验对象在极短的时间内识别基本的颜色和形状。而索普的实验对象则能够在同样短的时间内处理整个图像,辨别其中的细节、视角、微妙的光照和意义。每个阅读这篇文章的人都会心生疑问:这是怎么做到的?我明白了为什么彼得罗这么想让我读这篇文章,也明白了为什么在这篇文章发表三年多后,他和克里斯托夫还经常就此展开讨论和争辩。我立刻和他们一样沉迷其中。
“对,我明白你的意思。”
在实验中,索普向实验对象展示计算机显示器上的图像,使用脑电图(EEG)来测量他们大脑表面的电信号。当一张照片在屏幕上仅闪烁27毫秒时(即蜜蜂扇动几下翅膀所需的时间),实验对象就能极其准确地识别出照片内容。通过进一步研究,索普精确地指出,大脑中的识别时刻是在图像出现后仅仅150毫秒(大概相当于眨眼的一瞬间)。这是迄今为止对人类视觉处理速度最精确的调查,其结果显示,识别所需时长远远小于特雷斯曼理论的预测。
“但问题来了——到底什么叫‘反射’呢?反射只是表面周围世界的扭曲图像而已!这个扭曲的方向跟排气管的弯曲方式几乎完全相反,但我们却能够从反射的图像中获得足够多的信息,毫不费力地在大脑中想象出排气管的形状。这就是我们想要设计的算法。”
这是神经科学家西蒙·索普(Simon Thorpe)于1996年提交给《自然》杂志的一篇通讯文章,题为《人类视觉系统的处理速度》。虽然标题平淡无奇,篇幅也只有三页,但在当时却产生了极大的影响,因为它对整个领域公认的正统观念提出了疑问。这个例子彰显了科学界最伟大的传统:虽然既定的观念符合直觉,广为人知,却能被更加错综复杂的现实打破。
我心想,天哪,这家伙真是个呆子——不过,我俩呆到一起了。
“相信我。这是你想读的内容。”他不是在开玩笑。
我是两个实验室的学生,一个是彼得罗的电子工程实验室,一个是克里斯托夫的计算神经科学实验室。我每周跟他们分别见一次面,参加期刊俱乐部,一起评论神经科学和计算机科学方面的最新文献。另外,因为两个实验室都免费提供食物,所以我的饮食状况比预期的要好。然后,西尔维奥出现了,我们陷入热恋,虽然两个人都特别忙,但有限的闲暇时间总会在一起度过。
我拿起翻看,发现这篇文章的长度还不及大多数发表论文的四分之一。彼得罗露出了会心的微笑。
随着我在加州理工学院的岁月流逝,另一种东西在我内心深处扎根发芽。我反思了我们所做的一切:我们的心理物理学实验,我们对单样本学习算法的研究,我们对Caltech 101数据集力量的展示,我们阅读的几十年的文献。我同时跟随两位导师,他们带领我在不同的道路上探索,让我拥有了非常特殊的研究生教育。我开始理解我们工作的优雅之处。我们所做的一切都绝非偶然;我比以往任何时候都更加确信,分类是连接一切研究的核心思想。我也相信,事实将很快证明,分类在理解视觉(甚至整个人类智能)方面起着至关重要的作用。
“这个吗?”
那么,为何进展依然如此缓慢呢?
“飞飞,我给你准备了一些阅读材料。”彼得罗一边说一边把一篇文章放在我面前的桌子上。
总结成一句话来说:因为我们的算法出现了数据科学中所说的过拟合现象(overfitting)。也就是说,无论算法设计得多么巧妙(我们探索了所有能找到的算法),即使是那些在测试中表现最好的算法,在遇到新的刺激时,也会很快出现问题。那些看似经过有效训练的算法,却无法将它们所学到的知识,或者说它们本应学到的知识,应用于现实世界。从本质上讲,这与人类的感知能力恰恰相反。人类的感知能力是由泛化能力决定的,泛化能力增强了我们的灵活性和适应性,甚至让我们富有创造力,让我们能够随时利用新想法的力量锐意进取,而不是停留在过去的经验中止步不前。任何缺乏泛化能力的生物都会很快被自然界的不可预测性击垮,因此这种能力是生物进化思维的关键特征。然而,对机器来说,泛化在很大程度上仍然是遥不可及的。
在计算机视觉研究中,我反复看到以下模式:研究人员编写算法并不断改进,以识别照片和其他图像中的基础性细节(如清晰的边缘、光线和颜色的变化、纹理或图案的碎片等),然后构建更高层次的算法,来识别这些细节之间的联系,并将它们与更有意义的事物(如人和物体)联系起来。虽然我对视觉原理的了解有限,但我觉得这种方法很有道理。然而,情况很快就变得非常复杂。
在我们试图解开过拟合之谜的过程中,算法本身是一个自然的起点。具体来说,需要研究算法如何从训练数据中学习。我们探索的大多数算法都非常复杂,无法手动配置,用专业术语来说,是“计算难以实现”。其中包含的无数参数的排列组合范围庞大无比,就像一个延伸到视野之外的旋钮和开关控制面板。相反,自动化技术通过长时间的迭代试错,可以接近理想的参数平衡。多年来,相关技术的改进一直是计算机视觉研究的重要支柱。
特雷斯曼的研究范围很广,解释翔实,但她的核心理论是统一的,即人类视觉从识别微小细节开始,然后建立它们之间的关系,直到揭示出一幅完整的画面。这个论点非常符合直觉,也为理解视觉的工作原理提供了衡量标准:人类可以迅速识别特征较少的简单物体(如灰色人行道上的橙色小球),而识别更复杂的场景(如蜿蜒的林间小道或朋友的面部细节)则需要更多时间。
但Caltech 101鼓励我们更深入地思考数据,这反过来又激发了我们的好奇:等式这一边的数据是如何导致过拟合问题的呢?毕竟,如果没有数据,“机器学习”中的“学习”对象就不存在了。尽管数据的重要性不言而喻,但这个话题缺乏物理学、数学或统计学所具备的精确性。像彼得罗和吉滕德拉这样的研究人员是为数不多的几个对数据进行了深入探索的人,我认为他们形成了理解这一问题的最佳直觉。我们发表的论文似乎表明,随着数据集的增大,我们的算法的能力也相应提升——至少相对而言是这样。即便如此,数据的筛选感觉更像是黑魔法,而不是一门科学。
特雷斯曼提出的“注意的特征整合理论”几乎成为理解视觉意识本质的通用理论基础。在实验中,她会以极快速度向实验对象展示一些抽象物品,比如在一堆绿色和红色方块中夹杂一个红色圆圈,由此确定他们在不同深度层次上理解图像所需的时间。她发现,人们几乎可以立即意识到红色的存在(也就是知道图像的某个地方包含红色),但找到红色圆圈这样的元素则需要花费更长时间,因为在红色圆圈中,一个物体同时包含了“颜色”和“形状”两种不同的特征。换言之,把对“红色”的感知和对“圆形”的感知整合在一起,不仅需要更长时间,而且似乎属于一个完全独立的视觉处理阶段,这个阶段的信息处理更为密集。
我开始思考我们可能犯了哪些错误。也许应该调整训练图像的方向?或者增加数据的多样性?是分辨率的问题还是相机质量的问题?或者,有没有可能101个类别都不够?——我都不愿意往这个方向想,更不用说将它说出口了。我对这些问题思考得越深入,它们就越明显,甚至是紧迫。但据我所知,在视觉研究领域还没有人提出这些问题。
除了有机会沉浸在自己心仪的视觉研究领域,我并不知道自己想从研究生阶段获得什么,但我希望在此期间找到可以全力追求的目标。我会像自己的榜样那样全情投入,就像埃里克·维斯乔斯把对果蝇异常现象的痴迷转化成了诺贝尔奖,或者尼尔·德格拉西·泰森把宇宙变成了数字诗歌。我想要一颗属于自己的北极星。但在找到北极星之前,我只想围绕一个问题展开思考,那就是不可言喻的视觉体验究竟是如何实现的,用《视觉科学》那本教科书生动的副标题来说就是,光子是如何成为现象学的。这本教科书让我迈出了理解视觉体验的第一步。书的前言由普林斯顿大学心理学家安妮·特雷斯曼(Anne Treisman)撰写。她是实验界的奇才,也是20世纪认知科学的巨人。早在数字技术出现的几十年前,她就把特别简单的工具和原始创造力相结合,来探究人类的感知(如果当时就有数字技术,那么她的研究会大大加速)。
我们的优势是数据量,可就连数据量的问题也显得扑朔迷离。我不得不承认,其实101这个数字并没什么特别之处,它不是经过证实的结果,甚至不是从理论中推导出的原则性估计。这只是我和导师在摆得像霍克尼画作一样的午餐盘上玩“胆小鬼游戏”的结果。这并不是突破性进展的前奏,难道这真的有那么令人惊讶吗?我再次回到文献中,这次是怀着复仇的心情。如果不是101个类别,那应该是多少个?200个?500个?还是1000个?我想,拜托,千万别是1000个。我下定决心,无论如何都要在茫茫文献中找到一丝线索。
在长达5亿年的时间里,进化不断对光敏蛋白质施压。在其不懈的推动下,光敏蛋白质跨越漫长的岁月,发展成为一个精密到让人几乎无法参透的结构。进化的辛勤劳动打造了整个视觉皮质,从眼睛的玻璃表面一直延伸到大脑的最深处。所以在加州理工学院,我们要拜进化成果为师,尝试揭开视觉之谜。在我的导师看来,要实现机器智能,关键的第一步是更好地了解人类。
我费了一番功夫,终于找到了一些资料。这些资料甚至来自一个熟悉的来源——现代视觉研究成果的主要贡献者之一欧文·比德曼。他的这篇论文发表于1983年,我上次读这篇文章已经是好几年之前的事了,应该是在凌晨两点跟其他一堆文献一起浏览的。现在,我们已经对单样本学习进行了大量探索,并真正实现了视觉分类的梦想,从中学到的一切让我开始以一种崭新的视角重新审视这篇论文的观点。
实验虽然乍一看杂乱无章,但没有一个细节是随意安排的。所有的周折都是为了一个目的,那就是解读大脑活动,或者至少推断出大脑活动内容的部分片段。实验对象手指抽动、呼吸变浅、瞳孔放大,这短短几秒钟的信息被转化成一系列数据,这些数据可能需要几天、几周甚至几个月才能完全理清。感官的奥秘深藏不露,要把它们诱骗到实验装备上,揭开它们的面纱,哪怕只是短暂的一瞬,也是奇事一桩。
比德曼在论文中探讨的话题与我的研究领域并不直接相关,但其中的内容却非常有趣。他讨论了如何利用基本几何形状的知识来识别复杂的物体。在论述和推导结论的过程中,比德曼试图回答一个看似简单的问题:世界上大约有多少独特的“事物”类别?也就是说,如果把所有的事物都相加——包括“摇椅”“企鹅”“跑车”“拉布拉多”“山”和其他所有东西——总数会是多少?
实验对象进入小隔间以后,会一只手握持鼠标,另一只手放在键盘上,凝视黑暗。在片刻沉寂之后,会有一个显示器亮起来,显示一系列彼此毫无关联、颇有达达主义之风的图像:随意排列的英文字母、无序摆放的场景照片、突然闪过的随机元素。每个图像出现的时间都精确到毫秒,实验对象通过点击鼠标和按键做出反应,我们则对其反应进行精确测量。然后,在几秒钟之内,隔间重新陷入黑暗。片刻的寂静过后,此前播放的图像组合再次出现,实验就此不断循环往复。
这个问题听上去更像一个谜语,而不是科学挑战。但是,比德曼采用了一种基于对英语语言的分析的独特方法,令我非常钦佩。单词在帮助我们对所见事物进行分类方面发挥着基础性的作用,因此他推断,对所有离散且可量化的事物的单词(即英文中的可数名词)进行计数,将是一个很好的起点。然后,他又计算出每个可数名词有多少个真正不同的变体,就像“杯子”这样单一类别的物体可能包括带华丽把手的白色茶具、色彩鲜艳的咖啡杯和普通的透明玻璃杯。由于某些类别比其他类别更具多样性,他通过假设一个合理的平均值将问题简化为一个简单的乘法问题,从而计算出总数。
我们的实验在科赫实验室的心理物理学实验区进行。这个地下室幽闭阴暗,隐藏在加州理工学院阳光下的草坪和自行车道之下。这里没有自然光,大多时候也没有人工光线,空间接近完全封闭。我们在实验区里搭建了三个完全相同的小隔间,每个隔间只能容纳一个实验对象。隔间装有遮光窗帘,可以完全隔绝实验对象的视觉感知。
其中的逻辑简单明了,但他的想法之所以如此具有颠覆性,是因为其规模之大。这个想法立即揭示了我们的研究是多么有限,我们的想象力是多么有限,而这两者之外的世界又是多么广阔。这篇论文是一份模糊的影印版,但感觉就像比德曼在直接对我说:“你想要突破吗?这就是代价,这就是需要付出的。”
帕萨迪纳黎明的微光从地平线上缓缓升起,色调温暖而多变。在这个城市生活久了,我逐渐发现,这是独属于加州的颜色。朝霞召唤人们走到户外,让人不禁想要暂时抛开白天要尽的种种义务,投身其中,尽情享受。但天空再蓝再美,也没有科学发现的希望诱人。今天是开启新实验的第一天,实验室就在地下等着我,我已经为此准备了好几个月。
比德曼的数字可以为我们研究人员所追求的雄心壮志提供蓝图,而这个数字是巨大的。无比的大。不是1000个,不是2000个,甚至不是5000个。当然,更不是我们花了几个月搜集的那101个类别。
2004年,我们创建的Caltech 101完工,成为有史以来为机器学习配置的最大规模的图像集合,里面有超过9000个图像,分布在100个类别中,另外我还独自完成了一个新类别的图像整理。如果彼得罗想要100个类别,我就给他101个。
是3万个。
The North Star
我完全不知道要对这个数字作何感想。创建Caltech 101已经让我感觉像是一项无比艰巨的任务,而现在又多了两个数量级。但我已经无法回避这个问题了。他的思想极具价值,具有真正的洞察力,其能量几乎在通过印在纸上的数字迸发出来。更重要的是,我知道无论这个数字注定要带我去哪里,我都将独自前行。我的研究领域仅仅专注于算法,但我对数据思考得越多(尤其是大规模的数据),我就越意识到,这是一个完全未开拓的领域。世界已经选择了它的方向。但我的北极星正引领我向另一个方向前行。