“那还有什么好说的呢?”
“你知道我想要什么,妈妈。我想成为一名科学家。”
面对我的含糊其词,母亲的回应总是一针见血,速度之快让我得花点儿时间才能反应过来。三步绝杀,一剑封喉。我要去读研究生了。
“飞飞,这是你想要的吗?”
普林斯顿大学的教授们常说,研究生学习不仅仅是另一个学术里程碑,更是一个转折点,代表着从学生到成为真正科学家的第一次转变。研究生学习将把激情转化为旅程,将兴趣转化为身份,将这段教育经历锤炼为事业、声誉和生活的基础。这种看法令人鼓舞,让我所面临的问题变得明确,但同时也让它变得更加费解。我知道自己想成为一名科学家,但究竟是什么样的科学家?究竟是为了什么目的?我怎么才能找到答案呢?
“我的意思是……光是薪水就足以改变我们的生活了,而且——”
在加州大学伯克利分校的经历让我看到了智能的奥秘,也让我认识到,深入理解视觉可能是解开智能之谜的关键。然而,在视觉研究领域,我面临着两个选择:神经科学和计算科学。神经科学可以让我更深入地了解大脑的能力,而计算科学则可以利用工程学的原理来建模,甚至复制智能能力。
“嗯。”她平淡地回答,“这是你想要的吗?”
我决定两者兼修。
“就是股票、交易什么的。搞投资的。当然,还有很多东西要学,不过如果我真的下定决心,我觉得还是能学会的。”
同时研究神经科学和计算科学的组合并不常见,至少在当时的硕士项目中是这样。不过,也有少数几所院校可以满足我的需求,只是需要花费一些精力去寻找。事实上,我的运气非常好,有两所排名世界前列的学校恰好提供了我想要的课程。
我意识到,她并不熟悉这些美国文化术语。
第一个选择是斯坦福大学的双轨项目,融合了神经科学和电子工程学,由戴维·希格(David Heeger)教授领衔,他是少有的在两个领域都拥有丰富经验的学者。课程的每个细节似乎都是为我量身定做的,只是有一点不太合适:这是他在斯坦福大学的最后一年,他离开后,这个项目也就停了。
“华尔街巨头?”
于是我排除了这个选项,将目光转向了麻省理工学院的项目。我觉得这个项目更符合我的兴趣。项目是托马索·波焦(Tomaso Poggio)博士精心打造的,他是计算机视觉这个相对冷门领域的第一代研究者。即使在当时,波焦的工作也已经给我留下了深刻的印象。现在回想起来,我才意识到他的工作是多么超前,这让我对他更加敬重了。波焦直接从大脑结构中汲取灵感,建立了一组名为“关联主义模型”(connectivist model)的算法,用于识别图像内容。这种信息处理系统内部的结构密集交织,与神经网络并无二致。
“妈妈,我在考虑几个选择。我面试了几家‘公司’,中文是叫‘公司’吧?就是华尔街巨头。我必须得承认,他们给的条件很诱人。”
我还有一个学校可以考虑:加州理工学院。这所学校有着悠久的历史,其世界闻名的喷气推进实验室与美国国家航空航天局保持着密切的合作,但不可否认的是,加州理工学院在排名上处于劣势。斯坦福大学和麻省理工学院是全球最负盛名的学术机构,拒绝其中任何一家的录取通知书似乎都很难理解,更不用说同时拒绝两家了。但要说起与我的个人偶像之间的联系,加州理工学院有一点远超其实力所及,即费曼、密立根,甚至爱因斯坦本人都曾在这里讲学。至少,我无法抗拒去学校参访的机会。
在自己斟酌了大半个星期之后,我终于在干洗店的片刻闲暇中向母亲提起了这件事。我们各自坐在平常的位置上:她在缝纫机前,嘴里夹着两根别针,一脸专注地检查着手中的衣物;而我则在她旁边,扮演裁缝助手的角色,正在给一条她准备加长的裤子拆线。
从乘飞机抵达帕萨迪纳的那一刻起,加州理工学院在气候方面的优势就显而易见了。这是我第一次来到南加州,当地的天气果然名不虚传,气候干爽,阳光明媚,热气袭人,与新泽西的潮湿形成鲜明对比,让我仿佛瞬间来到了一个避风港。从遮天盖地盛开的鲜花,到池塘里慵懒地晒太阳的乌龟,南加州的城市风貌也让我感觉新奇不已。在学术氛围方面,麻省理工学院和斯坦福大学都无可挑剔,但加州理工学院却更似世外桃源。虽然校园很小(甚至跟普林斯顿大学小小的校园相比都相形见绌),但这里的活力把我征服了。在普林斯顿大学那庄严的大教堂式建筑中度过了这么多年后,加州理工学院色彩斑斓、高大明亮的西班牙殖民时期建筑让我感觉仿佛置身于另一个世界。与物理有关的观光机会随处可得。我一眼就看到了爱因斯坦骑自行车的著名照片拍摄地,不经意间路过了密立根图书馆,还碰巧看到了费曼做过著名演讲的礼堂。
那是1999年,我在普林斯顿大学的学习生涯即将结束,再次面临科学抱负与现实生活之间的抉择。读研的诱惑与开启职业生涯的压力让我左右为难。这次是一个真正的两难困境:当时网络经济正在蓬勃发展,盛况空前,拥有数学头脑和名校学位的人成了金融界热切追捧的对象,甚至像我这样学物理的,也受到了华尔街的大力招揽。包括高盛和美林在内的众多知名企业向我抛出了橄榄枝(可以想象,这些公司的名字都刻在庄严的大理石板上)。他们提供了一切:福利、晋升机会、令人艳羡的起薪,当然还有真正的医疗保险。他们承诺免除我们的债务,结束干洗店的劳累,在母亲的健康状况日益恶化的情况下为我的家庭提供保障。而对我的唯一要求就是放弃科学。
在加州理工学院参访期间,我所看到和感受到的一切都表明,这里就是我的归属。虽然气候原因听起来微不足道,但有机会逃离美国东北地区的暴风雪,摆脱多年来的严寒之苦,本身对我来说就有很大的诱惑力。而真正把这种“怦然心动”变成“心意已决”的,是我即将追随的导师们。
“没关系的。其实我一直也在想这些事。”
第一个将要担任我的导师的是彼得罗·佩罗纳(Pietro Perona),他全身上下散发着意大利人的魅力,将学科边界视为无物,在跨学科研究中游刃有余。他在电气工程系,但热爱认知科学,和我一样希望把两者结合起来。第一次跟他交流时,我就觉得他兴趣广泛、知识渊博。
“再给她一点儿考虑的时间吧,鲍勃!”琼笑着端上我们的甜点。
“飞飞,我很好奇,你对墙上的那幅画有什么看法?”
“你有没有再考虑过我们之前说的那些选择呢?读研?找工作?或者先出去玩一圈?”萨贝拉先生问道。
彼得罗指着一幅装裱精美的海报问我。海报上,大胆的原色被不规则间距的正交线分割成正方形和长方形。
“挺兴奋的。但我没想到下一步这么难选。”
在普林斯顿大学的时候,我抽时间上过几门艺术课,于是我高兴地指出这是蒙德里安的作品。
大概在四年前,我第一次到萨贝拉家做客,也是我记忆中第一次吃美国的甜食。我尝了一口,不禁面露惊喜。我的反应让琼非常开心,所以每次我来做客,她都会专门烤这种蛋糕,这已经成了一种惯例。其实蛋糕粉是商店买的现成的,但这并不重要。在我看来,她的布朗尼蛋糕就是最好吃的。
“我一直很喜欢他的作品。”彼得罗继续说道,“几何的简单性总是能让我停下来思考。”
“飞飞,当一名大学毕业生的感觉如何?你马上就毕业了。”琼收拾完桌上的餐盘,一边切着放在台面上冷却的布朗尼蛋糕,一边问道。
“具体是思考什么呢?”我问。
在卡拉瓦乔的明暗对照画法与维米尔和左恩的柔和阴影之间的强烈对比中,我们可以看到视觉理解的齿轮在转动。我们可以超越现实主义,从凡·高和卡洛的风格化肖像中提炼出日常生活的意象。我们甚至可以从现代主义画家奥基弗以及抽象表现主义画家马瑟韦尔和罗思柯相对晦涩的作品中感受到它的存在。无论是现实主义还是概念主义,无论是感性主义还是政治主义,艺术都利用了这几亿年来来之不易的进化结果,享受着创作的纯粹乐趣,通过个人的眼睛,也就是个人的感受来诠释这个世界。
“思考是否有一些指导规则,或者至少是解释规则。”
与此相对,远古时期的化石记录已经开始影响我们自己的文化记录。从预示着新交流形式黎明的洞穴壁画,到文艺复兴时期迸发的创造力洪流,再到今天的摄影、电影、电视,甚至电子游戏世界,艺术发展史有力印证了视觉的首要地位,也让我们看到,几个世纪以来,我们辨别视觉细微差异的能力越来越强了。
“规则?你是说……比如算法?”
这一惊人进程的本质是我们与世界的感官联系,即便到了现在也是如此。尽管科技为我们提供了巨大的帮助(从我们口袋里的移动设备到地球轨道上的卫星),我们依然依赖与日常现实的联系来应对生活中的种种任务。
他笑了笑,接着说:“你不感到好奇吗?如果测量蒙德里安每幅画的比例,结果发现了某种特定的模式,那不是很有意思吗?”
数亿年后,我们很难不被这个进化转折点所创造的世界所震撼。几千年的文明进程见证了人类的发展,从灵长类动物到游牧部落,从农业社区到工业化城市,再到现在的科技和信息处理超级王国。
我也报以微笑。我不知道他在多大程度上是认真的(我几乎可以肯定他是在和我开玩笑),但我喜欢他会花时间思考这样的事情。他聪明过人,喜欢冒险,又不时展现出天真的一面。我觉得自己一直在等待遇到这样的思考者。
环境的变化对“计划”这一概念产生了尤其深远的影响,因为现在的行动可以在更大的范围内展开,同时还要应对更多的不确定性。随着视野广度和深度的扩大,大脑不得不以更强大的智能来适应环境,逐渐融入了对因果关系、时间流逝,甚至对操纵环境本身的影响的认识。这不仅为强大的捕食者和灵活的被食者创造了条件,也为真正的智能、为现代人类的出现奠定了基础。
第二位未来的导师是计算神经科学家克里斯托夫·科赫(Christof Koch)。与彼得罗类似,我第一天就在克里斯托夫身上看到了优秀科学家都具备的特质:拥有无限想象力,同时敢于面对这种想象力带来的挑战。他在生物物理学方面已经有很高的造诣,但仍在不断精进创新,让我深感钦佩。像彼得罗一样,他渴望跨越学科界限,将不同学科融合发展,也鼓励我追寻同样的道路。我们两个有着相同的背景,他也是物理学专业,以前也是波焦的学生。但在第一次见面时,我发现他的头脑中蕴藏着一种深沉的哲学激情,这种激情主导了我们的第一次谈话。
在另一方面,生物的视线范围得到了极大的扩展。在海洋表面,大气层毫无遮挡,与幽闭黑暗的深海形成了鲜明对比。世界不再是模糊的流体,而是一幅宏伟开阔的景象,从海岸线的边缘到山峰,甚至更远的地方,都变得明亮而清晰。视野从几英寸扩展到了几英里,这对早期陆地生物的思维提出了相应扩展的挑战。
“飞飞,你有没有想过怎么跟色盲解释颜色是什么?怎么用语言来表达‘看到红色’这种体验?”
随着第一批新觉醒的生物踏上陆地,进化大戏再起高潮。这些生物随着海浪的翻涌被冲到岸上,发现了一个陌生的世界。在这个世界中,移动的基本原理变得陌生,需要一个全新的模式。例如,运动不再是毫不费力、可以朝着任何方向进行的动作,而是被限制在平面上,并受到重力和摩擦力等物理力的制约。
嗯……我从来没有想过这个问题。
因此,大脑并不是内部某种神秘的智力火花的产物,而是对外部世界的反应。愈加清晰和纷杂的外部世界影像,通过感官到达生物体内部,感知周围环境的能力促使我们发展出了整合、分析并最终理解这种感知的机制。视觉就是感知系统最为活跃的组成部分。
“我们非常熟悉颜色,但似乎无法用语言来描述颜色,这不是很奇怪吗?我们只能说到颜色。当我说‘蓝色’或‘红色’时,你就知道我是什么意思,但这只是因为你已经见过这些颜色。我的话只是唤起了你的回忆,并没有传递新的信息。”
随着感官所提供的信息深度和数量不断增加,生物体处理信息的工具也面临着增长的压力,类似我们需要更多更加复杂的计算设备来管理现代世界中的海量数据。为了处理五花八门的信息,神经系统不断发展,最终形成一个集中枢纽,其中的组成部分被越来越密集地压缩到一个器官里。我们把这个器官称为大脑。
他的话让我陷入了沉思。
但是,仅仅将眼睛、神经末梢和四肢连接起来是不够的,尤其是因为随着眼球不断进化,看到的世界越发广阔、细致,同时,四肢也发展出了新的自由度和更强的关节。要在复杂的环境中有效行动,需要的不仅仅是条件反射,这就带来了另一个适应性挑战,促使生物体在“所见所感”和“如何反应”之间发展出日益复杂的中间环节。
“所以,想象一下,如果未来的人类完全理解了视觉的工作原理,那么你觉得他们能掌握用第一原理来描述红色的能力吗?”
这些神经细胞不断生长并相互连接,形成了所谓的“神经网络”。这种分散的网络是中枢神经系统的前身,而中枢神经系统最终将成为更高级生命形式的特征。神经网络是一种生物电系统,原理简单,但功能强大。神经网络将对运动功能和感觉功能的控制融合到同一个反应机制中,这种机制适合执行“应对身体攻击”和“觅食”等基本任务。在进化过程中,神经网络虽然原始,却是与竞争日益激烈的外部世界保持同步的权宜之计,即使今天也依然存在,尤其是在水生生物中,例如某些种类的水母。
我想了一会儿。
与此同时,触觉的出现使进化变得更为复杂,很快就与不断发展的视觉形成了互补与平衡。与早期的光敏感性一样,新生的神经末梢也遍布原始生物的体表,传递触觉信号。
“难道这不是必然的吗?我的意思是,如果真的‘完全理解’,那必然会具备这种能力。”
很快,生物创新的闪光绽放成为集体之舞,随着不断丰富的生命分类进入一个新的时代,力量的平衡来回摇摆。今天,化石记录揭示了这一狂热时期自然选择的成果;有证据表明,仅仅是三叶虫的进化就在寒武纪末期达到顶峰,有数万个物种分布在10个目中。
“你的回答完全合理。但前提是可以在还原主义描述中找到对这种经历的描述和解释。如果找不到怎么办?我们该如何处理这个矛盾?视觉是一种复杂的现象,也许是最复杂的现象之一,但仍然是一个物理过程:物质的表现遵循物理定律。然而,从主观上讲,我们的经验难道不是非物质的吗?为什么看到红色会让人觉得是一种主观感受呢?”
感官意识和行动能力之间的关系在调节竞争局面上起着重要作用。即使是最早期的视觉形式,也能让生物获得关于周围环境的零星信息。这些信息不仅能指导生物的行为,还能以前所未有的即时性,驱使生物采取各种行为。有了视觉,饥饿的捕食者越来越能够确定食物的位置。它们不再被动地等待食物的到来,而是主动出击,追逐食物。反过来,在面对捕食者时,生物也会利用自身的模糊意识做出躲避反应。
这些都是我以前从来没有思考过的问题。他的不断追问让我对他挑战我的能力有了全面的认识。
当然,大多数变异都是无用的,有些甚至是有害的。但是,即使是微不足道的优势,也能引发巨大的变化,在一连串的动荡中颠覆自然秩序,然后在新的基线上稳固下来,并很快在此基础上建立起更强大的能力。随着一代又一代的生物登上历史舞台,进化过程也在不断加速,在短短的1000万年时间里(帕克诙谐地称之为进化史上的“眨眼之间”),地球上的生命涅槃重生。
这两位导师的组合很有意思。他们俩都身材高大,看上去年龄相仿(我猜测都在40岁左右),但体形却截然不同,彼得罗比较健壮,克里斯托夫则相对清瘦。两人的口音都很重,一个是意大利口音,另一个是德国口音,但说起话来都幽默自信,也非常随和,让咄咄逼人的追问也显得没那么可怕。彼得罗穿衣是学者风格,穿着纽扣衬衫和米色夹克,衬衫下摆总是塞进裤子里;克里斯托夫则对自己浮夸大胆的着装风格引以为豪,他喜欢刺眼的荧光衬衫,还喜欢把头发染成漫画书里的颜色,比如绿色或紫色。
对光的感知打响了进化军备竞赛的第一枪。在这场军备竞赛中,哪怕是拥有最微小的优势(即使是稍微提升深度或略微改善敏锐度),都是幸运的,因为这样的生物及其后代可以在不断寻找食物、栖息地和配偶的竞争中处于领先地位。微弱的竞争优势是进化压力的游乐场,通过一次又一次的突变和快速迭代,对生态系统产生了近乎即时的影响。
然而,他们有一点相似到离奇的程度,那就是都有一种只能用“陶然自得”来形容的好奇心。这使得他们说的每句话都极具感染力。他们自由奔放,总会毫不迟疑地就复杂的话题提出探索性的问题,仿佛只需聊上几句,就能解开生命中最深奥的谜题。尤其是克里斯托夫,他经常沉浸在自己的思考中难以自拔,即使我们两个人在交谈,他似乎也更喜欢在自言自语中探索这些问题。但他的专注并不是因为冷漠,而是源于天真,就像一个被白日梦弄得神魂颠倒的孩子。看到他这个样子,我就会想到常常心不在焉的父亲,觉得特别可爱。
仅仅通过让光线进入体内(无论光线多么昏暗、多么模糊不清),远古生物就第一次认识到,在它们自身之外还存在着某种事物。更紧迫的是,它们意识到自己需要努力求生,而面对的结果不止一种。它们开始感觉到,周围的环境无比严酷,威胁与机会并存,对资源的竞争日益激烈,而它们的行为决定了自己是捕食者还是被食者。
这么多年来,我一直生活在自我怀疑之中,努力掌握英语,为人处世也变得谨小慎微。但奇怪的是,我被他们这种漫不经心、旁若无人的性格吸引了。就像当初与萨贝拉先生相处时一样,我发现,如果其他人跟我有着对科学的共同热爱,那么我就会觉得我们是平等的同伴,哪怕只是友好地聊过几句。而在跟彼得罗和克里斯托夫这样的人对话时,我所熟悉的现实世界几乎变得无关紧要,仿佛我们在心灵相通,不受语言、地位或年龄的束缚。在我心目中,他们是我的新榜样:同样都是移民,他们不仅获得了世俗意义上的成功,而且成了卓越的科学家。
最后,随着晶状体的出现,现代视觉的器官基础就此形成。晶状体增加了进入眼球的光线量和清晰度。关于晶状体究竟是如何形成的,至今仍存在很多猜测。许多假设都认为,晶状体最初与视觉无关,纯粹是一个保护结构。无论确切的起源如何,晶状体在进化记录中反复出现,在所有生物门类中独立演化。晶状体很快进化成为一个精致的透明表面,能够在不同世代中灵活地适应各种光学特性,从而急剧加速了眼睛的进化。光敏感性的出现是地球生命史上的一个转折点。
在加州理工学院参访的那个下午让我毕生难忘。这些导师都是学术界的巨头,能跟他们交谈几个小时是我的荣幸,更不用说考虑成为他们的学生了。还没有登上返程飞机,我就做出了决定。
早在公元前400年,中国古代思想家墨子就首次在其著作中描述了“小孔成像”。后来,亚里士多德也独立观察到这一现象。小孔成像简单利用了暗箱效应这一自然现象,光线通过箱子侧面的小孔,将外部世界的清晰图像投射到箱子内部。光圈大大增加了光敏感性,将视觉体验从对光线的简单感知扩展到了对整个场景的认识。
人类的视觉能力进化范围广,演化过程复杂,因此我们几十年来都无法将这个能力用自动化复制也不足为奇。但如果这种情况改变了呢?如果我们能与机器共享人类对世界的感知,会发生什么呢?机器拥有自动化的速度,可以持续产出高精度影像,不知疲倦为何物。想象一下,无人机甚至卫星在森林、冰川和海岸线上空飞行,对全球的环境健康状况提供专业评估。想象一下,智能的非人类助手像人类助手一样帮助视力障碍人群应对复杂的环境。想象一下,机器人急救员将急救医护人员或消防员的判断与机器的耐力和恢复能力相结合,使搜索和救援变得更加安全。想象一下,自动医疗诊断能通过移动设备为世界各地的病人提供专家意见。
尽管早期的视觉发展非常简单(至少相对于今天无比复杂的眼球来说是简单的),但它们为进化提供了立足点,带来了感知能力的迅速提升。接下来是在感光区周围形成一个浅浅的凹陷,不仅可以辨别附近光源的亮度,还可以辨别光源的方向。经过进一步的进化迭代,这个凹陷变得越来越深、越来越窄,最终演化成了类似针孔相机的光圈形式。
数字世界的机会也不胜枚举。视觉媒体发展百年以来,摄影、电影、新闻和电视等图像消费已经成为现代生活不可或缺的一部分。自计算机诞生之日起,文本和数字数据就可以自由搜索,但与之不同的是,仅仅是对图像进行粗略的搜索,都依然需要依靠人工来完成,耗时耗力,成本高昂。图像数据库规模极其庞大,人工管理分类早已无望,视觉智能机器能提供帮助吗?
对光的感知迅速发展,其核心在于一类被称为“视蛋白”的蛋白质。这种蛋白质具有独特的性质,比如在吸收光子时会改变形状(本质上是对光的物理反应),并连接成一种叫作“离子通道”的链条,将这种反应转化为生物电信号,传输到身体的其他部位。
从人工智能领域发展早期,这样的可能性就一直诱惑着研究人员。然而,他们很快就意识到,视觉理解的挑战极其复杂,这一点也被此后的每一代人反复证实。首先就是数据本身。数字图像是以像素的形式存储的,也就是说,单个颜色点用数字编码表示,因此在机器看来,像素只不过是一长串整数。如果算法想要像人类一样,根据有意义的概念(如人物、地点和事物)来理解图像,就必须对这个列表进行筛选,并找出以某种方式对应的数字模式。
这就是我们现在所说的“寒武纪生命大爆发”时期。在这一时期,生物进化秩序经历了一次大洗牌。虽然寒武纪生命大爆发是地球生命历史上的关键篇章,甚至可以说是最重要的篇章,但其确切原因至今还没有定论。有人认为是由气候突变引发的,也有人推测是由于海洋酸度发生了巨变。动物学家安德鲁·帕克(Andrew Parker)的观点与众不同,尽管许多生物学家对其持怀疑态度,但他的假设却深深影响了我对人工智能的看法。帕克认为,与其说带来改变的是一种外部力量,不如说是一种内部力量。他认为,引发寒武纪生命大爆发的导火线是一种能力的出现:光敏感性,这也是现代眼睛形成的基础。
遗憾的是,定义这种数字模式的难度很大,即使是定义直线或几何形状这样的简单概念也很难。人脸识别更是难上加难,因为人脸是有机体,变量非常多:肤色、比例、拍摄角度、光线条件、图像背景等,组合种类繁多,极其复杂。
接着,整个地球在极短时间内发生了翻天覆地的变化。这一时期至今仍让进化生物学家们感到困惑:生命体的复杂性呈现出爆发式增长,进化速度达到了令人难以置信的水平,估计是后来所有时代的四倍。随之而来的是前所未有的竞争氛围。这是一场争夺主导地位的持久战。随着生存挑战的加剧,每一代生物都被迫逐渐进化和适应。为了应对这个敌意倍增的世界,生物的身体变得坚硬起来,它们用防御性的坚韧外骨骼保护身体的软组织,也演化出了牙齿、下颚和爪子等攻击性器官。
从数据开始,谜题越来越难。例如,人类在看到事物之后,会形成更深层次的理解,那么被动观察行为和理解行为之间的界限究竟在哪里?我们对影像的感知包括由边缘和纹理形成的一团团的色块,我们会下意识地解读这些色块,这是一种纯粹的感知体验。而在我们有意识地处理所看到的东西之前,有多少次是下意识地看到了图像?研究人员很快就发现两者不可分割:看到即理解,因此科学挑战既存在于感官层面,又存在于智力层面。所以,视觉不仅仅是我们对智力的应用,实际上,它就是智力的同义词。
我们无法想象这样一个有机体的内部活动,但如此尝试却能带来启发。它让我们意识到,我们从不知道与外界没有感官联系是一种什么体验(即使还在子宫的时候,我们就已经能够感受到外部世界了),我们也不能简单地抛开意识,去想象无意识的状态是什么样子。毕竟,我们的思考不就是对外界直接刺激或间接刺激的反应吗?即便是最抽象的思考(甚至是像心算等瞬间思维),也是建立在推理的基础上的。而我们的推理能力则源于多年在实体空间中生活的经验。无论我们的大脑多么复杂,其中的思维活动最终都可以追溯到来自其边界之外的刺激。
这就是视觉的魔力。视觉是一种非常精细的技能。虽然我们看到的世界只是光线恰好落在我们眼睛表面的映射,但我们从光线中获得的信息却能延伸到我们的全部经验。从感官输入到可靠、可操作的知识,这是一种近乎奇迹的转变,是人类大脑最了不起的一大能力。仅仅是转换任务的计算成本,就远远超过了仓库大小的超级计算机的计算能力,而对人类来说,所有这些都是由一个直径约12.7厘米的潮湿有机块体完成的。人脑对概念的认知深度让学术界的杰出人士也常怀谦卑之情。
然而,这种感官剥夺的影响是深远的。由于什么都看不到、听不到、摸不到,早期的生命形式没有任何可思考的对象。现代人类在日常生活中已经对外部世界的存在习以为常,而远古时期的生命体跟外界现实世界没有任何联系,根本接触不到刺激,因此完全没有大脑。大脑尽管很神秘,但本质上只是一种有机的信息处理系统。在一个没有感官输入的世界里,生物没有能力收集关于世界的信息,因此大脑完全没有存在的必要。
要解开视觉之谜,并不仅仅是理解“人类如何看见事物”这么简单。视觉问题并不是简单的关于颜色或形状的问题,也不仅仅是在更大级别上进行数字运算的问题。视觉研究是对人类认知中一个核心现象的探索。视觉在很大程度上是人类身份和独特性的基础,无论是在生物学上、人际关系方面,还是在文化层面。研究视觉是通往我们体验最基础层面的旅程。很多时候,“所见即所知”,因此,了解我们如何看见,就是了解我们自己。
我们的远古祖先形态简单,考虑到当时的环境,这也是很自然的事。它们居住的水下空间生物稀少,无须为了食物相互竞争。在三叶虫出现之前,生物捕获猎物主要靠运气,而猎物也采取了同样漫无目的的方式来躲避捕食者,双方均靠运气生存。只有当食物近在咫尺、无须付出任何主动努力时,生物才会进食。
在研究生生涯伊始,我买了一本巨大的教科书。这本书在我入学前一年刚刚出版,装帧新颖,内容也极为领先。书很重,封面厚实,边角尖锐,第一次打开时,书页之间分离发出的声音清晰可闻。这本书将我的学术旅程的所有脉络都汇聚在一起,编织成一件艺术品,每次看到它的封面都会让我倍感振奋。
这就是5.43亿年前地球生命的状态。当时,地球的大部分地区都被原始海洋所覆盖。相比现在充满感官刺激和智力活动的世界,5.43亿年前的生命形态极其原始,近乎抽象,用苏格拉底的话说,它们完全生活在一种“未经审视”的状态中。那个世界完全不被看到,海水深邃而本能粗浅。
书名为Vision Science(《视觉科学》),封面上的这两个词仿佛是专门为我选定的,描绘的是自加州大学伯克利分校的实验以来,我一直在努力追寻的道路。稍下2.5厘米处是斜体的副标题,更是激起了我的好奇心:Photons to Phenomenology(从光子到现象学)。在标题的正上方,凡·高《星月夜》的全彩画作占据了三分之二的封面。这本书内容翔实,阐述全面,注定要成为未来几十年的标准。我渴望学习书中涵盖的一切内容。
想象一下这样的情景:这个世界上不存在任何感觉,甚至都不能用“黑暗”一词来描述,因为与之对应的“光明”概念尚未被构想出来。在这个世界里,什么都看不到、听不到、感觉不到,而所谓的“活着”不过就是新陈代谢的过程。再进一步想象:这个世界的生物只有进食、繁殖等毫无感情的机械性本能,甚至没有最基本的自我意识,更不用说身份、群体或广阔世界等更加复杂的概念了。现在,进一步想象一下整个星球都是如此——这个星球充满了生物,但它们还没有意识到自己的存在。
在黑暗实验室的时刻改变了我的一生,当时那些噼里啪啦的声音让我第一次瞥见了其他生物大脑的内部运作机制。如今已经过去了两年。两年的追求才刚刚开始。我对工程学这门充满挑战性的艺术很感兴趣,但我不想成为单纯的工程师。尽管我被神经科学的奥秘所吸引,但我也不想成为纯粹的神经科学家。我想不受约束,对两者兼而用之。
人工智能的发展再次遭遇寒冬,我在导师们的引导下开始关注视觉研究。此后,它将成为我一切学术旅程的主线,成为我世界的中心。
感谢命运之神的偶然眷顾,我遇到了再好不过的时机。当时的我还不知道,视觉研究是人工智能本身的产物。曾几何时,在人工智能大旗的感召下,各个领域的研究人员团结一致,共同努力推动这个领域不断发展,然而,随着旗帜的撕裂,不同的研究领域也四分五裂,各自为营,进入了持续十年的低迷期。神经网络和专家系统等设想一度令人兴奋,但最终的研发并未成功,初创企业关门大吉,学术界的兴趣也不断消退,又造成了一轮疏离。人工智能的发展再次遭遇寒冬,而我正身处其中。但冬天正在迅速离去,冰雪即将消融。
First Light