大悟读书网 > 经济管理 > 人工智能革命:历史、当下与未来 > 知其然,而非所以然 ——信息到数据的认知变革

知其然,而非所以然 ——信息到数据的认知变革

葡萄酒的品鉴是专业性极强的领域,从事这项工作的通常是具有数十年品酒经验的专家。品酒师通过观察葡萄酒的色泽与稠度,嗅闻葡萄酒的香气,品尝葡萄酒的味道来判断这个酒大概来自于哪个酒庄,酿造于什么年份。但是这门基于经验的手艺也有它自己的问题:当品酒师品鉴新酒时,由于葡萄酒储存的时间太短,其真正的品质还没有形成,所以品鉴结果难免流于偏颇。另外,知名品酒师爱惜名誉有如孔雀爱惜羽毛,这种怕出错的心态也会影响到对酒类的鉴赏判断,使品酒师倾向于给出随大流的中庸结果。

与传统意义上的“小数据”相比,大数据最明显也最本质的特征在于它的体量,也就是大数据的“大”。“大”之所指不仅仅是数据超大的比特数目,更重要的是数据的全面性与完整性。以前,受数据采集技术与数据分析技术的限制,准确分析海量数据几乎是不可能完成的任务,因此只能通过在全体数据中采集出一部分样本,通过精确分析样本的性质来粗略估计数据整体的特征,这也正是统计学的核心任务。但在大数据炙手可热的今天,我们关注的不再是采样出来的数据样本,而是海量数据本身。这就可以正确地考察细节并进行新的分析,而无需考虑采样偏差所导致的错误结论,也不会错过可能被采样过程忽视而淹没在海量数据中的重要细节。毕竟,能从数据中获得的所有规律,都蕴藏在数据本身之中,而用于分析的数据越多,得到的规律就越准确。

难道判断葡萄酒水准的话语权只掌握在品酒师手中?美国普林斯顿大学的经济教授理查德·科万特(Richard Covant)偏偏不信这个邪。作为葡萄酒爱好者,他尽可能多地收集关于葡萄酒产地信息与气候信息的数据,根据这些数据和相应的葡萄酒的质量,科万特得出结论:葡萄酒的品质跟土壤的成分、生长期的平均气温、冬天的降雨量和收获季节的降雨量等因素有关。根据自己的秘诀,1989年葡萄酒刚一上市,科万特就预测这一年的葡萄酒是世纪佳酿。可仅仅一年之后,科万特又宣称1990年的酒甚至比1989年的还要好!

大数据是指以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。

连续两年号称世纪佳酿,这对任何品酒师来说都是砸牌子的说法,可科万特就是这么大胆!作为一个外行,科万特对酒的判断不是基于葡萄酒本身,而是生产过程中影响葡萄酒品质的众多天时地利的因素。他可能对葡萄酒的术语一无所知,却能够根据数据作出判断。在习惯的认知方式中,追求的主要目标是线性的、双边的直接因果关系。但是万物之间的联系恐怕比想象的要复杂千万倍,这种联系以多元且非线性方式存在。大数据的出现颠覆了原有的认知模式:认识事物的方式变成了先寻找相关关系,再寻找因果关系。

说到这里,我们有必要对大数据的内涵加以阐释。实话实说,大数据这个概念还没有多方公认的权威定义,学术机构、商业机构与公共管理机构只是分别从自己关注的角度对大数据进行描述。但在不同的行业视角下,大数据会被解读出不同的内涵与不同的特征,如果将这些局部特征熔于一炉,大数据的全貌就会逐渐浮现:

认知模式的转换反过来也成为审视大数据的慧眼。如何在纷繁复杂的海量数据中提炼出有用的结论呢?方法很简答:从传统的因果分析转向相关性分析转换。相较于统计学中的知其所以然,在大数据时代,只要知其然就已经足够了。当大数据占据我们这个信息社会的中心舞台,传统知识观中的因果律遭到极大的挑战,而相关性则让我们从对过去的理解中解放出对未来的预测,这从本质上改变了数据的利用模式。

2012年,英国牛津大学教授维克托·迈尔-舍恩伯格(Vik-tor Mayer-Schornberger)出版了学术专著《大数据时代》,在书中提出了一系列颇具前瞻性的洞见。舍恩伯格在书中指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,开启重大的时代转型,并为人类的生活创造前所未有的可量化的维度。

从因果性到相关性一个经典的例子就是谷歌对流感爆发的预测。2009年2月,谷歌的研究人员在《自然》发表了一篇论文,预测季节性流感的暴发,在医疗保健界引起了轰动。谷歌对2003年和2008年间的5000万最常搜索的词条进行大数据“训练”,试图发现某些搜索词条的地理位置是否与美国流感疾病预防和控制中心的数据相关。疾病预防控制中心能够跟踪全国各地的医院和诊所病人,但它发布的信息往往会滞后一两个星期,但谷歌的大数据却是发现实时的趋势。

图4-4 大数据登上《自然》封面

数据往往都是不完美的,拼写错误和不完整短语很普遍。为什么谷歌可以实现这么精准的预测?如果从因果关系看,是因为人感到不舒服,或听到别人打喷嚏,或者阅读了相关的新闻后感到焦虑吗?谷歌不是从这种因果关系去考虑,而是从相关性的角度,去预测一个持续发展的大方向,因为大众的搜索词条处于不断变化之中,外界的一个蝴蝶翅膀的扇动,就会使搜索发生系统的、混沌的变化。谷歌并没有直接推断哪些查询词条是最好的指标。相反,为了测试这些检索词条,谷歌总共处理了4.5亿个不同的数字模型,将得出的预测与2007年和2008年疾病预防控制中心记录的实际流感病例进行对比后,谷歌公司发现,它们的大数据处理结果发现了45条检索词条的组合,一旦将它们用于一个数学模型,它们的预测与官方数据的相关性高达97%。

关于使用大数据中的相关性提取有用结论的最近一个例子发生在美国国家橄榄球联盟的赛场上。2016年11月8日,一场如火如荼的橄榄球比赛已经进行到第三节,5:21落后的亚特兰大猎鹰队正推进到本方46码线。此时此刻,大数据公司Splunk做出了一个预测:猎鹰队下一步将祭出“霰弹枪阵式”,随后四分卫马特·瑞安将送出一记左侧的短传。随后赛场的形势发展与Splunk的预测如出一辙:猎鹰队果真使用了“霰弹枪阵式”,只不过在最后一传上出现了失误。

在作为物理概念的“大数据”的基础上,世界著名的管理咨询公司麦肯锡公司(McKinsey Company)进一步提出了作为商业概念的“大数据”。麦肯锡公司从各类网站上记录的个人海量信息中敏锐地发现了潜在的商业价值,于是投入大量人力物力进行调研,在2011年6月发布了关于大数据的报告“麦肯锡报告”,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡报告得到了金融界的高度重视,使大数据受到了全社会各行各业的关注。

Splunk做出这个预测的依据并非依赖于专业的橄榄球从业人员,恰恰相反,这些从事数据分析的极客们可能连橄榄球的规则都不懂。但他们把至少一整年的比赛数据输入计算机,利用计算机来分析不同赛场形势和不同攻守策略之间的联系,从而得出精确的预测。这背后的因果性自然是橄榄球专业人员的技战术设计,但利用相关性也可以得到同样的决断。

虽然作为术语的“大数据”近来才受到人们的高度关注,但在概念上它并不新鲜。著名的《二十四史》实际上就是对我国社会发展的大数据记录。1980年,著名的美国未来学家阿尔文·托夫勒(Alvin Toffler)在其著作《第三次浪潮》中,就已经提及大体量数据对信息技术乃至未来社会发展的影响,但在近四十年前,技术条件的限制使这样的观念显得过于超前。随着宽带通信技术、移动互联网技术和物联网技术的发展,数据正在以前所未有的速度疯狂涌现,这也给大数据的发展提供了物理基础。2008年9月,国际知名学术期刊《自然》推出了名为“大数据”的封面专栏,这意味着主流学术界对大数据的认可与关注。学术界的认可也影响到了工业界与商业界,大数据迅速成为互联网技术行业中的热门词汇。