大悟读书网 > 经济管理 > 人工智能革命:历史、当下与未来 > 海纳百川,有容乃“大”——被量化的世界

海纳百川,有容乃“大”——被量化的世界

1965年的诺贝尔文学奖被前苏联作家米哈伊尔·肖洛霍夫(Mikhail Aleksandrovich Sholokhov)以描述哥萨克生活的史诗巨著《静静的顿河》摘得。这部作品以细腻的笔触刻画了哥萨克这一特殊群体在历史漩涡中的生活与命运,是俄罗斯文坛上的璀璨明珠。但在当年美苏争霸的国际形势下,出于各种各样的原因,以苏联著名异见人士亚历山大·索尔仁尼琴(Aleksandr Isayevich Solzhenitsyn)为首的诸多知名人士质疑《静静的顿河》并非出自肖洛霍夫本人之手,而是抄袭了俄国内战中一位白军军官克留科夫的笔记。这一观点随着诺贝尔奖的颁发愈发甚嚣尘上,变成了文坛的一桩悬案。

图4-6 米哈伊尔·肖洛霍夫

大数据基础上的量化与其说是方法的进化,不如说是观念的改变。不经处理的数据本身谈不上价值,而量化才是数据价值提取的核心步骤。只要选择了合适的标准和参考系,万事万物皆可量化。量化是数据价值提取的基础,它能够使很多难以确定的情况变得能够估计和判断,相关的决策与结论才会具备说服力与可操作性。

在肖洛霍夫获奖20年后,这桩沸沸扬扬的笔墨官司终于尘埃落定。1984年,挪威奥斯陆大学的数学家与斯拉夫研究专家盖尔·克耶萨(Geir Kjetsaa)运用数理统计的分析方法对《静静的顿河》进行了研究,证实了肖洛霍夫是本书的作者。这一成果被克耶萨及其合作者写书出版,轰动一时,克耶萨教授与他的合作者使用乌普沙拉大学的一台IBM370/155电子计算机,对《静静的顿河》与“被抄袭者”克留科夫的一些作品进行比较。比较的方法是对肖洛霍夫和克留科夫的文本分别进行抽样,再编写程序测定句子长度和词汇分布等参数,据此生成对两人写作风格的比较。为了执行对比,所有的原始材料被分为三组:肖洛霍夫的无可争议的作品为第一组,《静静的顿河》为第二组,克留科夫的作品为第三组,研究者则分别研究三组文本的三个重要参数:

电影本身的内涵非常丰富,但从数据科学的角度来看,比利所做的事情就是一改老派的教练员基于直觉和经验的球员评价体系,而是对它进行了全方位的量化。棒球本身即是一项强调数据的运动,衡量球员的指标包括打击率、长打率、防御率、胜投数、全垒打数、打点数等数十项指标。可长久以来,棒球界却没能将这些意义非凡的数据转化为球队的战斗力,可谓守着金矿要饭吃。比利正是老旧传统的改造者。现实中,他和同伴建立了号称“棒球统计学(Sabermetrics)”的全新方法,通过统计学的方法将球员能力最大程度地量化,并以量化结果作为衡量球员能力的唯一标准,而非某些基于主观经验的判断。与此配套的是全新的评价体系:让棒球比赛结束的因素是27个出局数,那么“上垒率”就是不二法门,其他诸如“击球率”“盗垒”等华而不实的指标统统都要靠边站。通过这样的方式,比利颠覆了看重球员速度、力量和打击率的传统思维,挖掘出了决定比赛走势的深层次量化结果,给球队带来了实质性的收益。

第一个参数是作品中出现的不同的词汇数量与总词汇量的百分比统计:三组结果分别65.5%,64.6%和58.9%。显然前两个数据非常接近,并明显高于第三个数据。这表明肖洛霍夫的语言风格更加多变,而克留科夫偏爱使用重复的词汇。

图4-5 电影《点球成金》海报

第二个参数是词汇分布频率:研究者们选取了20个常见的俄文词汇,统计其在作品中出现频率。三组结果分别为22.8%,23.3%和26.2%,体现出与第一个参数同样的趋势。看起来这些词更受克留科夫的青睐。

第三个参数是作品中出现过一次的词汇所占的百分比:三组结果分别为80.9%,81.9%和76.9%。这表明肖洛霍夫的词汇量要高于克留科夫。

在第84届奥斯卡奖评选中,由好莱坞著名编剧阿伦·索尔金(Aaron Sorkin)编剧,金球奖得主布拉德·皮特(Brad Pitt)主演的影片《点球成金(Moneyball)》狂揽六项提名(只可惜全部陪跑……)。这部体育题材影片改编自真实的故事:比利是美国职业棒球大联盟中奥克兰运动家队(Oakland Athletics)的经理。作为一支小本经营的球队,奥克兰运动家无法像财大气粗的豪门纽约扬基一样挥舞钞票开展金元攻势,大肆招兵买马,面对主力纷纷跳槽的窘境,未来的赛季似乎前途渺茫。可一次偶然的机会,比利认识了耶鲁大学经济学硕士彼得,两人对于球队运营的理念不谋而合。比利立即聘请彼得作为顾问,用数学建模的方式,逐渐开始挖掘上垒率的潜在明星,并通过软磨硬泡将他们招致麾下,并最终上演了人民群众喜闻乐见的屌丝逆袭戏码。

在不同文本的比较中,三组参数表现出了一致的趋势,即克留科夫的作品与《静静的顿河》之间存在着显著的统计差异,这部杰作的真正作者更像是肖洛霍夫。这一结论在1999年被证实:《静静的顿河》手稿被发现,其中605页为肖洛霍夫亲笔,另285页他的妻子和姐妹誊写。这也给这段公案画上了一个句号。

这样的论断在百年后的大数据时代将被奉为圭臬。在海量数据中,量化的价值并不体现狭义的精确定量关系中,而是确定事物背后的运转规律,其出发点不是消除不确定性而是减少不确定性。尤其在大数据时代,分析数据更加追求关联性而非结构性,量化数据也不是非要用数字化去表达,这样的观念变革或许对于数据分析和量化而言是突破性的,而突破点就在于目的性的把握上。正因如此,数据可视化已经逐渐演进为一门独立的学科,它研究的正是如何将数据背后的定量关系直观地展示出来。

虽然克耶萨教授的研究已过去二十年有余,但他解决问题的思路正是大数据量化的思维方式:写作风格本来是虚无缥缈的东西,却可以通过作为载体的文本却是看得见摸得着的,其中体现出来的作者遣词造句的方式也难以伪造。对词语和句法的数理统计无疑就是对写作风格的量化。对四大名著之一的《红楼梦》后四十回的真伪判定也使用了类似的方法。当然,受当年的技术条件限制,克耶萨教授分析的对象只限于抽取出来的文字样本,这将不可避免地给分析结果带来偏差。在大数据处理技术日臻成熟的今天,如果对全部文本进行统计的话,也许会得到更具说服力的结果。

英国物理学家开尔文勋爵(William Thomson,1st Baron Kel-vin)曾说过:“当你能够量化你谈论的事物,并且能用数字描述它时,你对它就确实有了深入了解。但如果你不能用数字描述,那么你的头脑根本就没有跃升到科学思考的状态。”

在这个大数据的时代,数据正在从最不可能的地方涌现出来。量化一切是数据化的核心:一串串字符是对文字的量化;数字音频是对声音的量化;各种格式的数字图片是对图形的量化。量化正在不断推进数据化的进程:地图类应用是对地理场景的数据化;形形色色的电商平台上琳琅满目的商品是对现实物品的数据化;服务网站上各种各样的供需信息是对服务的数据化;微博和论坛是对思想观点的数据化;转发和点赞是对传播的数据化;社交网络是对人际关系的数据化。人和物的一切状态和行为都能数据化,而数据化意味着事务在数据空间里的极易操作,往往由此生发出伟大的创意。