大悟读书网 > 经济管理 > 人工智能革命:历史、当下与未来 > 通向巴别塔之路 ——机器翻译

通向巴别塔之路 ——机器翻译

基于规则的窘境迫使研究者们重新思考机器翻译的原则。语言的形成过程是自底向上的过程,语法规则并不是在语言诞生之前预先设计出来的,而是在语言的进化过程中不断形成的。这促使机器翻译从基于规则的方法走向基于实例的方法:既然人类可以从已有语言中提取规则,机器为什么不能呢?眼下,基于深度学习和海量数据的统计机器翻译已是业界主流,这个领域的领头羊则是著名的互联网巨头——谷歌。

这里的“规则”指的就是句法结构与语序特点。显然,基于规则的机器翻译更贴近于人类的思考方式:人类通常会把一个句子视为整体,即使对其进行拆分也并不简单地依赖字词,而是根据逻辑关系进行处理。这使得人类翻译非常灵活,即使是不服从语法规则,甚至存在语病的句子都可以翻译得准确无误。基于规则的机器翻译正因为和人类思路一脉相承,刚一诞生便受到众多推崇,似乎成为一劳永逸的不二法门。可理想虽然丰满,现实却依然骨感。基于规则的机器翻译也很快遇到了新问题:在面对多样句法的句子中,并没有比它的前任优秀多少,任何一款翻译软件都不会把“我勒个去”翻译成“Ohmy God”。

某种程度上来说,谷歌翻译(Google Translate)是时下大火的阿尔法狗的师傅。诞生于2001年的谷歌翻译起初几年一直在不温不火的状态中挣扎,直到2004年迎来新掌门弗朗兹·欧赫(Franz Och)。

但天无绝人之路,进入二十世纪七十年代后,全球化浪潮的出现催生对机器翻译的客观需求,计算机性能的发展则为机器翻译突破了技术瓶颈,机器翻译重新回到人们的视野之中。这一时期的机器翻译有了全新的理论基础:语言学巨擘诺姆·乔姆斯基(Noam Chomsky)在其经典著作《句法结构(Syntactic Struc-tures)》中对语言的内涵做了深入的阐述,他认为语言的基本元素并非字词,而是句子,而在一种语言中,无限的句子可以由有限的规则推导出来。语言学的进化也对机器翻译的方法论产生了根本性的影响:韦弗推崇的基于字/词的字典匹配方法被推翻,基于规则的句法分析方法粉墨登场。

欧赫是个计算机专家,和语言学一点儿不沾边。还在亚琛工业大学攻读博士学位时,他就开发出一个机器翻译系统,这个系统在美国国家标准和技术研究所组织的第一届机器翻译系统评测中夺魁。在欧赫看来,统计机器翻译的决定性因素永远是数据规模,句法规则知识对系统的作用相当有限(如果不是反作用的话)。独立于语言的算法使得计算机专家无需通晓语言,只需算法就可以得到理想的翻译结果,而谷歌作为搜索引擎所拥有的海量数据规模显然使欧赫如鱼得水。

然而乐观和热情不能左右现实存在的客观阻力,从今日的视角来看,这样的一一对应未免过于简单:同一个词可能存在多种意义,在不同的语言环境下也具有不同的表达效果,逐字对应的翻译在意义单一的专业术语上有较好的表现,但在日常生活的复杂语言中就会化为一场灾难。1964年,美国科学院的下属机构语言自动处理咨询委员会通过调查研究,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。经过了概念的热炒之后,机器翻译陷入低潮。

2005年,谷歌翻译第一次作为参赛选手参加了由美国国家标准与技术研究所主持的机器翻译测评。事实证明这个新来者是成色十足的黑马:谷歌翻译的得分在从阿拉伯语到英语的翻译中领先了第二名将近5%,可别小瞧这区区5个百分点:它意味着研究上5~10年的差距;更可怕的中文到英语的翻译中——机器翻译最难的一个领域,谷歌翻译的得分领先第二名达到17%!这个差距已经超出了一代人的水平。

图8-1 沃伦·韦弗

谷歌翻译是欧赫的杰作,可参赛的另外两个系统也与欧赫密不可分——亚琛工业大学的系统是欧赫博士期间的作品,南加利福尼亚大学的系统则是欧赫做研究教授时开发的。由于时间上的原因,欧赫在谷歌公司的工作不可能比这两个系统有实质性的改进。那么谷歌翻译为什么会比它的姊妹系统高出一筹呢?其原因就在于谷歌的海量数据。足够的数据使欧赫能够在原始算法的基础上增加参数的数量,进而提高翻译的效果。

谷歌翻译的基本原理是通过对大量平行语料的统计分析构建模型,再通过这个模型翻译。生成译文时,需要先在大量人工翻译的文档中寻找模型并进行合理的猜测,再得出恰当的翻译。针对特定语言可供分析的人工翻译文档越多,译文的质量就越高。通过对模型构建算法和数据处理架构的改进,谷歌翻译的效果不断提升,其第一机器翻译系统的评价可谓实至名归。然而已经处于巅峰的谷歌翻译并未止步:2016年,他们推出了全新的谷歌神经机器翻译(Google Neural Machine Translation),实现了又一次的突破。

机器翻译源于对自然语言的处理。1949年,洛克菲勒基金会的科学家沃伦·韦弗(Warren Weaver)提出了利用计算机实现不同语言的自动翻译的想法,并且得到了学术界和产业界的广泛支持。韦弗的观点代表了当时学术界的主流意见:以逐字对应的方法实现机器翻译。语言作为信息的载体,其本质可以被视为一套编码与解码系统,只不过这套系统的作用对象是客观世界与人类社会。既然不同语言描述的对象是一致的,其区别就在于读音和字形的不同。因此可以将字/词看成构成语言的基本元素,每一种语言都可以解构为所有字/词组成的集合,通过引入中介语言的方式,把所有语言的编码统一成为用于机器翻译的中间层,从而实现翻译。同样是“自己”这个概念,在汉字中用“我”来表示,在英语中则用“I”来表示,机器翻译的作用就是在“我”和“I”这两个不同语言中的基本元素之间架起一座桥梁,实现准确的对应。

传统的统计机器翻译采用的仍然是韦弗基于短语的翻译方式:把句子分成一个个短语和单词进行独立翻译,再将翻译出来的独立短语进行逻辑整理,重组成句。这样的方法在处理同属印欧语系的语言时问题不大,可一旦用于语法逻辑毫不相干的印欧语系与汉藏语系的语言——比如英语和汉语——之间的互译时,语序的确定就变成了一个老大难问题。但神经机器翻译通过采用整体处理的方式解决了这个难题:它将整个句子视作翻译单元,对句子中的每一部分进行带有逻辑的关联翻译,翻译每个字词时都包含着整句话的逻辑。用一个不甚恰当的类比来描述:如果说传统的统计机器翻译是拆得七零八落的全羊宴,神经机器翻译就是最大程度保持原貌的烤全羊。

令人沮丧的是,眼下这个问题的答案还是“是”。但机器翻译的出现与发展,至少让我们看到了一丝曙光。

相比于传统的机器翻译,神经机器翻译以更少的设计工程量提高了翻译质量。更重要的是,神经机器翻译还实现了“零知识翻译”,即在没有先验数据的情况下,让系统对从未见过的语言进行翻译。这在以往绝对是超乎想象的事情。

圣经中对语言诞生的描述充满了天谴的色彩,我们也知道事实根本就不是这么回事,但语言的差异的的确确对人类社会产生了深远的影响。不同的语言塑造出不同的行为方式和思维模式,这带来了多姿多彩的文化,却也给不同文化之间划出了纵横交错的鸿沟。作为社会性动物,人类生存最基本的需求自然包括沟通和交流,语言的差异却给这个需求平添了诸多隔阂。难道伟大的巴别塔注定只是存在于幻想之中的空中楼阁吗?

机器翻译一直被公认为是自然语言处理,乃至整个人工智能领域中最难的课题之一,这不仅仅是科学家们孜孜追求的技术梦想,也寄托着普罗大众实现自由沟通交流的美好愿望。《星际迷航:企业号》曾绘出这样一幅美妙的图景:星舰通讯指挥官佐藤星利用翻译器发明了linguacode矩阵,通过把翻译器集成到星舰人员佩戴的交流别针上或者植入耳朵里,说不同语言的人们就可以进行自由交流。

根据《圣经·旧约·创世纪》中的记载,大洪水劫后,诺亚的子孙们在巴比伦附近的示拿地定居。说着同样语言的人类联合起来兴建希望塔顶通天能传扬己名的巴别塔,这让上帝深为人类的虚荣和傲慢而震怒,更不能容忍人类冒犯他的尊严:如果人类真的修成宏伟的通天塔,那以后还有什么事干不成呢?一定得想办法阻止他们。于是他悄悄地离开天国来到人间,变乱了人类的语言,无法交流的人们做鸟兽散,巴别塔的伟念也就轰然倒塌。

这就是人工智能时代的巴别塔。