大悟读书网 > 经济管理 > 人工智能革命:历史、当下与未来 > 有数据,才有一切 ——人工智能驱动力

有数据,才有一切 ——人工智能驱动力

根据连接主义学派的观点,机器的深度学习借鉴的正是人类的学习,训练的过程也是智能形成的必由之路。如今,大数据就扮演着这一重要的“训练”角色。大数据的飞速发展,让深度学习拥有了无比丰富的数据资源来完成特定功能的“训练”。除此之外,拜发达的传播渠道所赐,大数据还能够产生涟漪效应:千千万万的深度学习用户把与之相关的使用习惯传入已有的数据集合中,新增的数据反过来又能够促进学习的深入。这样的涟漪效应使深度学习不断地进行自身的优化去达到更优的结果。前文中提及的阿尔法狗便是大数据训练出来的硕果:古今中外的海量对局愣是把不懂围棋为何物的阿尔法狗训练成了独孤求败的高手。

其原因正是在于语言的能力没有被训练出来。读者不妨回忆自己学习说话的过程:一没有理论学习,二没有题海战术,靠的就是简单的咿呀学语。幼儿在最初听到任何语言的时候都会蒙圈,不知道说的到底是什么东西,但他们会通过观察出现这些语音信号时的场景图像,来猜测这些词句大概代表的含义,并将图像和语音建立联系。经过多次的重复刺激后,幼儿就会逐渐形成了对这一语音符号的“条件反射”,在大脑语言区的位置形成了脑神经的一个网络结构中逐渐构造该语言的语言区,最终实现了用这种语言的语音符号思维的能力。而对于聋儿来说,听觉的丧失使他们无法建立图像和语音之间的联系,也就没有办法形成习得语言所必备的条件反射了。

大数据的出现为深度学习的发展提供了前所未有的契机,却也对它提出了更高的要求。工业界一直奉行“大道至简”的原则:在大数据条件下进行机器学习,简单模型会比复杂模型更加有效。可近年来深度学习的惊人进展,促使我们不得不重新思考这个观点。在大数据情况下,也许只有比较复杂的模型,或者说表达能力强的模型,才能最大程度地发掘出海量数据中蕴藏的丰富信息。大数据运用到浅度学习上,只会产生消化不良的后果,只有更强大的深度模型才能从大数据中发掘出更多有价值的信息和知识。

从实际应用的角度来说,深度神经网络只是一个可以运作的简单大脑,单靠这个简单的大脑还不足以完成深度学习的任务。在医学上有种现象:聋哑儿童由于先天或后天的原因在年幼时丧失了听力,但他们的发声功能通常完好无损,这意味着具备说话的生理条件。可长大后,大部分的聋儿都不会说话,只能发出类似语言的简单音节组合。完好的生理条件并没有进化成语言能力,这是为什么呢?

语音识别是一个典型的基于大数据的机器学习问题:其声学建模的训练样本可以达到十亿甚至是千亿级别。要处理这样体量的数据,普通的神经网络是无能为力的,需要更加复杂的深度神经网络。可在谷歌公司的一个语音识别实验中,研究者发现即使使用深度神经网络进行训练,训练出的模型对训练样本和测试样本的预测也相差无几,这意味着所有的训练都打了水漂,连个响动都没听见。这种违背常理的现象只有一种解释,就是由于大数据里含有的信息维度太过丰富,即使是如深度神经网络一般的高容量复杂模型也处于欠拟合的状态,更不必说传统的高斯混合声学模型了。深度学习模型就像是高效的冶炼机器,没有它就没有办法从大数据这座金矿里提取出金子。

深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。从本质上来,深度学习只是手段,特征学习才是目的。为了更加精确地学习特征,深度学习引入了更多的隐藏层和大量的隐层节点;明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。

要使机器大脑达到人脑的水准,第一个重要的步骤就是获取信息。信息既可以通过搜索引擎直接抓取,也可以通过记录用户的搜索历史获得。当然,孤立的信息是没有任何用处的,机器大脑还要挖掘其中的各种关联,作为行动的指导。这个过程很难由机器主动完成,现阶段唯一的途径是通过搜索引擎的用户的反馈实现:当用户搜索某个关键词后对某个网站点击增加,就会自动增加这个关键词与该网站的关联,不断地寻找最优算法,让用户直达最优结果。

人工智能离不开深度学习。通过大量数据的积累探索,机器必将在任何单一的领域超越人类。而人工智能要实现这一跨越式的发展,把人从更多的劳力劳动中彻底解放出来,除了计算能力和深度学习算法的演进,大数据更是助推深度学习的高能燃料。离开了大数据,深度学习就成了无源之水、无本之木。

事实上,不只是语音识别或是图像识别这类专门的应用,真正的人工智能也应当基于大数据而诞生,并基于大数据不断进化。通过对海量的搜索和其他相关操作进行关联性的提取与分析后,机器大脑就能够找出在发生某个特定事件时,绝大多数人类的行为模式,并以这种模式和人类进行交互,使人以为对面真的是一个人。在现有的技术条件下,这可能是人工智能的终极形态:一个没有鲜明个性的“人”,一个群体意志的产物。