人工智能都火了一阵,深度学习还能走多远?
自2012年以来,随着欣顿(Hinton)、乐昆 (LeCun)和吴恩达(Andrew Ng)对深度学习的研究,使其在机器学习方面的应用取得了显著成就,深度学习成为计算机科学的一个新兴领域。谷歌、脸谱、百度、腾讯等互联网公司纷纷投入巨资研究深度学习,并兴起了基于深度学习的创业大潮。然而,对深度学习原理的困惑。对其应用的质疑也一直存在。在ImageNet目标检测中,人脸识别率已达99.5%,甚至超越人眼的识别准确率,在此情况下,深度学习何以为继?又该如何提升?深度学习是处于热潮的初始?还是强弩之末?是一直所向披靡?还是很快走向终点?作为沉寂了20余年的神经网络领域,深度学习到底还能走多远?
神经网络与人脑的区别:
目前,深度学习在几个主要领域都获得了突破:在语音识别领域,深度学习用深层模型替换声学模型中的混合高斯模型,错误率降低了30%;在图像识别领域,通过构造深度卷积神经网络,将Top5错误率由26%降低至15%,又通过加大加深网络结构,进一步降低到11%;在自然语言处理领域,深度学习与其他方法水平相当,但免去了繁琐的特征提取步骤。深度学习是最接近人类大脑的智能学习方法。
然而,与人脑相比,深度学习目前在处理问题的能力上还有不小的差距。当前的深层网络在结构、功能、机制上都与人脑有较大差距。从结构上看,人脑有1000亿左右的神经元,这些神经元形成了1000到1万层的连接。而目前的深层网络通常只有几百万个神经元,层数不超过10,因此深层网络的规模远小于人脑。另外,人脑是高度结构化的,每一个部分执行一个特定的功能,而且不同部分之间会协作,但深层网络在高度结构化方面目前还没有太多考虑。从功能上看,人脑善于处理各种问题,能够完成复杂任务。而当前深层网络的功能单一,基本是用处理识别与分类问题,没有综合处理问题的能力。从机制上看,人脑的数据存储与处理机制更为复杂。人脑中的数据以知识的形式组织起来,存储与应用密切相联,而当前计算机的数据存储方式远远没有做到这一点。人的感知器官并非感知器,而是依靠大量的反馈搜寻有用的信息。另外人脑具有知识反馈机制,在深层网络中并未得到体现。而研究者的研究对象从一个函数变成了一个过程,难度骤然增大。
人脑的学习能力是通过先天进化和后天学习得到的。先天进化可以理解为物种在长时间学习大量知识后演变得到的结果,后天学习包括对新接触知识的总结与演绎。而深度学习的网络结构是由人来设计的,网络参数是从训练数据集中学习得到的。就数据量而言,人脑在先天进化与后天学习中所接触的数据量远大于深层网络。
深度学习的局限性:
随着大数据的出现和大规模计算能力的提升,深度学习已然成为非常活跃的计算机研究领域。然而,在不断的研究中,深度学习的局限性也日益突显。
缺乏理论支持,对于深度学习架构,存在一系列的疑问:卷积神经网络为什么是一个好的架构?深度学习的结构需要多少隐层?在一个大的卷积网络中到底需要多少有效的参数?虽然深度学习在很多实际应用中取得了突出的成效,但这些问题一直困扰着深度学习的研究人员。深度学习方法常常被视为黑盒,大多数的结论都由经验而非理论来确认。不论是为了构建更好的深度学习系统,还是为了提供更好的解释,深度学习都需要更完善的理论支撑。
缺乏短时记忆能力,人类大脑有惊人的记忆功能,不仅能够识别个体案例,也能分析输入信息之间的整体逻辑序列。这些信息序列包含有大量的内容,信息彼此间有着复杂的时间关联性。例如在自然语言理解的许多任务(如问答系统)中需要一种方法来临时存储分隔的片段,正确解释视频中的事件,并能够回答有关问题,需要记住视频中发生事件的抽象表示。而包括递归神经网络在内的深度学习系统,却不能很好地存储多个时间序列上的记忆。近年来,研究人员提出了在神经网络中增加独立的记忆模块,如长短时记忆(Long Short-Term Memory,LSTM)、记忆网络(memory networks)、神经图灵机(neural Turing machines)和Stack增强递归神经网络(stack-augmented recurrent neural network),虽然有一定的成果,但仍需扩展更多新思路。
缺乏执行无监督学习的能力,无监督学习在人类和动物的学习中占据主导地位,我们通过观察能够发现世界的内在结构,而不是被告知每一个客观事物的名称。虽然无监督学习可以帮助特定的深度网络进行“预训练”,但最终能够应用于实践的绝大部分深度学习方法都是纯粹的有监督学习。因为无标记数据远远多于标记数据,因此无监督学习具有巨大的研究潜力。找到合适的无监督学习算法,对深度学习的发展至关重要。
深度学习未来的发展方向:
深度学习在人脸识别、目标检测等领域都取得了很大进展,识别准确率甚至超过人类,但这并不代表深度学习的发展已走到尽头。以下几个方面的研究对深度学习的继续发展具有重大意义。
1. 开发深度学习的演绎能力:人类在学习的过程中,除了对已有知识的归纳总结,还伴随对知识的演绎推理,如对定理进行推论等。当前的深度学习还停留在对数据的归纳上。如果深层网络对数据的归纳能力达到饱和,提升其演绎推理能力将是深度学习继续发展的突破口。
2. 提升综合处理问题的能力:当前的深度学习主要用于处理单一问题,但一套模型往往不能通用于多个问题,如人脸识别、语音识别等。但人脑可以实现这一功能,比如视觉皮层可以辅助听觉等。因此,提升深层网络综合处理问题的能力对于人工智能的实现具有重要意义。
3. 减少对硬件的依赖:随着GPU及高性能并行计算的发展,硬件设备的数据处理能力得到巨大提升。但过度依赖硬件会造成深度学习偏离人的思维,而陷入计算机思维。与计算机相比,人脑的计算速度极慢,但功耗极低,且能够完成复杂的任务。学习人脑,使用相对弱的硬件来实现强大的功能,是使深度学习向人工智能发展的关键。
综上所述,深度学习通过建立类似于人脑的分层模型结构,对输入数据逐层提取从底层到高层的特征,从而建立从底层信号到高层语义的映射关系。但在规模、功能、机制、设计等方面,当前深度学习所采用的深层网络与人脑存在很大差异。虽然深度学习在很多方面取得了巨大成功,但仍存在一些缺陷。当前的深度学习框架缺乏理论支撑,不能很好地存储时间序列上的记忆,缺少对无标记数据的学习能力。这些缺陷限制了深度学习的进一步发展。深度学习作为计算机科学的新兴领域,还有很长的路要走。深度学习掀起了机器学习的新浪潮,在语音图像的智能识别与理解等方面取得了很大进展。但深度学习还面临着一系列难题,在对知识的演绎能力、对问题的综合处理能力等方面还有很大的提升空间,在深层网络的设计规则上也需要进一步探索。