AMiner发布《人工智能芯片研究报告》
我们今日发布了《人工智能芯片研究报告》
微信公众号菜单栏和文章底部均可获取该报告
欢迎大家下载
2010年以来,由于大数据产业的发展,数据量呈现爆炸性增长态势,而传统的计算架构又无法支撑深度学习的大规模并行计算需求,于是研究界对AI芯片进行了新一轮的技术研发与应用研究。AI芯片是人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。
本报告在此背景下,对人工智能芯片的发展现状进行了简单梳理,包括以下内容:
概述篇
首先对人工智能芯片相关概念、技术路线以及各自特点进行介绍,接着对国外、国内AI芯片的发展历程及现状进行梳理。
技术篇
对AI芯片的几个技术流派进行介绍。
产业篇
对AI芯片领域的国内外代表性厂商进行介绍。
人物篇
通过AMiner大数据平台对AMiner的人工智能芯片人才库进行数据挖掘,统计分析领域内学者分布及迁徙。同时,介绍了目前AI芯片领域的国内外代表性研究学者。
应用领域篇
AI芯片已经渗透到日常生活的方方面面,本报告主要对智能手机、ADAS、CV、VR、语音交互设备、机器人等方向的应用进行介绍。
趋势篇
人工智能的发展历经波折,如今得益于大数据的供给、深度学习算法的革新以及硬件技术的提升,AI芯片以不可阻挡的势态飞速发展。AI芯片的算力提高、功耗降低及更合理的算法实现必然是将来的发展趋势。
我们选取其中的“AI芯片发展历程”和“AI芯片发展趋势”给大家做介绍,如果大家想要获取完整报告,可点击本文底部的阅读原文或在微信公众号菜单栏获取。
AI芯片发展历程
从图灵的论文《计算机器与智能》和图灵测试,到最初级的神经元模拟单元——感知机,再到现在多达上百层的深度神经网络,人类对人工智能的探索从来就没有停止过。上世纪八十年代,多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花。反向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反馈,将最终的输出收敛到某一个目标范围之内。
1989年贝尔实验室成功利用反向传播算法,在多层神经网络开发了一个手写邮编识别器。
1998年Yann LeCun和Yoshua Bengio发表了手写识别神经网络和反向传播优化相关的论文《Gradient-based learning applied to document recognition》,开创了卷积神经网络的时代。
(论文地址:https://ieeexplore.ieee.org/document/726791)
此后,人工智能陷入了长时间的发展沉寂阶段,直到1997年IBM的深蓝战胜国际象棋大师和2011年IBM的沃森智能系统在Jeopardy节目中胜出,人工智能才又一次为人们所关注。2016年Alpha Go击败韩国围棋九段职业选手,则标志着人工智能的又一波高潮。从基础算法、底层硬件、工具框架到实际应用场景,现阶段的人工智能领域已经全面开花。
1997年电脑深蓝首次战胜国象棋王卡斯帕罗夫
作为人工智能核心的底层硬件AI芯片,也同样经历了多次的起伏和波折,总体看来,AI芯片的发展前后经历了四次大的变化,其发展历程如下图所示。
(1)2007年以前,AI芯片产业一直没有发展成为成熟的产业;同时由于当时算法、数据量等因素,这个阶段AI芯片并没有特别强烈的市场需求,通用的CPU芯片即可满足应用需要。
(2)随着高清视频、VR、AR游戏等行业的发展,GPU产品取得快速的突破;同时人们发现GPU的并行计算特性恰好适应人工智能算法及大数据并行计算的需求,如GPU比之前传统的CPU在深度学习算法的运算上可以提高几十倍的效率,因此开始尝试使用GPU进行人工智能计算。
(3)进入2010年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量CPU和GPU进行混合运算,进一步推进了AI芯片的深入应用,从而催生了各类AI芯片的研发与应用。
(4)人工智能对于计算能力的要求不断快速地提升,进入2015年后,GPU性能功耗比不高的特点使其在工作适用场合受到多种限制,业界开始研发针对人工智能的专用芯片,以期通过更好的硬件和芯片架构,在计算效率、能耗比等性能上得到进一步提升。
目前主流AI芯片的核心主要是利用MAC(Multiplier and Accumulation,乘加计算)加速阵列来实现对CNN(卷积神经网络)中最主要的卷积运算的加速。这一代AI芯片主要有如下3个方面的问题:
(1)深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memory wall”问题。
(2)与第一个问题相关,内存大量访问和MAC阵列的大量运算,造成AI芯片整体功耗的增加。
(3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。
因此,我们可以预见,下一代AI芯片将有如下的几个发展趋势。
趋势一:更高效的大卷积解构/复用
在标准SIMD的基础上,CNN由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向,如下图所示。
分解卷积可降低消耗
趋势二:更低的Inference计算/存储位宽
AI芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从32位浮点到16位浮点/定点、8位定点,甚至是4位定点。在理论计算领域,2位甚至1位参数位宽,都已经逐渐进入实践领域,如下图所示。
逐层动态定点方法
趋势三:更多样的存储器定制设计
当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。
趋势四:更稀疏的大规模向量实现
神经网络虽然大,但是,实际上有很多以零为输入的情况,此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结构,如图21所示,在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的目的。
五级流水线结构
趋势五:计算和存储一体化
计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。