独家 | 陈天石:芯片要跟上 AI 专有的速度与激情

TGO 鲲鹏会专访寒武纪创始人兼 CEO 陈天石博士

文字 | 陈天石
采编 | Bella Wu
责编 | Rainie Liu

2018 年,AI 成为科技领域内最受关注的话题,芯片行业也开始高频率地出现在大众的视野之中。似乎不谈芯片,就显得很 out 。

在国内,除开老牌与新兴的芯片公司外,各大互联网及 IT 企业也开始纷纷涌入到芯片与人工智能行业中来:阿里芯片公司“平头哥”的成立、百度开发 AI 芯片、华为 10 月份推出两款芯片。放眼国外,全球互联网巨头微软、Google、Facebook、亚马逊等都宣布了在芯片领域内的新动作。

寒武纪是全球 AI 芯片领域的首个独角兽公司,成立至今短短两年多时间,声量发展之迅速可以用势如破竹来形容。作为一家将多年科研成果产业化的高技术初创企业,国产 AI 芯片领域的头部独角兽——寒武纪,如何在巨头涌入芯片赛道后继续保持“独立”?我国芯片产业的前景何在?芯片产业当下的挑战和未来的发展趋势是什么?

带着这些问题,TGO 鲲鹏会采访了寒武纪创始人兼 CEO 陈天石博士。在一向低调、很少接受专访的陈天石看来,芯片产业经过 50 余年的发展,遇到了如何通过架构创新来实现突破性进步的瓶颈。而芯片是一条没有捷径可走的道路,需要技术和资本双重密集支撑。

芯片要跟上 AI 专有的速度与激情
TGO 鲲鹏会:陈博士您好,请先简单介绍一下寒武纪目前的芯片产能和自研情况。

陈天石:寒武纪公司拥有终端智能处理器和云端智能芯片两条产品线。

针对终端应用,寒武纪在 2016 年就推出了世界首款终端人工智能专用处理器——寒武纪 1A 处理器(Cambricon-1A),面向智能手机、智能视觉、可穿戴设备、无人机、机器人和智能驾驶等各类终端设备,早于国外同类型产品两年以上。

2017 年开始,寒武纪先后发布了第二代多核智能处理器寒武纪 1H 及第三代高性能智能处理器寒武纪 1M。1A、1H 分别应用于麒麟 970 与麒麟 980 芯片中,迄今已累计服务了千万台智能手机终端。吴主编您的手机中,就有寒武纪的产品。

今年 5 月,寒武纪发布云端人工智能芯片 MLU100,开始从云到端全面的人工智能计算力生态布局,目前 MLU100 已进入大规模量产阶段,与浪潮、联想、曙光、H3C 等服务器厂商的适配机型已开始陆续出货。

对于接下来的 2019 年,除了完成现有产品线的升级迭代外,面对更复杂的云端智能训练应用、轻量级的边缘端场景和消费类电子产品,寒武纪还将推出一系列新的芯片和 IP 产品。另外,在与民生紧密相关的 AIoT 领域,寒武纪也会做重点赋能。

TGO 鲲鹏会:芯片行业并不是个新兴产业,市面上已有如 CPU、GPU 等诸多类型的处理器长期存在。和其他类型芯片相比,智能处理器诞生与发展的必要性是什么?寒武纪芯片采用的是什么架构?

陈天石:深度学习是目前 AI 领域机器学习方法中最为有效的算法,深度学习模型需要大量的数据训练,这就要求处理器有极高的运算速度作为支撑。

传统 CPU 基于低延时的设计,拥有复杂的内部结构,优点是拥有针对各种不同类型数据的计算能力以及逻辑判断能力,适合进行复杂逻辑的问题处理和计算设备内的管理调度。而深度学习模型所需的运算能力极高,传统架构处理器无法做到功耗与速度上的平衡——通常需要成百上千条指令才能完成对一个神经元的处理。

目前人工智能行业内主流做法是采用 GPU 并行计算神经网络。GPU 是专门进行图像运算工作的处理器,因为它在浮点运算、并行计算等方面的性能优势与人工智能的需求不谋而合,于是在人工智能爆发的关键期,GPU 被广泛使用。但是作为图像处理器,GPU 在推理阶段无法充分发挥并行优势,另外由于 GPU 的计算方式不是为深度学习算法专门设计,性能峰值无法被完全利用。

所以,人工智能行业需要经过专属设计优化的处理器,来应对计算密集型应用场合——不需要面面俱到、八面玲珑,但要有强大的执行力,速度一马当先;同时,也不会带来过高的功耗,这是 AI 专有的速度与激情。

寒武纪芯片是专门针对深度神经网络计算而设计的 AI 处理器。针对传统 ASIC(将单个特定算法硬件化)思路无法解决深度学习处理需求这个问题,寒武纪通过多年研究,采用硬件神经元虚拟化,稀疏神经网络处理器架构等技术以及深度学习指令集打造了寒武纪的 AI 芯片,使得寒武纪芯片在执行 AI 计算任务时能效可以实现最大程度的优化,和同类产品比速度可以实现大幅提升。

芯片发展半世纪,面临创新的瓶颈
TGO 鲲鹏会:现阶段芯片发展到了什么阶段?目前面临的最大挑战点和难点在哪?

陈天石:从人工神经网络的雏形在上世纪四、五十年代被提出开始,人工智能发展几经起伏。近年来,得益于算力、算法、大数据各个要素上的全面突破和创新,在现阶段,AI 技术应用发展如火如荼。

做为 AI 核心的底层硬件——芯片,也是同样经历了漫长的发展过程,从 CPU 到 GPU 再到专门的 AI 芯片,我们一直在试图通过硬件架构创新,去追求计算效率、性能和能效比等性能上的进一步攀升。

目前,随着深度神经网络的层数日益增多,规模日益庞大,AI 芯片发展始终在面对严峻挑战,并需要持续完善:

算力资源储备 —— 网络规模变大之后,如何用足够的计算能力来支持如此庞大复杂的深度学习模型

功耗与成本 —— 如何在超大规模并行计算中更好地兼顾性能与功耗,同时成本可接受

性能与灵活度 —— 如何能在拥有更适合 AI 计算特点的丰富算力同时,让算力适用于尽量多的行业与应用场景,满足云端计算中的应用多样化需求

曾有人开玩笑说,现阶段 AI 的最主要矛盾是 PPT 中体系健全 / 理论完备的全行业解决方案与现实中难落地难实现的实际应用之间的矛盾。作为最底层基础,AI 芯片提供的计算力是桥接算法和海量数据的桥梁,是 AI 解决方案得以真正在传统应用中顺利落地的钥匙。

TGO 鲲鹏会:现在大家都在关注芯片动态,有一种观点说中国芯片产业落后国外几十年,很多时候都是自嗨,您如何看待这一观点?

陈天石:AI 芯片这个领域和其他的芯片领域不太一样的是,中国和其他国家相比不存在太多历史积累上的差距,相反中国还在开始设计研发 AI 芯片的时间上还领先一步。大家从同一起跑线出发,AI 芯片市场前景广阔,人工智能产业发展和应用推进也是迅猛的,希望和国内外同行一道共同努力,推进人工智能领域发展进步。

TGO 鲲鹏会:在您看来,芯片产业未来的发展趋势将会是什么?

陈天石:AI、大数据、云计算等技术的兴起对处理器提出了不加上限的性能需求,而芯片产业经过 50 余年来的发展,面临着通过架构创新来实现突破性进步的瓶颈。

为了解决海量数据的处理效率问题,无论是在大型数据中心的服务器中还是在芯片内部,异构计算已成为目前越来越普遍的架构模式。CPU 担任调度管理角色,其他多类型协处理器来负责各类型的数据处理和计算加速,协处理器的性能某些程度上还会超越 CPU。

此外,对于 AI 芯片来说,如何通过模型压缩以及设计更合理的数据流等技术手段来实现性能和灵活性的进一步提升、功耗与成本的进一步降低,也是我们持续探索的方向。

TGO 鲲鹏会:您怎么看待智能时代的 AI 芯片?在 AI 芯片和物联网芯片上有没有更深度的推进?

陈天石:在未来时代,物联网和 AI 相辅相成,密不可分。打一个比方:物联网让各类的设备和终端有了生命,而 AI 让它们有了智商。如今物联网已经渗透到我们生活的各个领域,它所具备的万物互联和海量数据的特性也推动了云计算、大数据、AI、边缘计算等技术的发展。即将到来的 5G 时代,也会进一步加快物联网和 AI 等技术的爆破式进步。

物联网连接的物理对象多样且应用场景丰富,将来更需要通过云计算、边缘计算、智能终端计算的协同发展、有机部署来实现万物互联的智能世界——全部场景中的这些智能数据处理,都需要 AI 芯片参与其中。

巨头涌入,芯片没有捷径可走
TGO 鲲鹏会:当下有个现象:越来越多的企业,包括巨头的互联网公司都在布局 AI。您如何看待这一现象?接下来寒武纪会有什么差异化的打法吗?

陈天石:基于 AI 技术的突飞猛进和对日常生产生活的深入影响,布局 AI 已经成为一种潮流和趋势,包括现在许多巨头通过研发 AI 芯片来实现自身 AI 生态圈的闭环,形成全栈 AI 平台,其实是希望围绕自身的主营业务形成完整或相对完整的行业解决方案,提前部署万物互联时代的战略,以期待减少对芯片供应商的依赖,保护自身核心技术秘密与知识产权。

但客观来说,芯片从设计、制造到封装是一条几乎没有捷径的漫长链条,尤其是芯片的设计,需要技术和资本双重密集支撑。所以,能对计算基础架构进行布局的 AI 公司不多,能真正打造出高性能、可商用的量产 AI 芯片又是一件更不容易的事。

寒武纪的定位一直以来很明确 —— 做独立的芯片设计公司。为下游厂商提供不同尺寸、面向不同应用场景的终端 AI 处理器 IP,提供从前端训练到后端推理的多品类云端 AI 芯片,帮助大家解决“AI 闭环路上最后一公里”的事情。

TGO 鲲鹏会:寒武纪目前的市场情况如何?主要针对的商业客户都涉及了哪些行业方向?

陈天石:寒武纪市场主要是两部分:一是终端,二是云端。

针对终端应用,主要是以 IP 授权形式集成于智能终端的 SoC 芯片中。而在云端,主要以板卡形式来提供计算加速功能。

在终端,寒武纪已经为华为两代人工智能手机芯片提供了 NPU 神经网络单元的支持。最终使得华为手机性能大幅提升,曾经在移动端设备上难以实现的 AI 应用得以飞速发展。除此之外,寒武纪与紫光展锐、星宸科技等多家中国最顶尖的 SoC 芯片公司也有密切的合作发展。

在智能数据中心领域,寒武纪与浪潮、联想、曙光、新华三等国内大型服务器厂商都有深入合作,搭载寒武纪智能加速卡的 AI 服务器均已进入量产阶段。

此外,在智能视觉、智能语音、智能教育、智慧城市、智能驾驶等从科技到民生的广泛领域,寒武纪均有广泛的生态合作及成功应用案例。

TGO 鲲鹏会:华为发布了自研芯片布局 AI,这对于寒武纪来说意味着什么?如何看待外界所说的“分手”,变成竞对关系这种说法?

陈天石:2016 年,我们将 AI 芯片的思想和技术带入华为,推动了全球首颗 AI 手机芯片麒麟 970 诞生。今年,全球首颗 7nm 制程 AI 手机芯片麒麟 980 问世,搭载了寒武纪 1H 多核处理器。寒武纪与华为的合作,基于两家公司高度重合的创新基因、扎实的工程能力、在技术上永不止步的求索态度和敢为人先的冒险家精神,我们是彼此尊重和认可的合作伙伴。

作为有能力有平台的巨头,华为推出自研 AI 芯片,也正说明了 AI 芯片作为人工智能领域的计算力核心,拥有极高重要性:技术壁垒很高,研发流程很长,但是再难也要上。

TGO 鲲鹏会:接下来计划如何围绕底层架构展开生态建设?

陈天石:未来全球每年产生的数据量会持续高速增长。有报告指出,到 2025 年,全球数据总量将会超过 163ZB,约为 2010 年 80 倍,并且大部分数据来自于终端。不难想象,AI 应用场景中所产生的计算需求主要分为以下两类:

1、在终端把刚刚采集到的数据进行快速即时处理与应答;

2.、对于高复杂度的大型数据模型则需要上传到云进行进一步处理。

所以长期以来寒武纪一直在关注一个问题:尤其是在云端应用场合,芯片实现必须通用和好用,即在 AI 领域显示出足够好的性能,又有比较好的通用性,才能满足云端多维度的 AI 计算需求。

在 2018 年上半年,寒武纪于业内率先提出 “端云一体、端云融合、端云协作” 的思路,建立端和云之间统一的应用生态、指令集和软件开发平台,就是为了实现数据处理在终端低粒度低复杂度处理和云端高复杂大规模神经处理之间的灵活切换。

寒武纪芯片采用灵活的指令集与可扩展的架构,经过手机等数千万智能终端上的大规模应用验证,并据此对编程工具和编程框架反复迭代和打磨,形成了现有从云到端的成熟产品。 寒武纪将不断用性能更高、功耗更低、价格更合理的 AI 芯片,从云到端全面助推 AI 的行业发展与应用落地。


今日荐文

点击下方图片即可阅读

汇聚厦门精英,探索海峡科技

你想与博通 Broadcom 技术总监 & TGO 鲲鹏会会员夏海涛一起学习交流吗?

(0)

相关推荐