ASIP：人工智能芯片的新门类、少数派 / 开普饭

编写丨张曙东一、关于人工智能芯片的分类1.云天励飞招股说明书及问询回复材料的分类深度神经网络处理器芯片以GPU为代表，进一步提高云端芯片算力，将终端采集到的海量数据传输回云端的运算中枢进行处理，重视产品的通用性以ASIC和ASIP为代表，针对垂直细分场景综合考虑芯片的算力、功耗、性价比等因素，并将部分算力前置部署在边缘端和终端芯片，重视产品的专用化类脑芯片使用神经元和突触的方式替代传统冯诺依曼架构体系，使芯片能够进行异步、并行、低速和分布式处理信息数据，并具备自主感知、识别和学习的能力，典型代表有IBM的TrueNorth和英特尔的Loihi但存在设计复杂，制造难，良率低，软件生态不成熟等问题，类脑芯片仍需要较长时间发展完善ASIP（Application Specific Instruction Processor）是一种新型的定制化指令集的处理器芯片，它为某个或某一类型应用而专门设计，通过权衡速度、功耗、成本、灵活性等多个方面的设计约束，设计者可以定制ASIP以达到最好的平衡点，从而适应嵌入式系统的需要。ASIP集合了FPGA和ASIC各自的优点，不仅可以提供ASIC级别的高性能和低功耗，还能提供处理器级别的指令集灵活性，实现可重新编程，更适用于需求尚未被明确定义、需要芯片具备一定通用性和可编程性的应用场景，从而满足AI算法快速更新迭代的需求，并延长芯片的使用生命周期。ASIC（Application Specific Integrated Circui）则为专用定制芯片的统称，在架构、设计、成本等方面存在更大的多样性，其中VPU是为图像处理和视觉处理设计的定制芯片。ASIC的架构相对简单，性能和功耗与通用型产品相比更低。由于不需要包含FPGA用于实现重构的可配置片上路由与连线，相同工艺的ASIC计算芯片可以拥有FPGA5-10倍的运算速度，实现PPA最优化设计。与其他类型芯片比，ASIP所具备的优势如下：相对GPU\CPU具备同等的指令集灵活性，执行效率、功耗、能量效率方面相比CPU、GPU有1-2个数量级的优势。相对DSP在视觉人工智能算法上的执行效率上高2-5倍，功耗只有其1/2-1/3。相对ASIC具有后向算法可编程的灵活性，更适合深度学习AI算法的演进和迭代部署。相对FPGA具有高性能、低成本的优势，成本方面有百倍级的成本优势。算力通用性功耗时延成本计算可重定义性典型应用场景GPU优优劣劣劣劣数据中心、人工智能训练端FPGA较优较优较优较优劣优数据中心、人工智能训练端、推理端ASIC较劣劣优优优劣边缘计算、移动设备ASIP较优较优优优优优边缘计算、移动设备、数据中心2018年智东西公开课上，云天励飞处理器架构总监李炜在《面向AI的ASIP处理器设计》的主题分享中比较了几种CNN IP方案：GPU类（如NVIDIA GPU）、DSP类（如Cadence VP6）、ASIC类（如NVDLA）以及ASIP类（如寒武纪、云天励飞）：性能ASIC＞ASIP＞GPU＞DSPASIC最高，因为是专门实现某类定制的电路算法ASIP也是针对某种特定的运算或者是根据某类算法来定制的，性能要比ASIC要低一些，因为ASIP还涉及到软件编程的问题DSP最低，要通过软件编程实现所有层的计算能耗DSP＞GPU＞ASIP＞ASICDSP最高，因为所有计算过程都要通过软件来实现GPU其次，其大部分计算也是通过软件编程来实现的ASIP也涉及到一些指令编程，但它却做了很多定制的操作和处理ASIC最低，因为完全不需要编程，所有控制都是通过硬件状态机来控制的灵活性DSP＞ASIP＞GPU＞ASIC能够通过软件编程来实现的架构灵活性就高复杂度DSP＞GPU＞ASIP＞ASIC不仅指硬件，还有配套的工具链以及软件的复杂度从硬件上来说，ASIC的控制复杂度要稍高一点，因为它是通过硬件状态机来实现的，但是从软件的角度来看，ASIC不需要软件编程，而软件只需要通过一些配置寄存器就可以了在某些情况下，可能要考虑采用ASIP+ASIC的方式，把ASIC作为ASIP的加速单元来完成某类特定的运算。通常来讲，如果某些运算难以融入当前ASIC处理器的设计中，或者某些运算使用的频率比较高，使用ASIP来计算这些运算不划算时，就可以利用加速器对ASIP进行扩展。因此ASIP处理器的指令集以及硬件架构就需要有一定的扩展能力。2.寒武纪招股说明书的分类传统芯片CPU、GPU、DSP、FPGA智能芯片通用智能芯片云端和边缘端：主要厂商和产品为寒武纪（思元100/270/220）、华为海思（Ascend310/910）、Google（TPUV1/V2/V3、TPUEDGE）等终端：多集成于手机SoC等芯片中，已实现大规模应用，主要厂商和产品为华为海思（麒麟970/980/990）等ASIC智能芯片是面向人工智能领域而专门设计的芯片，其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化。智能芯片的性能和能效优势主要集中于智能应用，但不适用于人工智能之外的其他领域。智能芯片不支持双精度浮点运算、图形渲染类运算、无线通信类信号处理运算，且未包含可重构逻辑单元阵列，从而无法像CPU和GPU一样支持科学计算任务、无法像GPU一样支持图形渲染任务、无法像DSP一样支持通信调制解调任务、无法像FPGA一样可对硬件架构进行重构。通用智能芯片可以支持不同类型、种类智能算法，和CPU、GPU类似，具有指令集。由于具备灵活的指令集和精巧的处理器架构，通用型智能芯片技术壁垒高但应用面广，可覆盖人工智能领域高度多样化的应用场景（如视觉、语音、自然语言理解、传统机器学习等）。寒武纪智能芯片通过完备的智能处理器指令集及灵活的处理器架构来实现在人工智能领域内的灵活通用性：在指令集方面，寒武纪智能芯片的设计思想是通过分析和抽象多样化的人工智能算法的计算特征和访存特征，针对性地设计更适用于智能算法的数百条处理器基本指令，并与处理器架构配合实现在人工智能领域内灵活通用的设计目标。在具体设计过程中不仅需要考虑当前各类智能算法的特点，也需要对智能算法未来发展的趋势进行预判，从而抽象出完备高效的智能处理器指令集；通过高维张量、向量、逻辑指令等之间的灵活组合来覆盖对多样化的智能算法，实现人工智能领域内的通用性。（智能芯片的指令通常与人工智能算法中的关键运算操作相匹配）在处理器架构方面，寒武纪智能处理器包含高维张量计算部件、向量计算部件、传统算术逻辑计算部件，分别用于处理各类智能算法的不同类型操作。高维张量计算部件可对智能算法中核心运算（如卷积运算）进行高效处理，提升整个处理器的能效。而向量运算部件与算术逻辑计算部件（尤其后者）则具有更强的灵活性，可对智能算法中频次不高且高维张量无法支持的运算（如分支跳转等）实现全面覆盖，有力保障了处理器架构的通用性。（对于关键运算操作，智能芯片指令可直接支持，从而实现高效的训练和推理）二、云天励飞ASIP芯片1.神经网络处理器2016年底，公司完成第一代自主研发的NNP100神经网络处理器架构设计、指令集定义和处理器研发，并于2017年基于FPGA商用；2017年底，公司完成第二代自主研发的NNP200神经网络处理器，并于2018年一次流片成功。处理器型号指令集处理器特点立项时间商用时间商用进展NNP100ISA1.0推理，INT16，单核架构，0.1~1Tops2016年6月2017年6月批量出货（FPGA）NNP200ISA1.1推理，INT12，单核架构，0.5~2Tops2017年3月2019年6月批量出货（ASIC）NNP200BISA1.2推理INT16/INT12，单核架构，0.5~4Tops2018年3月2019年12月批量出货（ASIC）NNP300IISA2.0推理，FP16/INT16/INT8,多核架构，1T~16Tops2019年6月2020年6月初步商用阶段NNP400TISA3.0推理+训练，FP32/FP16/INT16/INT8，多核架构，8T~64Tops2020年2月2021年研发阶段公司自研的神经网络处理器采用ASIP技术路线，可以实现定制可编程，多指令并发、多核并行。公司自研指令集针对深度学习算法深度定制。公司处理器配套的一键式工具链包括了定点转化工具、处理器编译器、模拟器以及深度学习SDK等。2.AI芯片公司各型号芯片的应用情况如下表所示：芯片型号芯片类型NNP立项时间流片时间商用时间商用进展DeepEye200FPGANNP1002015年不适用2017年小批量出货DeepEye1000视觉AI协处理器NNP2002018年一季度2019年三季度量产2019年三季度批量出货2019年、2020年、2021年1-5月，第二代AI芯片DeepEye1000的出货量分别为1、4894、22226颗，合计27121颗。相比DeepEye200，DeepEye1000除了集成算力更强、能效比更高的第二代神经网络处理器NNP200之外，还集成了视觉DSP、视频图像编解码器、智能算子引擎和丰富的外设接口，是采用异构多核并行计算架构的视觉AI协处理器芯片，可广泛用于轻量级端侧和边缘计算场景。第二代芯片DeepEye1000的主要特征及参数具体如下：功能满足视觉AI算法要求，包括CNN/RNN/LSTM等深度学习算法、主流图像处理算法，涵盖人像识别、人体识别、目标识别等应用。可以广泛用于智能摄像头、视觉边缘计算节点、智能机器人、无人机、智能移动人像识别设备的视觉AI处理应用。设计路线公司通过算法芯片化技术，采取ASIP处理器设计路线，实现指令集级别的编程灵活性，满足算法迭代的后向兼容性；同时针对深度学习人工智能算法的特点，设计了高效、可重构的并行计算处理阵列，实现人工智能算法ASIC级别的高性能和低功耗。芯片架构多核异构架构设计，内嵌多个NNP人工智能处理器及自研的智能硬算子；内嵌视觉DSP用于CV算法；内嵌国产处理器用于全芯片安全管理。工艺22nm指令集神经网络处理器（NNP）指令集有一百多条指令设计，其中五十多条针对深度学习算法深度定制，执行效率相比CPU、GPU提升1~2个数量级。处理视频及路数针对视觉应用场景全链路深度优化，单个芯片支持4K级别视频流或4路1080P级别视频流或8路720P级别视频流实时视频结构化人工智能处理。单帧最高抓拍目标超过200个典型功耗<2W基于算法芯片化能力，采用ASIP处理器架构和指令集实现的人工智能芯片，可以高效、灵活地支持多样化的边缘智能计算场景的算法和应用需求，实现系统解决方案的快速市场化部署，在边缘智能计算领域提供有竞争力的芯片产品解决方案。三、ASIP的设计李炜的分享显示，AI ASIP处理器架构设计流程包括：算法需求分析、软硬件切割、架构定义、指令集定义、指令集模拟器开发、ISS仿真&架构迭代优化以及微架构和指令集确定，之后就会进入开发阶段。新思科技高级产品营销经理Markus Willems认为，片上系统（SoC）设计人员正在软件中实现越来越多的功能，以获得灵活性，减轻为了支持不断演化的标准而导致的不确定性，并使同一个芯片能够为众多最终产品提供服务。设计人员的一个选择是构建应用专用的指令集处理器（ASIP），并根据目标应用的需求定制其指令集（ISA）和微架构。ASIP是软件可编程处理器和应用专用功能单元的组合，其中针对一组功能进行了优化。ASIP设计人员利用并行化和专业化来实现此优化，同时保留完整的C语言可编程性。并行化使设计可以一次运行多个功能，并且其三种主要形式可以单独或组合应用以增强性能：①指令级并行化（Instruction-level parallelism），使用正交指令集（如在超长指令字(VLIW)架构中），或编码指令集（它提供了所需的操作并行化，而不需要与VLIW架构相关的开销）。②数据级并行化（Data-level parallelism），实现向量处理，涉及对多个数据项应用同一指令。③任务级并行化（Task-level parallelism），（如在多核/多线程实现中）支持具有不同控制流的多个协同算法并行运行。专业化使设计人员能够通过自定义处理器的流水线、内/外部存储器、寄存器架构和连接，利用一个或多个指令执行功能。设计人员还可以定义应用专用的数据类型和接口。ASIP只有在设计的市场窗口内能够带来有用的差异化优势时，才值得开发。因此，设计人员需要做三件事，以便快速了解架构选择对其ASIP的影响：①定义最终应用的代表性基准，以便对正在考虑的架构进行定量比较。基准必须具备：功能规范，描述需要实现的应用内核，基准通常以 C 表示，方便完成实现和架构独立；环境，描述导致执行该基准的激励因素；性能指标，如功耗、性能和目标频率。②描述候选架构，设计人员需要一种快速简单的方法来定义候选架构，最好使用建模方法，以避免在设计过程早期指定深入的实现细节。设计人员还需要软件工具将基准代码映射到候选架构上，为每个候选架构手动开发新的工具链是不切实际的，所以需要执行自动开发。③探索设计空间，设计探索包括根据定义的基准评估每个候选架构。新思科技的ASIP Designer加速了ASIP的创建。它提供可再定向的编译和架构探索技术、快速仿真以及与实现流程的集成。

参考资料：云天励飞招股说明书、问询回复材料寒武纪招股说明书《硬件软化：使用应用专用处理器优化现代SoC设计》《CNN IP新“门类”！ASIP处理器设计指南》本文仅代表作者个人观点，所有信息均来自公开渠道，无任何特定指向性，不构成任何投资及操作建议，与作者供职机构及相关公司无关。部分图片来自网络，如有侵权，请联系告知删除。

ASIP：人工智能芯片的新门类、少数派

相关推荐