计算力将成为推动 AI 计算未来发展的基础因素

2018 年 12 月 22 日,TGO 鲲鹏会北京分会举行了 TGO 鲲鹏会特有的技术人年会「E 家宴」,90 余位 CTO / 技术总监相聚在北京北湖玖号。其中,贝壳金服小微企业生态 CTO & TGO 鲲鹏会会员史海峰、新东方在线 CTO & TGO 鲲鹏会会员曾明、58 同城高级总监 & TGO 鲲鹏会会员于洋、马蜂窝技术 VP & TGO 鲲鹏会会员张矗、东方富海合伙人陈利伟、北京市京师律师事务所合伙人 & 极客时间专栏作者周甲德、浪潮 AI 系统架构师邸双朋等重量级嘉宾应邀出席,与参会者一起探讨「投资人视角下的资本寒冬」「快速成长期企业需要注意的法律风险问题」「创新 AI 计算,加速人工智能研发效率」等话题。

本篇文章根据邸双朋在活动现场分享的「创新 AI 计算,加速人工智能研发效率」整理,有部分不改变原意的删减。

2016-2018 年,AI 计算频繁进入大家的视野和职责领域里。从全球 AI 市场规模和国内 AI 创业公司看,双方都有全面的发展。

据 2016 年数据统计,创业公司从大到小共有 500 家以上,其中计算机视觉为人工智能创业最大领域,其次为语音识别、智能驾驶、个人助手(手机助手)、智能金融(刷脸支付)、垂直应用等。现在各种应用都已经出现在我们生活中,但从 2015 到现在,在大家的认知里推动 AI 发展主要有两个因素,一是数据量和算法的发展;二是底层计算力的发展。

今天,我主要与大家聊一聊什么是计算力。

计算力成为推动 AI 计算发展基础因素

2010-2016 年,从视觉识别竞赛计算量看,已经由 2011 年的 260P 提升到 190E 。那么 P 到 E 是什么概念呢?

P 和 E 指的是计算能力单位,1 P = 10,000,000 E。一千万 E 次用双鹿服务器(双鹿服务器指的是,2 个 CPU 服务器)计算,1 P 需要花费 20-30 分钟计算,而 1 E 是 1 P 的 1,000 倍。那么如此计算,1 E 的计算量用一台双鹿服务器计算需要花费 20 多天。

所以,我们可以从计算量发现,随着我们对于计算机模型(计算机模型指的是,当前神经网络模型)、网络模型的精度要求越来越高,神经网络模型的规模层数也需要越来越多。

2010 年,当时为个位层,现在已经有几百层、上千层,计算量已经有了上千倍的增长。最新的数据显示,已经达到了上千个亿层,这意味着,如果你用一台服务器计算可能需要花费几个月的时间进行计算,那么该如何解决这个问题呢?

第一,我们需要将计算规模合并。以前我们用一台计算机计算,现在需要用几百台、上千台计算机计算,导致出现云计算的处理方式。

第二,由于之前是通过 CPU 进行计算,导致出现各种各样的加速器,其中最典型的就是 CPU 加速器。一个 GPU 计算量在某些特定领域上的能力,可能顶上一台 CPU 或数十台服务器的计算量。

并且随着人类对 AI 研究的加深,我们将整个深度学习和 AI 过程也进行了划分。参考人类的智能模式来说,我们是一边学习,一边“改造”认知。但是我们在计算机里会分为两个简单的部分,训练环节和线上认知的环节。将做好的模型单独拿到线上,分为几个部分,从数据到模型训练,再从模型到线上部署。整个过程中,最好的时间段是训练环节。

随着人工智能对申请网络技术的加深,和对应用要求的提高,如手机智能助手、银行金融刷脸支付等,目前都是可实现的。如果我们想要做到真正的强人工智能,既要做视觉识别,又能做语音理解,那么这需要一个非常强大的神经网络。神经网络需要像人类一样自动学习,自动更新知识库,自动做线上认知识别,使得神经网络范围越来越大,届时计算量将会出现上千万倍或上百万倍的提升。当达到这样的要求时,我们将做出全方位机器人系统。

计算力 = 新生产力

现在有一种说法,计算力已经成为整个社会发展的新生产力。

从 19 世纪到现在科技发展,随着蒸汽机的出现,开启了我们的工业时代;电力让我们进入了电气时代;80 年代,随着计算机的出现,我们逐渐进入信息化时代。

目前,计算力很可能成为社会发展的新生产力,它将给我们带来智能时代。在结果还没有出现之前,我们目前的说法只能是一种预测,预测结果是否正确,需要等着后人评测。虽然我们从历史的发展角度说,计算力确实将成为今后发展重大的推动力。

由于电力是我们生活必需品,随时随地都在使用,没有它,我们的整个生活、工作将会瘫痪。未来,计算力也可能出现这样的情况,大家在手机上看到的社交信息、数据服务、图片服务都将使用计算力。 假设,某个云计算公司计算力出现问题,可能会导致某些应用手机上的服务会出现问题;12306 购票服务在云资源出现问题,用户购票将会受到影响等。

无论是芯片、服务,还是终端用户,他们都离不开计算力芯片、加速器芯片等,都需要计算力技术将芯片集成到一个完整的系统中,云计算服务商需要底层来发展计算机硬件。计算力将会成为 IT 发展、社会发展真正底层的一环。

2017-2018 年,浪潮在 AI 计算力上占据国内市场 50% 以上的份额,AI 中一半的计算力都是由浪潮提供。

2018 年 10 月,根据中国各大城市计算力排行的分析报告显示,排名第一的并不是北上广深,而是杭州。一个是阿里,它用于云计算;另一个是某安防、智能医疗公司。它们利用的计算力是非常庞大的,一个城市的计算力能力,体现它的 IT 水平和 AI 水平,同时也展现了未来的发展场景。假设你有庞大的计算力支撑,那么你的城镇在今后信息化、智能化进度上肯定会抢占先机。

2016-2021 年,预测计算力发展会有一个较大幅度的增长。2018 年,整个计算力的投资大约有 20 多亿美元,其中 AI 上的投入不到 10 亿。预计在 2021 年,整个中国计算力的投资会达到将近 60 亿美元的投入,而在 AI 计算力的投入将会达到 30 亿美元左右。

如此说来,未来 AI 计算力将会成为制约企业或社会发展中很重要的因素。

如何提高计算力

2012 年之前,AI 主要通过 CPU 进行计算。随着计算的时间越长,过程中逐渐出现了各种加速计算,如 CPU 加速卡。2016 年到现在,更多种类的加速卡频繁出现在我们眼前,如 TPU、NPU 加速器等,在体系结构上会有较大的变动。

随着我们对计算力的要求提升,以及计算体系的改变,针对 AI 层面的计算架构可能会产生翻天覆地的变化。

浪潮整体计算架构图

上图是浪潮的整体计算架构,浪潮在底层硬件层是按集群式部署计算系统,集群的方式更有利于多台机器进行并行分布式计算。再加上高速互联的组建以及存储的系统,形成了底层完备的硬件平台。

在这之上,通过浪潮的有效管理,让应用或服务在整个集群上能有效、高速地展开,之后再进行 AI 计算组建,以及构建 AI 能力。AI 能力主要包括视觉、语音、语义上的能力,根据这些能力会为用户提供相应的服务产品,如音箱、助手、拍照美颜等服务。

在整体计算构架中,最关键的是 AI 计算服务器架构。给大家普及一下,目前浪潮采用的是不同于普通规模的 GPU 服务器。在一些语音、视觉或更大规模的机器上增加 16 个加速卡,满足多用户、多场景、多业务的训练。其中包括面向推理上的服务器,包括 FPGA 服务器,这些都构成 AI 计算力重要的组成部分。

当硬件平台搭建完成后,如何让硬件平台为大家提供更高效、高性能的服务呢?

为了满足多用户、多业务、不同规模计算规模的计算任务,我们将计算资源、存储网络资源进行统一管理,根据不同的需求进行分配、调度,以及参照上层 AI 开发者提供的高速开发环境,让它能极大的提高开发率,降低开发难度,缩短开发时间,使得它能够用最快的速度上线。

虽然整个计算架构会引入更多的加速器或其他设备,但是这能让加速器在平台上发挥更大的性能。通过分析测评的工具和机制,能将整个计算体系结构,包括大组件以及中间互联互通的状态都能铺抓到,看看它在哪个层面发挥的作用最大,如此操作更利于提高均衡能力。应用过程中,会将计算特征抓出来进行有效分析,提高整体计算性能。

未来 AI 将如何发展?

首先提到 AI 的发展,相信大家了解 AI 的人都知道,在 60-70 年代时,已经有人提出了这个概念,中间曾经历过很多波峰、波谷。当一种理论兴起时,大家发现这个理论行不通,就会沉到低谷。目前深度学习理念和之前都不太一样,现在不少理论已经应用在我们的生活当中,如在线应用、金融、安防等。这一次应用将和前几次情况不同,因为当前已经进入应用阶段,深度学习会随着算法的提高,在应用推广上越来越普及。

AI 计算中,计算力确实是底层强有力的支撑。从深度学习的兴起,到如今的发展过程中,都离不开底层计算力的支撑,不光是在 AI 领域,IT 领域和生活领域,计算力都影响到了人们的生活,我猜测计算力将会成为今后发展的新生产力。


你想与阿里云解决方案架构师 & TGO 鲲鹏会会员暨家愉一起学习交流吗?

(0)

相关推荐