AI训练的最大障碍不是算力，而是“内存墙”

2024-07-29 12:08:14

子豪发自凹非寺量子位报道

AI训练的计算量每年都在大幅增长，最近有研究指出，AI训练未来的瓶颈不是算力，而是GPU内存。

AI加速器通常会简化或删除其他部分，以提高硬件的峰值计算能力，但是却难以解决在内存和通信上的难题。

无论是芯片内部、芯片间，还是AI加速器之间的通信，都已成为AI训练的瓶颈。

Transformer模型中的参数数量（红色）呈现出2年240倍的超指数增长，而单个GPU内存（绿色）仅以每2年2倍的速度扩大。

△多年来SOTA模型的参数数量（红点）以及AI加速器存储容量（绿点）的演变

训练AI模型的内存需求，通常是参数数量的几倍。因为训练需要存储中间激活，通常会比参数（不含嵌入）数量增加3-4倍的内存。

于是，AI训练不可避免地撞上了“内存墙”（Memory Wall），内存墙不仅是内存容量，也包括内存传输带宽。

在很多情况下，数据传输的容量和速度，都没有触摸到内存墙。

△训练不同神经网络模型所需的内存量

从图中可以看出，每当GPU内存容量增加时，开发人员就会设计出新模型；

2019年GPT-2所需的内存容量，已经是2012年的AlexNet的7倍以上；

自谷歌团队在2017年提出Transformer，模型所需的内存容量开始大幅增长。

为什么不能靠多GPU堆显存

那么，为了摆脱单个硬件的有限内存容量和带宽，是否可以将训练扩展到多个AI加速器，使用分布式内存呢？

事实上，这样做也会面临内存墙的问题，神经网络加速器之间移动数据的通信瓶颈，甚至比芯片上的数据移动还慢且低效。

与单系统内存的情况类似，扩展带宽的技术难题还尚未被攻克。仅在很少的通信和数据传输的情况下，横向扩展才适用于计算密集型问题。

从图中可以看出，20年间，运算设备的算力提高了90,000倍；

虽然存储器从DDR发展到GDDR6x，能够用于显卡、游戏终端和高性能运算，接口标准也从PCIe1.0a升级到NVLink3.0；

但是和算力的提高幅度相比，通讯带宽的增长只有30倍，可以说非常缓慢。

由于算力和内存之间的差距越来越大，训练更大的模型也会更加困难。

怎样突破“内存墙”

怎样解决内存限制问题？作者从三个方面进行了分析。

训练算法的改进

训练神经网络模型的一大挑战，就是要进行蛮力超参数调整。虽然可以通过二阶随机优化方法来实现，不过目前的方法却增加了3-4倍的内存占用，这一点仍需解决。

微软的Zero方法（一种万亿级模型参数训练方法），实现了在相同内存下，通过去除多余的优化状态变量，来训练8倍大的模型。

也可以在传递过程中只存储或检查激活的子集，而不保存所有激活，以此将内存占用减少5倍，不过需要增加20%的计算量。

此外，从单精度算法到半精度（FP16）算法的进展，使硬件计算能力提高了10倍以上，可以进一步研究适合INT8精读训练的优化算法。

高效部署

最新的SOTA模型（例如：GPT-3）需要分布式内存部署，这是一个很大的挑战。可以通过降低精度或删除其冗余参数，来压缩这些模型，以进行推理。

在训练或推理过程中，可以降低至INT4精度，模型占用空间和延迟能够减少8倍。不过，想要将训练精度降低到远低于FP16，仍然很困难。

而删除冗余参数，则可能导致准确率下降。当前的方法能够修剪30％的具有结构化稀疏性的神经元，以及80％的具有非结构化稀疏性的神经元，以保证对准确性的影响最小。

AI加速器的设计

虽然很难同时提高存储带宽和峰值计算能力，但是可以牺牲峰值计算，以获得更好的带宽。

在带宽受限问题上，CPU的性能要比GPU好得多，但是与相比GPU相比，CPU的峰值计算能力要小一个数量级左右。

因此，可以研究一种在二者之间的另一种架构，实现更高效的缓存。

研究数据可戳下方链接查看~

原文链接：

https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8https://github.com/amirgholami/ai_and_memory_wall

RepVGG：让VGG网络再次变成最优秀的网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
在这次GTC China上，NVIDIA要和国内公司共同发展深度学习AI训练

在今天上午的GPU Technology Conference China上,现在已经深耕AI智能运算的NVIDIA宣布了多个与国内公司在深度学习和AI训练领域的合作.,国内OEM厂商将用到基于Vol ...
我们真的需要模型压缩吗

本文翻译自博客: <Do We Really Need Model Compression?> 作者:Mitchell A. Gordon 前言: 模型压缩是一种缩小训练后的神经网络的技 ...
她琴棋书画全能，还进入清华计算机系实验室，被赞智商太超群、能力过强悍

邦哥推荐:华智冰也许是未来社会虚拟人的一个缩影.通过持续学习和演化,最后成为一个有着丰富知识和与人类有很强交互能力的机器人. 来源|量子位(ID:QbitAI) 作者|金磊杨净最特殊,没有之一. ...
一块GPU就可以模拟大脑吗？

2021-03-20 22:10 一块GPU就可以模拟大脑吗? 神经现实本文来自微信公众号:神经现实(ID:neureality),作者:Daphne L-Ringuet,译者:Benny Cui, ...
英特尔公布Nervana NNP-T深度学习训练加速器：16nm工艺、32GB HBM2

现在深度学习已成为人工智能的重要方向,而且研究成果已经应用于日常使用中.但训练人工智能模型需要强大的算力支持,所以除了使用GPU加速训练外,很多厂商开始推出专用于深度学习训练的ASIC芯片.英特尔在人 ...
GPU BERT上线性能不合格，看看微信AI的PPoPP论文

以BERT为代表的Transformer模型的出现是自然语言处理(NLP)领域近年来最关键的算法创新.目前互联网公司内很多线上服务系统,比如推荐系统.对话系统.翻译系统等,都使用了Transforme ...
微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

大数据文摘出品来源:Medium 编译:Miggy 微软和谷歌一直在积极研究用于训练深度神经网络的新框架,并且在最近将各自的成果开源--微软的PipeDream和谷歌的GPipe. 原则上看,他 ...
95%PyTorch库都会中招的bug！特斯拉AI总监都没能幸免

OSC开源社区昨天喜欢就关注我们吧!01英伟达颠覆CPU!长发黄仁勋杀入英特尔地盘,ARM架构CPU性能高10倍英伟达凡尔赛一号玩家黄仁勋来了!他带着自家ARM架构CPU从加速器辅路杀进了CPU三 ...
AI训练的福音：关于合成数据的一切

合成数据是指由计算机人工生成的数据,可用于替代自现实世界中采集的真实数据. 来源丨VentureBeat 编译丨科技行者如今,AI技术面临数个难以攻克的核心挑战.其不仅需要大量数据以提供准确结果,同 ...
英伟达用于创建自动驾驶汽车的AI训练的环境模型

由人工智能(AI)计算机驱动的.能够学习.推理并与人和周围世界互动的智能机器已不再是科幻小说.由于使用强大的图形处理单元(GPU)的称为深度学习的新计算模型,人工智能正在改变从消费者云服务到医疗保健到 ...
详解：寒武纪首颗AI训练芯片思元290

详解：寒武纪首颗AI训练芯片思元290
挺进云端AI训练&推理双赛道！独家对话燧原科技COO张亚林：揭秘超高效率背后的“内功”

燧原首款云端推理计算卡发布!量产进度精确到天,COO张亚林解密造芯方法论. 作者 | 国仁心缘编辑 | 漠影智东西12月21日报道,刚刚,燧原科技推出首款云端推理计算卡"云燧i10 ...
Habana在英伟达牢固的AI训练城墙上打开了一道口

8个Habana Gaudi加速器的EC2实例,性价比相较目前提升达40%. " 作者 | 包永刚出品 | 雷锋网产业组在利润丰厚的云端AI芯片市场,英特尔和英伟达凭借CPU和GPU分别 ...
打赢AI争夺战，要靠一张算力网

文丨华商韬略,作者丨陈必章在人工智能时代,AI算力就是电,AI计算中心就是电厂. 电力时代,我们构建了一张"电网",如今随着国内各地人工智能计算中心的相继落地,我们正在编织一张A ...
无需大量算力训练，通过“读”解说员的评论，AI也能学会国际象棋

大数据文摘出品编译:啤酒泡泡 20世纪90年代后期,IBM深蓝(Deep Blue)研究了一系列的国际象棋算法,期望于打败当时的世界冠军加里·卡斯帕罗夫(Garry Kasparov). 2016年 ...