【CSDN 编者按】提及 AI，脑海里似乎总是正面的印象，各种技术的发展也越来越离不开 AI。但你是否知道，训练一个 AI 模型需要经历什么，它的能量消耗又有多少？

整理 | 弯月责编 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

根据最新的研究结果，训练一个普通的 AI 模型消耗的能源相当于五辆汽车一生排放的碳总量，而 BERT 模型的碳排放量约为 1400 磅二氧化碳，这相当于一个人来回坐飞机横穿美国。为何 AI 模型会如此费电，它们与传统的数据中心计算有何不同？

训练效率低下

传统数据中心负责处理的工作包括视频流，电子邮件和社交媒体。AI 所需的计算量则更多，因为它需要读取大量的数据、持续学习，直到完成训练。

与人类的学习方式相比，AI 的训练效率非常低下。现代 AI 使用人工神经网络，这是模拟人脑神经元的数学计算。每两个相邻神经元的连接强度都是神经网络上的一个参数，名叫权重。神经网络的训练则需要从随机权重开始，一遍遍地运行和调整参数，直到输出与正确答案一致为止。

常见的一种训练语言神经网络的方法是，从维基百科和新闻媒体网站下载大量文本，然后把一些词语遮挡起来，并要求 AI 猜测被遮挡起来的词语。刚开始的时候，AI 会全部搞错，但是，经过不断地调整后，AI 会逐渐学习数据中的模式，最终整个神经网络都会变得非常准确。

相信你听说过 BERT 模型，基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，简称 BERT），这是一项由 Google 提出的自然语言处理（NLP）的预训练技术。该模型使用了来自维基百科和其他文章的 33 亿个单词，而且在整个训练期间，BERT 读取了该数据集 40 次。相比之下，一个 5 岁的孩子学说话只需要听到 4500 万个单词，比 BERT 少3000倍。

寻找最佳结构

语言模型构建成本如此之高的原因之一在于，在开发模型期间，上述训练过程需要反复多次。因为研究人员需要将神经网络调整到最优，即确定神经元的个数、神经元之间的连接数以及各个权重。他们需要反复尝试很多组合，才能提高神经网络的准确度。相比之下，人类的大脑不需要寻找最佳结构，经过几亿年的进化，人类大脑已具备这种结构。

随着各大公司和学术界在 AI 领域的竞争愈演愈烈，不断提高技术水平的压力也越来越大。在自动翻译等难度巨大的任务中，如果能将准确度提高 1%，也将被视为重大的进步，可以作为宣传产品的筹码。然而，为了获得这 1% 的提升，研究人员需要尝试成千上万的结构来训练模型，直到找到最佳模型。

随着模型不断发展，模型的复杂度逐年攀高。另一款与 BERT 类似的最新语言模型 GPT-2，其神经网络包含 15 亿个权重。而 GPT-3 由于其高精度，引起了业界的轰动，但其权重高达 1750 亿个。

此外，AI 模型的训练需要在专用硬件（例如图形处理器）上进行，这些硬件的功耗普遍高于传统 CPU。如果你的笔记本电脑加载了优质的显卡，可以玩很多高端游戏，那么你肯定会注意到这台机器产生的热量也比普通电脑高很多。

所有这些都表明，开发先进的 AI 模型需要大量的碳排放量。除非我们能够利用百分百可再生能源，否则真的怀疑 AI 的进步与减少温室气体排放以及减缓气候变化，孰重孰轻？是否真的可以功过相抵？

最后，开发 AI 的耗资如此巨大，能够承担得起各项费用的公司与机构实在少之又少，最终究竟应该开发哪种模型的决定权无疑也落到了这群人的手中。

AI 模型训练应该适可而止

本文并不是要否定人工智能研究的未来，只不过在训练 AI 模型的时候，我们需要采用更高效的方法，而且应该做到适可而止。

随着 AI 模型训练方法的效率提升，相信训练的成本也会下降。同时，我们需要在训练模型的成本和使用模型的成本之间权衡取舍。例如，在 AI 模型准确度到达一定高度后，每提升 1% 都需要付出巨大的精力，而实际得到的收益却很少。不追求极致，更多地使用“适可而止”的模型，不仅可以降低碳排放量，而且也能为我们带来更大获益。

参考链接：https://levelup.gitconnected.com/test-driven-development-is-overrated-ad9f0491c11d

1 个 AI 模型 = 5 辆汽车终身碳排量，AI 为何如此耗能？

训练效率低下

寻找最佳结构

AI 模型训练应该适可而止

相关推荐