抓住大数据就能让你共享大模型就能提高碳效率

NEWS前沿动态

抓住大数据就能让你共享大模型就能提高碳效率

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-05-21

大模型与人工智能社区

考虑到近来越来越大的语言处理模型趋势，这些更大的模型消耗更多的能量就不足为奇了。但是，如文章所述，这些模型的运行成本也更高。本文的主要反派是神经体系结构搜索，它经过许多完整的培训过程以选择具有体系结构的模型，可以产生五辆汽车的生命周期碳。这很重要因为在某种程度上，碳将受到简单经济学的限制。

但是在访问方面有个好消息

资金雄厚的AI计划现在定期向公众发布其结果，代码甚至是经过训练的模型的重要部分，通常会使用友好的许可证来激励进一步的创新，的增加的功能进一步支持称为“微调”的过程，该过程可以将像BERT这样的繁重模型重新定位到新的语言任务，而只需花费原始培训的一小部分，在大多数情况下，人工智能界都知道，各行各业的研究人员能够为我们的集体知识做出贡献，每个人都会受益，回到环境的角度，当我们认为一个模型中的碳密集型初始投资可以作为数百个轻型后代的基础时，它似乎不是那么极端。

深度自然语言处理模型的生命周期

当我们根据模型在培训中产生的价值与碳的价值来考虑模型时，我们还应该考虑机器学习的另一半-推理。部署模型的集体排放可能比训练过程中产生的排放高得多，以BERT模型为例，在不深入研究技术细节的情况下，我们可以估计对一个单词的推理所消耗的能量与在一个单词上对模型进行一步一步训练所需的能量相当，看起来可能高达2560亿在2019年，谷歌翻译在短短内评估了1000亿个单词，这表明推理能源的使用将使原始培训成本相形见，考虑到这一,如果进行繁重的架构搜索可以生成更有效的终产品，则实际上可能会节省能源。实际上，NAS论文报道了在不牺牲准确性的前提下，其尺寸比传统模型缩小了1/3。开源为所有人提供了这种效率提升，对于智能机器和大自然母亲而言，密集的模型选择过程可能是一个胜利。

自然语言处理效率的未来

在模型生命周期的每个阶段，能源成本都来自许多相同因素，其中重要的是模型复杂性和硬件效率，现在我们看到硬件效率每十年提高一个数量级，而模型复杂性每年都在飞跃。这意味着，即使目前优化大型变压器模型的架构的影响很小，但几年之内它的价格可能会贵数百或数千倍。当我们认为神经体系结构搜索算法在以数亿重量的权重探索模型时产生碳时，而一个人的大脑多包含一个四千万个突触，这一数学运算就变得更加可怕。

自己的统计数据告诉我们，一个人（包括大脑）可以在一百年的整个生命周期中不断地进行训练和推断，产生的排放量仅相当于8.7辆汽车的使用寿命，统计数据估计人的大脑要花更多的钱，这相当于28.7的汽车使用寿命，由于在大多数情况下人的大脑理解要比上述任何一种模型都要好，因此这意味着可以用我们目前花费的一小部分费用就能进行人为语言的理解，有效的自然语言理解的承诺就在那里。

实际上，这可能会低估推断成本

Prev article

数据集成神话般的打击不要让这四个误解使您退缩

返回列表

Next article

在移动网络中有效AI的注意事项