当地时间8月26日,OpenAI硬件设施负责人Trevor Cai在Hot Chips 2024上发表了长达一小时的演讲,主题为“构建可扩展的AI基础设施”。他指出,OpenAI的一项重要观察结果是,扩大规模可以产生更好、更有用的人工智能(AI)。
作为全球芯片行业影响力最大的会议之一,Hot Chips于每年8月份在斯坦福大学举行。不同于其他行业会议以学术研究为主,Hot Chips是一场产业界的盛会,各大处理器公司会在每年的会上展现他们最新的产品以及在研的产品。
记者注意到,AI浪潮推动数据中心激增,同时也伴随着能源需求的激增。在这样的背景下,此次的Hot Chips大会上,围绕人工智能的议题比以往任何一届都更加活跃。Trevor Cai的演讲着眼于解决能源和算力之间的问题,英特尔、IBM和英伟达等则是提出了更节能的技术方案。
摩根士丹利在8月份发布的研究中预测称,生成式AI的电力需求将在未来几年内每年飙升75%,预计到2026年,其消耗的能源量将与西班牙在2022年的消耗量相当。科技巨头们该如何应对能源挑战?
聚焦“节能方案”
当地时间8月26日,一年一度的半导体企业盛会Hot Chips2024在斯坦福大学纪念礼堂举行,今年是第36届。
从会议第一天的情况来看,大部分的话题都集中在了更节能、安全且可扩展的大规模AI服务器部署方案上。
OpenAI硬件负责人Trevor Cai发表了“可预测的扩展和基础设施”主题演讲,谈到了提升计算能力所带来的可预测的扩展效益,这也是OpenAI自成立之初就关注的重点。一个重要的观察结果是,扩大规模可以产生更好、更有用的人工智能。“每次计算量翻倍,都会得到更好的结果。模型的能力和计算资源的消耗是呈指数级别上升的。自2018年以来,行业中前沿模型的计算量每年增长约4倍。”他说道。
最初,GPT-1只需几周的时间完成训练。如今,它已经扩展到需要庞大的GPU集群。因此,OpenAI认为AI的基础建设需要大量投资,因为计算能力的提升已经产生了超过8个数量级的效益。
似乎是为了呼应OpenAI的演讲,各大公司的演讲也不约而同地提到了大规模部署AI服务器的计划方案。
IBM在大会上披露了即将推出的IBM Telum II处理器和IBM Spyre加速器的架构细节。新技术旨在显著扩展下一代IBM Z大型机系统的处理能力,通过一种新的AI集成方法帮助加速传统AI模型和大型语言 AI模型的协同使用。IBM特别强调这次更新的先进I/O技术旨在降低能耗和数据中心占用空间。
英伟达也在大会上放出了最新的AI集群架构Blackwell的相关消息。英伟达称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。值得注意的是,英伟达的Quasar量化系统用于确定可以使用较低精度的内容,从而减少计算和存储。英伟达表示他们的宗旨就是在提高能源效率的同时为AI和加速计算性能提供新标准。
除此之外,英特尔、博通、海力士等公司的演讲中均提到了更节能的技术方案。
能源需求激增
科技巨头们着眼“更节能的”技术方案的根本原因在于,当前人工智能热潮正在增加更强大的处理器以及保持数据中心冷却所需的能源需求。
当前,微软、Alphabet和Meta等大型科技公司正在投资数十亿美元建设数据中心基础设施,以支持生成式人工智能,但数据中心的激增也伴随着能源需求的激增。
据彭博社报道,仅去年,大型科技公司就向数据中心设施投入了约1050亿美元。谷歌、苹果和特斯拉等公司不断通过新产品和服务增强AI能力。每项AI任务都需要巨大的计算能力,这意味着数据中心会消耗大量电力。国际能源署(IEA)预测,到2026年,全球数据中心每年使用的能源量将相当于日本的电力消耗量。
Hugging Face的人工智能和气候负责人Sasha Luccioni提到,虽然训练AI模型需要耗费大量能源(例如,训练 GPT-3模型耗费了大约1300兆瓦时的电力,而GPT-4的训练消耗是GPT3的50倍),但通常只进行一次。然而,由于查询量巨大,模型生成响应可能需要更多能源。
例如,当用户向ChatGPT等AI模型提问时,需要向数据中心发送请求,然后强大的处理器会生成响应。这个过程虽然很快,但消耗的能量也是巨大的。根据艾伦人工智能研究所的数据,对ChatGPT进行一次查询所消耗的电量相当于为灯泡点亮20分钟,是简单Google搜索耗电量的10倍以上。
然而,全球的电力资源有限,而数据中心需要持续稳定的电力供应来运行服务器和其他核心运营设备。如果能源供应不稳定,停机可能会给企业和其他用户造成重大经济损失。此外,巨大的能源消耗也引发了人们对环境的担忧。
为应对这一挑战,科技公司们开始寻找解决方案。
部分公司选择更清洁且高效的能源供给,如核能。亚马逊最近在美国宾夕法尼亚州东北部购买了一个价值6.5亿美元的核能数据中心园区设施,该设施将使用核反应堆产生的高达40%的电力,最终使亚马逊能够减少对当地电网的依赖。与此同时,微软聘请了核专家来带头寻找这种替代电源。微软还与核电站运营商签订了合同协议,为其位于弗吉尼亚州的一个数据中心提供电力。
除此之外,科技公司们不仅在前文所提到的一系列芯片节能技术进行努力,也在其他硬件设施和技术上下足了功夫。
谷歌正在开发人工智能专用芯片,例如张量处理单元(TPU),这些芯片针对人工智能任务进行了优化,而不是使用为游戏技术创建的图形处理单元(GPU)。
英伟达针对Blackwell芯片的直接液体冷却系统还宣布了一项研究,研究表明了如何重新利用从服务器中吸收的热量并将其回收到数据中心。据英伟达估计,冷却最多可减少数据中心设施耗电量的28%。
然而,威斯康星大学麦迪逊分校的教授辛克莱提醒,杰文斯悖论在这里依然适用。“提高人工智能的效率,虽然减少了单次能耗,但整体使用率的增加最终会导致总体能耗的上升。”辛克莱解释道。这个悖论不仅适用于19世纪的火车煤炭使用,同样适用于当今的人工智能和电力消耗。