menu
close

AWS发布为新一代AI芯片定制的冷却系统

亚马逊云服务(AWS)推出了In-Row Heat Exchanger(IRHX)行间热交换器,这是一套专为英伟达高能耗Blackwell GPU设计的混合液冷-风冷系统,旨在满足先进AI工作负载的散热需求。这一创新解决方案无需大规模改造数据中心或增加用水量,即可应对高密度GPU机架产生的极端热量。该技术使AWS能够推出搭载英伟达GB200 NVL72平台的新一代P6e实例,将72颗GPU集成于单一机架,带来前所未有的AI算力。
AWS发布为新一代AI芯片定制的冷却系统

亚马逊云服务(AWS)近日推出了一项突破性的冷却解决方案,以应对AI基础设施面临的最大挑战之一:如何有效管理当前高性能AI处理器所产生的巨大热量。

In-Row Heat Exchanger(IRHX)行间热交换器是AWS为冷却英伟达最新一代图形处理单元(GPU)而定制的创新方案。这些GPU对于训练和运行大型AI模型至关重要,但其能耗极高。传统的风冷系统虽然能够满足以往GPU的散热需求,但已无法应对基于Blackwell架构芯片的热负载。

AWS计算与机器学习服务副总裁Dave Brown表示:“传统方案要么占用过多数据中心空间,要么会大幅增加用水量。”IRHX通过在服务器行间循环冷却液,结合泵组、水分配柜和风机盘管等组件,有效将高密度GPU产生的热量带走,无需对数据中心进行大规模改造。

这一冷却技术与AWS新推出的P6e实例协同工作。P6e基于英伟达GB200 NVL72平台——该平台在单一机架内集成了72颗Blackwell GPU,构建出超级计算系统。该配置可实现360 PetaFLOPS的算力和超过13TB的内存,帮助客户更快、更高效地训练更大规模的AI模型。

除了性能提升,IRHX采用“闭环”冷却机制,冷却液循环使用,不会增加用水量,具备可持续性。AWS估算,新一代冷却系统在高峰冷却条件下,机械能耗可比以往设计降低多达46%。

IRHX的开发契合了AWS打造定制基础设施组件的整体战略。近年来,AWS在自研芯片、存储系统和网络设备方面持续投入,这一策略带来了显著的经济效益——2025年第一季度,AWS实现了自成立以来最高的运营利润率。

虽然微软、谷歌和Meta等科技巨头也在为AI工作负载推进自研硬件战略,但AWS凭借其全球庞大的数据中心布局和大规模定制硬件部署经验,依然保持竞争优势。IRHX技术的推出,进一步巩固了AWS在AI基础设施领域的领导地位,让先进AI算力更加高效、可持续且易于获取。

Source: Shrm

Latest News