Amazon Web Services (AWS) hat eine bahnbrechende Kühllösung vorgestellt, um eine der dringendsten Infrastruktur-Herausforderungen im Bereich Künstliche Intelligenz zu bewältigen: die Bewältigung der enormen Hitze, die von den leistungsstarken KI-Prozessoren der neuesten Generation erzeugt wird.
Der In-Row Heat Exchanger (IRHX) repräsentiert AWS' maßgeschneiderten Ansatz zur Kühlung der neuesten Grafikprozessoren (GPUs) von Nvidia, die für das Training und den Betrieb großer KI-Modelle unverzichtbar sind, aber enorme Energiemengen verbrauchen. Herkömmliche Luftkühlsysteme, die für frühere GPU-Generationen ausreichend waren, stoßen bei den thermischen Anforderungen der Blackwell-basierten Chips von Nvidia an ihre Grenzen.
„Sie würden zu viel Platz im Rechenzentrum beanspruchen oder den Wasserverbrauch erheblich steigern“, erklärte Dave Brown, Vice President für Compute und Machine Learning Services bei AWS, warum bestehende Kühllösungen nicht mehr ausreichen. Der IRHX begegnet diesen Einschränkungen, indem gekühlte Flüssigkeit über ein System aus Pumpeneinheiten, Wasserverteilerschränken und Gebläsekonvektoren direkt an den Serverreihen zirkuliert wird. So wird die Wärme effektiv aus dicht gepackten GPUs abgeführt, ohne dass umfassende Umgestaltungen der Rechenzentren notwendig sind.
Die Kühltechnologie arbeitet Hand in Hand mit den neu eingeführten P6e-Instanzen von AWS, die auf Nvidias GB200 NVL72-Plattform basieren – einem Supercomputing-System, das 72 Blackwell-GPUs in einem einzigen Rack miteinander verbindet. Diese Konfiguration liefert 360 Petaflops Rechenleistung und mehr als 13 TB Arbeitsspeicher, sodass Kunden deutlich größere KI-Modelle schneller und effizienter trainieren können.
Neben den Leistungsgewinnen setzt der IRHX auf einen „Closed Loop“-Kühlmechanismus, bei dem das Kühlmittel im Kreislauf geführt wird, ohne den Wasserverbrauch zu erhöhen – ein Pluspunkt für die Umweltverträglichkeit. AWS schätzt, dass die neuen Kühlsysteme den mechanischen Energieverbrauch bei maximaler Kühlleistung im Vergleich zu früheren Designs um bis zu 46 % senken können.
Die Entwicklung des IRHX steht im Einklang mit AWS' übergeordneter Strategie, maßgeschneiderte Infrastrukturkomponenten zu entwickeln. In den vergangenen Jahren hat das Unternehmen massiv in eigene Chips, Speichersysteme und Netzwerktechnik investiert. Dieser Ansatz hat sich auch finanziell ausgezahlt – im ersten Quartal 2025 erzielte AWS die höchste operative Marge seit Bestehen der Sparte.
Während andere Technologiekonzerne wie Microsoft, Google und Meta ähnliche Hardware-Strategien für KI-Workloads verfolgen, sieht sich AWS dank seines weltweiten Rechenzentrumsnetzwerks und der Erfahrung beim großflächigen Einsatz eigener Hardware im Vorteil. Die IRHX-Technologie stärkt AWS' Position als führender Anbieter von KI-Infrastruktur weiter und macht fortschrittliches KI-Computing effizienter, nachhaltiger und zugänglicher.