Der Siegeszug der künstlichen Intelligenz führt zu einem grundlegenden Wandel beim Design von Rechenzentren. Diese Veränderungen werden sich erheblich auf die Netzwerkinfrastruktur auswirken – von der Verkabelung und Konnektivität bis hin zu Architektur, Resilienz und Anpassungsfähigkeit.
Hans-Jürgen Niethammer, verantwortlich für Business Development und Solution Architect Data Center EMEA bei CommScope, zeigt einige der größten Herausforderungen sowie Chancen und Möglichkeiten für Rechenzentren durch innovative Verkabelung auf.
Der unstillbare Stromhunger
Der Bitkom prognostiziert für Deutschland eine Verdopplung des Energiebedarfs von Rechenzentren und kleineren IT-Installationen bis 2030 im Vergleich zu 2022 auf 34 Mrd. Kwh/a, sollte der Boom weitergehen.
In der Republik Irland entfallen inzwischen sogar mehr als 20 Prozent des gesamten Stromverbrauchs auf Rechenzentren, 2015 waren es nur fünf Prozent. Damit ist zum ersten Mal in der Geschichte ein Punkt erreicht, an dem der Strombedarf der Rechenzentren nicht mehr ohne weiteres garantiert werden kann.
Der steigende Energiebedarf von KI und energieintensiven Rechenzentren gefährden auch die Netto-Null-Ambitionen der großen Technologieunternehmen. Google gab beispielsweise bekannt, dass seine Treibhausgasemissionen in den letzten fünf Jahren aufgrund des Ausbaus seiner Rechenzentren um 48 Prozent gestiegen sind, während die Scope-3-Emissionen von Microsoft derzeit um mehr als 30 Prozent über dem Niveau von 2020 liegen.
Niedrige Latenzzeit und hohe Konnektivität auch bei großen Entfernungen
Der Betrieb großer KI-Modelle erfordert mehrere miteinander verbundene Graphic Processing Units (GPUs), die auf viele Server und Racks verteilt sind. In einem KI-Rechenzentrum werden viele dieser KI-Cluster nebeneinander eingesetzt, um den hohen Bedarf an Rechenleistung zu decken. Für die Verkabelungsinfrastruktur, die alles miteinander verbindet, um den Datenfluss aufrechtzuerhalten, stellt das eine große Herausforderungen dar.
So benötigen GPU-Server beispielsweise deutlich effizientere Verbindungen zwischen den Servern, gleichzeitig gibt es aufgrund von Energie- und Wärmebeschränkungen jedoch weniger Server pro Rack als eigentlich notwendig. Um dieses Defizit auszugleichen und trotzdem die anfallenden Datenmengen verarbeiten zu können, benötigt ein KI-Rechenzentrum mehr Verkabelung zwischen den Racks als ein herkömmliches Rechenzentrum.
In einem idealen Szenario liegen alle GPU-Server in einem KI-Cluster nahe beieinander, da KI- und Machine Learning-Algorithmen (ML), ebenso wie High-Performance-Computing (HPC), empfindlich auf Latenzen reagieren. Schätzungen zufolge entfallen 30 Prozent der Zeit, die für die Ausführung eines großen Trainingsmodells benötigt wird, auf die Netzwerklatenz und 70 Prozent auf die Berechnungszeit. Um die Latenz zu minimieren, versuchen Betreiber, die GPU-Server in unmittelbarer Nähe zu halten, wobei fast alle Verbindungen auf eine Reichweite von 100 Metern beschränkt sind.
Strecken bis zu 100 m werden von Singlemode- und Multimode-Glasfaseranwendungen unterstützt. Außerdem verwenden viele KI-Cluster aktive optische Kabel (AOCs), um die über viele Server und Racks verteilten GPUs miteinander zu verbinden. Die meisten werden für kurze Strecken verwendet und sind in der Regel mit Multimode-Glasfasern und VCSELs gepaart. Die Sender und Empfänger in einem AOC können die gleichen sein wie in analogen Transceivern, sind aber Auslaufmodelle. Weder Sender noch Empfänger müssen strenge Interoperabilitätsanforderungen erfüllen, da sie nur mit dem spezifischen Gerät am anderen Ende des Kabels funktionieren müssen.
Leider werden nicht alle Rechenzentren in der Lage sein, die GPU-Server-Racks in der gleichen Reihe zu platzieren. Diese Racks benötigen schnell mehr als 40 kW, um die GPU-Server mit Strom zu versorgen. Das ist erheblich mehr Energiebedarf als bei typischen Server-Racks, was dazu führt, dass herkömmliche Rechenzentren ihre GPU-Racks räumlich voneinander trennen müssen. Die dadurch entstehenden Entfernungen erfordern Verbindungen mit 400G und 800G Verkabelung da sie von herkömmlichen Kupferverbindungen wie DACs, AECs oder ACCs nicht unterstützt werden können. Gleichzeitig muss jeder Server mit der Switch-Fabric, dem Speicher, dem In-Band-Management sowie dem Out-of-Band-Management verbunden werden.
Mit Innovationen wie rollbaren Glasfaserbändern ist es möglich, längere Distanzen effektiv zu überbrücken und die mit KI einhergehende höhere Komplexität der Verkabelung zu bewältigen. Das einzigartige Design ermöglicht es, bis zu sechs 3456-Glasfaserkabel in einem 4-Zoll-Rohr unterzubringen – mehr als doppelt so viel wie bei herkömmlich gepackten Glasfasern.
Im aufrollbaren Glasfaserband sind die Fasern intermittierend zu einem losen Gewebe verbunden. Diese Konfiguration macht das Band flexibler und erlaubt es den Fasern, sich unabhängig voneinander zu biegen. Durch die zylindrische Form wird zusätzlich der zur Verfügung stehende Platz im Vergleich zu flachen Bändern wesentlich besser genutzt. Die Kabel sind zudem leichter als ihre konventionellen Pendants was die Handhabung und Installation vereinfacht, und die intermittierende Verklebung ermöglicht es den Installateuren, die Fasern auf natürliche Weise in einem kleineren Querschnitt zu positionieren, der sich perfekt zum Spleißen eignet.
Zukunftsorientierte Architektur
Betreiber sollten sorgfältig überlegen, welche optischen Transceiver und Glasfaserkabel sie in ihren KI-Clustern zukünftig einsetzen wollen. Aufgrund der kurzen Verbindungen innerhalb eines KI-Clusters ist der bestimmende Kostenfaktor der Transceiver. Daher sind bei kurzen Distanzen Transceiver mit parallelen Glasfasern vorteilhaft, da kein Multiplexing zur Serialisierung paralleler Datenströme notwendig.
Entwickler und Planer von Rechenzentren müssen Innovationen in Bezug auf Effizienz, Skalierbarkeit und Nachhaltigkeit vorantreiben. Ein zentraler Aspekt dieser Innovation ist die Verbesserung der Verkabelungssysteme, die es den Betreibern ermöglicht, Kosten, Energieverbrauch und Installationsdauer zu senken. Solche Upgrades sind von entscheidender Bedeutung, um Rechenzentren mit der Kapazität auszustatten, die nicht nur die aktuellen, sondern auch die zukünftigen KI-Workloads bewältigen können.
(pd/CommScope)