Die Nachrüstung eines Rechenzentrums für den Einsatz von KI ist zwar nicht unmöglich und auch nicht besonders komplex, dennoch gibt es einige Hürden, die überwunden werden müssen.
Das Rechenzentrum im Wandel
Die IT- und Rechenzentrumsbranche hat sich in den letzten 30 Jahren mehrfach gewandelt. Angefangen bei der frühen Konzeption von Carrier Hotels, die als Internetvermittlungsstellen fungierten, über die Entwicklung des modernen Rechenzentrums bis hin zum Konzept des Edge Computing, gefolgt von den Fortschritten in der 5G-Technologie – es scheint, als hätte das Mooresche Gesetz einen klaren Dominoeffekt auf das tägliche Leben, besonders der Menschen in dieser Branche.
In den letzten Jahren haben wir die Entwicklung der nächsten viel diskutierten Entwicklung erlebt: künstliche Intelligenz. Zunächst glaubte man, künstliche Intelligenz sei ein Werk der Science-Fiction und daher zu unseren Lebzeiten nicht zu verwirklichen. Dies wurde jedoch von Unternehmen wie Open AI widerlegt, welches die künstliche Intelligenz einer breiten Öffentlichkeit zugänglich gemacht und gezeigt hat, dass es sie tatsächlich gibt und dass sie bereits existiert.
Wie bei den meisten Entwicklungen und neuen Konzepten in der IT-Branche müssen auch bei der künstlichen Intelligenz mehrere Faktoren zusammenspielen, damit sie so funktioniert, wie sie konzipiert wurde. Dazu gehören Fortschritte in der Computertechnologie, z. B. bei den Grafikprozessoren, sowie die Bereitstellung einer angemessenen Infrastruktur durch Rechenzentren, in denen die Gehirne der künstlichen Intelligenz untergebracht werden können.
Vor diesem Hintergrund soll in diesem Artikel vordergründig das Rechenzentrum sowie die Hardware erläutert werden, die für die Unterstützung der heutigen KI-Anwendungen erforderlich ist. Diese Anwendungen reichen vom algorithmischen Hochfrequenzhandel im Finanzsektor bis hin zur weithin zugänglichen generativen KI, wie ChatGPT von OpenAI. Solche Anwendungen müssen auf Grafikprozessoren (GPUs) laufen, um die komplexen Berechnungen in dieser Größenordnung zu bewältigen. Sie laufen in der Regel nicht primär auf zentralen Recheneinheiten (CPUs).
Der Grund dafür ist, dass GPUs in der Lage sind, Operationen parallel auszuführen, während CPUs sequenzielle Operationen ausführen. Außerdem benötigt ein GPU-Chipsatz oft mehr Strom und hat eine höhere TDP (Thermal Design Power), was zu einer viel höheren Rackdichte (Gesamtstromverbrauch pro Rack) führt als bei CPU-Racks, auf die im weiteren Verlauf des Artikels noch eingegangen wird.
KI und ihre besonderen Anforderungen an Infrastruktur und Hardware
IBM definiert Künstliche Intelligenz als „a field which combines computer science and robust datasets, to enable problem-solving. It also encompasses sub-fields of machine learning and deep learning, which are frequently mentioned in conjunction with artificial intelligence. These disciplines are comprised of AI algorithms which seek to create expert systems which make predictions or classifications based on input data“. Alternativ kann man auch sagen, dass ein Computer in die Lage versetzt wird, auf der Grundlage einer Reihe menschlicher Eingaben Entscheidungen zu treffen, Einschätzungen vorzunehmen und Schlussfolgerungen zu ziehen.
Um diese Entscheidungen treffen zu können, muss die KI auf Milliarden von Datenpunkten und Parametern trainiert werden und Tausende, wenn nicht Millionen oder sogar Milliarden von Gleitkommaoperationen pro Sekunde (FLOPS) ausführen; dies führt zu spezifischen Hardware- und Infrastrukturanforderungen für die KI, deren Umfang und Besonderheiten natürlich von der Art der KI-Anwendung abhängen.
Rack-Dichte
Um die oben genannten Rack-Dichten in einen größeren Zusammenhang zu stellen: Herkömmliche Rechenzentren weisen oft Rack-Dichten von bis zu 5 kW pro Rack auf, während reguläre Rechenzentren für Cloud-Dienste bei 5-10 kW liegen. KI-fähige Rechenzentren, die als Ultra-High-Density-Rechenzentren definiert werden, können mehr als 35 kW pro Rack benötigen, um Anwendungen der künstlichen Intelligenz zu bedienen, was oft mehrere GPU-Systeme pro Rack erfordert. Dies wirft einige Fragen und Komplexitäten beim Design auf. Aufgrund der höheren Dichte wird von den einzelnen Mietern weniger Platz benötigt: Ein 6-MW-Whitespace für künstliche Intelligenz kann beispielsweise auf 850 Quadratmetern untergebracht werden.
um Vergleich: 850 Quadratmeter mit einer herkömmlichen Einrichtung würden nur für 1,5 MW ausreichen. Dies erfordert eine andere Ansicht in Bezug auf die Gestaltung von Rechenzentren: Können bestehende Rechenzentren ihre Fläche in KI-fähige Flächen umwandeln?
Infrastruktur
Bei dem Versuch, die obige Frage zu beantworten, ergeben sich mehrere Herausforderungen an die Infrastruktur. Die drei Hauptsäulen der KI-Fähigkeit sind eine ausreichende Stromversorgung, eine ausreichende Kühlung und eine ausreichende Tragfähigkeit der Stockwerke des Rechenzentrums, wobei die Konnektivität noch weiter unten in diesem Artikel erwähnt wird.
Energie
Verfügt das Rechenzentrum über genügend Energie, um die Anforderungen eines KI-fähigen Kunden zu erfüllen? Ein Beispiel: Ein altes innerstädtisches 5-MW-Rechenzentrum könnte von einer Vielzahl von Kunden für verschiedene Anwendungen wie Speicherung, Cloud, Kommunikation und Finanztransaktionen genutzt werden. Wenn dieser Platz jedoch für einen zusätzlichen Kunden mit KI-Anforderungen benötigt würde, müsste mehr Leistung abgerufen werden, was in der heutigen Rechenzentrumslandschaft leichter gesagt als getan ist. Die Alternative besteht darin, den Standort in eine KI-fähige Einrichtung umzuwandeln und nachzurüsten und dabei die gesamte oder einen Großteil der verfügbaren Energie zu nutzen.
Dies würde bedeuten, dass eine große Menge an Whitespace ungenutzt bliebe, wenn wir das oben erwähnte Modell betrachten. Darüber hinaus wäre dies nur möglich, wenn die idealen Bedingungen für die langfristigen Mietverträge für die Bewohner des Standorts erfüllt sind. Dasselbe Prinzip gilt für Standorte in Außenbezirken, die oft mit einer höheren Energieverfügbarkeit gebaut werden, typischerweise von etwa 20 bis 60 MW und mehr. Eine solche Energieverfügbarkeit ist ideal für die GPU-Anforderungen der KI, hängt aber wiederum davon ab, wie viel Energie im Rechenzentrum derzeit frei ist.
Kühlung
Angenommen, in einem bestehenden oder geplanten Rechenzentrum sind Strom und Platz vorhanden, um einen GPU-basierten Kunden zu bedienen, bestände die nächste Herausforderung darin, die Kühlung der Racks zu gewährleisten. In normalen Rechenzentren erfolgt die Kühlung häufig über massive Computerraum-Klimageräte (CRAC/H), die mit gekühltem Wasser und/oder Kühlgas arbeiten und die in der Lage sind, einen ganzen Raum auf einmal zu kühlen. Diese Klimageräte regeln die Umgebungstemperatur eines Rechenzentrums und können mehrere Racks gleichzeitig, bis zur erforderlichen Dichte versorgen. Um ultrahohe Dichten von über 25 kW pro Rack zu erreichen, müssen alternative und präzise Kühltechnologien eingesetzt werden, die Folgendes umfassen:
- Rücktür-Wärmetauscher (RDHX), die jeweils ein Rack kühlen
- Kühlaggregate in der Reihe, die 2 bis 4 Racks auf einmal kühlen
- Flüssigkeits-Tauchkühltanks, die herkömmliche Racks ersetzen
- Flüssigkühlung direkt auf dem Chip erfordert modifizierte Racks
Jeder der oben aufgeführten Kühlungsmechanismen hat seine eigenen Infrastrukturanforderungen, die sich von denen herkömmlicher und normaler luftgekühlter Rechenzentren unterscheiden. Zum Vergleich: CRAC/H-Systeme werden in der Regel auf dem Doppelboden einer Datenhalle um den Rand des Whitespaces herum platziert und leiten die Luft unter dem Boden und über die Racks. Die RDHX-Technologie erfordert in der Regel einen Doppelboden und ein komplexes Labyrinth von Rohrleitungen, die direkt unter dem Boden verlegt werden, um die einzelnen Racks direkt mit gekühltem Wasser zu versorgen, ohne den Wasserfluss im Rest der Halle zu unterbrechen. Dadurch wird eine hocheffiziente Kühlung erreicht.
Die Kühlung in den Reihen ist platzsparender, kann aber aufgrund ihrer etwas geringeren Präzision keine extrem hohen Dichten erreichen und erfordert eine Rohrleitungsinfrastruktur, die sich nicht wesentlich von den RDHX-Raumkühlungslösungen unterscheidet. Flüssigkeits-Tauchkühltanks sind neu und werden derzeit noch nicht von allen Chipsatzherstellern unterstützt, obwohl sie wohl zu den effizientesten der High-Density-Kühltechnologien gehören, jedoch viel zusätzliches Gewicht verursachen.
Die Flüssigkeitskühlung direkt auf dem Chip wurde als äußerst effiziente und leistungsstarke Methode zur Bereitstellung einer hochdichten Kühlung für ein Rack gelobt, was zu einem geringeren U-Space pro Rack führt, aber eine geringfügige Neukonfiguration jedes in speziellen Racks installierten Chipsets erfordert. Diese Komplikationen könnten sich auf die Skalierbarkeit eines KI-Modells über verschiedene Standorte hinweg auswirken, wobei auch die Entwicklungszeiten zu berücksichtigen sind.
Es ist wichtig zu beachten, dass einige dieser Kühlmethoden auch Vorteile für die Nachhaltigkeit bieten. RDHX und Flüssigkeitskühlung können beispielsweise überschüssige Wärme mit höheren Temperaturen auffangen, die an einen Fernwärmeversorger geliefert werden und zur Erwärmung einer nahegelegenen Stadt oder eines Bauernhofs (oder eines Pools) beitragen kann, während gleichzeitig die Außentemperatur genutzt wird, um freie Kühlung zu ermöglichen.
Gewicht
Wir haben also Strom, wir haben Platz, und wir haben ein perfektes Kühlsystem entworfen. Jetzt wollen wir unser bestehendes Rechenzentrum nachrüsten und all das Beschriebene einsetzen. Hier liegt ein weiterer Engpass. Wenn die Dichte eines Rechenzentrums erhöht wird, muss die Grundfläche, wie bereits erwähnt, einem höheren Gewicht standhalten, da sich die IT- und Kühlgeräte auf diesen Bereich konzentrieren. Alte und reguläre Rechenzentren für Cloud-Dienste sind oft nicht für solche Gewichtsbelastungen ausgelegt, insbesondere wenn es sich um alte mehrstöckige Trägerhotels und Kommunikationsknotenpunkte handelt.
In solchen Fällen müssen Standorte, die nachgerüstet werden, das zusätzliche Gewicht berücksichtigen, das erforderlich ist, um solche IT-Lasten zu tragen. Weiterhin müssen Konstruktionsentscheidungen getroffen werden, um das Gewicht zu verteilen, was sich auf die erforderlichen Rohr-, Kupfer- und Glasfaserlängen auswirkt.
Konnektivität: KI-Training vs. Inferenz
Die heutigen groß angelegten KI-Anwendungen lassen sich in zwei Kategorien einteilen: Training und Inferenz. Modelle der künstlichen Intelligenz müssen anhand von Milliarden von Parametern und Datenpunkten „trainiert“ werden, um dann zur „Inferenz“ eingesetzt werden zu können. Im Fall von KI benötigen die KI-Schulungszentren keine hohe Konnektivität, da sie keine Dienste für Nutzer oder Unternehmen bereitstellen. Das bedeutet, dass ländlich gelegene Rechenzentren die idealen Trainingscampus sind, welche eine hohe Energieversorgung und eine Kühlung mit extrem hoher Dichte benötigen, um das KI-Training zu ermöglichen, welches eine atemberaubende Rechenleistung von 300 Zettaflops oder mehr erfordern könnte.
Im Falle von Modellinferenzanwendungen ist eine solch immense Rechenleistung nicht erforderlich, weshalb Rechenzentren in der Nähe von Ballungsräumen und Kabelanschlüssen bevorzugt werden. Jeder Inferenz-„Knoten“ ist viel kleiner als der Trainingscampus, benötigt aber dennoch eine KI-fähige Infrastruktur, um zu funktionieren, jedoch viel weniger Energie.