Mit den Supermicro Supercluster bringt der Hersteller drei Nvidia-basierte, sofort einsatzbereite generative KI-Supercluster auf den Markt. Die Systeme umfassen Nvidias neueste Tensor-Core-GPUs, Netzwerke und »AI Enterprise 5.0«-Software. Sie kommen in 1U und 8U Höheneinheiten sowie mit flüssigkeitsgekühlten 4U.
Supermicro kündigt drei auf Leistung ausgelegte SuperCluster-Lösungen an, die vor allem auf KI-Workloads ausgelegt sind. Die flüssigkeitsgekühlten 4U- bzw. die luftgekühlten 8U-Systeme sollen speziell für leistungsstarke LLM-Trainingsleistungen sowie für große Batchgrößen und LLM-Inferenzen mit hohem Volumen ausgelegt sein. Ein dritter Supercluster mit 1U luftgekühlten Supermicro NVIDIA MGX-Systemen ist für Cloud-Scale-Inferenz optimiert.
»In der KI-Ära wird die Recheneinheit jetzt an Clustern gemessen, nicht nur an der Anzahl der Server«, meint Charles Liang, President und CEO von Supermicro. »Mit unserer erweiterten globalen Fertigungskapazität von 5.000 Racks/Monat können wir unseren Kunden komplette generative KI-Cluster schneller als je zuvor liefern. Ein 64-Knoten-Cluster ermöglicht 512 NVIDIA HGX H200-GPUs mit 72 TByte HBM3e durch einige unserer skalierbaren Cluster-Bausteine mit 400 Gbit/s NVIDIA Quantum-2 Infiniband und Spectrum-X Ethernet-Netzwerken. Unsere Supercluster-Lösungen in Kombination mit der NVIDIA AI Enterprise-Software eigenen sich für Unternehmens- und Cloud-Infrastrukturen, um die heutigen LLMs mit bis zu Billionen von Parametern zu trainieren. Die miteinander verbundenen GPUs, CPUs, Speicher, Storage und Netzwerke bilden, wenn sie über mehrere Knoten in Racks eingesetzt werden, die Grundlage der heutigen KI.«
Supercluster skalieren von Enterprise- bis zu großen LLM-Infrastrukturen
Der SuperServer SYS-421GE-TNHR2-LCC basiert auf der NVIDIA HGX H100/H200 8-GPU und kommt mit einer Flüssigkeitskühlung. Diese Systeme sind bereits für die nächste Generation der auf der NVIDIA Blackwell-Architektur basierenden Grafikprozessoren ausgelegt. Die Supermicro Cooling Distribution Unit (CDU) und Manifold (CDM) bilden die Hauptadern für die Verteilung der gekühlten Flüssigkeit an die kundenspezifischen Direct-to-Chip (D2C) Cold-Plates von Supermicro. Dies soll die GPUs und CPUs auf optimaler Temperatur halten, um eine maximal mögliche Leistung zu erreichen. Laut Hersteller ermöglicht diese Kühltechnologie eine Senkung der Stromkosten für das gesamte Rechenzentrum um bis zu 40 Prozent und spart Platz in den Räumlichkeiten des Rechenzentrums.
Die mit 8-GPUs ausgestatteten Nvidia HGX H100/H200-Systeme sind unter anderem für das Training von generativer KI konzipiert. Die Hochgeschwindigkeits-GPUs, die über NVIDIA NVLink miteinander verbunden sind, sowie die hohe GPU-Speicherbandbreite und -kapazität sind der Schlüssel zur kosteneffizienten Ausführung von LLM-Modellen. Der Supermicro Supercluster soll einen massiven Pool von GPU-Ressourcen schaffen, die wie ein einziger KI-Supercomputer funktionieren.
»Ob es sich um die Anpassung eines Basismodells handelt, das auf einem Datensatz mit Billionen von Token von Grund auf trainiert wurde, oder um den Aufbau einer LLM-Inferenzinfrastruktur im Cloud-Maßstab, die Spine- und Leaf-Netzwerktopologie mit nicht blockierenden 400-Gb/s-Fabrics ermöglicht eine nahtlose Skalierung von 32 Knoten auf Tausende von Knoten«, sagt Liang. »Bei der vollständig integrierten Flüssigkeitskühlung werden die betriebliche Effektivität und Effizienz vor der Auslieferung durch unsere Testverfahren gründlich überprüft.«
Supercluster mit 4U flüssigkeitsgekühltem System in 5 Racks oder 8U luftgekühltem System in 9 Racks
- 256 Nvidia H100/H200 Tensor Core GPUs in einer skalierbaren Einheit
- Die Flüssigkeitskühlung ermöglicht 512 GPUs, 64 Knoten, auf der gleichen Grundfläche wie die luftgekühlte Lösung mit 256 GPUs und 32 Knoten
- 20 TByte HBM3 mit Nvidia H100 oder 36TByte HBM3e mit Nvidia H200 in einer skalierbaren Einheit
- 1:1-Netzwerke liefern bis zu 400 Gbit/s an jede GPU, um GPUDirect RDMA und Storage für das Training großer Sprachmodelle mit bis zu Billionen von Parametern zu ermöglichen
- 400G Infiniband oder 400GbE Ethernet Switch Fabrics mit hoch skalierbarer Spine-Leaf-Netzwerktopologie, einschließlich NVIDIA Quantum-2 Infiniband und Nvidia Spectrum-X Ethernet-Platform.
- Anpassbare AI Data Pipeline Storage Fabric mit Optionen für parallele Dateisysteme
- NVIDIA AI Enterprise 5.0-Software mit Unterstützung für die neuen NVIDIA NIM Inferenz-Microservices, die die Bereitstellung von KI-Modellen im großen Maßstab beschleunigen
Supercluster mit 1U luftgekühltem Nvidia MGX-System in 9 Racks
- 256 GH200 Grace Hopper Superchips in einer skalierbaren Einheit
- Bis zu 144 GByte HBM3e und 480 GByte LPDDR5X-Unified-Memory, geeignet für Cloud-Scale, hohe Volumina, niedrige Latenzzeiten und hohe Stapelgrößen, die ein Modell mit mehr als 70 B Parametern in einen Knoten integrieren können.
- 400G Infiniband- oder 400GbE-Ethernet-Switch-Fabrics mit hoch skalierbarer Spine-Leaf-Netzwerktopologie
- Bis zu 8 integrierte E1.S NVMe-Speichergeräte pro Knoten
- Anpassbare KI-Datenpipeline-Speicherstruktur mit NVIDIA BlueField-3-DPUs und branchenführenden parallelen Dateisystemoptionen für hohen Durchsatz und latenzarmen Speicherzugriff auf jede GPU
- Nvidia AI Enterprise 5.0-Software
Mit der höchsten erreichbaren Netzwerkleistung für GPU-GPU-Konnektivität sind die Supercluster-Lösungen von Supermicro für LLM-Training, Deep Learning und Inferenzen mit hohem Volumen und hoher Stapelgröße optimiert. »Supermicros L11- und L12-Validierungstests in Kombination mit seinem Vor-Ort-Bereitstellungsservice bieten den Kunden eine nahtlose Erfahrung«, erklärt Liang. »Kunden erhalten skalierbare Plug-and-Play-Einheiten für eine einfache Bereitstellung in einem Rechenzentrum und schnellere Ergebnisse.«
Weiterführende Links: