Computer-Cluster systematisch konzipieren

Erfolgreiche Entwicklung und Implementierung von KI-Anwendungen

Die Marktforscher von MarketsandMarkets prognostizieren, dass der KI-Markt bis 2027 einen beeindruckenden weltweiten Umsatz von 407 Milliarden US-Dollar erreichen wird – ein deutliches Wachstum gegenüber den geschätzten 86,9 Milliarden US-Dollar im Jahr 2022.

Laut BITKOM sehen 68 % der deutschen Unternehmen großes Potenzial in der KI. Allerdings sehen sich 43 % der befragten Unternehmen als Nachzügler beim Einsatz von KI im Arbeitsalltag, 38 % glauben sogar, den Anschluss an ihre Nutzung völlig verloren zu haben. Es besteht also ein großer Nachholbedarf – und zwar schnell. Doch wie können Unternehmen dies erreichen und die notwendige IT-Infrastruktur schaffen?

Anzeige

Rechenzentren müssen die zukünftigen Anforderungen KI-basierter Anwendungen erfüllen, darunter GenAI, autonomes Fahren, intelligente Diagnostik, algorithmischer Handel und intelligenter Kundenservice. Die zunehmende Datengenerierung und der wachsende Bedarf an Rechenleistung und schnellerer Datenübertragung stellen eine enorme Belastung für ältere IT-Infrastrukturen dar. Bestehende IT-Architekturen sind oft nicht für schnell wachsende Datenmengen und KI-basierte Anwendungen geeignet, da die Entwicklung und der Einsatz von KI-Modellen die Rechenzentren vor mehrere Herausforderungen stellt.

Entwicklung und Implementierung von KI-Anwendungen

Bei der Datenverarbeitung in großem Maßstab ist die Effizienz der einzelnen Rechenknoten sehr begrenzt. Daher werden die Zusammenschaltung von Systemen („Interconnectivity“), die Verwendung von Algorithmen und die Optimierung der Zusammenschaltungen immer wichtiger. Ein systemorientierter Ansatz beim Aufbau der IT-Infrastruktur ist am besten geeignet, um die Hindernisse bei der Einführung von KI zu überwinden. Beim Einsatz von KI sollte der Schwerpunkt deshalb auf der Gestaltung des Gesamtsystems und der Koordination von Algorithmen, Rechenleistung und Daten liegen. Durch die Integration von Rechenressourcen, Datenressourcen, F&E-Einsatzumgebungen und geeigneter Prozessunterstützung, kann die Effizienz und Stabilität der KI-Entwicklung und -Implementierung verbessert werden – vom Cluster-Management über die Trainingsentwicklung bis hin zur Inferenzanwendung. Diese ganzheitliche Optimierung erweitert die Innovationsfähigkeit der Systeme.

Dieser systemzentrierte Ansatz ist notwendig, weil bei der Entwicklung und dem Einsatz KI-basierter Systeme verschiedene Personengruppen zusammenarbeiten, darunter Mitarbeiter aus den Bereichen IT-Infrastruktur, Datenwissenschaft und Unternehmenssteuerung. IT-Infrastrukturexperten legen großen Wert auf die Stabilität von IT-Clustern und die optimale Nutzung von Rechenressourcen. Datenwissenschaftler konzentrieren sich auf die Effizienz und Stabilität des Modell-Trainings. Fachleute aus der Unternehmenssteuerung befassen sich mit dem Inferenzierung und wünschen sich eine einfache Bereitstellung von IT-Dienstleistungen und flexible Rechenressourcen. Während des gesamten Entwicklungsprozesses KI-basierter Systeme könnten Effizienz und Stabilität des gesamten IT-Clusters durch ein systematisches Design verbessert werden – so dass die Unternehmen durchgängig Geschäftserkenntnisse ableiten, Einnahmen generieren und ihre Wettbewerbsfähigkeit erhalten können.

Anzeige

Die größten Herausforderungen bei der Entwicklung und Implementierung leistungsstarker und stabiler KI-Anwendungen sind:

  • GPU-Nutzung

Das Trainieren von Modellen und die Inferenzierung erfordern große Mengen an Rechenleistung, aber die Leistungsfähigkeit von Computerplattformen wächst oft nicht linear mit der Rechenleistung und kann sich verschlechtern. Bei den meisten LLMs (Large Language Models) liegt die modell-basierte Rechenauslastung unter 50 %. Daher müssen Unternehmen einen Weg finden, um Ressourcen und Arbeitslasten durch die Implementierung einer intelligenten GPU-Planung besser zu verteilen. Dies kann über eine Plattform erfolgen, die die Planung der Rechenressourcen auf der Grundlage der Hardwareeigenschaften des Clusters und der Rechenlastcharakteristika optimiert und so die Gesamtauslastung der GPUs sowie die Trainingseffizienz verbessert.

  • Orchestrierung von Aufgaben

Die optimale Planung der Rechenleistung von großen, POD-basierten (Performance Optimized Datacenter) Rechenvorgängen ist eine weitere große Herausforderung. Angesichts der sehr unterschiedlichen und sich dynamisch ändernden Anforderungen an die Rechenressourcen benötigen die Benutzer nicht nur Unterstützung bei der Zuweisung von GPU-Ressourcen, bei der Aufgabenkonstruktion und der Aufgabenplanung. Zudem brauchen sie Optimierungsmethoden zur dynamischen Anpassung der GPU-Ressourcenzuweisung. Ein Ansatz zur Bewältigung dieser Herausforderung ist eine Lösung, die eine schnelle Inbetriebnahme und die entsprechende IT-Umgebung für den Einsatz Hunderter von PODs gewährleistet. Auf diese Weise können der Durchsatz und die Latenzzeit um das Fünffache im Vergleich zu klassischen Schedulern gesenkt werden. Dies gewährleistet eine effiziente Planung und Nutzung von Computerressourcen für umfangreiche Trainings.

  • Geschwindigkeit und Effizienz der Datenübertragung

Ein weiterer Faktor, der die Entwicklung KI-basierter Systeme bremst, ist die Geschwindigkeit und Effizienz der Datenübertragung. Massive Datenmengen stellen eine große Herausforderung für die Datenübertragung dar. Eine angemessene Effizienz bei der Datenerfassung kann die Leistung von GPUs und CPUs maximieren und die gesamte Iterationseffizienz von KI-Modellen verbessern. Innovative Funktionen wie die Unterstützung des lokalen Ladens und Berechnens von Remote-Daten, wodurch Verzögerungen durch Netzwerk-E/A während der Berechnung vermieden werden, können die Datenübertragung enorm beschleunigen. Durch Strategien wie „Zero-Copy“-Datentransfer, Multi-Thread-Abruf, inkrementelle Datenaktualisierung und Affinitätsplanung werden Daten-Caching-Zyklen erheblich reduziert. Diese Verbesserungen optimieren die KI-Entwicklung und die Trainingseffizienz erheblich, was zu einer 2-3-fachen Steigerung der Modelleffizienz beim Datentraining führt.

  • Unterbrechungsfreies Modelltraining

Wenn das Training eines großen Sprachmodells LLM) unterbrochen wird, ist es zeit- und arbeitsintensiv, in den Trainingsprozess einzugreifen und das Modelltraining neu zu organisieren. Häufige Clusteranomalien oder Ausfälle können den Fortschritt der Modellentwicklung stark beeinträchtigen. Beim Trainingsprozess des Sprachmodells Llama 3.1 des Anbieters Meta kam es zum Beispiel alle drei Stunden zu einem Ausfall des Trainingsclusters mit 16.000 GPUs. Ein Cluster-Failback-Mechanismus kann die Ausfallzeiten bei der LLM-Schulung reduzieren, indem er Cluster schnell wiederherstellt, die Verfügbarkeit von Komponenten gewährleistet und Online-Dienste wieder auf den letzten Stand bringt, wodurch der Verlust von Personal- und Zeitressourcen im Modelltrainingsprozess vermieden wird.

  • Einfache Bereitstellung

Die Einsatzschwelle für das Bereitstellungspersonal ist hoch, und die Implementierung ist zeit- und arbeitsintensiv. Fehlendes Fachwissen und mangelnde Erfahrung beim Einsatz von LLMs machen die Implementierung noch schwieriger. Plattformen und Lösungen für die KI-Entwicklung sind wesentlich für die Entstehung sowie den Einsatz der KI-Technologie und haben die Aufgabe, die Schwelle für die KI-Einführung zu senken. Plattformen müssen um Funktionen wie die Feinabstimmung von Low-Code-Modellen, den Low-Code-Einsatz und die Erstellung von Low-Code-Anwendungen erweitert werden, um die Gesamteffizienz der plattform-gestützten KI-Entwicklung zu verbessern. Eine vollständige Handlungsvorlage für den Bereitstellungsprozess kann die schnelle Erstellung und Orchestrierung notwendiger Schritte für verschiedene Geschäftsszenarien unterstützen. Vollumfängliche Handlungsvorlagen und Implementierungsmodelle sind sehr hilfreich für die beschleunigte Bereitstellung von Geschäftsszenarien.

Fazit

Die allgemeine Herausforderung bei der Einführung von KI, von der Cluster-Entwicklung bis zum Einsatz, besteht darin, wie man Computer-Cluster systematisch konzipiert und optimiert, um die Effizienz und Stabilität der Berechnungen zu verbessern. Für Nutzer von Rechenzentren besteht ein praktikabler Ansatz aus mehreren Prozessschritten. Erstens ist die für KI optimierte Hardware einschließlich Servern, Speichern und Netzwerken für sie von grundlegender Bedeutung. Zweitens sollten sie eine Clusterlösung entwerfen und einsetzen, die bezüglich Verarbeitung, Vernetzung und Speicherung den grundsätzlichen Rechenanforderungen KI-basierter Anwendungen gerecht werden können. Drittens sollten sie eine Plattform für den intelligenten Betrieb und die effiziente Verwaltung des IT-Clusters nutzen, und viertens sollten sie die Anwendung durch verschiedene Optimierungsprozesse verbessern – einschließlich der Entwicklung, des Testens und der Abstimmung von Algorithmen, Codes, parallelen Berechnungen und mehr. Um diese Herangehensweise zu professionalisieren, können Nutzer auch einen zuverlässigen Lösungspartner bzw. Anbieter für die einfache Bereitstellung und den einfachen Betrieb der KI-Anwendungen wählen.

Autor:  Louis Tian, Chief Technology Officer (CTO) von KAYTUS

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.