KI ist auf Daten angewiesen – Daten in riesigen Mengen, die zuverlässig aufgefangen und für Trainings und Auswertungen bereitgestellt werden müssen.
Wirtschaftlich ist das nur mit Festplatten möglich, die zudem die hohen Performance-Anforderungen von KI besser erfüllen, als man ihnen das oft zutraut.
Künstliche Intelligenz verändert derzeit viele Branchen. Sie hilft, Prozesse zu automatisieren und bessere Entscheidungen zu fällen, kann das aber nur, wenn sie mit ausreichend Daten gefüttert wird. Je größer die Datenmengen sind, desto besser können KI-Modelle aus ihnen lernen, Muster erkennen und Anomalien aufspüren. Deshalb häufen Unternehmen zunehmend riesige Datenmengen an – verbunden auch mit dem Wunsch, durch das Erschließen weiterer Datenquellen wertvolle Erkenntnisse in ganz neuen Bereichen zu gewinnen.
Wie aber die große und schnell wachsende Datenflut auffangen? Dafür braucht es Storage-Architekturen, die je nach Unternehmen hunderte Terabyte oder sogar einige Petabyte an Speicherplatz bieten und bei Bedarf leicht erweitert werden können. Schließlich sollen die Daten nicht irgendwann ins Leere fließen, sodass sie für das Training von KI-Modellen oder KI-Auswertungen verloren wären.
Als Speichermedien in diesen Scale-out-Architekturen führt kein Weg an Festplatten vorbei, da nur sie die benötigten Kapazitäten wirtschaftlich bereitstellen können. Flash-Speicher sind nach wie vor pro Kapazitätseinheit etwa fünf- bis achtmal so teuer und kommen deshalb nur an ausgewählten Stellen zum Einsatz, etwa als Cache oder in Hochleistungssystemen. In den meisten Fällen und für das Gros der KI-Daten genügen jedoch Festplatten, zumal diese – gerade im Verbund – eine deutlich bessere Performance liefern, als Unternehmen oft annehmen.
Schneller als gedacht
Beim Abspeichern der großen Datenmengen kommt es vor allem auf sequentielles Schreiben an – eine Paradedisziplin von Festplatten, in der sich die Laufwerke in den vergangenen Jahren durch Firmware-Optimierungen wie das geschicktere Planen von Prüfroutinen noch einmal verbessert haben. Aktuelle Modelle schaffen rund 300 MB/s, nachdem es vor zehn Jahren noch weniger als 200 MB/s waren. Auch die Performance bei zufälligen Lesezugriffen, die für das Heraussuchen und Bereitstellen der Daten für Auswertungen wichtig ist, hat in diesem Zeitraum erheblich zugelegt, von rund 100 auf über 200 IOPS.
Natürlich sind diese Leistungswerte weit von denen aktueller SSDs entfernt. Doch da es um viele Tera- oder Petabyte an Daten geht, werden ohnehin mehrere Festplatten benötigt, die in modernen Storage-Architekturen zusammengeschlossen die Schreib- und Leseoperationen parallel abwickeln können. Mit wachsender Festplattenzahl steigt die Performance massiv an – ein einzelnes Speichersystem mit einigen Dutzend Laufwerken erreicht problemlos mehr als 15 GB/s und 15.000 IOPS:
Festplattenhersteller wie Toshiba arbeiten zudem eng mit den Anbietern von Speichersystemen und Controllern zusammen, um Optimierungsmöglichkeiten zu finden, Referenzarchitekturen zu entwickeln und Best Practices für Unternehmen zu erarbeiten, die die Lösungen einsetzen. Denn die Leistungswerte in der Praxis hängen nicht nur von Hardware selbst, sondern auch deren Konfiguration ab. Tests im Toshiba HDD Lab haben gezeigt, dass ein System mit 60 Festplatten in einer RAID60/raid-z2-Konfiguration – also mehrere Festplattengruppen parallel mit jeweils doppelter Redundanz – als Datenspeicher für KI-Anwendungen sogar über ein Netzwerk eine sequentielle Schreib/Leseleistung von bis 10 GB/s liefert und dabei mit 9.000 Write- und 30.000 Read-IOPS sogar über eine gewisse Agilität verfügt.
Letztlich hängt es vom konkreten Anwendungsfall und den damit verbundenen Leistungsanforderungen ab, welche Hardware-Ausstattung und Konfiguration am besten geeignet ist, Daten aufzufangen und für KI bereitzustellen.
Wachsende Speicherkapazitäten
Dank der kontinuierlichen Weiterentwicklung konnten Festplatten in den vergangenen Jahren ihren Preisvorsprung gegenüber SSDs halten – und werden das auf absehbare Zeit auch weiter tun. Sorgten in der Vergangenheit unter anderem Helium-Füllung und dünnere Disks dafür, dass die Kapazität von Laufwerken um rund 2 TB pro Jahr bei gleichbleibenden Kosten zulegte, sind es nun die neuen Aufzeichnungsverfahren MAMR und HAMR.
MAMR steht für Microwave Assisted Magnetic Recording und nutzt Mikrowellen, um den magnetischen Fluss am Schreibkopf zu bündeln. Dadurch wird weniger magnetische Energie benötigt und der Schreibkopf kann kleiner ausfallen. Ein kleinerer Schreibkopf bedeutet dichter geschriebene Bits und Datenspuren und damit eine höhere Speicherkapazität. In der nächsten MAMR-Generation sollen die Mikrowellen dann auch das magnetische Material der Disks aktivieren, sodass noch weniger magnetische Energie benötigt wird.
MAMR kommt bereits in aktuellen HDD-Modellen zum Einsatz und ermöglicht derzeit Kapazitäten von bis zu 24 TB pro Laufwerk – im Zusammenspiel mit Shingled Magnetic Recording (SMR) sogar bis zu 28 TB. In den nächsten Jahren wird MAMR die Kapazität von Festplatten voraussichtlich auf 30 bis 40 TB steigern, bevor schrittweise Heat Assisted Magnetic Recording übernimmt. HAMR erfordert noch Entwicklungsarbeit, etwa was die Zuverlässigkeit und die Kosten der neuen Technologie angeht, hat in Prototypen aber bereits sein Potenzial für höhere Kapazitäten bewiesen.
HAMR setzt auf einen Nahfeldlaser, um das magnetische Material der Disks zu erhitzen, sodass mit weniger magnetischer Energie geschrieben werden kann – was wie bei MAMR kleinere Schreibköpfe und eine höhere Datendichte ermöglicht. Damit werden Festplatten auch in den nächsten Jahren noch gut aufgestellt sein, die wachsende Datenflut, die Sensoren, Maschinen und Menschen generieren, zuverlässig und wirtschaftlich aufzufangen und performant für das Training von KI-Modellen sowie die Nutzung in KI-Anwendungen bereitzustellen.