ArtikelStorage

KI-Workloads stellen neue Anforderungen an Storage-Lösungen

Autor/Redakteur: Michael McNerney, Vizepräsident für Marketing und Netzwerksicherheit bei Supermicro/gg

Der Einsatz von KI in Unternehmen bedeutet eine komplette Umstellung der IT-Infrastruktur, damit diese die entsprechenden Workloads stemmen kann. Dazu gehören große Sprachmodelle (LLMs) wie ChatGPT wie auch KI-Modelle, die auf riesigen Trainingsdatensätzen, komplexen 3D-Modellen, Simulationen und anderen daten- und rechenintensiven ML-Anwendungen basieren.

Supermicro ASG-WK1032C-NE3 WEKA Storage-System mit 16 E3.S NVMe-Steckplätzen. (Quelle: Supermicro)

Für eine leistungsfähige KI- oder ML-Lösung muss eine ganze Reihe von Hardwarekomponenten bestmöglich zusammenarbeiten. Hinter der auffälligen Rack-Hardware, die die GPU-gesteuerten Gehirne eines KI-Clusters beherbergt, sind Storage-Systeme mit hohem Durchsatz und niedriger Latenz erforderlich, um den Cluster produktiv zu halten. Diese unterstützen die I/O-Kanäle, über die riesige Datenmengen zum Trainieren von Modellen und zur Durchführung komplexer Simulationen und Analysen eingespeist werden, die zur Unterstützung von KI-Workloads erforderlich sind.

Eine der größten Herausforderungen für Unternehmen, die vom Wachstum der KI profitieren wollen, besteht darin, eine Storage-Lösung zu finden, die ihre Hochleistungs-CPUs, GPUs oder Datenbank-Cluster nicht zum Flaschenhals macht. Schließlich müssen die CPUs und GPUs bestmöglich ausgelastet sein, um die Gesamtbetriebskosten des Rechenzentrums zu senken.

Speicherengpässe vermeiden

Bei verteilten und parallelen Dateisystemen kommen die Daten aus mehreren Quellen, die über verschiedene Protokolle und für verschiedene Anwendungen in großem Umfang verarbeitet werden müssen. In einem typischen Storage-System werden Metadaten schnell zu einem Engpass. Es können nur so viele Daten durch das System gepumpt werden, wie die Metadaten unterstützen. Wenn die Datenmenge wächst, muss auch die Fähigkeit, Metadaten zu verarbeiten, proportional mitwachsen.

WEKA Distributed Storage bietet eine solche proportionale Skalierung. Diese ermöglicht es, die I/O-Leistung trotz des Hinzufügens von mehr Datenkapazität zu einem System oder Cluster weiterhin linear von acht (Mindestanzahl der Knoten für einen WEKA-Cluster) auf Hunderte von Storage-Knoten zu skalieren. Dies wird durch die Beseitigung von Engpässen ermöglicht. Selbst die schwersten und anspruchsvollsten KI-Workloads können so unterstützt werden.

Zur Optimierung von Servern und Clustern gehört jedoch mehr als die Bereitstellung von skalierbaren, hochleistungsfähigen Storage-Lösungen mit geringer Latenz. Bei der Entwicklung eines Gesamtsystems darf der Fokus nicht ausschließlich auf einem einzigen Merkmal oder einer einzigen Funktion liegen. Die gesamte Architektur muss zusammenarbeiten, um die angestrebten KI-Workloads zu unterstützen. Ein System für KI-Anwendungen zu entwerfen bedeutet also, eine Laufzeitumgebung zu schaffen, die von Grund auf so aufgebaut ist, dass datenintensive Anwendungen schnell und zufriedenstellend verarbeitet werden können. Was der Server mit den Daten macht, wenn er KI-Workloads verarbeitet, ist genauso wichtig wie der Datenverkehr zu und von einem bestimmten Knoten.

NVMe als Retter in der Not

Ein weiteres wichtiges Merkmal ist die Anzahl der PCIe 5.0-Lanes. Diese Technologie ermöglicht es Servern, eine umfangreichere Anzahl von SSDs, NICs, GPUs und sogar CXL-Geräten mit erweitertem Storage aufzunehmen. Alle diese Komponenten spielen eine wichtige Rolle bei der Bewältigung anspruchsvoller KI- und ML-Workloads, einschließlich PCIe Gen5 SSDs für lokalen Hochgeschwindigkeits-Speicher, einer großen Anzahl von Hochgeschwindigkeits-Netzwerkschnittstellen zur Verbindung von Servern mit anderen Knoten wie Storage oder anderen spezialisierten Server-Systemen, um den Datenumfang und die Reichweite zu erweitern, sowie einer großen Anzahl von GPUs zur Bewältigung spezialisierter, gezielter Aufgaben oder Workloads.

NVMe-Geräte haben die Konfigurationsmöglichkeiten von Servern und Clustern völlig verändert. Mit NVMe als Basis wird eine komplett überarbeitete Architektur möglich. Sie ermöglicht es, dass Storage in großem Umfang und mit hoher Geschwindigkeit neben Hochleistungs-CPUs, GPUs und NICs arbeiten kann, insbesondere mit dem EDSFF-Formfaktor. Das Single-Socket-Design ermöglicht es den leistungsstärksten CPUs, Netzwerkkarten und Storage-Laufwerken, ihre volle Leistung zu entfalten und den höchstmöglichen Grad an Parallelität und Clustering für HPC, KI und andere Lösungen der nächsten Generation zu nutzen.