Die KI-Cloud bietet großes Potenzial
Autor/Redakteur: Sven Breuner, Field CTO International bei VAST Data/gg
Ständig neue Fortschritte bei der künstlichen Intelligenz wecken große Erwartungen an eine KI-gestützte Zukunft in vielen Branchen. Generative KI ist im Begriff, jede Branche zu verändern. Viele Unternehmen haben das transformative Potenzial erkannt und KI als Teil ihrer strategischen Initiativen eingeführt. Die für die Umsetzung der KI-Strategie erforderliche Infrastruktur zu bereitzustellen, hat sich jedoch als schwierig erwiesen. Hinzu kommt, dass die Technologie für die meisten Unternehmen neu ist, was die Implementierung äußerst komplex macht.
Die Einstiegshürde in dieser Disziplin ist für viele Unternehmen hoch. Neue Workloads für maschinelles Lernen wie das Training generativer KI-Modelle übersteigen die Leistungs- und Skalierungsmöglichkeiten herkömmlicher Infrastrukturen. HPC-Systeme (High-Performance Computing), die auf parallelen Dateisystemen basieren, bieten zwar eine angemessene Leistung, sind aber aufgrund ihrer Komplexität und des Mangels an Unternehmensfunktionen für viele IT-Teams schwer zu unterstützen. In der Regel setzen Unternehmen eine Kombination aus HPC-Speicher für leistungsstarken Ephemeral-Scratch-Speicherplatz und kostengünstigerem NAS für die langfristige Datenspeicherung ein. Das Ergebnis sind komplizierte und langwierige Datenpipelines, bei denen die Daten von Storage-Tier zu Storage-Tier kopiert werden müssen, bevor das KI-Training überhaupt beginnen kann.
Speziell für großangelegte KI-Projekte optimierte Cloud-Infrastrukturen sollen Unternehmen künftig intuitiver, agiler und effektiver machen, wenn es darum geht, immer wieder neue Geschäftsherausforderungen zu bewältigen. Hierbei gilt es, eine zentrale Datenbasis für ein Netzwerk von KI-Supercomputern zu schaffen und mitunter Hunderte von Petabytes an Daten zu speichern und daraus zu lernen.
Was eine zeitgemäße KI-Infrastruktur bieten muss
Eine zeitgemäße KI-Infrastruktur muss parallelen Dateizugriff, GPU-optimierte Leistung für das Training neuronaler Netze und Inferenzen auf unstrukturierten Daten sowie einen globalen Namensraum bieten, der hybride Multi-Cloud- und Edge-Umgebungen abdeckt. Dies alles sollte vereint sein in einem einfach zu verwaltenden Angebot, um föderiertes Deep Learning zu ermöglichen. Um ein solches Hochleistungs-Computing-System in der Cloud zu betreiben, ist eine zentrale, mandantenfähige und sichere Datenplattform nötig, die in der Lage ist, Kapazität und Leistung zu skalieren. Weitere Anforderungen sind Einfachheit, Skalierbarkeit, Ausfallsicherheit und vertretbare Gesamtbetriebskosten.
Eine Datenplattform für die KI-Cloud muss hochgradig skalierbar sein, um die nötige Leistung aus einer extrem dichten, kostenoptimierten NVMe-Infrastruktur (Non-volatile Memory Express) bereitzustellen. Multi-Tenancy-Unterstützung ermöglicht eine sichere Isolierung von Mandanten und Workloads mit QoS-Richtlinien. Upgrades und Erweiterungen erfolgen stets online und unterbrechungsfrei, was anspruchsvolle SLAs ermöglicht, selbst bei Ausfällen eines Teils der Hardware oder bei Software- oder Hardware-Upgrades. Multi-Protokoll-Unterstützung erlaubt das Schreiben in einem Protokoll und das Lesen in einem anderen Protokoll – alles auf derselben Plattform. Die Lösung muss softwaredefiniert sein, damit sie auf der vom Kunden erworbenen Hardware betrieben werden kann, wobei die Software ausschließlich nach der tatsächlichen Kapazitätsnutzung lizenziert wird.
Eine KI-geeignete Infrastruktur muss zudem das gesamte Datenspektrum natürlicher Daten abzudecken, also unstrukturierte und strukturierte Datentypen in Form von Video, Bildmaterial, freiem Text, Datenströmen und Instrumentendaten. Die Daten können aus der ganzen Welt stammen, um sie dann in Echtzeit zu verarbeiten. Dieser Ansatz zielt darauf ab, die Lücke zwischen ereignis- und datengesteuerten Architekturen zu schließen. Es geht darum, natürliche Daten zu verstehen, indem eine abfragbare semantische Schicht in die Daten selbst eingebettet wird. Die kontinuierliche und rekursive Berechnung von Daten erfolgt in Echtzeit und entwickelt sich mit jeder Interaktion weiter. Der Zugriff auf die Daten und deren Verarbeitung kann dabei in der Cloud erfolgen, die somit zur KI-Cloud wird.
All-Flash-Datenplattform basierend auf einer neuen Architektur
Ein vielversprechender Ansatz zur Realisierung einer KI-Cloud ist eine vollständig Flash-basierte Datenplattform, die ein einfaches Enterprise-NAS mit der Leistung und Skalierbarkeit für besonders anspruchsvolle KI-Anwendungen mit revolutionären Dateneffizienztechnologien kombiniert. Wenn alle Daten für das Hochleistungstraining zur Verfügung stehen, sind Workflows für maschinelles Lernen einfach zu verarbeiten und die Time-to-Insight, also „Zeit bis zur Erkenntnis“ verkürzt sich.
Die Disaggregated Shared-Everything (DASE)-Architektur liefert hierbei die Basis, um Skalierbarkeit in Bezug auf Leistung und Größe bereitzustellen, die für Exascale AI und High-Performance Computing (HPC) erforderlich ist. Darüber hinaus bietet sie einen globalen Namensraum und die für Zero-Trust-Cloud-Umgebungen erforderlichen Multi-Tenancy-Funktionen. Eine moderne Datenplattform dieser Art beschleunigt die Time-to-Insight für Workload-intensive Anwendungen und bietet skalierbare Leistung, einfaches Datenmanagement und verbesserte Produktivität. Die softwaredefinierte KI-Datenplattform läuft auf Hardware der Enterprise-Klasse. Zusätzlich zu Funktionen auf Enterprise-Niveau können Cloud-Service-Provider ein flexibles Lizenzierungsmodell auf Basis der tatsächlich gespeicherten Daten sowie die Datenreduzierung nutzen, um ihre Kosteneffizienz zu optimieren.
Damit steht eine einheitliche Multiprotokoll-Plattform für unstrukturierte – NFS, SMB und S3 – sowie strukturierte Daten – native SQL-Anwendungen und Abfrage-Engines – bereit. Ein KI-optimierter Client-Zugriff durch die Unterstützung von RDMA- und GPUDirect-Storage-Zugriff sorgt für die schlanke Benutzererfahrung einer NAS-Lösung, jedoch mit der Leistung eines parallelen Dateisystems ohne dessen Komplexität. Die Multi-Tenancy-Infrastruktur ermöglicht es, dedizierte Frontend-Server-Leistung für die wichtigsten Projekte bereitzustellen. Mittels Server-Pooling ist ebenso dedizierte Quality of Service für konkurrierende Projekte machbar. Vereinfachte Datenpipelines machen zeitaufwendige Datenkopier-Workflows überflüssig, indem alle Daten in Echtzeit zur Verfügung stehen und ein Hochleistungszugriff über Infiniband und Ethernet möglich ist. Ein Echtzeit-Datenkatalog ermöglicht tiefgreifende analytische Abfragen von Trainingsdaten und aus dem maschinellen Lernen abgeleiteten Metadaten. Ein globaler Namespace für Cloud, Edge und Core vereinfacht den Datenzugriff von überall aus.
Bahnbrechender Ansatz für datenintensives Computing
Im Gegensatz zu parallelen Dateisystem-basierten Architekturen bietet eine All-Flash-Plattform dieser Art nicht nur die Leistung, um anspruchsvolle KI-Workloads zu bewältigen, sondern auch einen unterbrechungsfreien Betrieb und eine hochgradige Betriebszeit. All das wird bereitgestellt auf einem System, das für datenhungrige Modelle problemlos auf Petabytes skaliert werden kann. Dies ist ein bahnbrechender Ansatz für datenintensives Computing. Damit lässt sich eine umfassende Infrastruktur für die Erfassung, Katalogisierung, Verfeinerung, Anreicherung und Aufbewahrung von Daten durch Echtzeit-Tiefenanalyse und Deep Learning aus der Cloud bereitstellen.