ArtikelDatenverarbeitung/Big Data

Dezentral statt zentral: Warum Data Mesh etablierte Data Repositories ablösen wird

Autorin/Redakteur: Adriana Calomfirescu, Group Head of Data Delivery bei Endava/gg

Mit Data Mesh scheint sich bei der Datenspeicherung und -verarbeitung ein Paradigmenwechsel anzubahnen. Statt zentraler Data Repositories, wie Data Warehouses oder Data Lakes, könnten Unternehmen in Zukunft auf eine verteilte Datenarchitektur setzen, um endlich das volle Potenzial ihrer Daten ausschöpfen zu können. Dieser Artikel erklärt die Grundsätze dieses neuen Datenarchitekturkonzepts, welche Vorteile es bietet und was bei der Entscheidung, ob es zu einem Unternehmen passt, zu beachten ist.

Bild: Endava

„Daten sind das neue Öl“ – dieses Zitat des britischen Mathematikers Clive Humby ist mittlerweile über 15 Jahre alt und die meisten Unternehmen haben seitdem die Bedeutung seiner Worte durchaus erkannt: Sie versuchen, das Potenzial ihrer Daten zu nutzen. Dafür sammeln sie immer größere Datenbestände in zentralen Datenspeichern, die dort bereinigt und aufbereitet werden, damit sie im Anschluss als qualitativ hochwertige Daten weiterverarbeitet werden können.

Die Daten stammen dabei aus internen operativen und transaktionalen Systemen und Domänen, die für den Geschäftsbetrieb essenziell sind. Aber auch Daten aus externen Quellen, die Unternehmen zusätzliche Informationen bieten, werden in das Data Warehouse oder den Data Lake eingespeist.

Die Datenmengen werden für Data Repositories zum Problem

Unternehmen stoßen bei dieser monolithischen Datenplattform-Architektur jedoch langsam an Grenzen – und erreichen oft gar nicht erst die gewünschten Ergebnisse. Sie stehen vor der Herausforderung, ihre immer größer werdenden Datenmengen zu kontrollieren und harmonisieren, um ihr volles Potenzial zu entfalten. Zudem kostet dieser Prozess Zeit und Geld. Daher ist ihre Fähigkeit eingeschränkt, flexibel und schnell auf die steigende Anzahl an internen und externen Datenquellen zu reagieren und diese mit ihren Daten zu verbinden.

Darüber hinaus lässt sich die Herkunft von Daten in diesen Speichern oft nicht vollständig nachvollziehen, also beispielsweise: Aus welchem System stammen sie ursprünglich? Durch welche weiteren Systeme sind sie gewandert? Wann wurden sie wie verändert und von wem? Diese Informationen sind wichtig, um eine hohe Qualität der Daten sicherstellen zu können. Jedoch werden sie aufgrund der großen Datenmengen, die im Repository landen – als auch aufgrund der Geschwindigkeit, mit der sich die Daten verändern – manchmal vernachlässigt und nicht vollständig nachverfolgt und verzeichnet. Dies führt in der Regel dazu, dass kleine und mittelständische Unternehmen (KMUs), die mit den Daten arbeiten sollen, diese nur zögerlich nutzen.

Infolgedessen fällt es Unternehmen schwer, aus ihren Daten aussagekräftige Insights zu generieren und neue Use Cases – etwa neue Produkte oder Services für ihre Kunden – zu identifizieren. Zudem braucht es Zeit, die Daten zu transformieren und für Kunden aufzubereiten. Das ist vor allem dann der Fall, wenn ein Unternehmen nicht genügend Data Scientists oder Engineers beschäftigt, die genau wissen, wie die Daten verarbeitet werden müssen, um ihren Zweck zu erfüllen. Während eines akuten IT-Fachkräftemangels ist das leider nicht unwahrscheinlich.

Mehr aus den Daten herausholen

Mit dem Data-Mesh-Konzept wird versucht, sich diesen Herausforderungen zu stellen, indem Daten als Produkt verwaltet werden. Dabei werden die Daten nicht länger in einem zentralen Data Repository zusammengeführt, sondern als Data Domains strukturiert, mit Data Owners versehen und ordnungsgemäß katalogisiert, damit jeder im Unternehmen einfach auf die Metadaten zugreifen kann. Das Team gilt als Data Owner und muss seine Daten so aufbereiten, dass andere Datenkonsumenten im Unternehmen mit den Datenprodukten zufrieden sind und sie problemlos über Self-Service-Optionen verwenden können. Um dies zu erreichen, müssen sie bei der Erstellung und Verwaltung ihrer Datenprodukte eine Reihe von Grundsätzen erfüllen, zum Beispiel Datenintegrität, Auffindbarkeit, Selbstbeschreibung und Interoperabilität. Dies steigert das Vertrauen der Konsumenten in die Produkte.