Learn

03. August 2023

7 Minuten Lesedauer

Data Lakes: Vorteile, Herausforderungen und Best Practices

Von Tyler York

Ein Data Lake ist ein Daten-Repository für Terabytes oder Petabytes an Rohdaten, die in ihrem ursprünglichen Format gespeichert werden.

Die Daten können aus einer Vielzahl von Datenquellen stammen: IoT- und Sensordaten, einfache Dateien oder BLOBs (Binary Large Objects) wie Video-, Audio-, Bild- oder Multimedia-Dateien. Eine eventuelle Bearbeitung der Daten, um sie in eine Pipeline einzuspeisen und nutzbar zu machen, erfolgt bei der Extraktion der Daten aus dem Data Lake.

Die tagtäglich von Unternehmen generierten, erfassten und genutzten Mengen an Big Data nehmen rasant zu, und da bieten Data Lakes die Möglichkeit, Daten so schnell zu speichern, wie sie eingehen. Data Scientists, die Data Lakes verwenden, setzen Datenmanagement-Tools ein, damit die Datensets bedarfsgerecht für Maßnahmen rund um Datenerkennung, Extraktion, Business Intelligence, Bereinigung und Integration genutzt werden können.

Data Lakes werden mit einfachen Objektspeichermethoden erstellt, um viele verschiedene Datenformate und -typen zu unterstützen. In der Vergangenheit richteten Unternehmen Data Lakes meist lokal ein – und viele tun dies auch heute noch. Eine ganze Reihe von Unternehmen verlagern ihre Data Lakes jedoch auch auf Remote-Server und nutzen Cloud-Speicherlösungen von großen Anbietern wie AWS, Azure oder GCP.

Bei den in einem Data Lake gespeicherten Daten kann es sich um strukturierte, semistrukturierte oder unstrukturierte Daten handeln. Selbst wenn es sich um strukturierte Daten handelt, können Metadaten oder andere Informationen, die an diese Daten angehängt sind, nicht genutzt werden. In einem Data Lake gespeicherte Daten müssen bereinigt, mit Tags versehen und strukturiert werden, bevor sie in Use Cases verwendet werden können. Eine Möglichkeit dafür ist das Befolgen von ETL-Prozessen (Exportieren, Transformieren, Laden), mit denen sich Datenformate für die Extraktion aussagekräftiger Einblicke standardisieren lassen.

In diesem Blogartikel sehen wir uns die Komponenten eines Data Lake an und erläutern, wie Data Lakes eingesetzt werden und welche Vorteile und möglichen Nachteile sie haben. Außerdem beleuchten wir die Zukunftsaussichten von Data Lakes bei der Speicherung und Verwaltung von Unternehmensdaten.

Data Lakes und andere Datenspeicheroptionen im Vergleich

Data Lakes enthalten eine Mischung aus strukturierten, semi-strukturierten und unstrukturierten Daten, die ohne Bereinigung, Tagging oder Bearbeitung gespeichert werden.

Data Warehouses

Ein Data Warehouse enthält nur strukturierte Daten. In den meisten Data Warehouses oder Rechenzentren werden die Daten mit einem ETL-Prozess erfasst. Danach werden sie organisiert („staged“), bereinigt, umgewandelt, katalogisiert und für die Nutzung verfügbar gemacht.

Datenbanken

Datenbanken (einschließlich Datenbankmanagementsysteme) dienen dazu, Daten zu speichern, zu durchsuchen und für Berichte zu verwenden. Im Gegensatz zu Data Lakes erfordern Datenbanken eventuell Schemata und dürfen keine semi- oder unstrukturierten Daten enthalten. Ein Data Lake kann dagegen Rohdaten aus allen Quellen speichern, und die Daten werden erst beim Abrufen strukturiert. Bei der Verwendung eines Data Lake stehen nicht die gleichen Berichtsfunktionen wie bei einer Datenbank zur Verfügung.

Data Lakehouses

Mittlerweile nimmt ein ganz neues Konzept Gestalt an: das Data Lakehouse.

Dabei handelt es sich um eine moderne Datenarchitektur, die die Eigenschaften von Data Lakes und Data Warehouses in sich vereint und bei Unternehmen immer beliebter wird. Ähnlich wie Data Lakes speichern Data Lakehouses Daten in diesen Formaten:

unstrukturiert
semistrukturiert
strukturiert

Gleichzeitig bieten sie aber Data-Warehouse-Funktionen wie:

Datenmanagement
Governance
Datenqualitätskontrolle

Diese Kombination macht Data Lakehouses zu einer praktischen Option für Projekte verschiedenster Art.

Vorteile von Data Lakes

Die Hauptvorteile von Data Lakes sind Geschwindigkeit, Skalierbarkeit und Effizienz.

Angesichts der ständig wachsenden Mengen an herkömmlichen Daten, die von modernen Unternehmen erzeugt, erfasst und gespeichert werden, ist es sehr hilfreich, über ein kostengünstiges Mittel für die schnelle Datenspeicherung zu verfügen und berechtigten Personen bei Bedarf schnell Zugriff auf Daten geben zu können. Je mehr Daten ein Unternehmen speichert, desto mehr kann es von den Vorteilen des Machine Learning und der Predictive Analytics profitieren.

Darüber hinaus können Data Lakes dazu beitragen, Datensilos aufzulösen, die Unternehmen bisher daran gehindert haben, den Wert ihrer Daten zu erkennen. Datentransparenz ermöglicht Einblicke, die die strategische Entscheidungsfindung erleichtern.

Ein Beispiel aus der Praxis: Anhand historischer Vertriebs- und Marketingdaten lässt sich die künftige Performance vorhersagen, und je mehr Daten zur Verfügung stehen – zusammen mit immer besseren Machine-Learning- und Analyse-Tools für Big Data –, desto präziser werden diese Vorhersagen.

Herausforderungen im Zusammenhang mit Data Lakes

Data Lakes haben im Grunde keine wirklichen Nachteile, da ein Data Lake nur eine Ansammlung von Daten für die spätere Nutzung ist. Außerdem werden Data Lakes oft mit anderen Daten-Repositorys kombiniert.

Allerdings erfordern Data Lakes ein gewisses Maß an Pflege, meist durch Fachleute mit Data-Science-Kenntnissen, um sie zu warten und die Daten nutzbar zu machen.

Wenn man also einen Data Lake mit einer strukturierten, relationalen Datenbank vergleicht, dann wirkt der Data Lake vielleicht unorganisiert, wobei dieser Vergleich etwas hinkt.

Bei einem schlecht verwalteten Data Lake spricht man manchmal auch von einem „Datensumpf“. Lässt man einen Data Lake zum Datensumpf werden, verschlechtert sich die Datenqualität, sein Nutzen und sein Wert für das Unternehmen sinken, die Latenzzeit steigt und der Data Lake wird zu einer Belastung für das Unternehmen. Ab einem gewissen Punkt hat ein Datensumpf die gleichen Nachteile und Herausforderungen – einschließlich Opportunitätskosten – wie Dark Data (gespeicherte oder Echtzeitdaten, die ein Unternehmen besitzt, aber nicht finden, identifizieren, optimieren oder nutzen kann).

Best Practices für Data Lakes gegenüber Data-Lake-Plattformen

Wir haben also gesehen, dass ein Data Lake an sich eine Sammlung von Daten ist, die in ihrem nativen Format auf einem Server gespeichert werden, und zwar entweder lokal oder in der Cloud. So weit, so einfach.

Trotzdem ist es wichtig, zu verstehen, warum die Einrichtung eines Data Lakes in einem Unternehmen einen großen Unterschied machen kann. Sehen wir uns daher einige Best Practices an. Diese unterscheiden sich nicht wesentlich von denen für andere größere Technologievorhaben in einem großen Unternehmen:

Setzt euch mit den relevanten Beteiligten zusammen und definiert eure Ziele.
Entwickelt einen Maßnahmenplan und weist die Projektverantwortung zu.
Bewertet die verfügbaren Methoden.
Wählt die beste Server-Architektur für eure Anforderungen.
Entscheidet euch für einen Anbieter.
Stellt sicher, dass die Data-Governance-, Sicherheits- und Datenschutzstandards eures Unternehmens eingehalten werden.

Die Zukunft der Speicherung von Unternehmensdaten

Durch die zunehmende Verbreitung von Machine Learning sind Daten besser verfügbar und können besser genutzt werden, und gleichzeitig ist die Datenextraktion aus Data Lakes deutlich schneller und einfacher geworden. Mit Machine Learning und Data Science gehören Dark Data bald der Vergangenheit an. Je mehr Daten ein Unternehmen hat, desto mehr Informationen stehen seinen Datenanalysesystemen zur Auswertung zur Verfügung. Daten sind eines der wertvollsten Güter eines Unternehmens. Und Data Lakes ermöglichen Unternehmen, dieses Gut auf möglichst effiziente Weise zu erfassen, zu speichern und zu nutzen.

Ihr habt einen Fehler entdeckt oder eine Anregung? Bitte lasst es uns wissen und schreibt eine E-Mail an ssg-blogs@splunk.com.

Dieser Beitrag spiegelt nicht zwingend die Position, Strategie oder Meinung von Splunk wider.

Tyler York

Tyler York is a writer, tech nerd and part of the growth marketing team at Splunk. Armed with an English degree, and a lifetime appointment as his family's IT contact, Tyler is interested in all the ways tech can help us — and even frustrate us.

Über Splunk

Die führenden Unternehmen der Welt vertrauen auf Splunk, einem Unternehmen von Cisco, um ihre digitale Resilienz mit der einheitlichen Sicherheits- und Observability-Plattform, unterstützt durch branchenführende KI, kontinuierlich zu stärken.

Unsere Kunden setzen auf die preisgekrönten Sicherheits- und Observability-Lösungen von Splunk, um die Zuverlässigkeit ihrer komplexen digitalen Umgebungen zu sichern und zu optimieren – in jeder Größenordnung.

Erfahren Sie mehr über Splunk

Den Splunk-Blog abonnieren

Die neuesten Artikel von Splunk, direkt im eigenen Posteingang.

Jetzt registrieren

Auf X mit Splunk vernetzen

@Splunk folgen

Auf Instagram mit Splunk vernetzen