DATA INSIDER

Was ist ein Data Lake?

Ein Data Lake ist ein Daten-Repository für große Mengen von Rohdaten, die in ihrem ursprünglichen Format gespeichert werden. Geprägt wurde der Begriff von James Dixon, damals Chief Technology Officer von Pentaho.

Die tagtäglich von Unternehmen generierten, erfassten und genutzten Mengen an Big Data nehmen rasant zu, und da bieten Data Lakes die Möglichkeit, Daten so schnell zu speichern, wie sie eingehen. Data Scientists, die Data Lakes verwenden, setzen Datenmanagement-Tools ein, damit die Datensets zum Zeitpunkt der Suche On-Demand für Maßnahmen rund um Datenerkennung, Extraktion, Business Intelligence, Bereinigung und Integration genutzt werden können.

Im folgenden Artikel sehen wir uns die Komponenten eines Data Lake an und erläutern, wie Data Lakes eingesetzt werden und welche Vorteile und möglichen Nachteile sie haben. Außerdem beleuchten wir die Zukunftsaussichten von Data Lakes bei der Speicherung und Verwaltung von Unternehmensdaten.

Was ist ein Data Lake? | Inhalt

james-dixon-image

James Dixon, ehemals CTO bei Pentaho CTO, prägte den Begriff „Data Lake“.

Wie werden Daten in einem Data Lake gespeichert?

Ein Data Lake ist ein Repository für Tera- oder Petabytes an Daten im Rohformat ohne Sortierung oder Indizierung. Die Daten können aus einer Vielzahl von Datenquellen stammen: IoT- und Sensordaten, einfache Dateien oder BLOBs (Binary Large Objects) wie Video-, Audio-, Bild- oder Multimedia-Dateien. Eine eventuelle Bearbeitung der Daten, um sie in eine Pipeline einzuspeisen und nutzbar zu machen, erfolgt bei der Extraktion der Daten aus dem Data Lake.

Was ist die Data Lake-Architektur? Besteht ein Data Lake aus strukturierten oder unstrukturierten Daten?

Data Lakes werden mit einfachen Objektspeichermethoden erstellt, um viele verschiedene Datenformate und -typen zu unterstützen. In der Vergangenheit haben Unternehmen Data Lakes meist lokal eingerichtet – und viele tun dies auch heute noch. Eine ganze Reihe von Unternehmen verlagern ihre Data Lakes jedoch auch auf Remote-Server und nutzen Cloud-Speicherlösungen von großen Anbietern wie AWS und Microsoft oder ein verteiltes Dateisystem wie Apache Hadoop.

Bei den in einem Data Lake gespeicherten Daten kann es sich um strukturierte, semi-strukturierte oder unstrukturierte Daten handeln. Selbst wenn es sich um strukturierte Daten handelt, können Metadaten oder andere Informationen, die an diese Daten angehängt sind, nicht genutzt werden. In einem Data Lake gespeicherte Daten müssen bereinigt, mit Tags versehen und strukturiert werden, bevor sie in Use Cases verwendet werden können. Diese Aufgaben werden durchgeführt, wenn die Daten aus dem Data Lake extrahiert werden, um sie für die Nutzung vorzubereiten.

Wie entwickle ich eine Data Lake-Plattform?

Ein Data Lake an sich ist eine Sammlung von Daten, die in ihrem nativen Format auf einem Server gespeichert sind, und zwar entweder lokal oder in der Cloud. Es gibt zwar keine allgemein akzeptierte Definition für den Begriff „Data Lake-Plattform“, doch es sind zusätzliche Services notwendig, um die Server zu verwalten, Sicherheits- und Speicherservices bereitzustellen und die Daten für die Extraktion und Nutzung verfügbar zu machen. In anderen Worten: Bei einem Data Lake kann es sich um die eigentlichen Daten handeln und auch um die Data Lake-Plattform aus Servern, anderen Geräten, Hardware und Software, die für den Betrieb und die Wartung des Data Lake verwendet wird.

Die Best Practices für die Entwicklung eines Data Lake klingen bei den meisten Leitfäden zu diesem Thema wie Best Practices für jedes größere Technologievorhaben in einem großen Unternehmen:

1. Setzen Sie sich mit den relevanten Beteiligten zusammen und definieren Sie Ihre Ziele.

2. Entwickeln Sie einen Aktionsplan und weisen Sie die Projektverantwortung zu.

3. Bewerten Sie die verfügbaren Methoden.

4. Wählen Sie die beste Server-Architektur für Ihre Anforderungen.

5. Entscheiden Sie sich für einen Anbieter.

6. Stellen Sie sicher, dass die Data Governance-, Sicherheits- und Datenschutzstandards Ihres Unternehmens eingehalten werden.

Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

Ein Data Lake kann eine Mischung aus strukturierten, semi-strukturierten und unstrukturierten Daten enthalten, während ein Data Warehouse nur strukturierte Daten enthält. In den meisten Data Warehouses oder Rechenzentren werden die Daten mit einem ETL-Prozess (Extrahieren, Transformieren und Laden) erfasst. Danach werden sie organisiert (staged), bereinigt, umgewandelt, katalogisiert und für die Nutzung verfügbar gemacht.

structured-data

Data Lakes enthalten eine Mischung aus strukturierten, semi-strukturierten und unstrukturierten Daten, die ohne Bereinigung, Tagging oder Bearbeitung gespeichert werden.

Was ist der Unterschied zwischen einer Datenbank und einem Data Lake?

Eine Datenbank (einschließlich eines Datenbankmanagementsystems) dient dazu, Daten zu speichern, zu durchsuchen und für Berichte zu verwenden. Im Gegensatz zu Data Lakes erfordern Datenbanken eventuell Schemata und dürfen keine semi- oder unstrukturierten Daten enthalten. Ein Data Lake kann dagegen Rohdaten aus allen Quellen speichern, und die Daten werden erst beim Abrufen strukturiert. Bei der Verwendung eines Data Lake stehen nicht die gleichen Berichtsfunktionen wie bei einer Datenbank zur Verfügung.

Was ist der Unterschied zwischen einem Data Lake und der Cloud?

Bei einem Data Lake handelt es sich um eine Sammlung von Daten, die auf einem lokalen Server eines Unternehmens oder in einem Cloud-basierten Speichersystem gehostet werden kann. Die Cloud oder die Cloud-Services bezeichnen die Methode der Speicherung von Daten und Anwendungen auf Remote-Servern. Man spricht oftmals von Cloud Data Lakes, da Data Lakes häufig auf Cloud-basierten Servern gespeichert werden.

In welchem Zusammenhang stehen SQL und NoSQL mit einem Data Lake?

SQL (Structured Query Language) ist eine Programmiersprache für die Verwaltung relationaler Datenbanken. NoSQL ist eine weitere Programmiersprache, die als non-SQL oder nicht-relational definiert ist. Da Data Lakes unstrukturierte Daten speichern, werden weder SQL noch NoSQL auf die in einem Data Lake gespeicherten Daten angewandt. Beim Extrahieren der Daten kann abhängig vom Datennetzwerk des Unternehmens SQL oder NoSQL verwendet werden, um die Daten für die Verwendung in einer Datenbank vorzubereiten.

Wie wird ein Data Lake im Unternehmen genutzt?

Unternehmen wird ständig gepredigt, dass Daten ihr wertvollstes Gut sind. Machine Learning und andere leistungsfähige Analysen bieten Administratoren eine Self-Service-Möglichkeit, mit der sie anhand der historischen Daten eines Unternehmens Erkenntnisse gewinnen und zur Vorhersage künftiger Ergebnisse nutzen können. Ihr Ziel ist es, das Unternehmen vor externen Bedrohungen für seine Netzwerke zu schützen, Möglichkeiten zur Rationalisierung und Optimierung von Workloads zu finden oder Netzwerke am Laufen zu halten. Historische Vertriebs- und Marketingdaten können für Prognosen der künftigen Performance herangezogen werden, und je mehr Daten zur Verfügung stehen und je leistungsfähiger die Tools für Machine Learning und Big Data-Analysen sind, desto genauer werden diese Vorhersagen. Damit sie die Vorteile von Machine Learning und Predictive Analytics nutzen können, müssen Unternehmen so viele Daten wie möglich speichern und verfügbar haben.

Data Lakes, wie z. B. ein Azure Data Lake, bieten die ideale Umgebung für ein wachsendes Unternehmen, um für nützlich erachtete Daten zu speichern, ohne dass zuerst Zeit, Arbeit und Kosten für die Bereinigung und Organisation der Daten aufgewendet werden müssen. Aufgrund ihrer einfachen Nutzung lassen sich Data Lakes auch viel leichter skalieren als strukturierte Datenspeicher. Data Lakes sind eines der wichtigsten Tools, mit denen Unternehmen größtmöglichen Nutzen aus ihren Daten ziehen.

Welche Vorteile hat die Verwendung eines Data Lake?

Die Hauptvorteile von Data Lakes sind Geschwindigkeit, Skalierbarkeit und Effizienz. Angesichts der ständig wachsenden Mengen an herkömmlichen Daten, die von einem modernen Unternehmen erzeugt, erfasst und gespeichert werden, ist es sehr hilfreich, über ein kostengünstiges Mittel für die schnelle Datenspeicherung zu verfügen und berechtigten Personen bei Bedarf schnell Zugriff auf Daten geben zu können.

Data Lakes sind Daten-Repositorys oder riesige Datenspeicher, die vielleicht keine Metadaten enthalten, aber gleichzeitig eine On-Demand-Suche ermöglichen, einschließlich Datenermittlung, Datenverarbeitung, Datenerfassung und -extraktion, Datenintegration und -bereinigung.

Darüber hinaus können Data Lakes dazu beitragen, Datensilos aufzulösen, die Unternehmen bisher daran gehindert haben, den Wert ihrer Daten zu erkennen. Stellen Sie sich vor, Sie könnten jeden Alltagsgegenstand – von Versicherungspolicen über Hausschlüssel und Reisepass bis hin zur Sporttasche – in eine Kiste legen. Stellen Sie sich weiter vor, dass Sie in dem Moment, in dem Sie einen bestimmten Gegenstand benötigen, einfach in die Kiste greifen und ihn sofort wiederfinden. Data Lakes funktionieren ganz ähnlich, und zwar dank der On-Demand-Suchfunktionen, die durch Machine Learning möglich werden.

Welche Nachteile hat die Verwendung eines Data Lake?

Data Lakes haben keine Nachteile, da ein Data Lake nur eine Ansammlung von Daten ist, die darauf warten, genutzt zu werden. Allerdings erfordern Data Lakes ein gewisses Maß an Pflege, meist durch Fachleute mit Data Science-Kenntnissen, um sie zu warten und die Daten nutzbar zu machen. Wenn man also einen Data Lake mit einer strukturierten, relationalen Datenbank vergleicht, dann scheint der Data Lake unorganisiert zu sein, obwohl das nicht unbedingt ein fairer oder treffender Vergleich ist.

Bei einem schlecht verwalteten Data Lake spricht man manchmal auch von „Datensumpf“. Ein gut verwalteter Data Lake hat keine Nachteile, doch wenn man ihn zum Datensumpf werden lässt, verschlechtert sich die Datenqualität, sein Nutzen und Wert für das Unternehmen sinken, die Latenzzeit steigt und der Data Lake wird zu einer Belastung für das Unternehmen. Ab einem gewissen Punkt hat ein Datensumpf die gleichen Nachteile und Herausforderungen – sowie Opportunity-Kosten – wie Dark Data (gespeicherte oder Echtzeitdaten, die ein Unternehmen besitzt, aber nicht finden, identifizieren, optimieren oder nutzen kann).

Die Zukunft von Data Lakes

data-analysis-inset-image

Data Lakes erfordern Support durch Analysten, die dem Unternehmen helfen, den potenziellen Wert der Daten zu erkennen. 

Die Zukunft von Data Lakes spiegelt die Zukunft von Daten als solche wider. Da die Menge der von Unternehmen erzeugten, benötigten und genutzten Daten immer schneller wächst, steigt auch die Notwendigkeit, große Datenmengen zu speichern, rasant. Im Gegensatz zu Datenbanken oder Data Warehouses können Unternehmen mit Data Lakes Daten schnell und effizient speichern, die sie für jetzt oder die Zukunft für nützlich halten.

Was ist Splunk?

 

Fazit: Data Lakes sind ein wichtiger Faktor für die Zukunft der Datenspeicherung in Unternehmen

Durch die zunehmende Verbreitung von Machine Learning sind Daten besser verfügbar und können besser genutzt werden, und gleichzeitig ist die Datenextraktion aus Data Lakes deutlich schneller und einfacher geworden. Mit Machine Learning und Data Science gehören Dark Data bald der Vergangenheit an. Je mehr Daten ein Unternehmen hat, desto mehr Informationen stehen seinen Datenanalysesystemen zur Auswertung zur Verfügung. Daten sind eines der wertvollsten Güter eines Unternehmens. Und Data Lakes ermöglichen Unternehmen, dieses Gut auf möglichst effiziente Weise zu erfassen, zu speichern und zu nutzen.