Data Lake

2 minute read

Ein Data Lake ist ein System, in welchem sehr große Datenmengen (Big Data), aus unterschiedlichen Quellen, im Rohdatenformat abgelegt sind.

Demnach können die gespeicherten Daten sowohl strukturiert (Bsp. text- oder zahlenbasierte CSV- oder XML Dateien) als auch unstrukturiert (Bsp. Emails, Bilder, PDFs, Ton- oder Videoaufnahmen) sein.

Die enthaltenen Daten müssen demnach nicht vorab validiert oder umformatiert werden, im Gegensatz zu normalen Datenbanken, werden alle Daten in Ihrem Ursprungsformat gespeichert. Erst bei Nutzung der Daten erfolgt ggf. eine Formatierung und Strukturierung.

Ein Data Lake kann so als Gesamtspeicher für alle Unternehmensdaten verwendet werden und dient somit als Grundlage für Big Data Analysen.

Anforderungsorientiert betrachtet muss der Data Lake demnach verschiedene Grundfunktionen bieten:

  • Zunächst muss es möglich sein Daten in unterschiedlichsten Formaten, egal ob strukturiert oder unstrukturiert abzulegen. Eine dezentrale Datenablage wird so vermieden.
  • Ferner muss ein Data Lake gängige Frameworks und Protokolle der Datenbanksysteme und -anwendungen unterstützen, um eine Auswertung mittels Big Data Analysemethoden zu ermöglichen.
  • Der Zugriff auf die Daten muss durch eine Kontrolle, den Vorgaben des Datenschutzes und der Datensicherheit, entsprechen. Dies kann u.a. durch eine Verschlüsselung der Daten erfolgen.
  • Zusätzlich müssen Sicherungsmechanismen zur Wiederherstellung der Daten vorgewiesen werden können.