DATA INSIDER

Qu’est-ce qu’un lac de données ?

Un lac de données, ou data lake en anglais, est un dépôt destiné à accueillir de grandes quantités de données brutes stockées dans leur format d’origine. Le terme a été inventé par James Dixon, alors Directeur de la technologie chez Pentaho.

Avec la croissance rapide des quantités de big data générées, assimilées et utilisées quotidiennement par les entreprises, les lacs de données offrent la possibilité de stocker les données au rythme où elles arrivent. Les data scientists qui utilisent des lacs de données s’appuient sur des outils de gestion pour rendre les ensembles de données utilisables à la demande. Ils peuvent ainsi être exploités dans des initiatives axées sur la découverte et l’extraction d’informations, la business intelligence, et le nettoyage et l’intégration des données au moment de la recherche.

Dans notre article, nous allons voir les composants d’un lac de données, comment ils sont utilisés, quels sont leurs avantages et leurs inconvénients potentiels, et quel est l’avenir des lacs de données dans le stockage et la gestion des données d’entreprise.

Qu’est-ce qu’un lac de données ? | Sommaire

james-dixon-image

C’est James Dixon, ancien Directeur technique de Pentaho, qui a inventé le terme « lac de données ».

Comment les données sont-elles stockées dans un lac de données ?

Un lac de données est un référentiel contenant des téraoctets ou des pétaoctets de données dans leur format brut, sans tri ni indexation. Les données peuvent provenir de diverses sources : IoT et capteurs, simple fichier ou un objet binaire volumineux (BLOB) tel qu’un fichier vidéo, audio, image ou multimédia. Toute manipulation des données visant à les mettre dans un pipeline et à les rendre utilisables est effectuée au moment où les données sont extraites du lac.

Qu’est-ce que l’architecture des lacs de données ? Un lac de données regroupe-t-il des données structurées ou non structurées ?

Les lacs de données sont construits à l’aide de méthodes simples de stockage d’objets pour héberger de nombreux formats et types de données différents. Les organisations construisaient traditionnellement des lacs de données sur site, et beaucoup le font encore. Mais beaucoup les migrent vers des serveurs distants en utilisant les solutions de stockage cloud de grands fournisseurs tels qu’AWS et Microsoft, ou un système de fichiers distribué comme Apache Hadoop.

Les données stockées dans un lac de données peuvent être structurées, semi-structurées ou non structurées. Même s’il s’agit de données structurées, les métadonnées et autres informations qui y sont ajoutées ne sont pas utilisables. Les données d’un lac de données doivent être nettoyées, étiquetées et structurées avant de pouvoir être appliquées à des scénarios d’utilisation. Ces fonctions sont exécutées au moment où les données sont extraites du lac pour être exploitées.

Comment développer une plateforme de lac de données ?

En soi, un lac de données est une collection de données stockées dans leur format natif sur un serveur, local ou cloud. Il ne semble pas y avoir de définition commune de ce qu’est une plateforme de lac de données, mais elle englobe les services auxiliaires nécessaires pour gérer les serveurs, fournir des services de sécurité et de stockage, et rendre les données disponibles pour l’extraction et l’utilisation. En d’autres termes, le lac de données peut désigner les données elles-mêmes, et la plateforme du lac, désigner les serveurs, autres équipements, matériels et logiciels utilisés pour l’exploiter et l’entretenir.

La plupart du temps, les bonnes pratiques recommandées pour le développement d’un lac de données sont celles qui s’appliquent à toute initiative technologique majeure dans une grande organisation :

1. Réunissez les parties prenantes concernées et décidez de vos objectifs.

2. Élaborez un plan d’action et attribuez la responsabilité du projet.

3. Évaluez les méthodes disponibles.

4. Sélectionnez la meilleure architecture de serveur pour vos besoins.

5. Choisissez un fournisseur.

6. Assurez le respect des normes de gouvernance, de sécurité et de confidentialité des données de votre entreprise.

Quelle est la différence entre un entrepôt de données et un lac de données ?

Un lac de données peut contenir un mélange de données structurées, semi-structurées et non structurées, tandis qu’un entrepôt de données ne contient que des données structurées. Dans la plupart des entrepôts ou centres de données, les données ont été importées via un processus d’extraction, de transformation et de chargement (ETL). Elles sont ensuite organisées (préparées), nettoyées, transformées, cataloguées et mises à disposition.

structured-data

Les lacs de données contiennent un mélange de données structurées, semi-structurées et non structurées, stockées sans avoir été nettoyées, étiquetées ni manipulées.

Quelle est la différence entre une base de données et un lac de données ?

Une base de données (ou un système de gestion de base de données) permet de stocker des données, de les interroger et de produire des rapports. Contrairement aux lacs de données, les bases de données nécessitent souvent des schémas et ne peuvent pas contenir de données semi-structurées ou non structurées. D’autre part, un lac de données peut stocker des données brutes provenant de tout type de sources, et la structure n’est appliquée aux données que lorsqu’elles sont récupérées. L’utilisation d’un lac de données n’offre pas les mêmes capacités de création de rapports qu’une base de données.

Quelle est la différence entre un lac de données et le cloud ?

Un lac de données est une collecte de données. Il peut être hébergé sur un serveur dans les locaux d’une entreprise ou dans un système de stockage cloud. Le cloud, ou services cloud, fait référence à la pratique consistant à stocker des données et des applications sur des serveurs distants. Le lac de données est souvent stocké dans le cloud, auquel cas on parle de lac de données cloud (ou data lake cloud).

Quel est le lien entre SQL/NoSQL et les lacs de données ?

SQL (langage de requête structuré) est un langage de programmation utilisé pour gérer les bases de données relationnelles, conjointement à NoSQL, qui est un langage différent défini comme non SQL ou non relationnel. Comme les lacs de données stockent des données non structurées, ni SQL ni NoSQL ne peuvent être utilisés. Au moment de l’extraction des données, selon le réseau de données de l’organisation, SQL ou NoSQL peuvent permettre de préparer les données en vue de leur ajout à une base de données.

Comment un lac de données est-il utilisé dans l’entreprise ?

On répète sans cesse aux entreprises que les données sont leur actif le plus précieux. Le machine learning et d’autres techniques d’analyse avancées offrent aux administrateurs un accès simplifié à de puissants outils. Ils peuvent ainsi extraire des informations à partir des données historiques d’une entreprise et les utiliser pour prédire des résultats futurs, pour la protéger contre les menaces externes présentes sur ses réseaux, pour trouver des moyens de rationaliser et d’optimiser les charges de travail, ou pour préserver le bon fonctionnement des réseaux. Les données historiques des ventes et du marketing peuvent être utilisées pour prédire les performances futures. Avec l’arrivée de données supplémentaires et l’apparition d’outils de machine learning et d’analyse big data plus sophistiqués, ces prévisions deviennent progressivement plus précises. Pour exploiter tout le potentiel du machine learning et des analyses prédictives, les organisations doivent pouvoir stocker et consulter autant de données que possible.

Les lacs de données, comme celui d’Azure, offrent à une entreprise en pleine croissance l’environnement idéal pour stocker les données potentiellement utiles, sans les retards, les efforts ni les dépenses liés à leur nettoyage et leur organisation. En raison de leur simplicité, les lacs de données sont également beaucoup plus évolutifs que les stockages de données structurées. Les lacs de données comptent parmi les outils les plus importants dont disposent les entreprises pour exploiter tout le potentiel de leurs données.

Quels sont les avantages des lacs de données ?

Les principaux avantages d’un lac de données sont sa vitesse, son évolutivité et son efficacité. Face à l’augmentation constante des données traditionnelles créées, ingérées et stockées par une entreprise moderne, il est essentiel de disposer d’un moyen peu coûteux de stocker rapidement les données en permettant à quiconque d’y accéder sur demande, sans délai.

Les lacs de données sont des référentiels de données ou de vastes dépôts d’informations qui ne sont pas nécessairement accompagnées de métadonnées, mais qui permettent d’effectuer des recherches à la demande, notamment à des fins de découverte, de traitement, d’importation, d’extraction, d’intégration et de nettoyage des données.

Les lacs de données peuvent également décloisonner les silos qui empêchent traditionnellement les entreprises de concrétiser la valeur de leurs données. Imaginez que vous puissiez emporter n’importe quel objet du quotidien (polices d’assurance, clés de maison, passeport ou sac de sport) et le déposer dans une boîte. Imaginez maintenant qu’au moment où vous avez besoin d’un objet particulier, il suffise de mettre votre main dans la boîte pour le récupérer immédiatement. Les lacs de données fonctionnent à peu près de la même manière, grâce aux capacités de recherche à la demande rendues possibles par le machine learning.

Quels sont les inconvénients des lacs de données ?

Les lacs de données ne présentent aucun inconvénient car ils ne sont que des accumulations de données en attente d’utilisation. Cela dit, la maintenance des lacs de données nécessite l’appui de professionnels ayant une expertise en science des données, qui ont également pour mission de rendre les données utiles. En d’autres termes, comparé à une base de données relationnelle structurée, le lac de données peut sembler désorganisé, mais la comparaison n’est pas forcément juste ni exacte.

Lorsqu’il n’est pas géré correctement, le lac de données est parfois qualifié de « marécage de données ». Un lac de données bien géré n’offre que des avantages, mais dans un marécage de données, la qualité des données se dégrade, tout comme leur utilité et leur valeur pour l’entreprise. La latence augmente et devient un handicap. Il finit alors par présenter les mêmes inconvénients, défis et coûts en opportunités non réalisées que les dark data (qui sont les données en temps réel qu’une entreprise possède mais ne peut pas localiser, identifier, optimiser ni utiliser).

Quel est l’avenir des lacs de données ?

data-analysis-inset-image

Les lacs de données nécessitent l’appui d’analystes qui vont aider l’entreprise à concrétiser la valeur potentielle des données. 

L’avenir des lacs de données reflète l’avenir des données elles-mêmes. La quantité de données générées, requises et utilisées par les organisations augmente constamment, entraînant en parallèle la croissance des besoins en stockage. Contrairement aux bases de données ou aux entrepôts de données, les lacs de données permettent de stocker rapidement et efficacement les données qui peuvent leur être utiles aujourd’hui ou demain.

Qu’est-ce que Splunk ?

 

Pour résumer : les lacs de données sont essentiels pour l’avenir du stockage des données d’entreprise

Le développement du machine learning offre de nouveaux moyens d’accéder aux données et de les utiliser, et il est désormais bien plus facile d’extraire rapidement des données d’un lac. Grâce au machine learning et à la science des données, les dark data pourraient définitivement sortir de l’ombre, et plus une organisation possède de données, plus ses systèmes d’analyse de données peuvent en tirer des enseignements. Les données sont l’un des actifs les plus précieux d’une entreprise. Et les lacs de données lui offrent la possibilité de capturer, de stocker et d’utiliser ces actifs de la manière la plus efficace qui soit.