Le dictionnaire de données est un outil précieux pour toute entreprise axée sur les données, mais son élaboration paraît souvent complexe et pénible. Il ne s’agit pas seulement de comprendre ce qu’est un dictionnaire de données : il faut aussi savoir de quoi il se compose, quels sont ses avantages et comment en créer un.
Dans cet article, nous abordons tous les aspects des dictionnaires de données, de A à Z, pour que vous compreniez parfaitement leur utilité.
Suivez le guide !
Un dictionnaire de données est un référentiel structuré de métadonnées qui fournit une description complète des données utilisées.
Les dictionnaires de données sont apparus dès les années 60 pour gérer les bases de données. Simples catalogues de fichiers au départ, les dictionnaires ont évolué pour devenir des référentiels de métadonnées englobants, compatibles avec les pratiques modernes d’analyse et de gouvernance des données.
Aujourd’hui, un dictionnaire de données a pour principal objectif de fournir un langage commun et une vision homogène :
Pour faire simple, un dictionnaire de données apporte du contexte et des informations supplémentaires sur chaque point de données, pour aider les analystes à mieux les comprendre.
Avant de passer à la suite, faisons le point sur les nuances de quelques termes : dictionnaires de données, catalogues de données et glossaires d’entreprise. Tous ces outils sont très importants pour gérer et comprendre les données.
Dictionnaire de données | Catalogue de données | Glossaire d’entreprise | |
---|---|---|---|
Le champ d’action | Se concentre essentiellement sur les informations techniques des données | S’intéresse au contexte plus large des actifs de données | Recense les termes et les définitions en lien avec les activités de l’entreprise |
Public cible | Essentiellement les utilisateurs techniques, comme les développeurs et les analystes de données | Les utilisateurs non techniques (analystes métiers, data scientists) comme les utilisateurs techniques | Employés et acteurs métiers |
Objectif | Fournit des définitions détaillées des données à l’utilisateur | Fournit des fonctions de gestion et de découverte des données | Communique les concepts de l’entreprise de façon cohérente |
On peut classer les dictionnaires de données en deux grandes catégories : actifs et passifs.
Un dictionnaire de données actif est un document qui doit être actualisé à chaque fois que des modifications sont apportées à la base de données.
Généralement géré par le département informatique, ce type de dictionnaire de données fournit des définitions à jour pour chaque élément de données d’une base ou d’un système. Cette forme de dictionnaire de données apporte une protection active contre les incohérences et l’altération de l’intégrité des données.
Un dictionnaire de données passif est généralement un document statique mis à jour manuellement, sans lien avec un système ou une base de données. Ce type de dictionnaire est généralement utilisé à des fins de référence, par exemple dans les projets d’analyse, pour aider les analystes à comprendre le sens des différents points de données et leurs relations.
Comme les dictionnaires de données passifs ne sont pas automatiquement créés par une base de données, ils deviennent rapidement incohérents lorsque les données changent. Mais dans la mesure où ces documents statiques ne sont utilisés qu’à titre de référence par les analystes, ils restent utiles pour communiquer rapidement sur une base ponctuelle.
Quand je travaillais comme analyste de données, j’ai eu pour mission de créer et maintenir un dictionnaire passif de base, que j’ai partagé avec mes collègues analystes. Il n’était pas infaillible, mais il apportait une clarté bienvenue aux analyses exploratoires visant à mieux comprendre les données.
Un dictionnaire de données peut être décomposé en plusieurs éléments de base :
Cette liste n’est qu’une sélection des composants courants d’un dictionnaire de données. Chaque dictionnaire de données est unique et répond aux besoins de l’entreprise.
La création d’un dictionnaire de données demande des efforts ; voyons donc les avantages que vous tirerez d’un dictionnaire détaillé.
Un dictionnaire de données bien conçu aide tous les acteurs à communiquer efficacement en offrant un langage commun et une image homogène des données de votre organisation. Il évite ainsi les problèmes de communication et d’interprétation des données, car toutes les parties prenantes peuvent se référer au même document lorsqu’elles travaillent avec différents types de données.
Le dictionnaire de données fournit une définition officielle des données et contribue à assurer la précision et la cohérence de votre base de données.
Il améliore la qualité globale de votre base de données et permet ainsi d’obtenir des informations fiables et utiles en effectuant des analyses.
Une fois défini, le dictionnaire de données facilite la maintenance de votre base de données et le suivi des modifications. C’est particulièrement utile lorsque vous devez ajouter de nouveaux éléments de données ou en mettre certains à jour, car le dictionnaire peut être utilisé comme référence permettant à tous de comprendre les changements.
Un dictionnaire de données bien indexé permet de trouver facilement les éléments dont vous avez besoin.
Parce qu’ils n’ont plus besoin de parcourir à la main une base de données complète, les analystes gagnent du temps lorsqu’ils cherchent des informations spécifiques.
(À lire également : Fonctionnement de la recherche fédérée.)
Pour créer un dictionnaire de données, suivez ces cinq étapes :
Commencez par dresser la liste des différents éléments de votre base de données. Recueillez des informations sur chacun d’eux :
Documentez ensuite la structure de votre base de données pour comprendre en quoi elle connecte les différents éléments de données entre eux. Établissez la liste de toutes les relations qui les unissent pour avoir une image claire de l’ensemble de la base. (Découvrez comment les CMDB peuvent informer cette étape.)
Définissez la fonction, la valeur de domaine et tout autre aspect de chaque élément de données. Vous veillerez ainsi à ce que toutes les parties prenantes en aient une image commune.
Les règles de validation contribuent à l’exactitude des entrées de la base de données : pensez à les documenter dans votre dictionnaire de données.
Vous devez tenir le dictionnaire de données à jour en intégrant toute modification apportée à la base de données. Il est donc crucial qu’une personne soit désignée responsable de la supervision et de la mise à jour.
Voici les utilisateurs qui peuvent mettre à jour un dictionnaire de données :
(Découvrez les concepts de supervision continue et de supervision à des fins d’observabilité.)
Passons en revue les applications des dictionnaires de données dans différents domaines.
Pour mieux comprendre comment structurer votre dictionnaire de données, vous pouvez vous inspirer des exemples suivants.
Ce dictionnaire de données de MicroStrategy contient un large éventail de métriques de performance et d’objets liés à l’Intelligence Server. Il comprend des définitions pour chaque métrique, ainsi que des notes et des explications permettant de mieux les comprendre.
Le dictionnaire de données intitulé « STG_CT_DEVICE_STATS », par exemple, contient des données sur le client mobile et le dispositif mobile.
Dans cet exemple, l’entrée comprend le nom de l’élément de données, sa description et le type de données.
Le Dictionnaire des données d’étude sur l’emploi du temps des Américains (ATUS) du Bureau des statistiques du travail des États-Unis décrit les différents éléments de données employés dans l’enquête. Il aide les chercheurs à mieux comprendre la façon dont les variables sont codées et ce que signifie chaque élément.
Par exemple, dans le dictionnaire des données d’entretien ATUS 2021, la variable « TRTEC » a pour description « Temps total (en minutes) consacré aux soins d’une personne âgée ». L’entrée comprend également des règles de validation : une « valeur min. » de 0 et une « valeur max. » de 1440.
Maintenant que nous avons vu les bases, abordons quelques sujets connexes.
Le dictionnaire de données apporte des informations supplémentaires sur les éléments de données et leurs relations au sein de la base, facilitant ainsi leur interprétation et leur gestion.
(Découvrez différentes bases de données : SQL et NoSQL.)
Non, un dictionnaire de données n’est pas un schéma. Un schéma désigne la structure et l’organisation de la base de données, tandis qu’un dictionnaire de données fournit des informations supplémentaires sur chaque élément de la base.
Le schéma décrit les tables et leurs relations. De son côté, le dictionnaire de données détaille la signification de chaque élément et les usages qu’on peut en faire.
Dans le domaine du génie logiciel, un dictionnaire de données est un ensemble d’informations sur le système et ses composants, par exemple :
Dans le développement rapide d’applications, les dictionnaires de données jouent un rôle décisif en clarifiant les structures, les définitions et les relations, ce qui rationalise le processus de conception. Ils facilitent également la collaboration des équipes et réduisent le risque d’erreur au cours de l’implémentation.
Le dictionnaire de données documente la structure et les attributs de chaque élément du système pour faciliter son utilisation et sa gestion. Il inclut également des règles en lien avec les éléments de données ou les processus afin de maintenir leur précision et leur cohérence. Le dictionnaire de données sert de référence aux développeurs, aux responsables produit, aux ingénieurs et aux administrateurs de données.
Les dictionnaires de données appuient également l’intégration du cloud en gérant les métadonnées, en normalisant les définitions, en facilitant les échanges et en assurant la collaboration et la gouvernance entre différents services cloud.
(DevOps, SRE et ingénierie de plateforme : comparez les pratiques de développement logiciel.)
Un dictionnaire de données précis et à jour est indispensable pour gérer et exploiter des données, en particulier lorsqu’on manipule des datasets ou des bases de données volumineuses. Il sert de référence à tous ceux qui ont besoin de comprendre et de suivre les modifications, mais il a aussi l’intérêt de faciliter les recherches et d’améliorer la précision des données.
Un dictionnaire de données complet est le gage d’une collaboration plus fluide, d’une meilleure qualité de données et d’une maintenance plus simple.
Une erreur à signaler ? Une suggestion à faire ? Contactez-nous à l’adresse ssg-blogs@splunk.com.
Cette publication ne représente pas nécessairement la position, les stratégies ou l’opinion de Splunk.
La plateforme Splunk élimine les obstacles qui séparent les données de l'action, pour donner aux équipes d'observabilité, d'IT et de sécurité les moyens de préserver la sécurité, la résilience et le pouvoir d'innovation de leur organisation.
Fondée en 2003, Splunk est une entreprise internationale. Ses plus de 7 500 employés, les Splunkers, ont déjà obtenu plus de 1 020 brevets à ce jour, et ses solutions sont disponibles dans 21 régions du monde. Ouverte et extensible, la plateforme de données Splunk prend en charge les données de tous les environnements pour donner à toutes les équipes d'une entreprise une visibilité complète et contextualisée sur l'ensemble des interactions et des processus métier. Splunk, une base solide pour vos données.