DATA INSIDER

Qu’est-ce que le big data ?

Le big data est un concept qui a pris de l’importance dans les années 1990 pour désigner l’augmentation massive des ensembles de données à l’époque, attribuée à la croissance d’Internet et à la baisse rapide du prix du stockage des données. Vous envisagez peut-être les big data en termes de téraoctets, mais le terme implique généralement plus que la seule idée de « grande quantité ». Le big data diffère des données traditionnelles en ce qu’il s’agit presque toujours d’une combinaison d’informations structurées et non structurées. Il faut donc de nouvelles méthodes de traitement et d’analyse afin de générer des informations exploitables pouvant appuyer une prise de décision stratégique.

Les big data peuvent être des ensembles de données structurés, non structurés ou semi-structurés, mais la valeur réelle se manifeste lorsque ces différents types de données sont rassemblés, cette valeur dépend d’ailleurs directement de la quantité et de la variété des données. Elles peuvent provenir de toutes les sources ou presque, des registres de vente et de production d’une entreprise aux bases de données publiques en passant par les flux de réseaux sociaux. Offrir des moyens innovants de découvrir des tendances et des corrélations entre ces diverses sources de données : voilà la mission la plus essentielle d’un scientifique des données ou d’un analyste big data.

L’analyse de big data est une catégorie complexe qui nécessite un niveau substantiel de compétences et de formation pour être maîtrisée, ainsi que des plateformes complètes de gestion des données. Des outils comme Apache Hadoop, Storm et Spark sont inestimables pour traiter d’énormes quantités de données, mais il peut être difficile (et coûteux) de trouver du personnel qualifié pour les exploiter dans un marché avide des informations contenues dans les big data. Mais si bon nombre de ces outils démocratisent les efforts de big data, ils ont encore un long chemin à parcourir avant de devenir entièrement accessibles. La technologie Map Reduce représente une avancée clé pour les organisations disposant de grandes quantités de données : elle résout ce problème en aidant les organisations à tirer parti de leurs informations en quasi temps réel.

 

Dans cet article, nous allons présenter les caractéristiques des big data, les scénarios d’utilisation les plus courants, les outils essentiels pour les gérer et les bonnes pratiques pour mettre en place un programme de big data dans l’entreprise.

Qu’est-ce que le big data ? | Sommaire

Big data : qu’est-ce que c’est ?

Que veut dire « big data » ?

Ce qu’on appelle « big data » peut signifier différentes choses selon l’industrie. Le secteur de la fabrication exploite les big data générées par les capteurs industriels de l’Internet des objets (IoT), en utilisant divers algorithmes pour anticiper les problèmes d’équipement, établir les calendriers de maintenance optimaux et améliorer les performances au fil du temps. Dans le domaine de la santé, les big data permettent de suivre la propagation des maladies, de choisir des thérapies pour les malades et même de découvrir des cas de fraude à l’assurance. Votre banque peut utiliser les big data pour lutter contre le blanchiment d’argent, tandis que votre conseiller en placement s’en servira pour élaborer une stratégie financière optimale.

En fin de compte, sans contexte, le terme « big data » n’a pas de sens spécifique et il fait rarement référence à un ensemble de données statiques particulier. Toute analyse peut s’appuyer sur divers ensembles de données jugés pertinents et inclus dans le dépôt de big data. Autrement dit, ce n’est qu’une fois qu’un cas d’usage est identifié que le big data devient spécifique.

Comment s’explique l’importance des big data ?

Les big data sont essentielles car de nombreuses questions actuelles sont trop complexes et ne peuvent tout simplement pas être résolues sans elles. Les big data sont régulièrement utilisées pour la business intelligence dans un large éventail d’industries afin de mieux comprendre les clients, d’améliorer la qualité, de développer de nouveaux produits innovants, de découvrir des activités criminelles, de découvrir des perturbations dans une chaîne d’approvisionnement et de résoudre des énigmes scientifiques de longue date.

 

Les big data offrent également des avantages tangibles qui passaient jusque-là inaperçus. Elles permettent notamment aux organisations de mettre au jour des informations et des connexions invisibles, généralement via des tableaux de bord et des visualisations intuitives. Les big data aident notamment les entreprises à trouver des opportunités de réduire les coûts et d’améliorer les produits en analysant les informations issues de leur fabrication, à mieux comprendre l’expérience client grâce aux appels d’assistance et aux réseaux sociaux, et à améliorer les résultats du marché en analysant les données de vente des concurrents. Sans une stratégie big data performante, bon nombre de ces informations ne seraient tout simplement pas disponibles.

Scénarios d’utilisation des big data

Quels sont les types de big data ?

En termes généraux, les données peuvent être classées en trois grands types :

  • les données structurées. Il s’agit de la pierre angulaire de l’informatique : des bases de données remplies d’informations sur les clients ou des feuilles de calcul documentant les achats et les dépenses. On pense aux formats Excel, Google Sheets, SQL et JSON, entre autres. Les analystes peuvent utiliser les données structurées pour établir des sommes et des moyennes, dégager des tendances et prendre des décisions quantifiables. Les données structurées sont les ingrédients essentiels de tout type d’analyse, mais malheureusement, très peu de données sont structurées par nature ;
  • les données semi-structurées. À mi-parcours entre les types de données non structurées et structurées, il s’agit de données non structurées qui ont été triées et étiquetées à l’aide d’une forme d’information structurée. Lorsque vous prenez une photo, par exemple, votre appareil photo peut lui ajouter l’heure et la date à laquelle vous l’avez prise, et même sa position GPS. En analysant les métadonnées, il est souvent plus facile de travailler avec des données semi-structurées que des données non structurées, même si les informations se trouvent généralement dans la partie non structurée des documents ;
  • les données non structurées. Cette catégorie englobe la grande majorité des données : vidéos YouTube, publications sur les réseaux sociaux, fichiers de podcast et galeries de photos, pour ne citer que quelques exemples. Les données non structurées sont riches d’informations précieuses mais nécessitent des technologies de big data pour être exploitées. Les technologies de machine learning peuvent analyser des archives de photographies pour déterminer avec précision le contenu de chaque image, par exemple. Malgré leur nom, les données non structurées sont souvent disponibles en si grandes quantités qu’une analyse initiale permet déjà de générer une immense valeur commerciale.

Comment les big data sont-elles exploitées ?

Les big data prennent toute leur valeur lorsque les entreprises utilisent un large éventail de données (données structurées, non structurées et semi-structurées) en synergie pour découvrir des interconnexions et des tendances autrement invisibles pour l’utilisateur. Lorsqu’elles sont appliquées correctement, ces techniques permettent le développement de toute une gamme de scénarios d’utilisation des big data.

Par exemple, l’analyse des big data peut assimiler l’historique des ventes d’une entreprise, des publications de réseaux sociaux comportant des mots-clés liés à ses produits et de divers avis en ligne pour déterminer si un certain produit doit être abandonné, repensé ou mis en promotion. Les solutions de big data peuvent également importer les données génomiques de milliers de patients avec leurs antécédents médicaux, pour déterminer les gènes responsables de certaines pathologies et ouvrir la voie à des traitements. On les emploie également dans les industries d’extraction pétrolières et d’exploration de ressources naturelles, pour interpréter les données d’études géologiques, des machines des sites de forage à proximité et même des enregistrements sismiques, afin de localiser de nouveaux emplacements de forage prometteurs.

Les big data sont encore utilisées pour traiter les informations sismiques en vue de détecter et prévoir les tremblements de terre ou de localiser des emplacements de forage prometteurs.

Avantages et défis des big data

Quels sont les avantages des big data ?

En termes simples, les big data donnent accès à des informations qui ne seraient pas disponibles autrement. Exploitées correctement avec la science des données, par exemple, les big data peuvent réduire les coûts, augmenter les ventes, optimiser la tarification, améliorer le ciblage des campagnes de marketing et de publicité et accroître la satisfaction des clients. Côté production, les big data permettent d’améliorer les performances des produits, de réduire les déchets et les frais généraux, de rationaliser les coûts de production et d’améliorer la disponibilité des équipements de fabrication. Les big data peuvent localiser des cas de fraude financière et d’activité criminelle, et même contribuer à la découverte de thérapies médicales jusque-là inconnues. Selon les spécificités de l’industrie ou de l’entreprise, il n’y a en vérité aucune limite aux avantages que les technologies du big data peuvent apporter.

Quels sont les défis des big data ?

Générer de la valeur à partir des big data n’a rien de simple. Il faut pour cela des logiciels avancés, une vaste expertise et, bien sûr, beaucoup de données. Nous présentons ici des défis que vous pourriez rencontrer lors de la mise en place d’un projet big data.

  • Problèmes de qualité des données : le vieil adage « Comme on fait son lit, on se couche » est particulièrement vrai avec les big data, si vos données sont de mauvaise qualité à la base, elles ne produiront rien de bon. Les professionnels des big data doivent veiller à ce que les ensembles de données sous-jacents soient de haute qualité, sans quoi ils risquent de générer des informations incorrectes, inexactes voire trompeuses.
  • Problèmes de confidentialité et de conformité : certains ensembles de données comportent des risques. Les données financières, par exemple, peuvent être soumises à réglementation. Les informations sur les clients et données médicales peuvent aussi être soumises à des règles de conformité telles que le RGPD ou HIPAA. Les complexités réglementaires encadrant les grands ensembles de données sont difficiles à appréhender : une supervision accrue s’impose pour éviter à l’organisation d’enfreindre la législation.
  • Disponibilité et coût de la puissance de calcul : le traitement des big data nécessite d’importantes ressources informatiques, à la fois en termes de capacités de stockage et de calcul. Une puissance de ce type a un prix, bien que les organisations aient la possibilité de « payer à la consommation » des capacités de cloud computing facilement disponibles. Cela n’empêche pas les dépenses de s’accumuler rapidement, en particulier chez les organisations novices dans le domaine des big data. Comme elles sont plus susceptibles de manquer de personnel expérimenté et d’expertise, leur travail est moins efficace et les efforts souvent dupliqués.
  • Manque de talents big data : les big data restent une compétence peu répandue, il est difficile de trouver des data scientists qualifiés capables de concevoir et d’exécuter efficacement une stratégie de big data. Beaucoup d’entreprises choisissent de former leur personnel interne pour acquérir l’expertise nécessaire, plutôt que de se battre avec leurs concurrents pour accéder à un vivier de talents toujours plus réduit.

Fonctionnement

Comment les big data sont-elles collectées ?

Les big data peuvent être collectées à partir d’un large éventail de sources. Celles-ci sont théoriquement infinies, mais on pense généralement aux sources suivantes :

  • les utilisateurs, qui peuvent fournir des données directement en remplissant un formulaire ou un sondage, en créant une publication sur les réseaux sociaux ou en créant un profil personnel lors d’un achat en ligne, pour ne citer que quelques exemples. Certaines données utilisateur peuvent être générées de manière passive, par exemple par le biais d’interactions avec un site web ou lors de la connexion et de la déconnexion d’un réseau ;
  • les applications qui, exécutées au sein de l’entreprise génèrent une grande quantité de données. Les données des détecteurs de vulnérabilités de sécurité, des systèmes de gestion des performances des applications, des serveurs de messagerie et de tout autre dispositif générant des logs peuvent s’avérer inestimables pour l’analyse des performances de l’infrastructure ;
  • les middlewares. Les systèmes qui exécutent le cœur de l’entreprise (applications et serveurs web) peuvent offrir une mine de big data ;
  • les réseaux. Les logs réseau sont remplis d’informations utiles qui peuvent aider à identifier les problèmes d’infrastructure réseau, en particulier les données enregistrées par les routeurs et les commutateurs, les serveurs FTP et les serveurs DHCP ;
  • les systèmes d’exploitation, qui consignent les informations sur les performances et les erreurs, ce qui est indispensable pour les analyses de big data axées sur l’optimisation ;
  • l’infrastructure cloud et virtuelle. Avec la migration des données vers le cloud, des plateformes comme Google Cloud Platform, Microsoft Azure et Amazon AWS sont devenues des sources majeures de big data. Les capacités de journalisation étendues de ces services (et de l’infrastructure qui les exécute) offrent d’importantes opportunités d’analyse ;
  • l’infrastructure physique. Le matériel serveur, les dispositifs de point de vente et les baies de stockage peuvent tous apporter un niveau d’informations approfondi à une plateforme d’analyse de big data. Les données de capteurs, provenant d’appareils intégrés dans des machines de production dans l’industrie, représentent aujourd’hui l’une des formes les plus précieuses de big data.

Qu’est-ce que l’analyse des big data ?

L’analyse des big data consiste simplement à utiliser des outils et des technologies comme l’intelligence artificielle pour analyser de vastes dépôts de données qui comprennent parfois des téraoctets ou des pétaoctets de données, afin de produire des informations exploitables. En d’autres termes, les big data font référence aux données elles-mêmes, tandis que l’analyse des big data désigne leur traitement. Concrètement, le terme « big data » est souvent utilisé comme un raccourci pour désigner l’analyse ; d’un certain point de vue, les « big data » sans analyse n’ont aucune utilité fonctionnelle.

Que sont les outils et technologies des big data ?

Depuis que le domaine du big data s’est popularisé au milieu des années 2000, les outils et les technologies d’analyse se sont multipliés à grande vitesse. Voici une sélection d’outils et de technologies big data d’importance disponibles actuellement sur le marché pour traiter un grand volume de données. Si certaines ont été développées par des fournisseurs privés, la plupart de ces technologies sont désormais open source et gérées par Apache.

  • Hadoop : pionnier fondamental des frameworks d’analyse de big data, Hadoop reste une technologie essentielle dans votre écosystème de données ; elle est spécialement conçue pour stocker et traiter de gros volumes de données de tous les types ou presque.
  • Apache Spark : Spark affiche une vitesse supérieure à Hadoop grâce à une API plus efficace, mais il lui manque un mécanisme de stockage distribué. C’est actuellement l’un des moteurs de big data les plus utilisés, et il s’intègre à des dizaines de plateformes informatiques supplémentaires.
  • Storm : autre approche du traitement des big data, Storm est conçu pour traiter des données en temps réel plutôt que des lots de métadonnées historiques, comme Hadoop et Spark. Storm est considéré comme l’un des systèmes de big data les plus rapides du marché aujourd’hui.
  • Hive : ce module complémentaire Hadoop basé sur SQL est principalement utilisé pour traiter de grandes quantités de données structurées.
  • Kafka : une autre plateforme largement employée pour analyser les données.
  • HPCC :  abréviation de High Performance Computing Cluster, HPCC est une plateforme concurrente de la plupart des outils ci-dessus et fonctionne à la fois avec des données par lots et en temps réel.
  • Tableau : outil de big data populaire (et non open source) plus facilement accessible au grand public, Tableau permet aux utilisateurs non-professionnels d’extraire des informations à partir de grands ensembles de données, bien qu’il n’ait pas la puissance d’outils d’entreprise plus sophistiqués.

Outre ces technologies fondamentales dans le domaine du big data, bien d’autres outils sont disponibles sur un marché désormais étonnamment encombré.

Pour bien démarrer

Quelles sont les bonnes pratiques des big data ?

L’analyse des big data est complexe et potentiellement coûteuse sans une application constante et rigoureuse des bonnes pratiques. Voici quelques principes clés des big data.

  • Déterminez les objectifs de votre stratégie big data avant de vous lancer : quels sont les objectifs généraux que vous essayez d’atteindre ? (Mieux comprendre les clients ? Revoir la conception d’un produit ? Détecter un comportement frauduleux ?) Avant d’installer un logiciel et d’importer des sources de données, déterminez ce que vous essayez vraiment d’accomplir.
  • Développez un schéma et une architecture d’information : le développement d’une architecture de l’information est essentiel pour gérer correctement et adéquatement l’assimilation, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes traditionnels. De nombreux tutoriels sont disponibles pour vous aider à démarrer.
  • Comprenez la nature des données dont vous disposez : l’inventaire de vos données peut être complexe et difficile à réaliser. Une grande partie de ces ressources peut être conservée dans des bases de données qui ne sont plus actives, des archives de sauvegarde hors ligne ou des formats qui ne sont plus compatibles. Vous aurez probablement beaucoup à faire pour déterminer exactement de quelles données vous disposez et celles dont vous pourriez avoir besoin pour commencer.
  • Déterminez le degré de propreté de vos données : les données sont-elles corrompues ? Faut-il les reformater dans une structure plus utile ? Les données contiennent-elles réellement les informations auxquelles vous vous attendiez ?
  • Développez votre stratégie big data en pensant à la sécurité : les big data peuvent être des champs de mines regorgeant d’informations confidentielles, de données financières et autres éléments sensibles. Les grands ensembles de données peuvent être piratés et exploités comme n’importe quel autre type de données : vous devez donc prendre des mesures pour les protéger par le chiffrement, une stratégie de sauvegarde robuste et d’autres défenses de sécurité.

Quel est l’avenir des big data ?

À bien des égards, l’avenir du big data est celui des données : les volumes de données continuent d’augmenter de façon exponentielle. IDC a d’ailleurs prédit en mars 2021 que les données créées au cours des cinq prochaines années représenteront plus du double des volumes accumulés depuis l’invention du stockage numérique. Et la ruée vers les environnements de travail à distance provoquée par la pandémie n’a fait qu’exacerber cette tendance. Jamais autant d’appareils et de personnes n’ont créé de données : appareils mobiles, matériel IoT, réseaux sociaux et plus encore. Déterminer celles qui ont de la valeur, les capturer et les interpréter représente un défi de poids pour l’entreprise dans un avenir proche.

Pour résumer : le big data est un outil essentiel pour générer des informations commerciales

Aujourd’hui, aucune entreprise ne peut prospérer sans une solide compréhension de ses données, et cela implique généralement des volumes considérables. En tant que discipline, l’analyse des big data devient un élément essentiel de la conduite des affaires, et peu de décisions, quelle que soit leur importance, peuvent désormais s’en passer. Toute entreprise cherchant à maintenir sa compétitivité au cours des dix prochaines années devra s’armer d’une solide compréhension des sources de big data disponibles, des outils nécessaires à leur analyse et de personnel rompu à la discipline.

Qu’est-ce que Splunk ?

 

Ressources supplémentaires