Data Insider

Les usages du big data

Le big data, loin d’être une expression passée de mode, fête aujourd’hui ses 23 ans. Le big data regroupe des grands ensembles de données qui ne peuvent être traités via des outils de gestion de base simple comme Excel.

Si l’on parle aujourd’hui de Big Data, il faudra parler demain de « Huge » Data. Selon une nouvelle étude IDC, le volume total de données stockées sur notre planète atteindre 175 Zo en 2025 soit 5,3 fois plus qu’aujourd’hui.

Cette notion de big data apparaît pour la première fois en 1997 dans les archives de la bibliothèque de l’association for Computing Machinery (ACM), dans un article scientifique sur les défis technologiques à relever pour visualiser les grands ensembles de données.

En 2001, l’analyste du cabinet de conseil Gartner Doug Laney explique que le big data répond à la règle des trois V : volume, vitesse et variété. C’est donc la capacité de solliciter de larges volumes de données, de formats variés, à très grande vitesse. À ces trois piliers se sont ajoutés deux autres : la véracité qui concerne la nature intrinsèque de la donnée et la valeur qui détermine l’importance critique de la donnée.

Quelle est l’origine du big data dans l’univers des technologies d’information ? C’est la numérisation des modes de communications et la dématérialisation de l’information. Autrement dit l’avènement d’internet depuis les grandes organisations jusqu’aux consommateurs finaux et la capacité de virtualiser et de stocker à grande échelle à peu près n’importe quel type d’information : du courrier au streaming vidéo en passant par l’imagerie médicale, les formats audios, les écritures comptables, les logiciels techniques, etc. On parle alors du big data au service de l’intelligence business.

 

Tableau déterminant l’évolution des 5 V pour définir le big data
5 Vs 5 Vs Présent Raison du changement

Vélocité

Faible

Extrêmement forte

  • Croissance démographique
  • Objets connectés
  • Réseaux sociaux

Volume

Faible

Indéfiniment élevé

  • Croissance démographique
  • Objets connectés
  • Réseaux sociaux

Valeur

Facile à obtenir

Implique des procédés fastidieux

Méthode coûteuse liée à la collecte et analyse de la donnée

Variété

Pas de variété – un seul et même format de données structurées

Différentes variétés de format : structuré, non structuré et semi-structuré

Réseaux sociaux

Véracité

Intégrité faiblement garantie

Intégrité garantie à majorité

  • Cryptage
  • Authentification
  • Autorisation

Qui utilise le big data ?

Les plateformes de données qui permettent de gérer et de faire communiquer de grands volumes de données ont fait leur preuve depuis plus de 20 ans. Il existe aussi bien des solutions open-source que propriétaires.

Pour tirer profit de ce type de solutions, les organisations font appels à des scientifiques de données (encore appelés data scientists) capables de pondérer ces données et de les analyser pour identifier des tendances et dresser des recommandations.

Avec l’avènement d’internet pour les particuliers, du e-commerce ou encore des objets connectés, une avalanche de données peut désormais s’échanger entre différents systèmes. On a alors assisté à un basculement de la valeur ajoutée que les entreprises des nouvelles technologies convoitaient : elle est passée des solutions et des applications vers les données stockées. Comment ? En ouvrant leurs solutions au public, les entreprises comme Facebook, Google ou Amazon ont compris qu’elles auraient plus à gagner en laissant d’autres développeurs exploiter leurs plateformes pour les améliorer plutôt que de les conserver en usage restreint. L’usage de leur technologie d’exploitation du big data au départ propriétaire leur ont permis d’améliorer de façon considérable leurs performances en matière intelligence artificielle, de détecter des erreurs et d’augmenter leur capacité de façon exponentielle. Ils ont en quelques sortes réussi à renouveler leurs outils de façon gratuite, sans investir dans des chantiers de R&D. C’est ainsi que Facebook a choisi la plateforme HBase et abandonné Cassandra, et Google est passé de GFS à TensorFlow.

Aujourd’hui les utilisations du big data s’étendent sur tous les secteurs d’activité. Voici un aperçu des quelques technologies relatives au big data :

  •  L’écosystème Hadoop  
  • Le framework d’Apache a connu ses heures de gloire et reste une référence pour la gestion et l’administration distribuée de grandes bases de données. Plus qu’une simple solution, la technologie Hadoop représente un véritable écosystème sur lequel de nombreuses solutions métiers et commerciales ont été construites. Et le marché des produits développés sur Hadoop ne représenterait pas moins de 87 milliards de dollars d’ici à 2022 selon les estimations faites par le groupe Zion Market Research.

  •  Spark 
  • Spark est le framework associé à Hadoop et fait partie de son écosystème. Il est décrit comme une sorte de moteur qui propulse la technologie Hadoop en étant 100 fois plus rapide que la version standard de Hadoop.

  •  R 
  • R est un langage de programmation en open source prisé par les scientifiques de données. R est devenu au fur et à mesure le langage de programmation le plus populaire pour organiser les grandes bases de données.

  •  Data lakes 
  • Les data lakes sont des vastes répertoires de données qui permettent de collecter des données de différentes sources dans leur forme originelle. Contrairement aux data centers (centre de données), les répertoires data lakes (lacs de données) permettent de collecter et organiser de façon structurée le stockage de données.

  •  Les bases de données NoSQL 
  • Ces solutions de gestions des relations entre bases de données sont privilégiées pour structurer les bases de données, parfaites pour les données non structurées. Les Bases de données NoSQL les plus populaires sont MongoDB, Redis, Couchbase et Cassandra.

  •  Analyses prédictives 
  • L’analyse predictive est un sous-ensemble de solutions analytiques du big data pour la prédiction et l’anticipation d’événements à venir, alliant le data mining, la modélisation et les techniques de machine learning. C’est aussi une méthodologie particulièrement utile pour la détection de fraude, le credit scoring dans les services marketing ou financier et les processus analytiques métiers. Le marché des solutions d’analyse prédictive regroupe des acteurs comme IBM, SAP, Microsoft ou encore Statistica et représenterait en 2022 près de 11 milliards de dollars.

  •  Les bases de données in memory 
  • Les bases de données in memory présentent un avantage colossal par rapport aux solutions de stockages physiques car elles permettent d’héberger des données à plus grandes échelles et de les solliciter plus rapidement et efficacement. SAP, Oracle ou encore Tableau font partie des éditeurs de ces solutions dont le marché est estimé à plus de 7 milliards en 2022.

    Pour en savoir plus sur comment Splunk accompagne les entreprises dans l’implémentation de solutions big data et le déploiement de Hadoop, retrouvez toutes les informations sur notre page dédiée au big data.

    Comment le big data peut-il servir les entreprises ?

    Les enjeux du big data ne portent pas sur la quantité de données qu’une organisation possède mais comment elle s’en sert et l’organise. Les avantages du big data sont multiples : la réduction de coût, la productivité générée, le développement et la création de nouveaux produits pour répondre à de nouveaux besoins, et enfin l’amélioration de la prise de décision.

    Ce sont donc des montagnes de données qui sont désormais stockées sur des serveurs et réservées à des usages exclusifs ou propriétaires il y a encore quelques années. Mais la démocratisation du cloud – la capacité de mutualiser l’ensemble d’infrastructure IT jusqu’à l’application, ont fait du big data un phénomène exponentiel. Les usages du big data ont été décuplés. Dès lors, les entreprises génèrent de plus en plus de données exploitables issues de multiples services (financier, relation client, RH, marketing, etc.)

    Les principaux bénéfices du big data recoupent :

    1. La réduction des coûts

    Les technologies du big data comme Hadoop ou les solutions d’analytiques virtualisées offrent un avantage significatif en termes de coût lorsqu’il s’agit de stocker de larges volumes de données – elles peuvent aussi aider à identifier de façon plus efficace des ressources pour améliorer la conduite d’une organisation.

    2. Une prise de décision plus rapide et plus efficace

    Avec la rapidité qu’offre une plateforme de données unifiée, combinée avec l’habilité d’analyses de nouvelles sources de données, les entreprises sont capables d’analyser l’information immédiatement et prendre des décisions à partir des informations qu’elles ont obtenues et assimilées.

    3. Développer de nouveaux produits et services

    Avec l’habilité de mesurer les besoins clients et leur satisfaction à travers l’analyse vient aussi le pouvoir répondre aux attentes de ces clients.

    Le big data en marketing

    Depuis l’essor du marketing digital et le développement de nouveaux canaux digitaux, les professionnels du marketing ont besoin d’obtenir plus d’informations et de signaux pour identifier de nouveaux leviers de croissance. Ces informations permettent ensuite de définir des stratégies de campagnes marketing performantes, améliorer les niveaux de conversions et générer plus de revenus.

    Qu’est-ce que le big data dans le marketing digital ?

    Les solutions de big data permettent d’optimiser la gestion de ces informations, qu’elles soient structurées ou non, de façon instantanée pour orchestrer des campagnes omnicanales sans perdre de vue des indicateurs de performances essentiels comme le coût d’acquisition, le taux de conversion ou la valeur long-terme d’un client.

    Comment est utilisé le big data en marketing ?

    Aujourd’hui les services marketing ont des allures de centre de contrôle grâce au big data. Les équipes métiers sont passées de l’utilisation de simples documents et tableurs à des bases de données calibrées et identifiées collectant l’ensemble des préférences et habitudes de consommation de plusieurs démographies (ou persona).

    Netflix a innové son offre de services de streaming entièrement à partir d’analyse marketing construite sur le big data. Le groupe a réussi à capturer les états de trafic sur les différents terminaux de leurs utilisateurs, cibler des problèmes d’accessibilité et de qualité du streaming sur certaines régions et booster leurs réseaux au fur et à mesure de leur croissance pour anticiper leur demande.

    Le big data dans la finance

    Le big data en finance fait référence aux pétaoctets de données structurées et non structurées que l’on peut utiliser pour anticiper le comportement des investisseurs et créer de nouvelles stratégies au sein des banques d’investissement et autres institutions financières.

    L’industrie financière génère beaucoup de données. Les données structurées sont des informations qui sont gérées par une organisation afin de fournir des informations essentielles à la prise de décision. Les données non structurées sont initiées à partir de différentes sources et dans des volumes croissants. Elles offrent des opportunités d’analyses significatives. Les applications du big data dans le secteur de la finance permettent d’organiser et d’exploiter intelligemment ces données pour offrir de meilleurs rendements.

    Avec les milliards d’euros qui circulent sur les différents marchés mondiaux chaque jour, les analystes doivent assurer un contrôle de ces données de façon sécurisée, précise et rapide pour dresser leurs prédictions, dénicher de nouvelles tendances et créer des stratégies d’investissement. La valeur de ces données repose considérablement sur la façon dont elles sont collectées, enregistrées, stockées et interprétées. Ceci dans un souci de prévention de fraude bancaire et de gestion du risque. Comme les systèmes dits propriétaires ne peuvent supporter des données non structurées et en silo sans recourir à des investissements IT complexes et coûteux, de plus en plus d’analystes adoptent des solutions de gestion et d’administration des données dans le cloud.

    Les solutions de big data en mode cloud sont non seulement plus compétitives que des solutions propriétaires dont la durée d’usage est limitée dans le temps mais elles permettent aussi d’assurer une flexibilité et une mise à l’échelle des ressources utilisées. Elle s’intègre de façon sécurisée avec les applications métier afin d’aboutir de manière plus efficace à des analyses à partir du big data.

    Le big data dans la relation client

    Améliorer la satisfaction client de sa marque passe désormais par la collecte d’information en temps réel, la mesure des performances et l’agilité de déployer des ressources de façon quasi instantanée à la lumière des analyses et prédictions issues du big data. Le but est alors de proposer une ultra-personnalisation de l’expérience client. Comme le rappelle François Mero, general manager et VP sales EMEA chez Talend dans sa tribune pour LSA : « Il n’y a pas de secret, pour personnaliser il faut avoir une vision à 360° du client, avec son historique d’achat, ses mauvaises expériences d’achat, ses goûts, et ce sur les différents canaux empruntés par celui-ci ».

    Avec l’avènement du e-commerce et la dématérialisation des solutions commerciales (emailing des tickets de caisses, accès au wifi), le big data a renforcé le déploiement de CRM, c’est-à-dire de plateforme de gestion de la relation client, à grande échelle et a permis de mieux recueillir et consolider les informations relatives à des points de ventes, des campagnes de promotion et révéler des opérations commerciales à fort potentiel sur des durées optimisées. Ceci demande néanmoins l’implication de différentes fonctions et départements au sein de l’entreprise.

    Le big data dans la relation client offre :

  •  La création d’une expérience client en temps réel  
  • La possibilité de collecter des données sur les clients en temps réel et répondre à leur besoin dans le même temps a multiplié le champ des possibles pour les marques les plus innovantes.

  •  L’explosion des informations sur une base client 
  • En faisant interagir différentes bases de données pour obtenir le meilleur résultat, les acteurs du commerce ont su capitaliser sur leur programme d’acquisition et de rétention de leurs clients et mieux anticiper leurs attentes. La vraie valeur ajoutée réside dans la capacité de mesurer en temps réel les données clients dans un contexte donné et déclencher une prise de décision aussi rapide.

    Exemple du big data dans le retail français

    En France le big data prend des airs de super génie aux services des acteurs du commerce. Chez SFR, un des leaders de la téléphonie en France, le big data n’est pas un vœu pieux. L’opérateur peut déterminer en avance la durée de ses abonnements et anticiper les demandes de résiliations de ses clients en leur proposant des offres promotionnelles adaptées à leurs besoins. Cette pratique lui a déjà permis de réduire les intentions de résiliations de près de trois quarts de ses clients.

    Chez Accor, premier opérateur hôtelier en Europe, le big data a permis de mieux capter la demande de réservation grâce à sa plateforme unique et réussir à maintenir sa position face à des « pure players » comme Booking.com. Le groupe hôtelier a ainsi capitalisé près de 30% des demandes de réservations et référencé en temps réel les données sur ses clients. Grâce à cette visibilité, Accor est en mesure de prévoir son taux de remplissage des hôtels sur 6 mois.

    Le big data dans la santé

    Quand il s’agit du big data, le secteur de la santé n’est pas en reste. Cette industrie représentera un marché de plus de 68 milliards de dollars d’ici à 2025 selon une étude de BIS publiée par le site le Big Data. Une croissance quasi triplée depuis le recensement de 2014 (14,25 milliards de dollars). En cause, l’explosion des données de santé collectées grâce au développement des applications de données de santé et la multiplication des objets connectés. Mais l’adoption des technologies augmentées que sont l’intelligence artificielle et le machine learning permet aussi d’expliquer comment le big data est en train de changer le monde de la santé.

    Réduction du coût des soins, croissance des revenus et meilleure personnalisation des suivis médicaux, le secteur de la santé enregistre des bénéfices considérables depuis la mise en place de solutions permettant d’organiser le big data. Mais il fait aussi des progrès techniques importants :

  •  Une meilleure prévention et gestion des pathologies  
  • En rassemblant une variété de données sur une population (mode de vie, zone géographique, prédisposition héréditaire, etc.) on peut plus facilement identifier les facteurs de risques de certaines maladies comme le cancer, le diabète ou encore l’asthme. Il est ensuite possible de développer des programmes de prévention en particulier auprès de populations à risque.

  •  Vérifier l’effectivité d’un traitement 
  • Dans le cas d’un vaccin, en particulier, des centaines de paramètres peuvent être désormais identifiés et enregistrés durant des essais cliniques. En d’autres termes, on assiste à une valorisation du big data dans les essais cliniques, dont le but est avant tout d’apporter une plus grande précision des diagnostics médicaux.

  •  La prédiction du risque épidémique 
  • À partir d’une région ciblée, on peut obtenir des informations sur l’état de santé des habitants et par la suite identifier des comportements à risque ou même le niveau d’exposition à une infection.

    mitre-att

    [Open Source] Analyse et visualisation des "vagues"
    COVID en France

    https://www.data.gouv.fr/fr/reuses/open-source-analyse-et-visualisation-des-vagues-covid-en-france/

    En France on recense plus de 260 bases de données publiques relatives à la santé avec des informations riches sur un panel démographique très large. La plus grande de ces bases est celle du Système national Inter-régimes de l’Assurance Maladie. Elle enregistre tous les remboursements effectués sur tous types de prestations remboursées par l’assurance maladie, pour chaque cotisant, et ce durant toute sa vie.

    Depuis 1984, la France a développé le réseau Sentinelles qui suit plusieurs maladies infectieuses et alerte sur les épidémies. 1300 médecins généralistes et une centaine de pédiatres rapportent de façon hebdomadaire les cas observés pour 7 maladies transmissibles (diarrhée aiguë, maladie de Lyme, oreillons, syndromes grippaux, urétrite masculine, varicelle et zona) et les cas de suicide.

     

     

    Big data et RGDP

    C’est une véritable « plateformisation » du marché de la santé qui s’est mise en place avec l’identification d’acteurs institutionnels clés d’un point de vue politique comme la CNIL, opérationnel avec Santé Publique France, ou encore économique avec par exemple la commission TIC&Santé.

    Côté réglementation, la régulation en matière de données de santé a opéré un virage en 2016 pour offrir plus de garantie quant aux usages et à la confidentialité des informations collectées à travers le big data. Comme l’indique Les Echos dans son étude le Big Data dans la Santé : « la loi du 26 janvier 2016 est venue intégrer la notion d’Open Data pour tenter d’en réguler l’environnement, notamment à travers la création de l’INDS, nouveau garant des usages en la matière. À cette loi s’est ajouté le Règlement européen du 14 avril 2016, qui pose un cadre uniforme et identique sur la protection des données pour l’ensemble du territoire de l’UE ».

    À partir de mai 2018, la réglementation sur la protection des données – RGPD – rentre en application et exige pour les entreprises faisant usage du big data de se conformer avec les exigences institutionnelles pour protéger, garantir et respecter la confidentialité des données des internautes qu’elles ont collectées. Pour en savoir plus sur comment Splunk accompagne les entreprises du secteur de la santé dans le respect et la conformité avec RGPD, retrouvez toutes les infos sur la page dédiée.

    Big data dans l’industrie manufacturière

    L’avènement du big data dans l’industrie manufacturière a permis de repenser la façon dont on administrait les mécanismes d’approvisionnement, de production et de logistique des biens dans une optique d’amélioration des rendements et de réduction des coûts.

    L’industrie manufacturière qui regroupe l’ensemble des secteurs de production de biens a emmagasiné une quantité massive de données depuis les points de ventes jusque dans les sites de production. La multiplication des objets connectés a offert une supervision sans couture de toutes les étapes de production et de commercialisation, de la réception et le contrôle des matières premières jusqu’à la maintenance des équipements en passant par l’analyse de la qualité des produits finis. Dans le transport par exemple, le big data permet d’assurer une régulation optimale de la chaîne du froid et de la consommation d’énergie.

    Les industries manufacturières requièrent de grand volume de données stockées dans des infrastructures propriétaires pendant des décennies. Mais le big data est largement sous-utilisé car l’accès à ces données était souvent compliqué et ralentissait la possibilité d’identifier de nouveaux leviers de performances.

    Les objets connectés implémentés sur les sites renferment des espaces de stockage et de mémoire qui contiennent des données sur les performances des biens et équipements utilisés. Les objets connectés donnent aussi une nouvelle dimension en connectant les équipements avec des capteurs. La donnée est potentiellement d’une grande valeur ajoutée pour les fabricants industriels. L’analyse de la donnée permet quant à elle de déployer des effectifs selon des besoins critiques afin de révéler des gisements de performance.

    Le cabinet de conseils McKinsey a montré via son étude de cas sur l’entreprise Biopharma Manufacturing Co. comment l’analyse du big data a aidé ce laboratoire à identifier des objectifs spécifiques et modifier en conséquence les procédés de fabrication et d’acheminement des vaccins afin de réaliser des économies entre 5 et 10 millions de dollars chaque année.

    Un autre cas d’étude du big data est à noter chez le constructeur automobile Renault. Le big data y prend la forme d’un immense tableau de bord grâce aux données relevées à partir de ses garages connectés qui collecte les informations sur les véhicules mis en révision ou réparations. Renault est alors en capacité de prévoir les besoins en maintenance selon l’âge, le kilométrage et le modèle de ses véhicules.

    Le big data dans le secteur public

    Les bénéfices du big data dans le secteur public peuvent être groupés en trois grandes catégories selon une classification des types de bénéfices escomptés : une analyse de pointe grâce à l’usage d’algorithmes automatisés, l’amélioration de l’efficacité pour plus de transparence en interne et l’amélioration des performances dans les services afin d’assurer une meilleure personnalisation.

    Le big data dans la lutte contre la criminalité

    Tout comme l’exploitation du big data permet la prévention de risque épidémique dans le monde de la santé, elle permet aussi de mettre en avant des techniques de prévention contre la criminalité (big data and crime). Aux côtés des officiers et des gendarmes, des cellules d’experts capables de filtrer des milliers de bases de données grâce à des applications du big data appréhendent des réseaux de hackers et préviennent des cyberattaques à grande échelle. C’est ainsi qu’en janvier 2019, les gendarmes du centre de lutte contre les criminalités numériques (C3N) ont pu neutraliser un groupe de cybercriminels tablant sur une attaque mondiale depuis leur QG du pôle judiciaire de la gendarmerie nationale (PJGN). Ils sont parvenus à désinfecter plus de 850 000 ordinateurs de particuliers piégés par un virus permettant de contrôler leurs données à distance.

    mitre-att

    La police et la gendarmerie recourent ainsi à la reconnaissance faciale, pratique parfaitement légale dans les enquêtes pénales ou lorsque la sécurité nationale est en jeu.

    Le big data et la télécollecte dans le service public

    Autre exemple des usages du big data dans le secteur public, le groupement d’intérêt public Modernisation des déclarations sociales (GIP-MDS) a pu grâce à la technologie Splunk assurer la dématérialisation des déclarations sociales des entreprises privées et bientôt publiques en tout efficacité. Le groupement créé en 2000 avait pour mission de faciliter la collection de déclarations sociales. Depuis son accompagnement par Splunk, le GIP-MDS a enregistré 2,7 millions de déclarations sociales numériques par mois et 28 millions de déclarations DSN en 2019. Avec son infrastructure distribuée, le groupement devait engager une transformation digitale tout en supervisant l’ensemble des opérations et processus de traitements des déclarations. Un défi de taille qui n’avait pas peur de dire son nom : big data. Grâce à cette migration et l’optimisation de l’administration des bases de données, le GIP-MDS a pu contribuer à renforcer la qualité du service public. Pour en savoir plus sur l’accompagnement du GIP-MDS par Splunk, visitez notre page dédiée.

    Pour en apprendre davantage sur la vision de Splunk pour un gouvernement par la donnée, rendez-vous sur notre blog.