Data Insider

Qu’est-ce que l’analyse prédictive ?

L’analyse prédictive consiste à appliquer des modèles mathématiques à de grandes quantités de données afin d’identifier des tendances dans les comportements passés et de prédire des résultats futurs.

La combinaison du data mining (exploration des données), du machine learning et des algorithmes statistiques délivre l’aspect «prédictif», permettant aux outils d’analyse prédictive d’aller au-delà de la simple corrélation. Dans l’entreprise, l’analyse prédictive a une grande variété d’applications:

  • la réduction des risques dans le secteur de l’assurance et des services financiers ;
  • la détection de la fraude par carte de crédit ;
  • l’amélioration de la précision des prédictions de l’offre et de la demande ;
  • l’identification des menaces et des problèmes affectant les réseaux informatiques.

De plus en plus d’outils logiciels intègrent des fonctions d’analyse prédictive, ce qui la rend beaucoup plus accessible aux utilisateurs des entreprises de toute taille. L’analyse prédictive peut réellement apporter un avantage à tous les acteurs de l’entreprise, en offrant une valeur pratique aux utilisateurs qui n’ont pas de formation en science des données ou en analyse avancée. Cette tendance est souvent appelée « démocratisation des données » : il s’agit de mettre les données d’une entreprise à la disposition de tous afin que chacun puisse les utiliser pour prendre de meilleures décisions.

Nous verrons ci-dessous quels sont les avantages de l’analyse prédictive, quels sont ses liens avec d’autres technologies comme le machine learning et le data mining, le rôle des modèles et quelques conseils pour commencer.

Rapport d’analystes | Splunk se classe au 1er rang de l’étude des parts de marché ITOA d’IDC

Introduction à l’analyse prédictive

Pourquoi l’analyse prédictive est-elle aussi importante ?

L’analyse prédictive est essentielle car elle permet aux entreprises et aux organisations de prendre des décisions stratégiques basées sur des données réelles tout en prédisant les résultats probables et ce, à une échelle jusque-là inimaginable. Pour toutes les entreprises, la capacité à prévoir, planifier et fonctionner efficacement tout en répondant aux besoins de leurs clients représente une question de vie ou de mort. En les poussant à lancer des produits avec la conviction qu’ils trouveraient le succès auprès du public, les décisions fondées sur l’intuition, des conjectures et des informations historiques leur ont fait perdre des milliards, quand elles ne les ont pas menées à la faillite.

Quels sont les trois types d’analyse de données ?

On recense trois catégories d’analyse de données : descriptive, prédictive et prescriptive.

  • L’analyse descriptive utilise le data mining et l’agrégation de données historiques pour répondre à la question « Que s’est-il passé ? » L’analyse descriptive s’apparente essentiellement à la statistique : elle donne des informations sans analyse ni éclairage spécifique.
  • L’analyse prédictive identifie des motifs dans les données précédentes pour répondre à la question « Que pourrait-il se passer ensuite ? »
  • L’analyse prescriptive, terme relativement nouveau, décrit une analyse conçue pour répondre à la question « Que devons-nous faire ? » L’analyse prescriptive ne donne pas seulement une prédiction ou une prévision, elle produit également des recommandations sur la meilleure marche à suivre.

Quels sont les résultats de l’analyse prédictive ?

Au XXIe siècle, toutes les activités humaines ou presque génèrent des données, offrant à quasiment toutes les entreprises, organisations ou industries la possibilité de bénéficier de l’analyse prédictive. Voici quelques-uns des centaines de scénarios d’utilisation potentiels d’utilisation de l’analyse prédictive.

L’analyse prédictive dans la banque et les services financiers

L’analyse prédictive est utile à l’ensemble des activités bancaires et financières, de l’évaluation des risques à l’optimisation des relations avec les clients. Les analyses prédictives sont utilisées pour :

  • prévenir la fraude par carte de crédit en signalant les transactions inhabituelles ;
  • évaluer le crédit et décider d’approuver ou non une demande de prêt ;
  • anticiper les départs de clients, pour permettre aux banques de les contacter directement avant qu’ils n’envisagent de changer d’établissement.
predictive analytics banking

L’analyse prédictive dans la vente au détail

Toutes les boutiques, qu’elles soient en ligne ou physiques, doivent gérer les stocks et la logistique. Les outils d’analyse prédictive permettent aux détaillants d’établir des corrélations au sein d’énormes quantités d’informations (données de ventes historiques, habitudes d’achat, préférences géographiques, et même données météorologiques) pour optimiser les performances.

  • Grâce aux données sur les ventes et la logistique, les détaillants s’assurent de disposer d’un stock suffisant de produits dans les entrepôts et de mettre la meilleure offre en magasin au bon moment.
  • Les données clients permettent d’adresser des recommandations et des promotions personnalisées et individualisées. Un meilleur ciblage reposant sur des données réelles peut aider les détaillants à élaborer des publicités et des promotions potentiellement plus attractives pour les consommateurs.
  • Déterminer le meilleur moment pour une promotion est une véritable science : des analyses prédictives combinent les données des clients, de l’inventaire, des concurrents et de l’historique des ventes pour choisir le moment idéal pour réduire (ou augmenter) les prix.
predictive-analytics-retails

L’analyse prédictive dans le secteur de la santé

En s’appuyant sur les statistiques mondiales sur les maladies, les interactions médicamenteuses, les antécédents des patients et bien plus encore, les analyses prédictives peuvent aider les professionnels de santé à fournir de meilleurs soins et à optimiser la gestion des cabinets et des hôpitaux.

  • Une étude réalisée en 2018 par le Mental Health Research Network et les chercheurs de Kaiser Permanente a exploité l’analyse prédictive pour mettre en corrélation les dossiers médicaux partagés (DMP) des patients avec leurs réponses à un questionnaire sur la dépression ; les chercheurs ont ainsi été en mesure d’identifier les personnes présentant un risque élevé de suicide.
  • Le système de santé de l’université de Pennsylvanie a mis au point un outil prédictif qui, au cours de sa période d’essai, a identifié les patients qui s’orientaient vers une septicémie sévère ou un choc septique 12 heures avant l’apparition de la maladie.
  • Des chercheurs de l’université de Duke ont découvert que l’application de l’analyse prédictive à l’historique des rendez-vous d’une clinique permettait d’identifier les cas d’annulation tardive et de non-présentation potentiels avec une précision de 67 % supérieure à celle des modèles existants, ce qui leur a permis de gagner du temps et d’économiser des ressources.

L’analyse prédictive dans le secteur de la fabrication

Dans une usine moderne et hautement automatisée, les outils d’analyse prédictive peuvent superviser et optimiser chaque étape du processus de fabrication : conception, achat, production, contrôle qualité, gestion des stocks, livraison, etc.

  • Les données de la chaîne d’approvisionnement et les prévisions de ventes, par exemple, peuvent permettre de prendre des décisions d’achat plus précises, en évitant notamment l’acquisition de matières premières coûteuses tant qu’elles ne sont pas nécessaires. Les mêmes données peuvent également permettre l’ajustement des calendriers de fabrication en fonction de la demande des consommateurs.
  • L’analyse prédictive peut réduire les coûts d’expédition et de transport en intégrant tous les facteurs impliqués dans l’acheminement des produits manufacturés d’un endroit à un autre de la manière la plus efficace.
  • L’application de l’analyse prédictive aux données des machines permet de suivre et de comparer la maintenance et l’état des machines et équipements d’une usine, afin de prédire les risques d’interruption de chaque machine.

L’analyse prédictive dans le secteur du marketing

Les consommateurs sont constamment entourés de publicité et de marketing, et il n’a jamais été aussi difficile d’attirer et de retenir leur attention.

  • Les outils d’analyse prédictive peuvent aider à segmenter les prospects marketing plus efficacement, en affichant des publicités sur des sites web et des réseaux sociaux en lien avec leurs centres d’intérêt. Des outils de marketing prédictif plus sophistiqués permettent d’identifier « l’intention d’achat » : ils analysent les données et informations disponibles publiquement dans des bases de données propriétaires, afin de trouver les profils correspondant au consommateur idéal.
  • Les responsables marketing utilisent également l’analyse prédictive pour évaluer les prospects : ils s’appuient sur des données historiques, des données d’intention et autres données sur les clients potentiels pour déterminer la probabilité d’achat et, par conséquent, les modalités de prise de contact ainsi que l’argumentaire.
L’analyse prédictive en contexte

Analyse prédictive et Big Data

Vous avez forcément entendu beaucoup de statistiques sur l’augmentation du volume de données. Selon une étude réalisée en 2018 par le cabinet d’études de marché IDC, la création de données à l’échelle mondiale devrait atteindre 163 zettaoctets (Zo) d’ici 2025, soit 10 fois la quantité de données produites en 2017. L’internet des objets (IoT) est un moteur clé de cette croissance. En 2006, il y avait environ 2 milliards d’appareils connectés dans le monde, selon un rapport d’Intel. Leurs prévisions portaient ce nombre à 200 milliards en 2020. Chacun de ces dispositifs crée des données qui peuvent être utilisées pour fournir un meilleur service client, optimiser les réseaux, cibler les messages marketing plus efficacement ou renforcer la sécurité des données, et ce ne sont que quelques exemples d’application.

La valeur de l’analyse prédictive continue d’augmenter avec la croissance des données. Le volume considérable d’informations généré chaque jour par des milliards de personnes, de périphériques et de réseaux crée à la fois des défis et des opportunités que le cerveau humain ne suffit pas à envisager. L’analyse prédictive est un grand pas vers la réalisation de la promesse du big data, car elle possède la capacité d’analyser les données et de prédire des résultats futurs comme jamais auparavant.

Analyses prédictives et autres technologies émergentes

L’analyse prédictive est souvent confondue avec d’autres technologies de données et d’analyse en cours de développement. Trois technologies sont ainsi souvent associées à l’analyse prédictive : le machine learning, la modélisation prédictive et le data mining.

  • L’analyse prédictive est-elle la même chose que le machine learning ? L’analyse prédictive et le machine learning sont deux choses différentes. Le machine learning, qui permet aux ordinateurs d’apprendre à travers leurs propres activités, est l’un des outils utilisables dans le cadre du processus d’analyse prédictive.
  • L’analyse prédictive est-elle la même chose que la modélisation prédictive ? L’analyse prédictive et la modélisation prédictive sont deux choses différentes. La modélisation prédictive est une technique employée dans l’analyse prédictive : elle applique des données à un processus mathématique algorithmique particulier (le modèle) pour déterminer un résultat.
  • L’analyse prédictive est-elle la même chose que le data mining ? L’analyse prédictive et le data mining sont deux choses différentes. Le data mining consiste à examiner et à analyser de grandes quantités de données afin d’identifier des tendances et des relations. La mission de l’analyse prédictive consiste à faire des prédictions ou des prévisions basées sur ces modèles de données.

Analyse prédictive et modélisation

Quelle est la différence entre un algorithme et un modèle prédictif ?

Les algorithmes sont la base mathématique de l’analyse prédictive. Ils représentent une série d’étapes, un peu comme une recette, que l’on suit pour obtenir un résultat ou une solution. Les modèles définissent la façon dont les algorithmes sont appliqués pour résoudre un problème particulier. Le modèle est le cadre qui définit les questions et les variables prises en compte pour y répondre. Les algorithmes représentent les étapes utilisées pour soupeser les variables et parvenir aux réponses.

Une recherche rapide sur le web révèle que de nombreuses personnes emploient les termes « algorithme » et « modèle prédictif » de manière interchangeable. Le mot « classifieur » est également utilisé dans le même contexte. Là encore, bien que la terminologie soit fluide, le terme « classifieur » désigne généralement un algorithme spécifiquement conçu pour la classification.

Quels types de modèles sont employés dans l’analyse prédictive ?

Les modèles les plus couramment utilisés dans l’analyse prédictive sont les algorithmes de classification et les algorithmes de régression.

  • Les algorithmes de classification trient (ou classent) les données par catégorie. Cette personne est-elle une femme ou un homme ? Cet e-mail est-il ou non du courrier indésirable ?
  • Les algorithmes de régression sont employés pour prédire un résultat numérique. Le prix va-t-il augmenter ou baisser ? Combien de clients une nouvelle entreprise peut-elle espérer obtenir ?

Quels sont les modèles les plus couramment employés dans l’analyse prédictive ?

Les modèles les plus fréquemment utilisés dans l’analyse prédictive sont la régression linéaire, la régression logistique, l’analyse discriminante linéaire, les arbres de décision, la classification naïve bayésienne, la méthode des k plus proches voisins, les machines à vecteurs de support, la forêt d’arbres décisionnels et le boosting. Vous trouverez ci-dessous une description plus complète de chacun d’eux.

Les data scientists utilisent un large éventail de modèles prédictifs en fonction du type de résultat qu’ils espèrent atteindre. Les mathématiques qui sous-tendent chaque algorithme sont complexes et dépassent largement le champ de cet article, mais voici une sélection des algorithmes d’analyse prédictive les plus populaires et une brève description de leur utilisation.

L’analyse prédictive dans la banque et les services financiers : l’analyse prédictive est utile à l’ensemble des activités bancaires et financières, de l’évaluation des risques à l’optimisation des relations avec les clients. Les analyses prédictives sont utilisées pour obtenir les résultats suivants :

  • la régression linéaire. Elle compare une variable dépendante à une ou plusieurs variables indépendantes. C’est l’un des algorithmes les plus courants, on l’emploie souvent pour prédire un résultat ou prévoir un effet, et pour déterminer quelles variables ont le plus d’impact. On utilisera par exemple un modèle de régression linéaire pour répondre aux questions suivantes :
    • Quelle est la relation entre le nombre de prospects générés par une campagne marketing et la somme dépensée pour promouvoir cette campagne ?
    • Combien de prospects supplémentaires pourraient être captés si le budget promotionnel était augmenté de 10 000 dollars par exemple ?
    • De combien le coût des matières premières utilisées dans la fabrication va-t-il augmenter en un an ?
  • la régression logistique. Cet algorithme compare une variable dépendante à une ou plusieurs variables indépendantes pour déterminer la probabilité d’un résultat particulier. La régression logistique peut être employée pour prédire la probabilité qu’une personne développe du diabète en fonction de son âge, de son sexe, de sa masse corporelle, du résultat de ses analyses de sang et de ses antécédents familiaux, ou déterminer quel candidat à une élection plaira le plus aux personnes présentant un profil spécifique en termes de démographie, d’âge, d’ethnicité, de revenu et de lieu de résidence.
  • l’analyse discriminante linéaire est utilisée à des fins de classification. Elle répond à la question classique : « d’après les réponses à un sondage, quel groupe de clients est le plus susceptible d’acheter un produit particulier ? »
  • les arbres de décision sont binaires et s’appuient sur des questions oui/non pour arriver au résultat. Un arbre de décision peut être utilisé pour trier les candidats à un emploi, par exemple. Le candidat a-t-il un diplôme universitaire ? Si non, le candidat a-t-il d’autres qualifications ? Si oui, le candidat a-t-il plus de trois ans d’expérience ? Si oui, le candidat possède-t-il un ensemble défini de compétences et d’expérience ?
  • la forêt d’arbres décisionnels est un algorithme largement utilisé pour la classification et la régression. Il s’agit d’une technique d’ensemble (une combinaison de plusieurs algorithmes) qui associe plusieurs arbres de décision pour obtenir des résultats plus précis qu’un seul arbre.
  • la classification naïve bayésienne est un algorithme simple mais puissant souvent utilisé pour la catégorisation de texte, et notamment pour les filtres de spam. Un filtre de spam basé sur la classification naïve bayésienne établit une corrélation entre les mots d’un e-mail et des courriers normaux et indésirables afin de déterminer la probabilité que l’e-mail en question soit du spam.
  • la méthode des k plus proches voisins (KNN) sert à prédire les caractéristiques d’un point de données en fonction de sa proximité avec d’autres points de données. La méthode KNN peut être employée pour produire des scores de crédit, par exemple. Un demandeur de prêt ou de carte de crédit présentant un profil financier spécifique aura probablement un score de crédit semblable à celui d’autres personnes possédant des données financières similaires.
  • les machines à vecteurs de support (SVM) peuvent être appliquées à des problèmes de classification ou de régression. Un algorithme SVM utilise des exemples d’entraînement (données connues regroupées en catégories par similarité) pour attribuer de nouveaux exemples à la catégorie appropriée. Les SVM se sont avérées efficaces pour la classification des images (« est-ce un arbre ou une personne ? ») en fournissant des résultats plus précis que les méthodes précédentes.
  • le boosting est une technique combinée conçue pour augmenter la précision. On crée un premier modèle à l’aide de données d’entraînement, puis un deuxième modèle pour corriger les erreurs du premier, un troisième pour corriger les erreurs du deuxième, et ainsi de suite jusqu’à ce que le résultat souhaité soit atteint.
  • AdaBoost est considéré comme le premier algorithme de boosting réussi, et il constitue la base sur laquelle les modèles suivants ont été élaborés.

Que sont les réseaux neuronaux ?

Les réseaux neuronaux sont des modèles mathématiques conçus pour produire une approximation du fonctionnement du cerveau humain. Les réseaux neuronaux sont efficaces dans les problèmes complexes de reconnaissance de motifs et dans la recherche de relations non linéaires entre les données, lorsqu’une ou plusieurs variables sont inconnues. Les véhicules autonomes reposent sur des réseaux neuronaux, en raison de l’énorme quantité de données qui doivent être analysées instantanément pour prendre des décisions de conduite.

Pour bien démarrer

Quelle est la différence entre l’analytique et l’analyse des données ?

L’analyse des données décrit le processus consistant à analyser des données et à en tirer des conclusions. Elle peut également désigner le travail accompli par un analyste de données. L’analytique des données est un terme générique englobant différentes techniques utilisées pour identifier, classer et organiser les données pour les rendre analysables.

Comment sélectionner le meilleur logiciel d’analyse prédictive ?

Le meilleur logiciel d’analyse prédictive est celui qui correspond le mieux à vos besoins spécifiques et à votre budget. Il existe de nombreux outils différents d’analyse prédictive :

  • les logiciels de business intelligence ;
  • les logiciels d’analyse statistique avancée (open-source ou propriétaire) ;
  • l’analyse clients prédictive ;
  • les logiciels de marketing prédictif ;
  • l’évaluation prédictive des prospects ;
  • les logiciels de supervision IT prédictive ;
  • les outils industriels spécifiques pour la gestion de la chaîne d’approvisionnement, la santé, la fabrication, la logistique et bien d’autres.

Comme cette discipline gagne en popularité et se répand dans les entreprises, de plus en plus de fournisseurs de logiciels intègrent l’analyse prédictive, ou un équivalent, à leurs outils. Le défi pour l’acquéreur est de faire le tri entre les outils qui fournissent réellement des analyses prédictives, et ceux qui n’appliquent que des fonctions algorithmiques de base et se sont approprié le terme.

De plus, de nombreuses plateformes logicielles (dont Splunk) intègrent l’analyse prédictive dans divers éléments de leur solution. L’éventail des offres peut contenir des solutions intégrant l’analyse prédictive et d’autres dont les fonctions n’exigent pas d’analyse prédictive. En d’autres termes, même si un fournisseur affirme qu’il propose de l’analyse prédictive, cela peut ne pas être le cas, ou bien dans certains produits seulement.

Comment prendre un bon départ avec l’analyse prédictive ?

La meilleure façon de vous lancer dans l’analyse prédictive est de créer un plan pour identifier les problèmes que vous pouvez ou non résoudre, isoler les plus urgents, repérer les lacunes dans vos compétences et votre technologie, puis mettre en œuvre un projet pilote.

 

  • Comprenez ce que vous pouvez et ne pouvez pas résoudre. L’analyse prédictive présente de multiples avantages, mais elle a ses limites. Elle ne peut pas remplacer les compétences, le jugement et l’expérience de professionnels qualifiés. L’analyse prédictive ne fonctionne que lorsqu’il y a suffisamment de données pour fournir des résultats utiles.
  • Identifiez les problèmes les plus urgents à résoudre. Vous n’obtiendrez pas de résultat utilisable sans savoir exactement quels problèmes vous essayez de résoudre. S’il est possible d’appliquer l’analyse prédictive sans distinction à de grands ensembles de données et d’espérer identifier les problèmes dans les résultats, il est beaucoup plus efficace de circonscrire le problème avec un maximum de précision.
  • Identifier les lacunes dans les compétences et la technologie. Les solutions logicielles facilitent la pratique de l’analyse prédictive, mais leur exploitation exige tout de même une certaine expertise. Il est extrêmement important de disposer des personnes, de l’infrastructure et des outils nécessaires pour identifier et préparer les données dont vous aurez besoin dans votre analyse.
  • Mettez en œuvre un projet pilote. Maintenant que vous avez répondu à toutes ces questions, mettez toutes les informations obtenues à profit dans un petit projet pilote. Choisissez un problème considéré comme important par une majorité de personnes. Déterminez le résultat que vous souhaitez obtenir et les indicateurs que vous utiliserez pour le démontrer. Vous voulez réduire un temps de traitement ? De combien ? Allez-vous mesurer la réduction en secondes ou en pourcentage ? Avez-vous les données de référence qu’il vous faut ? Votre projet pilote sera beaucoup plus efficace pour démontrer la pertinence de l’analyse prédictive si vous pouvez présenter le résultat rapidement, sous une forme mémorable et chiffrée. « Nous avons réduit le temps de traitement de 32 %, ce qui nous a permis d’économiser en moyenne 18 heures par semaine et par employé » est beaucoup plus convaincant que « Nous avons optimisé notre temps de traitement de manière significative. »
Pour résumer

L’analyse prédictive représente l’avenir, et c’est déjà le présent

L’analyse prédictive n’est déjà plus une science nouvelle : c’est un outil pratique employé par des entreprises de toutes tailles pour résoudre leurs problèmes critiques. Où que vous en soyez dans votre parcours d’analyse prédictive, de l’étude des options à l’optimisation d’une solution existante, vous devez absolument vous tenir informé des développements de cette discipline en évolution rapide.

Les entreprises ont besoin d’une approche qui transforme des données jusque-là complexes et chaotiques en opportunité, plutôt qu’en risque ou en handicap, et c’est là qu’intervient le process mining (exploration de processus). Par-dessus tout, c’est un moyen plus performant d’analyser et de corréler des informations apparemment disparates et sans lien, d’identifier les faiblesses et de passer rapidement à l’action. Plutôt que de perdre des heures, des jours, voire des semaines à résoudre des dysfonctionnements dans des feuilles de calcul, adopter le bon outil de process mining vous permettra d’utiliser les données dont vous disposez plus efficacement pour créer davantage de valeur. Certes, mettre de l’ordre dans le chaos des données de l’entreprise peut sembler une tâche insurmontable, mais initier dès maintenant un mouvement en ce sens aura de nombreux bienfaits par la suite.

Pour en savoir plus sur l’analyse prédictive et la façon dont elle pourrait s’appliquer à votre infrastructure IT, téléchargez La puissance de l’IT prédictive, par la Harvard Business Review et Splunk.