TIPS & TRICKS

Data Talks : Tout savoir sur l’Open Data

Bienvenue dans l’épisode 2 de la nouvelle série de Splunk, Data Talks, dans laquelle des experts de la donnée décryptent pour nous les nouvelles tendances autour de la data. Nous retrouvons un des spécialistes français de la donnée, Victor Baissait, que nous avions rencontré lors du premier épisode sur la datavisualisation. Cette fois, il nous ouvre les yeux sur l’Open Data dans cette vidéo :

 SOMMAIRE

Mais alors, c’est quoi l’Open Data ?

Bonjour. Merci pour cette nouvelle invitation. Traduit littéralement, l’Open Data, c’est tout simplement de la donnée ouverte, c’est-à-dire une information publique, libre de droits, que l’on peut librement réutiliser, sans rien avoir à débourser.

On y reviendra certainement, mais ces données ouvertes ont été structurées par de nombreux acteurs. Elles reposent donc sur différents piliers, qui sont généralement au nombre de huit ou dix selon les versions considérées.

Voilà pour la définition générique, mais concrètement, comment peut-on utiliser l’Open Data au quotidien ?

Pour que les gens comprennent bien, les données ouvertes sont généralement mises à disposition sur des sites spécialisés par de grandes entreprises publiques ou privées, des États ou un mélange des deux. L’Open Data est souvent au format .csv, une sorte de fichier Excel prêt à l’emploi, dans lequel les données ne sont pas présentées dans des cellules, mais séparées par des virgules. Les développeurs peuvent ensuite intégrer automatiquement ces informations dans leur code. Il peut cependant y avoir un gros travail derrière, car les données ne s’organisent pas par magie.

Concrètement, cela peut servir dans le secteur foncier, par exemple, pour savoir combien peuvent valoir des biens en fonction du quartier, spécialement en France, où on dispose d’outils très précis en la matière. On peut aussi utiliser l’Open Data pour connaître l’affluence dans certains endroits et ainsi booster les calculateurs d’itinéraires. La section Réutilisation du site Open Data France donne bien d’autres exemples dans des domaines tels que l’emploi et le développement économique ou encore l’analyse des flux. Ces articles permettent d’examiner des cas d’usage pertinents pour lesquels les données ouvertes peuvent être utiles.

On peut donc avoir accès à une grande variété de données, mais on risque aussi de s’y perdre. Est-ce qu’il existe tout de même de bonnes pratiques pour l’Open Data ?

Bien sûr. Par contre, on peut comprendre la question de deux manières, je vais donc apporter deux réponses différentes.

Tout d’abord, les bonnes pratiques en matière d’Open Data peuvent renvoyer à la façon de présenter esthétiquement une data list, que l’on définit comme la représentation visuelle des données pour en simplifier ou en améliorer la compréhension. C’est un concept dont j’ai déjà parlé dans le premier épisode, et j’invite les gens à le visionner s’ils souhaitent en savoir plus, car je ne voudrais pas me répéter.

Mais cette notion peut aussi être vue du côté des acteurs de la data, qui souhaitent s’assurer que les données dont ils ont affaire sont bien de l’Open Data. Pour répondre à cette définition, elle doit en effet respecter certains critères, tels que les a répertoriés la Sunlight Foundation en 2010. Je peux en citer quelques-uns, par exemple :

  • La personne qui poste la data doit être propriétaire de la donnée d’origine. Pour que les gens comprennent bien, cela signifie que la RATP, par exemple, va poster ses propres données concernant l’usage de ses services. Par contre, une autre entreprise ne peut pas créer de l’Open Data avec ces informations, car elles ne seront pas fiables si elles sont calculées de manière approximative par un acteur n’ayant pas accès à la data brute.
  • La donnée doit être disponible en continu et archivée de manière que l’on puisse toujours y avoir accès. Cela signifie également qu’il faut faire des sauvegardes, car nous ne sommes jamais à l’abri d’une attaque pouvant mener à une interruption de service ou d’un oubli de paiement de l’hébergeur d’un site. Dans les grandes organisations, ces événements sont généralement prévus, mais elles peuvent faire face à d’autres problématiques. Heureusement, une entreprise proposant de l’Open Data ne peut pas décider du jour au lendemain d’arrêter de rendre disponible les données ouvertes qu’elle a précédemment diffusées. Ce problème s’est d’ailleurs déjà posé. À un moment donné, la RATP a voulu faire payer des acteurs comme Citymapper, une application qui permet de générer des itinéraires sur différents moyens de transport (métro, bus, Vélib, Uber, etc.). La RATP a toutefois dû reculer, car cela représentait une régression scandaleuse.
  • Elle doit être facilement accessible par des machines, c’est-à-dire dans un format comme le .csv, qui n’est pas un format propriétaire au contraire de celui d’Excel, qui appartient à Microsoft. Cela permet de garder son indépendance face à des acteurs privés qui ne sont pas en open source et pourraient à tout moment conditionner l’accès aux données à l’achat d’une nouvelle version, par exemple.
  • Elle doit être présentée de manière à pouvoir être utilisée dans toutes les situations. C’est pour cette raison que l’on conseille généralement d’utiliser du .csv, qui est un format très simple et bien connu des développeurs.
  • Il faut évidemment qu’il y ait une licence open source sur ces données.

Voilà pour les bonnes pratiques. Pour en revenir aux écueils, est-ce qu’on peut relever des erreurs communes commises par les acteurs qui se lancent dans l’Open Data ?

Bien sûr. Comme on l’a déjà évoqué dans la première vidéo, les concepts de data et de Big Data sont à la mode, et tout le monde veut s’en emparer, sans forcément comprendre de quoi il s’agit. Je n’ai pas vraiment d’exemple en tête, mais je suis persuadé qu’il existe des acteurs qui promettent de l’Open Data, mais qui, si on y regarde de plus près, sont vraiment loin du compte. Pour certains, c’est un joli nom et un argument marketing, mais ils ne respectent pas nécessairement les conditions requises et cherchent à générer des profits quand ils se rendent compte qu’il y a de l’argent à se faire. Alors que la data doit être accessible à tous. Malheureusement, certains profitent pour faire de la discrimination.

On peut donc trouver des données ouvertes sur des sites, mais est-ce qu’elles sont facilement disponibles ?

La première question à se poser quand on cherche de la data est de savoir à qui elle appartient à l’origine : un État, une entreprise publique ou privée. Une fois l’organisation identifiée, il suffit d’aller voir si elle propose de l’Open Data. Par exemple, une personne qui ne saurait pas si la RATP a de l’Open Data doit simplement saisir « RATP open data » dans un moteur de recherche pour accéder à la page dédiée de l’entreprise. De cette manière, on peut accéder au trafic annuel entrant par station du réseau ferré en 2020, à la qualité de l’air de la station Auber, au registre des sanisettes de la ville de Paris, aux horaires en temps réel de la RATP et ainsi de suite.

Il existe donc de nombreuses données accessibles à partir d’une simple recherche sur Internet. Parfois, il faut aussi aller voir un peu plus loin. Par exemple, en matière de transport, il n’y a pas que la RATP en Île-de-France. Il pourrait être nécessaire de se renseigner auprès du Stif ou de la SNCF pour compléter ses données.

On peut également visiter les sites des États. Par exemple, si vous cherchez des données concernant le Royaume-Uni, vous pouvez vous rendre sur le site data.gov.uk. S’il est bien mis à jour, on devrait y trouver toutes les données publiques disponibles. Il existe le même type de page pour la France, l’Europe et bien d’autres territoires.

Un certain nombre de sites auxquels on ne pense pas toujours proposent aussi de l’Open Data, comme ceux de l’Insee ou de la Banque Mondiale. Par exemple, l’Insee a mis en ligne une base de données de tous les décès depuis 1970, c’est-à-dire depuis le moment où ces renseignements ont été enregistrés sur ordinateur. C’est un outil extraordinaire pour les généalogistes. Des acteurs l’ont donc utilisé pour développer des sites sur lesquels il suffit de saisir le nom d’une personne pour accéder à ses informations. Lorsqu’on a un projet qui doit s’appuyer sur des données, il est donc essentiel d’aller chercher si ces ressources sont disponibles quelque part.

Le .csv est donc un des principaux formats de l’open data, mais est-ce qu’il en existe d’autres ?

Oui, il peut y en avoir d’autres, mais le .csv reste le plus utilisé. Il s’agit de l’abréviation de comma-separated values, ou données séparées par des virgules comme je l’ai expliqué tout à l’heure. C’est donc le format le plus simple à utiliser et à intégrer, et celui que je recommande.

J’en profite pour signaler que lorsqu’on cherche des données sur un événement qui n’est pas disponible en Open Data, il suffit parfois d’effectuer une requête avec son nom en anglais et le terme « csv » pour obtenir un résultat. C’est par exemple le cas des Jeux olympiques. Une recherche avec l’expression « olympic games csv » permet d’accéder à un site fiable contenant des données mises à jour. Il est donc utile de connaître le nom du format, non seulement pour des raisons techniques, mais aussi pour élargir son champ de recherche.

 

Pour en revenir à l’Open Data en France, Jean Castex a récemment publié une circulaire plaçant la politique de la donnée au rang de priorité stratégique de l’État. Est-ce que cette déclaration va avoir un impact sur notre manière de traiter l’open data à votre avis ?

Oui. L’Open Data et le numérique sont au cœur des enjeux du gouvernement, comme on le voit avec les discours sur la « start-up nation ». Quoi qu’on en pense, on cherche visiblement à aider les grandes entreprises et les start-ups de toutes tailles à croître pour qu’elles accèdent au statut de « licornes », c’est-à-dire des organisations valorisées à plus d’un milliard de dollars. Il existe donc un certain nombre de programmes, comme French Tremplin, qui visent à soutenir l’excellence française. Si je ne me trompe pas, cette dynamique s’est enclenchée en décembre 2020, lorsqu’un député LREM, Éric Bothorel, a remis un rapport sur la politique publique de la donnée.

Il faut toutefois faire attention à la manière dont cet intérêt est exploité. Par exemple, il y a quelques années une députée ou une autre personnalité politique a proposé de taxer chaque clic sur un lien. Cet exemple peut paraître un peu caricatural, mais il montre bien que certains acteurs de la vie politique sont totalement déconnectés de la réalité et ne comprennent rien à la manière dont les choses fonctionnent. Cela pose de gros problèmes, car de nombreuses mesures visant officiellement à améliorer le système de data et le numérique en France ne font en réalité que renforcer la surveillance, sans avoir aucun effet bénéfique, bien au contraire.

Pourtant, il faut absolument renforcer le programme de données en France, dans la mesure où les entreprises privées et publiques peuvent facilement se faire pirater. On peut par exemple citer l’exemple de Doctolib, qui a connu ce genre de problèmes et aurait pu bénéficier d’un cadre beaucoup plus strict. Une entreprise effectuant des tests Covid a également copié ses données sur un Google Drive personnel, et les informations de plusieurs milliers de personnes (nom, prénom, identifiant de la carte Vitale) ont été piratées.

C’est donc une bonne chose de promouvoir l’Open Data, mais au-delà des propositions politiques, il faut également sensibiliser tous les acteurs pour qu’elle soit utilisée et manipulée correctement. Qu’il s’agisse de grandes entreprises, de PME ou de particuliers, il est nécessaire que les gens soient mieux informés afin qu’ils ne diffusent pas leurs données n’importe où, au risque de se faire pirater. Malheureusement, la cybercriminalité est en forte augmentation et de nombreuses personnes se font avoir. Par exemple, certains sites de location de vacances peuvent avoir uniquement pour but d’usurper l’identité des internautes potentiellement intéressées. Il faut donc avant tout faire un gros travail de sensibilisation sur la sécurité des données.

Chez Splunk, nous nous adressons beaucoup aux équipes métier dans les entreprises (marketing, RH, experts-comptables, etc.). L’Open Data peut-elle faire évoluer les méthodes de travail ?

Oui, bien sûr, je peux citer quelques cas d’usage parlants. Par exemple, il existe une carte qui recense l’intégralité des transports dans le monde et présente la situation en temps réel ainsi que des horaires prédictifs. Ce sont des données que l’on peut tout à fait intégrer et exploiter dans le monde professionnel.

Il y a également les cartes de la couverture 5G ou de la fibre, qui peuvent être utilisées par les organisations cherchant à s’installer dans un nouvel endroit et à s’assurer que ces services sont bien disponibles. Cela leur permet notamment de prendre des décisions éclairées quant à leur implémentation. Ce genre d’outils peuvent tout à fait trouver leur place dans les entreprises.

Et de manière plus générale, l’Open Data est-elle déjà utile pour les particuliers ou les entreprises ?

Oui, j’en vois régulièrement des exemples, car de plus en plus de gens s’intéressent à l’Open Data. La technologie est aussi plus accessible, notamment grâce à des tutoriels qui permettent d’apprendre à les manipuler. On voit donc se multiplier les projets, et certains sont vraiment formidables. Par exemple, j’ai vu des cartes de Paris et d’Amsterdam représentant la date d’édification des bâtiments selon un code couleur allant du jaune au bleu en passant par le vert. Pour Paris, les constructions les plus anciennes, au cœur de la ville, étaient affichées en jaune, et plus on allait vers la périphérie, dans les quartiers plus récents, comme Bercy, plus il y avait de bleu. C’est une idée toute simple qui permet de visualiser comment ces villes sont fragmentées, mais aussi comment on peut facilement exploiter de la donnée.

Et est-ce que l’IA peut aider le commun des mortels à gérer ce volume de données ?

Oui, comme n’importe quel type de data. L’IA ne fait pas de différence entre de la data standard et de la donnée ouverte. Et en effet, l’open data représente potentiellement des milliers, des millions, voire des milliards de données. Il n’est donc pas toujours évident de les trier et de leur donner du sens. On peut donc s’appuyer sur l’intelligence artificielle. Toutefois, pour caricaturer la situation, il ne faut pas croire que l’IA va tout faire toute seule. Le processus reste avant tout humain, même si cette technologie peut nous aider. Il est nécessaire de lui donner des directions pour lui expliquer ce qu’il faut faire de cette donnée et lui permettre de définir le bon algorithme.

Il faut aussi vérifier le résultat, car on peut parfois avoir des surprises. Je pense à un exemple qui a touché la reconnaissance d’images de Google. L’algorithme a abouti à des conclusions scandaleuses, considérant des êtres humains comme des gorilles, car l’IA était incapable de reconnaître correctement les traits des personnes noires. Quelqu’un s’est même fait arrêter, car l’outil n’avait pas su distinguer deux individus différents.

Il faut prendre conscience que les algorithmes d’IA sont mal entraînés, c’est-à-dire uniquement sur des personnes blanches dans cet exemple. Le système ne peut donc pas fonctionner correctement avec d’autres types d’individus. Certains acteurs de la data et de l’IA militent d’ailleurs pour que ça change et tentent de montrer l’origine de ces problèmes. Il faut donc avoir une véritable réflexion et s’assurer de la fiabilité de l’outil, ce qui n’est pas toujours évident. Lorsqu’on trouve un algorithme, comment savoir s’il a été testé équitablement sur toutes sortes de personnes, par exemple ? L’information est presque impossible à obtenir malheureusement.

L’Open Data reste donc de la data, avec toutes les problématiques qui l’accompagnent. C’est en tout cas un concept à la mode. Comment voyez-vous l’avenir de ces données ouvertes, disons dans une dizaine d’années ? Ne risque-t-on pas de s’en lasser ?

Ma vision est peut-être un peu idéaliste. Je soutiens toutes les initiatives en open source, car je pense qu’elles sont essentielles dans un monde où les entreprises essaient de plus en plus d’accaparer les données. On le voit bien avec les scandales qui s’enchaînent quant au traitement des données sur Facebook, Twitter ou sur les téléphones mobiles. Cette tendance devrait être compensée par la multiplication des ressources en accès libre.

Je pense aussi que la population est de plus en plus consciente de la situation. Aujourd’hui, le moindre problème fait la une des journaux, et pas uniquement dans la presse spécialisée, alors qu’il y a quelques années encore, les mêmes informations seraient passées inaperçues. Les gens ont donc réalisé que la question des données les concernait, et c’est plutôt rassurant. Ils comprennent maintenant qu’il s’agit de leur nom, de leur prénom, du numéro de leur carte bancaire, de leur carte d’identité, de leur carte Vitale et ainsi de suite. Ce sont des informations très personnelles qui peuvent également servir à créer davantage de data sur la population. Les systèmes qui récupèrent ces données pourraient déduire qu’un individu a de fortes chances de rester célibataire au cours des trois prochains mois, par exemple, même si c’est un exemple un peu caricatural.

Les gens veulent donc se réapproprier leurs données. Ce n’est pas pour rien si Apple joue sur cette « privatisation » des informations personnelles. Il ne faut pas se voiler la face. C’est aussi un argument marketing, surtout lorsqu’on constate qu’une partie de leur data est tout de même communiquée à des tiers qui ne sont pas nécessairement fiables. Cela n’enlève rien à la qualité de certains de leurs outils, au point d’inquiéter Facebook et d’autres, mais c’est avant tout le signe que les utilisateurs cherchent à reprendre le pouvoir sur leurs données. Je pense donc qu’au cours des dix ou quinze prochaines années, les initiatives pour que les citoyens puissent reprendre la main sur cette question vont se multiplier, même si certaines pourront se révéler totalement hypocrites.

Remerciements

Je crois que ce sera le mot de la fin. Merci à vous, Victor, et aux personnes qui nous ont suivis. N’hésitez pas à nous contacter si vous souhaitez que l’on aborde un autre sujet la prochaine fois, en nous laissant un commentaire ou en m'envoyant un message sur LinkedIn. À bientôt !

Quelques liens utiles pour aller plus loin : 

Le site de l'Open Data France

Les bonnes pratiques de la Sunlight Foundation

Le site anglais data.gov.uk

L'Insee

Se connecter à Victor Baissait

Twitter

Twitch

YouTube

victorbaissait.fr

Participation à l’émission On n'est plus des pigeons ! en tant qu’expert sur les fake news

 

Audrey est senior content marketing manager sur les marchés francophones. Elle est responsable de la création et la localisation en français de tout le contenu de Splunk, des réseaux sociaux au blog en passant par les réussites de nos clients ou les livres blancs. Avant Splunk, Audrey a entre autres travaillé chez VMware, Facebook, Neopost, Sanofi ou encore la SNCF. Passionnée par l’écriture, elle tient depuis des années un blog culture, Digression Urbaine.