Chasser des données : tout un métier
Fraîchement arrivée chez ODS en octobre dernier, l’un de mes premiers réflexes fût de parcourir le trombinoscope de l’entreprise (un outil très très utile pour ne pas se tromper de prénoms à la machine à café…). Equipes Produit, Sales, CSM, RH… Jusque là, tout va bien, ça me parle. Soudain, mes yeux sont attirés par un titre de poste peu commun : “Data Hunter”. “Génial”, me suis-je dit. “Je ne sais pas à quoi correspond ce métier mais il a l'air génial.” Et (spoiler alert), j’avais raison !
Pour en savoir plus sur le métier de Data Hunter je suis partie à la rencontre de deux collègues : Audrey et Cécile. Elles m’ont expliqué les tenants et aboutissants de leur job et m’ont présenté un cas concret : la chasse de données relatives au Covid-19. C’est parti !
Leur objectif principal : enrichir le Data Network
Intégrées à l’équipe R&D, Audrey et Cécile ont pour mission principale de chasser des données transverses dans le but d’étoffer le Data Network d’Opendatasoft. Ce dernier inclut tous les jeux de données publics de nos clients, ainsi que les données ajoutées par nos Chasseuses. Le Data Network permet à nos clients de croiser les jeux de données qui les intéressent et d’enrichir leur propres contenus.
(Psst : pour info, le Data Network est une véritable mine d’informations. Il peut même contribuer à égayer votre été…)
Étape 1 : Le ciblage
Le monde des données est vaste… Comment nos héroïnes font-elles pour choisir leurs proies ? “Nous agissons à la demande, en fonction des besoins de nos clients et des équipes ODS” explique Audrey. Les clients sont les premiers à les solliciter : ils demandent à l’équipe de chercher des données afin de mieux appréhender certaines problématiques.
Mais certains besoins en données sont également identifiés par les collègues d’Audrey et Cécile : ”Nous recevons fréquemment des demandes de l’équipe commerciale et de l’équipe produit. Elles sont bien sûr formulées pour répondre aux directions stratégiques de l’entreprise”, complète Audrey.
Étape 2 : La capture
Mais où se cachent les données ? “Partout !”, s’exclame Cécile avec un grand sourire. En effet, les sources sont variées et les recherches s’apparentent parfois à des enquêtes policières. “Le web est vaste. Il s’agit de trouver les bons mots-clés, et ensuite de vérifier l’exactitude de la source”, explique Cécile. “Les plateformes les plus fiables sont les sites gouvernementaux. Data Gouv, la plateforme officielle du gouvernement français, est l’une de nos ressources principales. Nous utilisons également les données d’organismes qui alimentent leurs propres plateformes, comme l’INSEE.”
Mais le fait de travailler avec des sources stables n’immunise pas nos Chasseuses contre les embûches… Premier obstacle : “Les habitudes de publications sont différentes en fonction des pays.”, explique Cécile. “La donnée est très locale” complète Audrey. “Il y a un aspect culturel de la donnée qui n’est pas à négliger.” C’est ainsi que, par exemple, le Mexique n’utilise pas le même format de documents que les Français, tandis que les Américains vont davantage fonctionner avec des API qu’avec des jeux de données.
Deuxième obstacle : “Les données que nous chassons sont tellement variées !” m’explique Audrey. “Nous pouvons, dans une même journée, travailler aussi bien sur des sujets liés à la mobilité qu’à la démographie, en passant par les blessures infligées par des requins. C’est complexe, car nous devons sans cesse tenter de nous projeter dans des domaines dont nous ne sommes pas expertes.” Mais c’est justement cette diversité qui rend ce métier passionnant.
PORTRAIT-ROBOT D’UN PARFAIT CHASSEUR.EUSE DE DONNÉES SELON AUDREY :
Pour partir à la chasse, il faut :
- Faire preuve d’un bon esprit d’analyse (afin de se projeter dans la donnée)
- Avoir la capacité d’appréhender plusieurs domaines différents, de s’adapter (c’est la diversité des thèmes abordés qui rend ce métier aussi fascinant)
- Aimer ranger sa chambre de manière rigoureuse (il y a pas mal de nettoyage à faire donc flemmard.e.s s’abstenir !)
- Être rigoureux.se (afin de limiter au maximum les incompréhensions)
- Être curieux, s’intéresser à tout et avoir le sens du détail
- Avoir le sens de l’humour (oui oui, les datasets sont plein de surprises !)
Étape 3 : L’apprivoisement
Ca y est, la quête s’est avérée fructueuse : l’équipe a capturé un jeu de données intéressant et fiable. Il est alors importé au sein du Data Network. Et ensuite ? C’est le moment de réfléchir à la meilleure manière de l’enrichir. “A ce stade, notre objectif est de trouver la bonne manière de présenter les données afin de maximiser leur chance de réutilisation”, m’explique Audrey. En effet, plus les données sont bien présentées, plus il est facile de les filtrer, de les croiser, de les transformer en visualisations et de… s’en servir, tout simplement. “Exposer les données ne suffit pas. Notre métier n’a aucune utilité si personne ne se sert des données apprivoisées.”
Nos Chasseuses sont aux anges lorsqu’elles reçoivent des questions à propos des datasets via le Support. “Ca veut dire que les datasets intéressent et vivent !”, exprime Cécile.
Étape 4 : L’éducation
La mission de l’équipe ne prend pas fin au moment de la publication du nouveau jeu de données. Celui-ci sera suivi et mis à jour avec attention au fil du temps. En effet, Audrey et Cécile exercent un travail de fond qui consiste à continuellement améliorer la qualité des datasets du Network. “Nous aspirons à partager des données de valeur, quitte à en avoir moins”, m’explique Audrey.
PORTRAIT-ROBOT D’UN JEU DE DONNÉES PARFAIT SELON CÉCILE :
Le dataset idéal :
- Il se met à jour tout seul
- Permet d’engager des discussions
- Est utilisé et réutilisé !
Une application concrète : Les Observatoires Covid
Cécile et Audrey viennent de mener leur plus grosse enquête à date : la chasse de données liée à la crise du Covid-19.
En mars dernier, ODS a décidé de créer des Observatoires Covid-19 pour la France, la Belgique, la Suisse, le Canada et les Etats-Unis. L’objectif était de mettre à disposition et de présenter les données de manière simple afin que nos clients puissent profiter de ce travail de manière rapide. Ils pouvaient ensuite reprendre les data sur leurs portails et s’en servir pour leur communication. Audrey et Cécile ont, bien sûr, joué un rôle très important dans ce projet d’envergure. Elles nous expliquent tout :
Comment cette quête s’est-elle déroulée ?
Audrey : Comme à notre habitude, nous sommes partie à la chasse… Mais une chasse particulièrement compliquée, car nos sources n’étaient pas sèches. De nouveaux indicateurs émergeaient chaque jour, alors que des sources apparaissent et disparaissent aussitôt. Ce fut intense au démarrage : on refaisait constamment ce que l’on avait déjà accompli la veille. D’habitude, les données avec lesquelles nous travaillons sont stables. Dans ce cas-ci, notre mission n’était pas fluide car tout le monde travaillait en même temps.
Comment avez-vous décidé de présenter les données sous forme d’Observatoires ?
Cécile : Nous avons penché pour l’observatoire car ce format parle davantage qu’un tableau. Il dresse un état des lieux. Il nous a également permis de faire des représentations claires et de limiter les incompréhensions. Il ne faut pas oublier que même des données “objectives” peuvent être interprétées de manières tout à fait différentes. Un champ nommé “nombre de malades” n’a pas le même sens partout. Parle-t-on du nombre de malades en cumulé ? Du nombre de malades testés ou bien auto-déclarés ? Ou encore du nombre de malades qui se trouvent à l’hôpital ? Nous tenions à ce que ces nuances soient clairement explicitées sur nos supports.
Audrey : Il était également important pour nous de ne pas tomber dans un schéma anxiogène. Nous nous sommes beaucoup documentées dans le but de trouver des manières de représenter le Covid sans tomber dans le sensationnel. Après tout, notre objectif était clair : que nos clients puissent se projeter dans les Observatoires afin d’apporter une réponse rapide à leurs citoyens. Pas plus, pas moins.
Quels ont été les retours des clients vis-à-vis de votre travail ?
Audrey : Très positifs ! J’en suis heureuse, car c’est avant tout pour eux que nous avons réalisé cette mission. Nous avons anticipé leurs demandes.
Que retirez-vous de cette expérience ?
Audrey : Déjà une certaine fierté, car ce projet nous a permis d’apporter notre petite pierre à l’édifice. Nous n’avons peut-être pas créé de masques (cela n’aurait pas été très cohérent) mais avec la mise en place des observatoires et de notre offre pro-bono, nous avons mis notre expertise au service de tous.
Ces Observatoires ont également prouvé que l’open data peut être utile à tout le monde. Le fait de s’appuyer sur une plateforme open data permet de monter rapidement des tableaux dans le but de mettre en lumière un sujet qui nous touche tous.
Cécile : Ce projet a également représenté l’occasion de mettre notre métier davantage en lumière au sein de l’entreprise. Les Observatoires ont impliqué de nombreuses équipes différentes : c’était le moment d’expliquer ce que l’on fait dans le détail et les problèmes que l’on rencontre au quotidien. Nos collègues ont été sensibilisés à nos défis, qui sont propres à la “culture data”. Les données, ça vit, et c’est parfois un peu chaotique !
Ce travail sur les données Covid-19 m’a également rappelé que nous devons inculquer de meilleurs pratiques dans le monde de la donnée. Comment gérer les licences ? Comment soigner ses métadonnées ? Comment rendre ses données exploitables ? Ce sont des questions auxquelles nous pouvons apporter des éléments de réponses.
Vous l’aurez compris : nos chasseuses de données sont bien occupées. Leur métier les amène à travailler sur des sujets variés et à répondre à des demandes multiples. Leur arme la plus puissante ? La combinaison entre leur curiosité exacerbée et leur rigueur acharnée.
Pour mieux comprendre quelles sont les forces et les axes de progression de notre produit et de notre accompagnement, nous interrogeons annuellement nos clients via une enquête de satisfaction. Découvrez les résultats !
Chaque année, les équipes d’Opendatasoft quittent les bureaux de Nantes, Paris et Boston pour faire le point sur l’année écoulée. Pour l’édition 2023 de notre séminaire, les équipes d’Opendatasoft se sont rendues dans la ville du Pouliguen et ont consacré un après-midi pour contribuer au projet OpenStreetMap (OSM) ! Apprenez-en plus dans cet article.
Opendatasoft a organisé un hackathon interne réunissant plus de 30 développeurs et développeuses pour tester plusieurs idées d’amélioration de notre plateforme grâce à l’Intelligence Artificielle (IA). Retrouvez tous les enseignements de ces deux journées d’émulation dans cet article.