Language

[Product Talk] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Je m'inscris
Tendances

Comment les données transforment-elles nos méthodes de recherche ?

La qualité et les sources des données ont connu un changement spectaculaire au cours des dernières décennies et l'impact de cette transformation s'étend bien au-delà de la sphère de la science des données. Quels sont les nouveaux enjeux et opportunités ?

Brand content manager, Opendatasoft
Voir tous ses articles

La qualité et les sources des données ont connu un changement spectaculaire au cours des dernières décennies et l’impact de cette transformation s’étend bien au-delà de la sphère de la science des données. Les chercheurs universitaires, qui s’appuient sur les données pour leurs études, doivent eux aussi s’adapter à la nouvelle génération de données. Quels sont les nouveaux enjeux et opportunités ?

Nous avons interrogé Tommaso Vitale, professeur associé à Sciences Po École Urbaine et sociologue urbain pour savoir comment les données ont transformé sa façon de travailler.

Quel métier exercez-vous ?

Je suis sociologue, spécialisé en sociologie urbaine, principalement dans les villes. J’étudie la relation entre les politiques sociales, la prestation de services et la situation des minorités ethniques dans les milieux urbains et métropolitains. Je cherche à identifier les principales relations entre la citoyenneté sociale et les services, comme l’alimentation, l’hébergement, le bien-être des personnes et la citoyenneté politique. Pour cela, j’examine l’autonomisation et la capacité à participer aux processus de prise de décision. Je m’intéresse également aux minorités ethniques ou à la capacité des populations urbaines défavorisées à défendre leurs intérêts dans les villes.

Cliquez ici pour lire son ouvrage sur la pauvreté urbaine et les bidonvilles, réalisé en collaboration avec des data scientists.

Comment intégrez-vous les données à vos activités professionnelles quotidiennes ?

Pour moi, le plus important est d’analyser les relations et les délais entre différents évènements. Je dois trouver des données exhaustives, qui évitent de créer des généralisations à partir de cas isolés. Au lieu d’axer mes recherches sur des études de cas, je tente d’analyser la situation dans son ensemble, au risque de laisser certains détails m’échapper, afin de voir la dynamique globale.

Les données ont connu une évolution considérable au cours des dernières décennies. En quoi cette transformation a-t-elle affecté vos recherches ?

Au cours de ma vie professionnelle, les sources et types de données que j’ai utilisés ont changé du tout au tout. Au début de ma carrière, je travaillais avec des données administratives, qui étaient souvent de très mauvaise qualité et produites sous des formes irrégulières par les instances publiques.

Puis, les chercheurs ont peu à peu commencé à s’appuyer sur les données d’enquête. Aujourd’hui, nous sommes entrés dans l’ère de la révolution des données de panel, pour ainsi dire, c’est-à-dire des données provenant d’enquêtes répétées auprès des mêmes échantillons statistiques au fil du temps. J’ai assisté à l’amélioration spectaculaire de la qualité des données et j’ai vu comment elles ont transformé nos méthodes de recherche.

Puis, dans les années 2000, nous avons vu l’émergence d’une nouvelle génération de données administratives de meilleure qualité, qui reposent sur des mises à jour automatiques. C’est elles qui ont donné naissance au web que nous connaissons aujourd’hui. Grâce à l’automatisation, à l’amélioration de la production des données et des programmes intelligents, nous pouvons mieux comprendre quelles sont les dimensions fondamentales des services en ville, par exemple en termes de consommation énergétique, de transport, de localisation des espaces ethniques, des informations sur la sociabilité des personnes et leur relation à la mobilité.

Nous avons plusieurs moyens de cartographier les formes de privation grave des personnes les plus défavorisées, en identifiant les inégalités liées à la prestation de services. Aussi passionnante et productive que soit cette nouvelle génération de données, elle restait toutefois difficile à gérer.

Quelles sont les principales difficultés posées par l'utilisation de la nouvelle génération de données ?

Les données sont très largement tributaires de la bonne volonté des sociétés privées, voire parfois des organisations publiques. Certains intègrent des variables spécifiques, d’autres non, et elles ne sont pas toujours compatibles. Les différentes bases de données peuvent mettre en place de nouvelles règles, de nouveaux protocoles, de nouvelles procédures et de nouveaux scripts tous les six mois.

Les entreprises de prestation de services et de services publics peuvent produire un grand nombre de données. En ce qui me concerne, j’adore travailler et jouer avec, mais elles ne sont pas très intuitives pour les chercheurs. Je trouve fantastique qu’elles produisent une telle quantité de nouvelles données, d’autant plus qu’elles sont mises à jour automatiquement, mais les variables sont parfois médiocres et changent constamment. Elles prennent différents noms, scripts et procédures pratiques. Je n’étais pas habitué à ce niveau de complexité.

Je suis plutôt habitué à travailler avec un grand nombre de variables et des milliers de cas, où l’étiquette et les scripts restent toujours identiques, pour permettre un accès universel aux données pour les chercheurs. Aujourd’hui, les nouveaux modes de production d’informations ont donné naissance à de nouvelles contraintes, mais aussi à de nouvelles opportunités.

Quelles compétences utilisez-vous pour intégrer les données à votre travail ?

Je dois nouer des relations avec les nouvelles disciplines. La plupart de mes collègues ont commencé à travailler avec les services des sciences de l’information. Ce ne sont pas forcément des méthodes informatiques extrêmement avancées, mais elles exigent d’utiliser intelligemment les sources de données. Il est essentiel d’apprendre à gérer les données et leurs sources.

C’est pourquoi j’ai dû adapter non seulement mes méthodes de recherche, mais aussi mes méthodes d’enseignement. Dans ce contexte, l’enseignement se concentre de plus en plus sur la gestion ou le nettoyage des données ou encore la façon de s’adapter à l’évolution constante de l’environnement des sources de données. On délaisse quelque peu la programmation et l’analyse pour plutôt apprendre aux étudiants à gagner du temps lors de la gestion des sources de données.

À l'avenir, quel type d'impact pensez-vous que les données auront sur l'innovation au niveau du gouvernement et des politiques publiques ?

Avant l’émergence des données, il y avait un énorme fossé entre les chercheurs et les responsables politiques. Les preneurs de décision concevaient des projets comme ils le souhaitaient, les mettaient en œuvre, puis c’était aux chercheurs de mesurer les conséquences. Les décisionnaires remaniaient alors leurs politiques. Cette approche évolutive met en évidence le rôle des chercheurs dans le processus politique. C’est un concept très platonicien, mais il ne fonctionne jamais dans la réalité. Pourquoi ? Parce qu’aujourd’hui, la plupart des enjeux ne sont plus tellement liés à l’élaboration des politiques, mais plutôt à leur mise en œuvre. La solution était donc d’améliorer l’étape de la mise en œuvre.

Les données nous permettent de rompre avec l’approche évolutive affectionnée par les pragmatistes des années 70 vis-à-vis de l’apprentissage pour favoriser la co-production entre les responsables politiques et les chercheurs. Cela nous permet de surveiller les problèmes de mise en œuvre qui se présentent, puis d’allouer les ressources nécessaires pour exercer un contrôle plus étroit et comprendre ce qu’il se passe. Mon collègue Patrick Le Galès a étudié dans quelle mesure le contrôle des politiques de santé a affecté le système de santé publique britannique. Il en a conclu qu’il a eu un fort impact sur le temps de travail des infirmières et médecins. Et les chiffres sont impressionnants ! Le contrôle des données a permis de réduire le temps de travail du personnel médical.

D’après l’expérience du professeur Vitale en tant que chercheur et enseignant, l’amélioration de la qualité des données et des sources de données a bel et bien eu un impact positif. Toutefois, le monde de la production de donnée a encore un long chemin à parcourir : la pléthore de données, couplée à l’absence de procédures normalisée ou d’un environnement stable, peut engendrer de nombreux problèmes en termes de gestion des données.

À bientôt pour de nouvelles dataventures !

Articles sur le même thème : Open data
Plus d'articles
Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement ! Produit
Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement !

Pour mieux comprendre quelles sont les forces et les axes de progression de notre produit et de notre accompagnement, nous interrogeons annuellement nos clients via une enquête de satisfaction. Découvrez les résultats !

Les équipes d’Opendatasoft organisent une cartopartie OpenStreetMap dans les villes du Pouliguen et La Baule – Escoublac ! Open data & transparence
Les équipes d’Opendatasoft organisent une cartopartie OpenStreetMap dans les villes du Pouliguen et La Baule – Escoublac !

Chaque année, les équipes d’Opendatasoft quittent les bureaux de Nantes, Paris et Boston pour faire le point sur l’année écoulée. Pour l’édition 2023 de notre séminaire, les équipes d’Opendatasoft se sont rendues dans la ville du Pouliguen et ont consacré un après-midi pour contribuer au projet OpenStreetMap (OSM) ! Apprenez-en plus dans cet article.

Hackathon Opendatasoft : explorer le potentiel de l’Intelligence Artificielle dans les outils de gestion des données Actualités
Hackathon Opendatasoft : explorer le potentiel de l’Intelligence Artificielle dans les outils de gestion des données

Opendatasoft a organisé un hackathon interne réunissant plus de 30 développeurs et développeuses pour tester plusieurs idées d’amélioration de notre plateforme grâce à l’Intelligence Artificielle (IA). Retrouvez tous les enseignements de ces deux journées d’émulation dans cet article.