Comment nous avons listé +2600 portails pour la communauté open data
Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte:
Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte: Lorsque vous développez une solution open data, vous entendez souvent la même question : « Où puis-je trouver des données propres et utilisables ? »
En parallèle, nous sommes d’avides consommateurs de données ouvertes. Nous les recueillons pour créer des effets de réseaux inédits ou vous divertir avec notre série l’Open Data de la Semaine.
L’idée de créer une ressource unifiée rassemblant tous les portails de données ouvertes du monde a rapidement émergé. Rendre cette ressource accessible en open data s’inscrivait naturellement dans le prolongement de ce projet. Quelques gifs du Docteur Denfer plus tard, nous amorcions le projet Open Data Inception. Après la carte des fromages français, l’état de l’open data en 2014 et les retards du TGV à l’épreuve de l’open data, Opendatasoft poursuit sa série l’open data de la Semaine avec la liste des 2600 portails de données ouvertes du monde.
Comment lister plus de 2600 portails de données ouvertes
La première étape de notre démarche a été évidemment de regarder les projets similaires. Que cela soit OpenGeocode ou DataPortals de l’Open Knowledge Foundation, tous ces projets étaient intéressants et utiles mais aucun n’était parfait. En effet, OpenGeocode est plutôt concentré sur les portails américains (pas de portail open data français par exemple) et les deux ne sont pas évidents à comprendre : y-a-t-il une API ? Peut-on télécharger la totalité des données ? Comment sélectionner une zone sur la carte ? Il y avait aussi des projets sur Github, des réponses sur Quora ou StackExchange listant des données intéressantes. Mais les listes elles-mêmes n’étaient pas structurées et étaient difficiles à réutiliser, sauf en cliquant sur les liens à chaque fois.
Nous avons donc utilisé toutes ces sources, puis avons ajouté à la main les portails open data que nous connaissions qui n’étaient pas sur la liste. La plateforme Opendatasoft permet en effet à ses utilisateurs d’ajouter différentes sources de données pour un même jeu de données. Nous avons donc ajouté les données collectées ainsi que le lien vers un tableur en ligne où nous avons pu ajouter des données à la main en les gardant synchronisées en permanence avec le jeu de données principal.
Lorsque l’on mélange différentes sources de données dans un jeu de données unique, il est important de trouver le dénominateur commun de ces données. Dans ce cas, nous nous sommes limités au nom, à une organisation, au lien vers le portail et à une localisation. Toutes les autres informations étaient compliquées à trouver dans la plupart des cas et nous voulions une liste consistante et utile. Nous avons ensuite utilisé des scripts simples, principalement en Clojure, pour harmoniser les différents champs ; par exemple en capitalisant des champs textuels ou en convertissant les données géographiques dans un même système de coordonnées
Nettoyage et enrichissement de notre jeu de données
Après avoir collecté les données, nous avons procédé à un nettoyage approfondi : coordonnées géographiques manquantes, doublons, coquilles, typologies hétérogènes.
Nous voulions proposer deux possibilités d’interaction avec nos données :
- Une liste de tous les portails de données ouvertes classés par pays à travers laquelle les internautes pourraient facilement naviguer.
- Un site indépendant montrant une belle carte sur laquelle les portails open data seraient géolocalisés. Cette interface donnerait ainsi un bon aperçu de la densité de portails de données ouvertes à travers le monde.
Dans la première version de notre liste, les villes, les pays et les organisations étaient situés sur le même niveau de sens. La première étape était donc de créer deux colonnes pour y harmoniser le nom des pays (en français et en anglais).
Cette étape a presque immédiatement soulevé les limites de notre connaissance géopolitique. Devions-nous classer l’Angleterre, l’Irlande du Nord et le Pays de Galles sur des lignes différentes ou les inclure dans le Royaume-Uni ? Quid de l’Île de Man qui est une dépendance de la Couronne britannique mais n’appartient administrativement pas au Royaume-Uni ? Afin d’éviter tout débat stérile, nous nous sommes référés à la liste des pays souverains établie par les Nations Unies.
Le jeu de données avec les différents pays, coordonnées géographiques…
Notre seconde tâche a été de nettoyer et de compléter les coordonnées géographiques pour chaque portail présent sur la liste. Nous avions un peu plus de 1000 portails de données ouvertes déjà géolocalisés. Nous avons ajouté les coordonnées des 600 autres à la main.
Les portails gérés par les municipalités étaient faciles à cartographier. Mais où placer les portails des Nations Unies ou les portails gérés par des initiatives citoyennes à travers un pays ? Nous avons décidé de les localiser respectivement sur les coordonnées de leurs quartiers généraux et la capitale administrative la plus pertinente. Prenons un exemple. Si un portail est issu d’une initiative citoyenne à travers l’Espagne, il sera localisé à Madrid. Si le portail est celui de la région de la Cantabria, il sera localisé à Santander.
Les dernières étapes ont été de supprimer les doublons et de charger le jeu de données sur notre portail public.
Charger le jeu de données ouvertes sur la plateforme Opendatasoft
Dans le but de créer une carte interactive en quelques secondes, nous avons chargé le jeu de données sur notre solution open data. La plateforme Opendatasoft reconnaît automatiquement les coordonnées géographiques des portails et place ces derniers sur une carte. Lorsque vous regardez la carte à l’échelle mondiale, les portails sont regroupés en clusters permettant de mieux visualiser la densité de l’offre.
Nous avons customisé le fond de carte et les pointeurs via l’interface d’administration sans utiliser la moindre ligne de code ou la moindre valeur hexadécimale.
Construire opendatainception.io en quelques minutes
L’un des avantages de la plateforme Opendatasoft est sa capacité à générer automatiquement des widgets à partir des données. Grâce à la librairie de widgets open source, vous pouvez construire des tableaux de bord complets en quelques minutes. Vos visualisations sont toujours à jour grâce à l’API.
Le code de widget que nous avons copié au sein de notre page HTML.
Notre jeu de données était prêt, notre carte des portails de données ouvertes aussi. Il ne nous restait qu’à développer un site responsive et y intégrer le widget de carte et le widget de recherche pour une exploration des portails de données ouvertes facilitée.
Les deux widgets communiquent l’un avec l’autre. Ainsi, lorsque vous tapez le nom d’une ville dans la barre de recherche, la carte montre automatiquement le résultat de votre requête.
Le site s’articule autour de 25 lignes de codes issues de ce tutoriel. Ni Javascript, ni Python, ni PHP nécessaires. Just un simple surfaçage en HTML et CSS. Tout le comportement de recherche et de restitution est géré par les widgets.
Vous voulez utiliser les widgets Opendatasoft ? Lisez notre documentation et nos tutoriels
Sans surprise : les États-Unis regroupent presque 500 portails
Les quelques chiffres que nous avons appris en faisant cette liste :
- Plus de 200 pays ont un espace dédié aux données ouvertes. Qu’il s’agisse de portails gérés par des initiatives citoyennes, des administrations…
- Les États-Unis regroupent presque 500 portails open data : de la ville aux organisations internationales.
Et après ? Améliorations possibles
Si notre but était de constituer une ressource exhaustive et unifiée de tous les portails de données regroupant des données ouvertes, la liste n’est en rien définitive.
Nous serons ravis d’avoir des retours afin d’améliorer continuellement cette liste. URLs inactives, nouveaux portails, portails que nous aurions oubliés… Nous espérons que cette ressource sera utile à la communauté open data.
Nous ajouterons aussi d’autre sources qui ne sont pas de l’open data per se : dumps de données, repositories GitHub.
Nous avons oublié votre portail ? Vous avez trouvé une URL inactive ? Envoyez-nous un message via le formulaire ci-dessous ou via Twitter. Nous espérons que vous aimerez la liste et la carte autant que nous avons aimé les faire. Le jeu de données est accessible ici.
Dans un monde de plus en plus orienté vers les données, comprendre et différencier les notions de données (data), métadonnées (metadata), actif de données et data products (produits de données) est devenu indispensable pour maximiser leur potentiel. Ces concepts interdépendants, bien que distincts, jouent chacun un rôle clé dans la transformation digitale des organisations et leur capacité à faciliter le partage et la consommation de données à l’échelle.
Des données toujours plus nombreuses, une complexité croissante, des budgets contraints : voici quelques-unes des problématiques auxquelles les CDO doivent aujourd’hui faire face. Découvrez les tendances et défis auxquels sont confrontés les CDO, et comment garantir le ROI de vos projets data, selon le cabinet Gartner.
Comment maximiser la contribution des données à la croissance de votre organisation ? Un objectif ambitieux, partagé par de nombreux leaders data et qui sera au cœur de leurs enjeux 2025. Les data marketplaces émergent comme des solutions incontournables, succédant aux classiques data catalogs. Dans un monde toujours plus digitalisé, où le volume de données des organisations explose, la clé réside dans la capacité des leaders data à créer un accès facilité aux données pour tous les métiers pour générer de la valeur. Pourquoi les data marketplaces s’imposent-elles comme l’outil décisif pour franchir cette dernière étape ? Décryptage dans cet article.