Language

[Product Talk] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Je m'inscris
Actualités

Comment nous avons listé +2600 portails pour la communauté open data

Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte:

Brand content manager, Opendatasoft
Voir tous ses articles

Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte: Lorsque vous développez une solution open data, vous entendez souvent la même question : « Où puis-je trouver des données propres et utilisables ? »

En parallèle, nous sommes d’avides consommateurs de données ouvertes. Nous les recueillons pour créer des effets de réseaux inédits ou vous divertir avec notre série l’Open Data de la Semaine.

L’idée de créer une ressource unifiée rassemblant tous les portails de données ouvertes du monde a rapidement émergé. Rendre cette ressource accessible en open data s’inscrivait naturellement dans le prolongement de ce projet. Quelques gifs du Docteur Denfer plus tard, nous amorcions le projet Open Data Inception. Après la carte des fromages français, l’état de l’open data en 2014 et les retards du TGV à l’épreuve de l’open data, Opendatasoft poursuit sa série l’open data de la Semaine avec la liste des 2600 portails de données ouvertes du monde.

Copy to clipboard

La première étape de notre démarche a été évidemment de regarder les projets similaires. Que cela soit OpenGeocode ou DataPortals de l’Open Knowledge Foundation, tous ces projets étaient intéressants et utiles mais aucun n’était parfait. En effet, OpenGeocode est plutôt concentré sur les portails américains (pas de portail open data français par exemple) et les deux ne sont pas évidents à comprendre : y-a-t-il une API ? Peut-on télécharger la totalité des données ? Comment sélectionner une zone sur la carte ? Il y avait aussi des projets sur Github, des réponses sur Quora ou StackExchange listant des données intéressantes. Mais les listes elles-mêmes n’étaient pas structurées et étaient difficiles à réutiliser, sauf en cliquant sur les liens à chaque fois.

Nous avons donc utilisé toutes ces sources, puis avons ajouté à la main les portails open data que nous connaissions qui n’étaient pas sur la liste. La plateforme Opendatasoft permet en effet à ses utilisateurs d’ajouter différentes sources de données pour un même jeu de données. Nous avons donc ajouté les données collectées ainsi que le lien vers un tableur en ligne où nous avons pu ajouter des données à la main en les gardant synchronisées en permanence avec le jeu de données principal.

Lorsque l’on mélange différentes sources de données dans un jeu de données unique, il est important de trouver le dénominateur commun de ces données. Dans ce cas, nous nous sommes limités au nom, à une organisation, au lien vers le portail et à une localisation. Toutes les autres informations étaient compliquées à trouver dans la plupart des cas et nous voulions une liste consistante et utile. Nous avons ensuite utilisé des scripts simples, principalement en Clojure, pour harmoniser les différents champs ; par exemple en capitalisant des champs textuels ou en convertissant les données géographiques dans un même système de coordonnées

Copy to clipboard

Après avoir collecté les données, nous avons procédé à un nettoyage approfondi : coordonnées géographiques manquantes, doublons, coquilles, typologies hétérogènes.

Nous voulions proposer deux possibilités d’interaction avec nos données :

  • Une liste de tous les portails de données ouvertes classés par pays à travers laquelle les internautes pourraient facilement naviguer.
  • Un site indépendant montrant une belle carte sur laquelle les portails open data seraient géolocalisés. Cette interface donnerait ainsi un bon aperçu de la densité de portails de données ouvertes à travers le monde.

Dans la première version de notre liste, les villes, les pays et les organisations étaient situés sur le même niveau de sens. La première étape était donc de créer deux colonnes pour y harmoniser le nom des pays (en français et en anglais).

Cette étape a presque immédiatement soulevé les limites de notre connaissance géopolitique. Devions-nous classer l’Angleterre, l’Irlande du Nord et le Pays de Galles sur des lignes différentes ou les inclure dans le Royaume-Uni ? Quid de l’Île de Man qui est une dépendance de la Couronne britannique mais n’appartient administrativement pas au Royaume-Uni ? Afin d’éviter tout débat stérile, nous nous sommes référés à la liste des pays souverains établie par les Nations Unies.

 

Le jeu de données avec les différents pays, coordonnées géographiques…

Notre seconde tâche a été de nettoyer et de compléter les coordonnées géographiques pour chaque portail présent sur la liste. Nous avions un peu plus de 1000 portails de données ouvertes déjà géolocalisés. Nous avons ajouté les coordonnées des 600 autres à la main.

Les portails gérés par les municipalités étaient faciles à cartographier. Mais où placer les portails des Nations Unies ou les portails gérés par des initiatives citoyennes à travers un pays ? Nous avons décidé de les localiser respectivement sur les coordonnées de leurs quartiers généraux et la capitale administrative la plus pertinente. Prenons un exemple. Si un portail est issu d’une initiative citoyenne à travers l’Espagne, il sera localisé à Madrid. Si le portail est celui de la région de la Cantabria, il sera localisé à Santander.

Les dernières étapes ont été de supprimer les doublons et de charger le jeu de données sur notre portail public.

Copy to clipboard

Dans le but de créer une carte interactive en quelques secondes, nous avons chargé le jeu de données sur notre solution open data. La plateforme Opendatasoft reconnaît automatiquement les coordonnées géographiques des portails et place ces derniers sur une carte. Lorsque vous regardez la carte à l’échelle mondiale, les portails sont regroupés en clusters permettant de mieux visualiser la densité de l’offre.

Nous avons customisé le fond de carte et les pointeurs via l’interface d’administration sans utiliser la moindre ligne de code ou la moindre valeur hexadécimale.

Copy to clipboard

L’un des avantages de la plateforme Opendatasoft est sa capacité à générer automatiquement des widgets à partir des données. Grâce à la librairie de widgets open source, vous pouvez construire des tableaux de bord complets en quelques minutes. Vos visualisations sont toujours à jour grâce à l’API.

 

Communauté data - 1

Le code de widget que nous avons copié au sein de notre page HTML.

Notre jeu de données était prêt, notre carte des portails de données ouvertes aussi. Il ne nous restait qu’à développer un site responsive et y intégrer le widget de carte et le widget de recherche pour une exploration des portails de données ouvertes facilitée.

Les deux widgets communiquent l’un avec l’autre. Ainsi, lorsque vous tapez le nom d’une ville dans la barre de recherche, la carte montre automatiquement le résultat de votre requête.

Le site s’articule autour de 25 lignes de codes issues de ce tutoriel. Ni Javascript, ni Python, ni PHP nécessaires. Just un simple surfaçage en HTML et CSS. Tout le comportement de recherche et de restitution est géré par les widgets.

Vous voulez utiliser les widgets Opendatasoft ? Lisez notre documentation et nos tutoriels

Copy to clipboard

Les quelques chiffres que nous avons appris en faisant cette liste :

  • Plus de 200 pays ont un espace dédié aux données ouvertes. Qu’il s’agisse de portails gérés par des initiatives citoyennes, des administrations…
  • Les États-Unis regroupent presque 500 portails open data : de la ville aux organisations internationales.
Communauté data - 2 Copy to clipboard

Si notre but était de constituer une ressource exhaustive et unifiée de tous les portails de données regroupant des données ouvertes, la liste n’est en rien définitive.

Nous serons ravis d’avoir des retours afin d’améliorer continuellement cette liste. URLs inactives, nouveaux portails, portails que nous aurions oubliés… Nous espérons que cette ressource sera utile à la communauté open data.

Nous ajouterons aussi d’autre sources qui ne sont pas de l’open data per se : dumps de données, repositories GitHub.

Nous avons oublié votre portail ? Vous avez trouvé une URL inactive ? Envoyez-nous un message via le formulaire ci-dessous ou via Twitter. Nous espérons que vous aimerez la liste et la carte autant que nous avons aimé les faire. Le jeu de données est accessible ici.

Plus d'articles
Quelles sont les différences entre un business glossary, un data dictionary et un data catalog ? Accès aux données
Quelles sont les différences entre un business glossary, un data dictionary et un data catalog ?

Les organisations font face à une explosion sans précédent des volumes de données. Éparpillées sous divers formats, ces informations s’avèrent difficiles à organiser, analyser et valoriser. Pourtant, la data devient plus que jamais le socle des décisions éclairées et de l'innovation.

Comment éliminer les silos organisationnels et réussir votre projet data Accès aux données
Comment éliminer les silos organisationnels et réussir votre projet data

Les silos organisationnels sont un véritable frein au partage des données et à la collaboration, augmentant les risques tout en limitant l’efficacité et l’innovation. Comment les supprimer pour favoriser une circulation fluide des données au sein de l’entreprise ?

Les 5 principaux défis rencontrés par les Chief Data Officers Tendances
Les 5 principaux défis rencontrés par les Chief Data Officers

Toute entreprise ayant pour ambition de devenir data-centric a besoin d’un Chief Data Officer dont le rôle est de garantir à chaque utilisateur un accès immédiat aux informations dont il a besoin. Découvrez les défis auxquels il est confronté, et quelles sont les stratégies et technologies à adopter pour les surmonter.