Cultivez vos données en terrasses
Opendatasoft a travaillé pour vous sur une nouvelle architecture de distribution de données, et elle ressemble à de l’agriculture en terrasses.
L’open data n’est rien de plus qu’une façon de distribuer des données. De la même façon qu’il existe plein de réseaux de distribution différents, on peut facilement imaginer de nouvelles façons de donner un accès facile et légal à des données. Opendatasoft a donc travaillé pour vous sur une nouvelle architecture de distribution de données, et elle ressemble à de l’agriculture en terrasses.
De la culture en terrasses ?!
Une terrasse de culture est une surface horizontale aménagée sur un terrain en pente pour faciliter l’écoulement des eaux de ruissellement et leur infiltration dans le sol, pour lutter contre l’érosion et permettre la mise en culture du terrain. Wikipedia
De tous les avantages de la culture en terrasses, trois aspects en particulier me semblent intéressants. Trois aspects qui font bien écho aux problématiques rencontrées par les responsables de portails de données :
- Une meilleure exposition. Promouvoir ses données et les faire rencontrer leurs publics n’est pas facile. Google est un point d’entrée naturel, mais son algorithme favorise forcément les données des organisations douées en SEO, pas nécessairement en publication de données.
- Une meilleure irrigation. Très prosaïquement, quand on gère des données, on sait que tout a un coût, que chaque étape nécessite du travail. Donc chaque initiative permettant de mieux gérer les ressources et d’automatiser des tâches est intéressante.
- Le travail de l’agriculteur est plus facile, du moins le sol est au minimum plus horizontal. Et si l’on souhaite plus d’open data, il faut rendre la vie des responsables plus simple.
A propos de distribution de données
La version classique de la distribution de données est plutôt simple. Un catalogue de données ayant de bonnes licences. Les problèmes commencent dès qu’on a beaucoup de jeux de données, de formats différents, et quand, de surcroît, un certain nombre d’organisations partagent leurs données au même endroit. J’ai parlé de ces portails précédemment.
On a vite l’impression d’un lac au sommet d’une montagne ou d’un volcan. Pour certains cela peut être une vraie passion, on peut profiter de la balade et évidemment ce que l’on trouve au sommet peut valoir le détour. Mais la barrière à l’entrée peut être trop haute pour la plupart des gens.
Imaginez quelqu’un qui voudrait comparer les données de sa ville avec la ville voisine :
- Step1: Trouver et aller sur le portail
- Step2: Chercher les données
- Step3: Quel format ?!
- Step4: Ok, peut-être ce logo Excel
- Step5: Ouvrir le fichier
- Step6: Comment filtrer les données ?
- Step7: Quel est mon code INSEE ?!!
- …
- Step20: Réutiliser les données…
- ಠ_ಠ
D’autres ont essayé de développer des solutions plus complexes de portails open data. Quand les données sont indexées avant leur distribution, les possibilités de filtrage et de recherche sont nettement meilleures et les données deviennent plus accessibles. Et comme elles sont d’ores et déjà indexées il est possible de proposer aux possibles ré-utilisateurs des graphes ou des cartes par défaut. Il est possible de leur montrer à quoi ressemblent les données avant qu’il n’aient à les télécharger. C’est ce que nous faisons chez Opendatasoft (même si nous ne sommes pas les seuls ;))
L’arrivée du sous-portail de données
Le mouvement open data est encore très jeune et il est tout a fait possible que nous n’ayons pas encore trouvé la meilleure infrastructure de distribution de données dans tous les cas.
Nous avons donc décidé de vous concocter quelque chose de nouveau, une nouvelle architecture de portails open data.
Cette nouvelle architecture est basée sur l’idée de sous-domaines. Nos clients ont maintenant la possibilité de générer des sous-domaines de leurs domaines principaux, depuis l’interface d’administration de leurs portails. Ces sous-domaines peuvent coller parfaitement à la structure en département d’une entreprise, refléter les différents échelons administratifs ou simplement permettre à des industriels de distribuer leurs données à des acteurs territoriaux.
Ces sous-domaines sont des portails open data à part entière : ils ont les mêmes fonctionnalités que les portails classiques, partagent la même charte graphique que le portail principal. Ils ont leurs propres administrateurs, leurs propres données et leurs propres façons de faire connaître ces données.
Tout ceci est intéressant mais, selon moi, la fonctionnalité clé est la possibilité de fédérer les données dans les deux sens. Le portail principal peut pousser des jeux de données ou des parties de jeux de données (c’est à dire “à la bonne granularité”) sur chacun des portails secondaires. Et si un portail secondaire publie de nouvelles données, le portail principal peut les unifier à son niveau. C’est aussi une façon de décentraliser la collecte des données !
Pourquoi l’utiliser ?
Le succès suit une loi de puissance
Beaucoup de phénomènes dans la vie suivent une loi de puissance, y compris la distribution des téléchargements parmi les jeux de données ouverts. C’est d’autant plus vrai quand on parle de technologies de l’information. Dans une économie où n’importe quelle chose est “commoditisée” en quelques années, les effets de réseau, et notamment ceux liés aux données, sont plus puissants et exacerbent les déséquilibres.
C’est une des clés de la force de l’open data. Comme il est impossible de savoir qui aura le meilleur design pour mieux servir les citoyens, on met en place l’infrastructure qui permet que n’importe qui essaye et développe sa propre solution.
A la fois en créant de nouveaux réseaux de distributions et en décentralisant les moyens de valoriser les données, on augmente les chances de voir de nouveaux services émerger à partir des données et on renforce sa position dans l’écosystème.
Toujours plus de décentralisation des moyens
L’open data a toujours donné au gens plus de pouvoir et de moyens : aux citoyens mais aussi aux responsables des portails et, progressivement, à de plus en plus de monde au sein de l’organisation.
Si mettre à disposition des données donne des moyens aux gens, donner à certains d’entre eux l’opportunité de gérer eux même un portail de données tout en bénéficiant de tous les outils — de nettoyage de données, d’extraction, de temps-réel, d’analyse ou de cartographie, c’est leur donner encore plus de pouvoir et de moyens. C’est une nouvelle façon de nouer des liens très forts avec sa communauté ou sa propre organisation.
Rendre les données facile à découvrir
De notre portail data.opendatasoft.com à notre nouvelle intégration Slack, notre objectif est de faire circuler les données de plus en plus facilement. En proposant aujourd’hui une nouvelle façon de distribuer les données, tenant compte de la granularité des données et impliquant toujours plus de monde dans la démarche, nous croyons que plus de données trouveront leurs ré-utilisateurs…
Article initialement publié sur Medium.
Les gouvernements partagent-ils efficacement leurs données avec les citoyens et les entreprises ? Le dernier rapport sur la maturité des données ouvertes évalue les progrès en Europe et souligne l’importance de mesurer l’impact et d’améliorer les portails de données.
Apprenez comment les portails de données renforcent l'efficacité des modèles d'IA en fournissant des données fiables, représentatives et sécurisées, essentielles pour une intelligence artificielle performante et éthique.