Transport.data.gouv.fr : « le but final du Point d’Accès National, c’est de remplir les bus »
Dans le prolongement de la réglementation européenne, la loi d’orientation des mobilités demande la mise en place d'un Point d'Accès National aux données de transport. Nous avons rencontré l'équipe de transport.data.gouv.fr pour en savoir plus.
L’open data est un volet majeur de la loi d’orientation des mobilités (LOM). Le texte a été adopté en nouvelle lecture par l’Assemblée nationale le 17 septembre dernier et sera prochainement examiné par le Sénat. En cas de désaccord, les députés auront le dernier mot. Quels sont les acteurs de la mobilité concernés par la LOM, et à quelles obligations sont-ils renvoyés en matière d’ouverture des données ?
L’article 9 de la LOM relatif à l’obligation d’ouverture des données est en réalité une retranscription en droit français du Règlement Délégué Européen de 2017. Celui-ci exigeait déjà la mise à disposition d’un certain nombre de données en open data. La nouveauté de la LOM, c’est qu’elle désigne spécifiquement les Autorités Organisatrices de Mobilité (AOM) comme responsables de la fourniture de ces données via un Point d’Accès National (PAN). Elle désigne transport.data.gouv.fr comme étant ce point d’accès national, et l’autorité de régulation pour le ferroviaire comme étant l’autorité dotée d’un pouvoir de sanction pour les acteurs qui n’auraient pas ouvert leurs données de mobilité, et mis à disposition ces données sur le PAN.
Les communes, intercommunalités ou syndicats mixtes que l’on retrouve derrière la fonction d’Autorité Organisatrice de la Mobilité ne sont pas les seules organisations visées par la LOM ?
En effet, les opérateurs de transport, gestionnaires d’infrastructures et autorités de transport sont également concernés. Typiquement, les entreprises privées qui proposent des trottinettes en free-floating comme Lime, Bolt ou Bird sont visées puisqu’elles disposent de données, notamment en temps réel, pouvant servir au déploiement de services d’information voyageur.
Ces données au service de l’information voyageur sont-elles décrites ?
Ces données sont décrites de manière détaillée dans l’annexe du Règlement Délégué Européen. Il est question de données statiques – les itinéraires, points d’arrêts ou horaires de passage des bus par exemple – et de données dynamiques comme la disponibilité des véhicules en libre-service, les passages de bus en temps réel et les perturbations du trafic. Le Règlement Européen rendait obligatoire l’ouverture de données qui existaient déjà mais ne pouvait pas contraindre une autorité publique à créer de nouvelles données. La LOM va plus loin et pose notamment l’obligation de fournir des données sur l’accessibilité des modes de transport public et des parcours aux personnes à mobilité réduite.
Nombre d’opérateurs de transport et d'AOM ont ouvert leurs données sans attendre l'impératif réglementaire, que ce soit sur le portail gouvernemental data.gouv.fr ou sur un portail open data dédié. Comment le Point d’Accès National vient-il s'articuler avec ces démarches préexistantes ?
Pour que les données soient réutilisées massivement, elles doivent être intégrées dans des services grand public comme Mappy, Handisco – un calcul d’itinéraire pour personnes malvoyantes – ou Tictactrip, un site comparateur de toutes les offres de transport. Ces services demandent des données dans un format standardisé et exploitables à un niveau industriel.
On a constaté que de nombreuses démarches de publication de données se faisaient à des niveaux locaux, ce qui est une très bonne chose, mais qu’il était parfois difficile de maintenir une qualité minimale pour ces données. Sans garantie de mise à jour régulière, les réutilisateurs ne prennent pas le risque de les intégrer à leurs services puisqu’ils pourraient induire en erreur leurs propres utilisateurs.
La promesse du PAN, c’est donc d’harmoniser ces démarches et d’accompagner les AOM dans la fourniture de données de mobilité toujours à jour, dans un seul format, avec une seule licence, et un producteur identifié derrière chaque jeu de données.
A propos de formats, on en trouve deux sur le PAN : le GTFS et le NeTEx. Pourquoi proposer deux standards d'ouverture ?
Le GTFS est le format le plus connu et le plus utilisé dans l’industrie des transports. Il sert notamment à diffuser les horaires de passage d’un bus. Le NeTEx est le standard d’ouverture imposé par le Règlement Européen. Or on observe que très peu de producteurs et de réutilisateurs savent le manipuler, d’autant qu’il est toujours en cours de stabilisation en France. Parce qu’il vaut mieux avoir des données ouvertes qui servent plutôt que rien du tout, on a pris le parti d’accepter l’ouverture au format GTFS. Il est plus facile à produire et c’est celui que les réutilisateurs savent le mieux prendre en charge aujourd’hui.
En raison des formats de données qu'il propose, transport.data.gouv.fr s'adresse davantage aux producteurs et réutilisateurs de données qu'aux usagers directs des transports. Pourquoi ce choix de positionnement ?
Le PAN est la réponse aux exigences du Règlement Européen Délégué, c’est-à-dire la mise à disposition de services d’information sur les déplacements multimodaux pour créer des services innovants d’accompagnement au transport et à la mobilité. On s’est aperçu que l’absence d’une infrastructure publique de la donnée était un frein majeur au développement de ce genre de solutions.
On a donc créé cette infrastructure, le PAN, pour accompagner la publication et la réutilisation des données de mobilité, par ailleurs assez complexes. Le format GTFS n’est en effet pas lisible à l’oeil nu par des humains. Les données requièrent donc un certain nombre de compétences techniques pour être prises en main et intégrées dans des services. C’est donc par le biais de l’accompagnement des producteurs et réutilisateurs de données que l’on estimait avoir le plus d’impact.
Quelle forme prend concrètement cet accompagnement ?
On offre d’abord un accompagnement technique, particulièrement sur la fourniture de données temps réel. On prend contact avec la collectivité et son opérateur de transport puis on fait un état des lieux des données dont ils disposent, doublé d’un audit sur la qualité du flux des données temps réel. Différentes collectivités nous ont aussi demandé de les accompagner dans leur partenariat avec Google Maps, pour que leurs données soient référencées par le service de cartographie.
On accompagne aussi les AOM sur les questions juridiques liées à l’open data. On bénéficie pour cela du support de l’équipe juridique de la direction interministérielle du numérique et du système d’information et de communication de l’État (DINSIC), puisque c’est là-bas que notre équipée est incubée. Enfin on accompagne sur la valorisation des données qui sont ouvertes. Une fois un jeu de données publié sur le PAN, on le pousse auprès de réutilisateurs pour qu’ils les intègrent dans des services tiers.
Certains réutilisateurs de données sont donc déjà connus et identifiés ?
La philosophie de l’open data étant de permettre le plus grand nombre de réutilisations, par principe nous ne demandons pas aux réutilisateurs de s’identifier avant de télécharger les données mises à disposition. Néanmoins, on constate que beaucoup de réutilisateurs souhaitent s’identifier auprès de nous, et déclarent volontairement leurs réutilisations sur le portail data.gouv.fr. Pour eux, c’est la garantie de rester au courant dès qu’il y a une nouvelle publication.
Le PAN leur donne aussi la possibilité de faire des remontées lorsqu’il y a des erreurs dans des jeux de données, et de soumettre des corrections. La licence proposée exige d’ailleurs un repartage des données améliorées, sous le même format et suivant la même granularité. Un de nos réutilisateurs partenaires, la startup Mybus, a par exemple corrigé la géolocalisation des arrêts et la couleur des lignes dans un jeu de données, puis repartagé un GTFS enrichi sur la plateforme.
Les réutilisateurs remontent-ils des besoins spécifiques ? Des données pas encore ouvertes auxquelles ils aimeraient accéder via le PAN par exemple ?
Avant d’ouvrir des données, on organise des ateliers qui réunissent des réutilisateurs et des producteurs de données. On travaille notamment depuis plusieurs mois sur les données de stationnement. Plusieurs villes avaient déjà ouvert ce type de données à partir des informations dont elles disposaient déjà, grâce à leur service voirie et leurs délégataires de stationnement. Les ateliers ont permis de soulever des besoins concrets que l’on n’aurait sans doute jamais pu deviner en s’adressant uniquement aux producteurs, comme la hauteur sous plafond des parkings. C’est typiquement le genre d’information qu’un calculateur d’itinéraires peut fournir à ses utilisateurs pour leur indiquer s’ils peuvent oui ou non rentrer dans un parking.
La LOM insiste particulièrement sur la fourniture de données en temps réel. Ces données sont très gourmandes en espace de stockage. Le PAN rend-il possible l’hébergement et la conservation des flux temps-réel ?
Nous avons organisé plusieurs ateliers sur la question pour comprendre les inquiétudes et points de blocage suscités par l’ouverture de données temps réel. L’enjeu de volumétrie est revenu de manière récurrente. Les données temps réel, lorsqu’elles sont utilisées, peuvent mener à un nombre très important de requêtes sur le serveur qui héberge ces données. Beaucoup de collectivités nous ont signalé qu’elles n’avaient pas les moyens d’investir dans une infrastructure de serveurs pour assurer une telle charge de demandes, surtout qu’il est assez difficile d’estimer clairement quel sera le nombre de requêtes auquel on sera soumis après l’ouverture d’un flux de données temps réel. Un compromis a donc été trouvé : le PAN peut être utilisé comme proxy.
Comment cela fonctionne-t-il concrètement ?
Les serveurs du PAN vont requêter une fois toutes les minutes ou toutes les trente secondes les serveurs de la collectivité. On demande ensuite aux réutilisateurs de venir chercher ces données directement sur le serveur du PAN. Le but est de réaliser une économie d’échelle en mettant à disposition ce serveur pour la France entière, pour que les AOM ne soient pas obligées d’investir séparément dans des dispositifs de stockage importants. Pour l’instant la conservation d’un historique des données n’est pas encore proposée par le PAN mais c’est une demande qui revient assez fréquemment lors des ateliers. Cela pourrait être envisagé à terme, pas seulement pour les données en temps réel des transports en commun, mais aussi pour la disponibilité en temps réel des vélos et trottinettes en libre service ou en free-floating, et celle des places de stationnement.
Peut-on déjà mesurer l’impact du PAN sur la mobilité des Français ?
La mission du PAN, c’est de faciliter l’accès aux données et leur utilisation pour améliorer l’information voyageur dans toute la France. Quand on vit à Paris, Lyon ou Lille, on dispose d’une grande richesse en matière d’information voyageur grâce à des applications qui nous permettent de savoir quel est le mode de transport le plus adapté au trajet que l’on souhaite entreprendre. Ce n’est pas le cas dans tout le pays. Là ou le PAN a le plus d’impact, c’est dans l’amélioration de l’information voyageur dans des petites et moyennes villes, en encourageant les acteurs de ces territoires à ouvrir leurs données.
Par ailleurs, on entend souvent que les seuls acteurs capables de créer des services à partir de données open data sont les GAFA. Ces acteurs peuvent obtenir des données quoiqu’il arrive. Les acteurs qui ont le plus de mal à se développer si les données ne sont pas ouvertes, ce sont les PME françaises. L’impact fort de transport.data.gouv.fr, c’est de soutenir la création de services multimodaux par ces acteurs-là.
Enfin, l’impact global que l’on souhaite avoir à travers le PAN, c’est évidemment de pousser les gens à prendre davantage les transports en commun et utiliser des modes plus doux comme le vélo. Le but final du PAN, c’est de remplir les bus, partout en France.
L’équipe transport.data.gouv.fr se tient à la disposition des collectivités, gestionnaires d’infrastructures et autorités de transport pour les accompagner dans l’ouverture de leurs données de transport. Ecrivez-leur directement à l’adresse contact@transport.beta.gouv.fr.