Language

[Replay] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Voir le replay
Tendances

Exploration des données des taxis New Yorkais avec Opendatasoft

Image Taxi New Yorkais

Lisez cet article et naviguez à travers les données sur les trajets des taxis jaunes qui parcourent la ville de New York.

Head Of Engineering, Opendatasoft
Voir tous ses articles

La semaine dernière, la ville de New York a ouvert les données des taxis New Yorkais. Les données portent sur des millions de courses de taxis. 165 114 361 courses pour être plus précis. Au moment où la guerre fait rage entre les taxis et Uber, seulement quelques jours après le clash entre le maire de la ville Bill de Blasio et Uber, cela semblait une bonne idée de jouer un peu avec ces données en les indexant dans la plateforme Opendatasoft et en les visualisant sur une carte et dans les outils d’analyse!

 

Taxis New York 1

Sud de Manhattan, NYC, carte de chaleur des endroits où les usagers montent dans un taxi et points de repères des bouches de métro

Copy to clipboard

Comme on pouvait s’y attendre, le nombre de courses augmente progressivement au cours de la semaine, avec un pic le samedi.

Taxi New York - 2
Nombre de courses, somme des distances et montant total des courses par jour

 

L’évolution mensuelle semble montrer un plus grand nombre de courses au printemps et à l’automne:

Taxi New Yorkais - 3
Nombre de courses, somme des distances et montant total des courses par mois

 

Cela sera néanmoins intéressant d’attendre les données de 2015 pour voir si on est face à une réelle tendance.

Copy to clipboard

Ci-dessous sont représentés, étant donné un prix de course (hors pourboires et péages), la distance moyenne parcourue et la durée moyenne de la course:

Taxi New Yorkais - 4
Distance moyenne et durée moyenne en fonction du montant de la course

 

Il pourrait être intéressant de recréer un modèle de pricing à partir de ces données, et développer une application nous prévenant lorsque l’on s’éloigne de la norme. Ou, en filtrant par la position de prise en charge, vérifier si une partie de la population new-yorkaise est désavantagée comme certains le prétendent (en).

Copy to clipboard

Etant donnée la taille du jeu de données, on ne peut pas dire qu’il y ait beaucoup d’erreurs ou de données fausses. Mais les jeux de données parfaitement propres sont très rares. La visualisation ou la cartographie des données sont alors de bons moyens de trouver les données incorrectes, surtout quand on est en présence de 160 millions de lignes!

Le premier, et le plus basique, des exemples est celui des mauvaises coordonnées:

Taxi New Yorkais - 5
Zone « Amérique du Nord » – Janvier 2014

 

Certes Uber a lancé Uber Boat à Istanboul (en) mais la plupart des points éloignés de New York ne sont probablement pas correctement localisés.

Dans la même veine, on constate qu’il y a des courses très longues – 13 jours – qui mériteraient une petite enquête ; et des courses de durée négative qui pour le coup n’en ont pas besoin :

Taxi New Yorkais - 6

Nombre de courses en fonction de leur durée

Copy to clipboard

La partie la plus amusante : nous avons créé la carte de chaleur de l’ensemble des prises en charge en 2014 (souvenez-vous, ~160 millions) et ajouté un calque avec les entrées du métro. C’est assez incroyable de naviguer si facilement dans autant de données!

En intégrant un calcul d’itinéraire entre les stations de métro, on pourrait comparer chaque course de taxi avec son équivalent en transport en commun. Cela permettrait de mieux comprendre de quelle manière les usagers se comportent, pourquoi et surtout ce que la ville peut faire pour améliorer leur vie quotidienne. Cela constituerait un premier pas intelligent dans le développement d’une Smart City.

 

Taxi New Yorkais - 7
En savoir plus sur les données liées à la mobilité
Infrabel favorise la mobilité durable grâce à son portail open data Success Story
Infrabel favorise la mobilité durable grâce à son portail open data

Infrabel construit, entretient et modernise le réseau ferroviaire belge, et coordonne le trafic ferroviaire dans tout le pays. En tant qu’entreprise publique autonome, Infrabel a pour mission de permettre une mobilité durable grâce à un réseau ferroviaire sûr et efficace. Compte tenu de la taille de l’entreprise et de l’étendue de ses activités, l’acteur ferroviaire souhaite initier une démarche d’ouverture des données qui facilitera la gestion et le suivi du trafic. Grâce à Opendatasoft, Infrabel a pu mettre en place une plateforme pour soutenir le partage des données en interne comme vers l’externe. Téléchargez notre Success Story pour en apprendre plus sur les bénéfices de l’open data pour Infrabel.

Transformer les secteurs des transports et de la mobilité grâce aux données Mobilité
Transformer les secteurs des transports et de la mobilité grâce aux données

Les secteurs des transports et de la mobilité font face à une transformation importante. Les données sont essentielles pour construire un écosystème efficace, durable et centré sur les besoins des usagers.

Comment améliorer la vie des citoyens grâce à l’Open Data ? Secteur public
Comment améliorer la vie des citoyens grâce à l’Open Data ?

Les collectivités sont de plus en plus nombreuses à s’engager dans une démarche d’Open Data. Retour d’expérience du Canton de Bâle et des Chemins de fer fédéraux suisses.