Language

[Product Talk] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Je m'inscris
Transformation numérique

3 astuces pour améliorer la qualité de vos données

Les données médiocres nous affectent au quotidien, souvent sans même que nous ne nous en apercevions. D'où la nécessité d'utiliser des données de haute qualité. Mais qu’est-ce qu’une data de « qualité » et comment l’obtenir ?

Brand content manager, Opendatasoft
Voir tous ses articles

Les données nous ouvrent d’innombrables possibilités. Elles permettent de planifier et de construire des villes plus intelligentes, mais aussi de gérer les crises. Elles sont fondamentales pour nous aider à mieux travailler. Toutefois, la qualité de nos services repose avant tout sur celle des données qui les sous-tendent. Une expression américaine permet de résumer parfaitement cet enjeu : « garbage in, garbage out », c’est-à-dire que des données défectueuses ne peuvent produire que des résultats erronés.

Utiliser des données médiocres peut avoir diverses conséquences. Selon un rapport publié par IBM en 2016, le coût généré par les données de faible qualité était estimé à près de 3 milliards de dollars par an, rien qu’aux États-Unis. Les données de mauvaise qualité peuvent aussi nous amener à négliger l’importance de certains évènements, à mal diagnostiquer les problèmes, voire à prescrire une solution inadaptée à un problème urgent. Les données médiocres nous affectent au quotidien, souvent sans même que nous ne nous en apercevions.

D’où la nécessité d’utiliser des données de haute qualité. Mais qu’est-ce qu’une donnée de « qualité » et comment l’obtenir ?

Copy to clipboard

Les indicateurs de qualité sont partout. Qu’il s’agisse de concepts simples tels que les critères de qualité de la viande de l’USDA ou d’outils plus complexes comme l’indice de qualité de l’air, les cadres de qualité sont conçus pour nous informer du niveau auquel un élément spécifique se classe par rapport à une norme de confiance. De manière générale, les cadres de qualité aident à définir quels éléments sont considérés « bons » ou « mauvais » pour un secteur ou un problème particulier.

Malheureusement pour nous, il n’existe pas de consensus universel quant à ce qui fait la qualité d’une donnée. Cependant, nous pouvons avancer une définition en nous appuyant sur certains des termes qui reviennent le plus fréquemment dans les débats. En général, les données sont considérées de haute qualité dès lors qu’elles permettent d’obtenir les résultats escomptés. De plus, elles sont souvent associées à plusieurs dimensions.

  • Exactitude : toutes les données reflètent l’objet ou l’événement réel
  • Exhaustivité : toutes les données nécessaires sont présentes
  • Pertinence : toutes les données satisfont aux exigences de leur usage prévu
  • À-propos : toutes les données reflètent correctement un moment donné
  • Cohérence : les valeurs et rapports sont présentés de la même manière au sein/entre les jeux de données

 

D’autres dimensions peuvent être ajoutées à ces cinq concepts, comme la spécificité, la validité ou l’ouverture des données, conçue pour capturer différents aspects des données qui sont importants pour des utilisateurs spécifiques. De manière générale, si vos données répondent à la définition de toutes ou de plusieurs des dimensions mentionnées ci-dessus, elles sont de haute qualité. Certaines organisations vont encore plus loin en créant leurs propres critères de qualité des données afin de rendre le terme encore plus significatif pour leurs propres utilisateurs.

Bref, peu importe la définition, l’essentiel est de s’appuyer sur des données qualitatives.

Copy to clipboard

Pour renforcer la qualité des données, il faut d’abord comprendre leur cycle de vie. Leur qualité peut être affectée par des facteurs divers et variés, comme les législations, la technologie, la formation, etc. En modélisant les données pour représenter les différentes étapes de leur cycle de vie, vous pourrez anticiper les problèmes éventuels en matière de données et trouver les solutions les plus adaptées.

Peu importe que vos données soient au début, au milieu ou à la fin de leur cycle de vie, le travail sur leur qualité est un processus de longue haleine. Certes, la tâche n’est pas très glamour, mais elle en vaut la chandelle sur le long terme, car elle permet d’obtenir de meilleures données, de prendre de meilleures décisions et de parvenir à de meilleurs résultats. Les trois conseils ci-dessous vous mettront sur la bonne voie pour commencer à renforcer la qualité de vos données.

1 - Décrivez vos données en détails

Il est essentiel de bien décrire vos données à chaque étape de leur cycle de vie. Comme nous l’avons vu dans un article précédent, une bonne description et des métadonnées pertinentes permettent de mettre vos données en contexte, d’uniformiser le format et les règles au sein de votre organisation et par rapport aux autres entreprises et d’améliorer l’utilisation des données de manière générale. En effet, des métadonnées judicieusement construites renforcent la cohérence (l’une des cinq dimensions mentionnées plus haut) et créent un mécanisme d’évaluation de la qualité sur les quatre autres dimensions.

Guide Metadata : quelles métadonnées fournir ?

2 - Anticipez les problèmes avant qu'ils ne surviennent

Corriger les erreurs est un processus difficile et chronophage. En accordant plus de temps à la planification et la préparation avant de commencer à collecter et analyser les données, vous pouvez les éviter et gagner un temps précieux tout en vous épargnant bien des efforts a posteriori. Souvent qualifié d’assurance qualité, ce travail est indispensable pour les équipes de gouvernance ou de gestion des données. Une bonne assurance qualité vous aide à fixer les objectifs de votre utilisation des données, améliore la pertinence et l’à-propos de vos données et simplifie le travail lors des étapes ultérieures du cycle de vie.

3 - Hiérarchisez et corriger les erreurs fréquentes

Quel que soit le soin que vous accordez à la planification, il est impossible d’éviter les erreurs à 100 %. La détection et la correction des erreurs, ou contrôle qualité, est un composant clé de la qualité des données. Le contrôle qualité est souvent effectué manuellement, mais peut-être simplifié grâce à des outils de profilage de données et un inventaire des problèmes les plus fréquents, ainsi que de solutions simples. Vous pouvez également créer des statistiques de synthèse pour évaluer vos données afin de mettre en évidence les erreurs potentielles. Corriger les erreurs fréquentes permet de renforcer l’exactitude, l’exhaustivité et la cohérence de vos données. Assurez-vous de consacrer suffisamment de ressources humaines et matérielles à cette étape, qui constitue votre dernier recours pour améliorer la qualité des données.

Copy to clipboard

Sur le long terme, les données de haute qualité représentent une véritable fondation. Plus la qualité de vos données sera élevée, plus votre base sera solide. Cela vous permettra de démultiplier les utilisations potentielles de vos données. Trouver des solutions pour permettre à votre organisation de prévenir, détecter et corriger les problèmes en termes de qualité des données vous permettra de les mettre à profit de différentes manières, par exemple pour améliorer la mobilité dans votre ville  ou trouver des informations exactes lors d’une crise sanitaire.

Au cours des semaines et des mois à venir, vous découvrirez comment exploiter la qualité de vos données grâce à des outils tels que le partage des données en temps réel et des API qui vous permettront de devenir un véritable expert dans le domaine. Alors, restez à l’affût !

Articles sur le même thème : API Métadonnées Open data
Plus d'articles
Référentiels géographiques : la qualité des données est une affaire d’étapes Produit
Référentiels géographiques : la qualité des données est une affaire d’étapes

Si vous avez l’habitude de vous promener sur data.opendatasoft.com, notre Data Network, vous savez à quel point le catalogue de jeux de données est vaste et fourni.

Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft Produit
Gestion des métadonnées : gagnez en efficacité avec les templates sur mesure d’Opendatasoft

Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.

Métadonnées : pourquoi sont-elles aussi importantes que les données ? Data intelligence et reporting
Métadonnées : pourquoi sont-elles aussi importantes que les données ?

Apprenez-en plus sur l’importance des métadonnées pour gérer efficacement les grands volumes de données présents sur les portails data des organisations et encourager leur démocratisation.