Language

[Replay] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Voir le replay
Transformation numérique

3 astuces pour améliorer la qualité de vos données

Les données médiocres nous affectent au quotidien, souvent sans même que nous ne nous en apercevions. D'où la nécessité d'utiliser des données de haute qualité. Mais qu’est-ce qu’une data de « qualité » et comment l’obtenir ?

Brand content manager, Opendatasoft
Voir tous ses articles

Les données nous ouvrent d’innombrables possibilités. Elles permettent de planifier et de construire des villes plus intelligentes, mais aussi de gérer les crises. Elles sont fondamentales pour nous aider à mieux travailler. Toutefois, la qualité de nos services repose avant tout sur celle des données qui les sous-tendent. Une expression américaine permet de résumer parfaitement cet enjeu : « garbage in, garbage out », c’est-à-dire que des données défectueuses ne peuvent produire que des résultats erronés.

Utiliser des données médiocres peut avoir diverses conséquences. Selon un rapport publié par IBM en 2016, le coût généré par les données de faible qualité était estimé à près de 3 milliards de dollars par an, rien qu’aux États-Unis. Les données de mauvaise qualité peuvent aussi nous amener à négliger l’importance de certains évènements, à mal diagnostiquer les problèmes, voire à prescrire une solution inadaptée à un problème urgent. Les données médiocres nous affectent au quotidien, souvent sans même que nous ne nous en apercevions.

D’où la nécessité d’utiliser des données de haute qualité. Mais qu’est-ce qu’une donnée de « qualité » et comment l’obtenir ?

Copy to clipboard

Les indicateurs de qualité sont partout. Qu’il s’agisse de concepts simples tels que les critères de qualité de la viande de l’USDA ou d’outils plus complexes comme l’indice de qualité de l’air, les cadres de qualité sont conçus pour nous informer du niveau auquel un élément spécifique se classe par rapport à une norme de confiance. De manière générale, les cadres de qualité aident à définir quels éléments sont considérés « bons » ou « mauvais » pour un secteur ou un problème particulier.

Malheureusement pour nous, il n’existe pas de consensus universel quant à ce qui fait la qualité d’une donnée. Cependant, nous pouvons avancer une définition en nous appuyant sur certains des termes qui reviennent le plus fréquemment dans les débats. En général, les données sont considérées de haute qualité dès lors qu’elles permettent d’obtenir les résultats escomptés. De plus, elles sont souvent associées à plusieurs dimensions.

  • Exactitude : toutes les données reflètent l’objet ou l’événement réel
  • Exhaustivité : toutes les données nécessaires sont présentes
  • Pertinence : toutes les données satisfont aux exigences de leur usage prévu
  • À-propos : toutes les données reflètent correctement un moment donné
  • Cohérence : les valeurs et rapports sont présentés de la même manière au sein/entre les jeux de données

 

D’autres dimensions peuvent être ajoutées à ces cinq concepts, comme la spécificité, la validité ou l’ouverture des données, conçue pour capturer différents aspects des données qui sont importants pour des utilisateurs spécifiques. De manière générale, si vos données répondent à la définition de toutes ou de plusieurs des dimensions mentionnées ci-dessus, elles sont de haute qualité. Certaines organisations vont encore plus loin en créant leurs propres critères de qualité des données afin de rendre le terme encore plus significatif pour leurs propres utilisateurs.

Bref, peu importe la définition, l’essentiel est de s’appuyer sur des données qualitatives.

Copy to clipboard

Pour renforcer la qualité des données, il faut d’abord comprendre leur cycle de vie. Leur qualité peut être affectée par des facteurs divers et variés, comme les législations, la technologie, la formation, etc. En modélisant les données pour représenter les différentes étapes de leur cycle de vie, vous pourrez anticiper les problèmes éventuels en matière de données et trouver les solutions les plus adaptées.

Peu importe que vos données soient au début, au milieu ou à la fin de leur cycle de vie, le travail sur leur qualité est un processus de longue haleine. Certes, la tâche n’est pas très glamour, mais elle en vaut la chandelle sur le long terme, car elle permet d’obtenir de meilleures données, de prendre de meilleures décisions et de parvenir à de meilleurs résultats. Les trois conseils ci-dessous vous mettront sur la bonne voie pour commencer à renforcer la qualité de vos données.

1 - Décrivez vos données en détails

Il est essentiel de bien décrire vos données à chaque étape de leur cycle de vie. Comme nous l’avons vu dans un article précédent, une bonne description et des métadonnées pertinentes permettent de mettre vos données en contexte, d’uniformiser le format et les règles au sein de votre organisation et par rapport aux autres entreprises et d’améliorer l’utilisation des données de manière générale. En effet, des métadonnées judicieusement construites renforcent la cohérence (l’une des cinq dimensions mentionnées plus haut) et créent un mécanisme d’évaluation de la qualité sur les quatre autres dimensions.

Guide Metadata : quelles métadonnées fournir ?

2 - Anticipez les problèmes avant qu'ils ne surviennent

Corriger les erreurs est un processus difficile et chronophage. En accordant plus de temps à la planification et la préparation avant de commencer à collecter et analyser les données, vous pouvez les éviter et gagner un temps précieux tout en vous épargnant bien des efforts a posteriori. Souvent qualifié d’assurance qualité, ce travail est indispensable pour les équipes de gouvernance ou de gestion des données. Une bonne assurance qualité vous aide à fixer les objectifs de votre utilisation des données, améliore la pertinence et l’à-propos de vos données et simplifie le travail lors des étapes ultérieures du cycle de vie.

3 - Hiérarchisez et corriger les erreurs fréquentes

Quel que soit le soin que vous accordez à la planification, il est impossible d’éviter les erreurs à 100 %. La détection et la correction des erreurs, ou contrôle qualité, est un composant clé de la qualité des données. Le contrôle qualité est souvent effectué manuellement, mais peut-être simplifié grâce à des outils de profilage de données et un inventaire des problèmes les plus fréquents, ainsi que de solutions simples. Vous pouvez également créer des statistiques de synthèse pour évaluer vos données afin de mettre en évidence les erreurs potentielles. Corriger les erreurs fréquentes permet de renforcer l’exactitude, l’exhaustivité et la cohérence de vos données. Assurez-vous de consacrer suffisamment de ressources humaines et matérielles à cette étape, qui constitue votre dernier recours pour améliorer la qualité des données.

Copy to clipboard

Sur le long terme, les données de haute qualité représentent une véritable fondation. Plus la qualité de vos données sera élevée, plus votre base sera solide. Cela vous permettra de démultiplier les utilisations potentielles de vos données. Trouver des solutions pour permettre à votre organisation de prévenir, détecter et corriger les problèmes en termes de qualité des données vous permettra de les mettre à profit de différentes manières, par exemple pour améliorer la mobilité dans votre ville  ou trouver des informations exactes lors d’une crise sanitaire.

Au cours des semaines et des mois à venir, vous découvrirez comment exploiter la qualité de vos données grâce à des outils tels que le partage des données en temps réel et des API qui vous permettront de devenir un véritable expert dans le domaine. Alors, restez à l’affût !

Articles sur le même thème : Métadonnées Open data API
Plus d'articles
Référentiels géographiques : la qualité des données est une affaire d’étapes Produit
Référentiels géographiques : la qualité des données est une affaire d’étapes

Si vous avez l’habitude de vous promener sur data.opendatasoft.com, notre Data Network, vous savez à quel point le catalogue de jeux de données est vaste et fourni.

Données, métadonnées, actifs de données, data products : comment différencier ces concepts clés ? Tendances
Données, métadonnées, actifs de données, data products : comment différencier ces concepts clés ?

Dans un monde de plus en plus orienté vers les données, comprendre et différencier les notions de données (data), métadonnées (metadata), actif de données et data products (produits de données) est devenu indispensable pour maximiser leur potentiel. Ces concepts interdépendants, bien que distincts, jouent chacun un rôle clé dans la transformation digitale des organisations et leur capacité à faciliter le partage et la consommation de données à l’échelle.

Tendances data 2025 par Gartner : focus sur les données en self-service Tendances
Tendances data 2025 par Gartner : focus sur les données en self-service

Des données toujours plus nombreuses, une complexité croissante, des budgets contraints : voici quelques-unes des problématiques auxquelles les CDO doivent aujourd’hui faire face. Découvrez les tendances et défis auxquels sont confrontés les CDO, et comment garantir le ROI de vos projets data, selon le cabinet Gartner.