Glossaire
Données standardisées
Les données standardisées sont des données provenant de différentes sources qui ont été transformées dans un format cohérent, basé sur des normes, leur permettant d’être comparées.
Qu’est-ce qu’une donnée standardisée ?
Les données standardisées sont des données provenant de différentes sources qui ont été transformées dans un format cohérent, basé sur des normes. Le processus de standardisation des données consiste à harmoniser les données de façon à ce que toutes les entrées des différents ensembles de données qui se rapportent aux mêmes termes suivent un format similaire, ce qui permet de les comparer de manière significative.
Voici quelques exemples de formats de données qui nécessitent une standardisation :
- Comment les adresses sont-elles enregistrées et affichées ?
- Capitalisation (ou non) des titres de postes
- Formats de données (par exemple choix entre JJ/MM/AA et MM/JJ/AA)
- Formats d’heure et fuseaux horaires utilisés
- Comment les adresses électroniques sont-elles enregistrées ?
- Comment les adresses de sites web sont-elles enregistrées (par exemple en incluant ou non https://) ?
- Comment les numéros de téléphone sont-ils enregistrés et affichés (par exemple, avec ou sans indicatif de pays)
- Comment les noms des états sont-ils enregistrés (en entier ou sous forme abrégée)
Outre les termes courants tels que les adresses et les numéros de téléphone, les différents secteurs d’activité peuvent également avoir leurs propres normes. Ces modèles de données communs sont conçus pour accroître l’interopérabilité des ensembles de données dans le secteur grâce à des formats standardisés.
Par exemple, dans le domaine des soins de santé, le formatage des données peut varier considérablement d’un prestataire de soins à l’autre au sein de leurs systèmes internes. En appliquant un modèle de données commun standardisé, ces données peuvent alors être partagées en toute confiance entre les fournisseurs, ainsi qu’avec les régulateurs et les gouvernements, comme lors de la pandémie de COVID-19.
La standardisation des données est différente :
- Du nettoyage des données, qui consiste à identifier et à corriger les données incorrectes, incomplètes, dupliquées, inutiles ou autrement erronées dans un ensemble de données. La standardisation des données ne corrige pas les données erronées, elle se contente de les formater de manière cohérente.
- De la transformation des données lorsque les données sont enrichies d’informations et d’ensembles de données supplémentaires, par exemple par l’ajout d’informations géographiques. La standardisation des données n’implique pas l’ajout d’informations supplémentaires, mais simplement l’application d’un format standard à ce qui existe déjà.
Pourquoi les données standardisées sont-elles importantes ?
L’harmonisation du formatage des données par le biais de la standardisation des données est essentielle pour :
- Garantir la qualité et la cohérence des données, en faisant de la standardisation un élément essentiel de la gouvernance des données.
- Permettre l’interopérabilité d’ensembles de données provenant de différentes sources, en particulier de départements au sein d’une organisation ou de sources externes.
- Être en mesure d’effectuer des comparaisons précises entre des jeux de données. En résumé, vous pouvez comparer des « pommes avec des pommes ».
- Créer la confiance dans les données et augmenter ainsi leur utilisation dans l’organisation et au-delà.
- Démocratisation des données. S’ils n’ont pas la certitude que les données sont standardisées et cohérentes, les employés, les citoyens et les partenaires ne s’appuieront pas sur les sources de données ou ne les utiliseront pas, ce qui freinera la démocratisation des données.
- Une prise de décision plus éclairée, basée sur des données précises et standardisées.
- Être en mesure d’effectuer des analyses transversales comparant différents ensembles de données de manière significative.
- Suppression du coût et des dysfonctionnements liés à la mise à jour manuelle ou à la comparaison de différents ensembles de données et à l’élimination des différences de format.
- Appliquer avec succès des algorithmes d’IA et d’apprentissage automatique et obtenir des résultats significatifs.
Comment standardiser vos données ?
L’obtention de données standardisées est un processus en plusieurs étapes, qui suit les étapes clés suivantes :
- Auditer toutes les sources de données et comprendre les informations qu’elles contiennent. Cela concerne notamment le type de données, leur fréquence, leur importance, leur taille et leur caractère interne ou externe. Rechercher et comprendre les besoins de tous les utilisateurs de données au sein de l’organisation/écosystème.
- Définir et convenir de formats standards pour les données dans l’ensemble de l’organisation, par exemple la manière dont les dates, les adresses et les numéros de téléphone seront saisis. Il existe une série de normes qui peuvent être adoptées, comme l’ISO 8601 pour les formats de données de date et d’heure. Veillez à ce que chacun comprenne (et utilise) ces normes.
- Importer des données de vos sources internes et externes dans votre plateforme de données.
- Appliquer des processeurs à la source de données pour corriger toute différence de formatage et pour normaliser les données.
- Valider que les changements ont été effectués avec succès en testant les champs de données.
- Une fois standardisées avec succès, les données peuvent être publiées, partagées et visualisées.
En savoir plus
Tendances
Les 5 principaux défis rencontrés par les Chief Data Officers
Toute entreprise ayant pour ambition de devenir data-centric a besoin d’un Chief Data Officer dont le rôle est de garantir à chaque utilisateur un accès immédiat aux informations dont il a besoin. Découvrez les défis auxquels il est confronté, et quelles sont les stratégies et technologies à adopter pour les surmonter.
Services data
Quelle est la différence entre un data product et un data asset ?
Les organisations génèrent des volumes croissants de données, mais à elles seules, ces données brutes ne peuvent pas générer de valeur. Elles peuvent être difficiles à interpréter, au mauvais format ou simplement être trop basiques pour être utiles, c’est pourquoi il est plus que nécessaire aujourd’hui de transformer les données brutes en data assets (actifs de données) et en data products (produits de données) à valeur ajoutée et plus accessibles.
Accès aux données
Gouvernance des données vs data management : quelles sont les principales différences ?
Pour maximiser la valeur de leurs données, les organisations se concentrent à la fois sur la gouvernance des données et sur le data management. Il n'est pas rare de confondre ces concepts qui sont étroitement liés.