Métadonnées : pourquoi sont-elles aussi importantes que les données ?
Apprenez-en plus sur l’importance des métadonnées pour gérer efficacement les grands volumes de données présents sur les portails data des organisations et encourager leur démocratisation.
Les métadonnées sont indispensables pour gérer efficacement les grands volumes de données présents sur les portails data des organisations et encourager leur démocratisation. C’est pourquoi il est important de bien les comprendre et de mettre en place une stratégie de gestion des métadonnées.
Le terme de métadonnées est omniprésent dans les organisations puisqu’elles sont essentielles pour décrire les données existantes et les valoriser. Elles garantissent que toutes les données partagées sur les portails de données et autres outils de data management peuvent être facilement recherchées, mais aussi qu’elles sont compréhensibles, réutilisables et interopérables, à la fois par les collaborateurs et par la technologie, ou les outils basés sur l’intelligence artificielle (IA).
Qu’est-ce qu’une métadonnée ?
Littéralement, les métadonnées désignent “des données qui décrivent d’autres données”. Il s’agit en fait d’une version condensée des données auxquelles elles se réfèrent.
En d’autres termes, les métadonnées résument les informations de base sur les données, ce qui facilite leur recherche et leur gestion avec toutes les parties prenantes responsables. Les métadonnées ne donnent pas d’indications précises sur le contenu des données, mais plutôt sur leur type, leur provenance (origine, nature, etc). Cela signifie qu’il est possible de comprendre ce que couvre un dataset, une visualisation ou une API en consultant uniquement les métadonnées.
On pourrait comparer les métadonnées aux références bibliographiques d’un livre (titre, formats, date de publication, auteur, résumé), et les données au contenu du livre lui-même.
Pourquoi les métadonnées sont-elles importantes ?
Nous vivons dans un monde data-centric, alimenté par l’information. Les organisations créent et collectent des volumes croissants de données provenant de divers systèmes d’information, de logiciels ou encore de capteurs. Toutes ces données sont généralement fournies dans des formats différents. Les métadonnées sont un langage universel pour donner plus de précisions sur la couverture des différents datasets, les unités de mesure utilisées, la régularité de leur mise à jour ou l’identité de leur propriétaire. Il s’agit donc d’informations indispensables pour organiser l’ensemble des informations et pouvoir les comparer et les réutiliser.
Les métadonnées sont donc aussi importantes que les données elles-mêmes. Au sein des portails de données, elles sont d’autant plus importantes car elles garantissent une recherche et une compréhension optimale des informations. C’est indispensable pour permettre aux collaborateurs et partenaires d’y accéder et de les réutiliser en toute confiance dans leur vie professionnelle. Concrètement, les métadonnées réduisent le temps et les efforts consacrés à la recherche et permettent par exemple d’éviter des téléchargements inutiles.
Les métadonnées sont donc essentielles à la gestion d’un portail de données et à la mise en place d’une stratégie data-centric dans les organisations.
Quels sont les objectifs des métadonnées ?
Les métadonnées répondent à plusieurs objectifs et permettent de faciliter la recherche, la compréhension et la réutilisation des données. On peut identifier 8 grandes caractéristiques :
- Les métadonnées doivent fournir un contexte aux données : expliquer ce qu’elles couvrent, les thèmes, les mots-clés pour les décrire, le mode de collecte, etc. Cela comprend également les unités numériques (exemple : dollars, pouces, centimètres).
- Les métadonnées doivent rendre les données unique : elles doivent les différencier d’autres données similaires afin que les utilisateurs puissent identifier les informations les plus pertinentes pour leur recherche.
- Les métadonnées doivent fournir un cadre pour les utilisations ultérieures en donnant des informations sur la licence, sur le cadre des réutilisations (en interne, en externe, etc.), sur les règles organisationnelles comme par exemple la liste des personnes autorisées à utiliser ces données.
- Les métadonnées doivent favoriser la réutilisation des données. Elles doivent être complètes et fournir des descriptions claires. Pour cela, elles doivent décrire les formats dans lesquels elles sont disponibles et suggérer des moyens potentiels de réutilisation.
- Les métadonnées doivent faciliter l’interopérabilité des données. Elles doivent respecter des normes internes ou externes établies afin que les données puissent être utilisées en toute confiance ou comparées à des informations contenues dans d’autres datasets. Il faut donc normaliser la description des champs et les formats tels que les dates.
- Les métadonnées doivent rassurer sur la fiabilité des données en incluant des informations sur la source, la fréquence des mises à jour et le contenu.
- Les métadonnées doivent faciliter à l’utilisateur (humain ou machine) l’accès à un ensemble de données. Il faut donc utiliser des termes normalisés pour décrire ses données. Les données sont ainsi trouvables immédiatement par le biais d’une recherche via un portail interne ou, dans le cas des portails de données ouvertes, via des moteurs de recherche. De bonnes métadonnées facilitent également la recherche et l’utilisation d’ensembles de données pertinents par l’IA, ce qui est essentiel pour l’apprentissage des modèles et des algorithmes.
- Les métadonnées doivent garantir la longévité des données. Les données peuvent avoir une longue durée de vie et être partagées à plusieurs endroits. Il est donc conseillé d’inclure les coordonnées du propriétaire des données dans la licence, en gardant à l’esprit les évolutions internes de son organisation. Plutôt que d’indiquer le nom et prénom d’un collaborateur comme contact, il est préférable d’utiliser le nom d’un service ou d’une équipe dans le cas d’un départ.
Quels sont les différents types de métadonnées ?
Les possibilités de description par les métadonnées semblent infinies. Pour autant, il existe quatre catégories de schémas de métadonnées :
- Les métadonnées descriptives : elles fournissent des détails sur les données en elles-mêmes : nom, contenu, thème, créateur, etc.
- Les métadonnées structurelles : elles précisent la classification des données selon leur format, ce qui facilite leur accès et leur réutilisation (format, support).
- Les métadonnées administratives : elles regroupent les informations relatives à la gestion des droits et aux licences.
- Les métadonnées relationnelles : elles expliquent comment les ensembles de données sont liés à d’autres informations et permettent ainsi de suivre l’évolution des données.
Pourquoi les métadonnées sont-elles importantes ?
Les avantages des métadonnées
Sans métadonnées, le partage d’informations à grande échelle serait pratiquement impossible.
Les métadonnées sont donc nécessaires pour éviter la confusion provoqués par des ensembles de données comparés ou combinés. Elles offrent sept avantages clés :
- Elles facilitent la découverte, le partage et la réutilisation des données sur les portails de données. En permettant aux utilisateurs de rechercher, de trouver et d’utiliser rapidement et en toute confiance les ensembles de données pertinents.
- Elles améliorent la prise de décision. Comme les données sont mieux organisées et peuvent être facilement comparées, les humains et l’IA peuvent prendre des décisions commerciales plus éclairées, plus rapides et plus sûres.
- Les métadonnées sont au cœur d’une gouvernance des données efficace. Elles assurent la conformité avec les politiques de l’entreprise.
- Elles optimisent la qualité des données en fournissant des informations sur la qualité et la fiabilité de l’ensemble de données.
- Elles assurent un gain de temps et d’efficacité. Les utilisateurs peuvent trouver et utiliser les informations pertinentes plus rapidement, sans avoir besoin de l’aide des équipes chargées des données.
- Elles favorisent la collaboration interne et externe en permettant aux collaborateurs de travailler ensemble avec des données partagées et comprises par tous.
- Elles garantissent la conformité. Les métadonnées permettent aux données stockées dans différents systèmes et bases de données d’être interopérables, en fournissant un enregistrement actualisé des informations et de toutes les modifications qui y sont apportées.
Modèles et normes de métadonnées
Le modèle W7
Dans l’ouvrage « A semiotic Framework for Analyzing Data Provenance Research« , les auteurs définissent un modèle conceptuel en sept parties. La plupart des schémas de métadonnées reposent sur ces questions :
- Quoi – Sur quoi porte l’ensemble de données ?
- Quand – Quelle est la période couverte par l’ensemble de données ?
- Où – Quelle est la couverture spatiale/géographique de l’ensemble de données ?
- Qui – Qui l’a créé (organisation, équipe, individu) ?
- Comment – Comment le jeu de données peut-il être utilisé ? En d’autres termes, quelles sont les conditions de licence ?
- Quelle – Quelle source a généré le jeu de données (solution logicielle, capteur, machine) ?
- Pourquoi – Pourquoi l’ensemble de données existe-t-il ? Pourquoi a-t-il été créé et partagé à l’origine ?
Normes relatives aux métadonnées
Si le principe des métadonnées est simple, leur application à des jeux de données peut sembler complexe. Par où commencer ? Comment décrire les données pour qu’elles soient cohérentes et puissent être partagées en interne et en externe ?
Un certain nombre de normes internationales ont été conçues pour répondre à ces questions. On peut citer la norme Dublin Core, le DCAT ou encore INSPIRE de l’UE pour les données spatiales. Il s’agit de normes ISO reconnues afin de garantir l’interopérabilité et la réutilisation à grande échelle.
La solution Opendatasoft intègre outil de gestion des métadonnées pour faciliter leur contribution. Il regroupe trois catégories de modèles de métadonnées :
- Modèles standards : pour garantir un niveau de conformité personnalisé, adapté aux exigences d’une organisation (classification, secteur ou vocabulaire spécifique).
- Modèles d’interopérabilité (non modifiables) : pour assurer la conformité avec les normes internationales telles que DCAT, DCAT-AP, Inspire ou Dublin Core.
- Modèles administratifs (visibles uniquement par les administrateurs du portail) : pour assurer une bonne gouvernance interne des métadonnées.
Métadonnées et ontologies
Les ontologies sont des descriptions et des définitions des relations et peuvent être utilisées pour compléter les métadonnées. Les ontologies peuvent inclure les informations suivantes :
- Classes (éléments généraux, types d’éléments),
- Instances (objets individuels),
- Relations entre les objets,
- Propriétés des objets,
- Fonctions, processus, contraintes et règles.
Les ontologies nous aident à comprendre les relations entre différents éléments. Par exemple, un « téléphone Android » appartient à la classe d’objets, « téléphone portable ».
Dans les schémas de métadonnées, les ontologies contribuent à garantir l’interopérabilité de différents datasets dans le cadre de normes spécifiques. Elles définissent l’organisation d’un jeu de données, le champs couvert et le type d’information dans chaque champ (par exemple, un chiffre). Cela se reflète dans les métadonnées, qui fournissent une définition standard pour chaque type d’en-tête de colonne.
Bonnes pratiques pour améliorer la réutilisation des données grâce aux metadata
Pour favoriser un partage et une réutilisation efficaces des données par le biais des portails data, plusieurs bonnes pratiques peuvent être suivie concernant la gestion des métadonnées :
- Définir une stratégie de gestion des métadonnées alignée avec les objectifs de partage de données de son organisation.
- Recueillir et comprendre les besoins des utilisateurs et les cas d’usage potentiels.
- Prioriser l’ajout de métadonnées aux jeu de données les plus importants pour stimuler leur utilisation.
- Impliquer les propriétaires et utilisateurs concernés en créant une équipe transverse responsable de la gestion des métadonnées.
- Établir un système de classification des métadonnées et créer un vocabulaire commun basé sur des normes reconnues.
- Sensibiliser tous les propriétaires de données à l’importance des métadonnées et communiquer les normes, les pratiques, les modèles et les processus.
- Contrôler le respect des normes en matière de métadonnées et les faire évoluer si nécessaire.
Les métadonnées jouent donc un rôle essentiel dans la démocratisation des données. Elles favorisent la fiabilité de l’accès aux données pour des utilisateurs experts et non experts. Au sein d’une organisation, la stratégie de gestion des métadonnées doit être exhaustive et répondre à des normes définies pour encourager la réutilisation des données.
Pour en savoir plus sur la gestion des métadonnées, consultez notre ebook.
Quelles métadonnées fournir ? Découvrez notre modèle type composé des 20 métadonnées. Elles sont classées en 6 catégories créées à partir du modèle QQCOQP, cette fameuse suite de questions devenue réflexe journalistique : De quoi parle le jeu de données ? Qui en est à l’origine ? Pourquoi le jeu de données existe-t-il ? Comment utiliser le jeu de données ? Dans quelle temporalité le jeu de données s’inscrit-il ? Dans quel territoire le jeu de données se situe-t-il ?
Apprenez-en plus sur les modèles de métadonnées mis à disposition par Opendatasoft pour améliorer la qualité et la conformité de vos données et augmenter votre efficacité et vous permettre de gagner du temps au quotidien.
La création d’un portail de données est la clé pour exploiter les données et faciliter leur réutilisation au-delà des cercles d'experts dans les organisations. Découvrez les limites des solutions de “data catalog” et les solutions existantes pour créer de la valeur à partir de vos données.