Métadonnées : ce qu’il faut savoir avant de publier vos données
Que sont, exactement, les métadonnées ? Comment les rendre efficaces ? Voici quelques clés de lecture qui vous permettront d'y voir plus clair.
Sorties de leur contexte, les données perdent tout intérêt. Pour la plupart des utilisateurs, elles déclenchent aussitôt toute une série de questions : d’où viennent-elles ? Quand ont-elles été mises à jour pour la dernière fois ? Qui est responsable de les traiter ? Les métadonnées apportent la réponse à ces questions, mais leur intérêt va bien au-delà.
En fournissant le contexte nécessaire, les bonnes pratiques en matière de métadonnées nous permettent de renforcer la valeur de nos données. Toutefois, les métadonnées ne sont pas aussi simples à gérer qu’il n’y paraît, et le sujet peut rapidement se révéler d’une grande complexité technique.
Certaines organisations internationales existent pour assurer une utilisation pertinente des métadonnées à travers le monde. Parmi elles, citons l’ISO (Organisation Internationale de Normalisation) et la DCMI (Dublin Core Metadata Initiative Metadata). Elles s’appliquent à diffuser un modèle standardisé de métadonnées favorisant l’interopérabilité, la qualité et la réutilisation des données. Citons également l’Union européenne. Avec la Directive INSPIRE lancée en 2007, elle entend établir une infrastructure commune d’échange de données géographiques en Europe. Celle-ci repose notamment sur la création de métadonnées “compatibles et utilisables dans un contexte communautaire et transfrontalier”, dont les règles de description sont définies dans le Règlement n°1205/2008.
Si l’heure est à la normalisation, il n’est pas toujours facile de manier les métadonnées et de se tenir au courant des évolutions, tant les ressources sur le sujet sont nombreuses et diffuses. Quelles que soient vos pratiques actuelles, cet article a pour but de vous aider à comprendre ce que sont les métadonnées et vous donner des clés de lecture pour améliorer leur efficacité. Pour cela, nous commencerons par examiner les définitions de base et verrons petit à petit les mises en œuvre techniques.
Les principes de base : que sont les métadonnées et à quoi servent-elles ?
Les métadonnées sont souvent définies comme des données décrivant d’autres données, mais il existe de nombreuses définitions diverses et variées. Une recherche rapide sur Google permet d’ailleurs d’accéder à des centaines de ressources qui décrivent en détails les tenants et les aboutissants des métadonnées dans différents domaines. Comme Jason l’a souligné dans un article il y a quelques temps, les métadonnées répondent presque toujours aux questions de base soulevées par les données : quoi, qui, où, quand et pourquoi. Le but est d’offrir un résumé des données publiées.
Pour simplifier, les métadonnées fournissent le contexte dont nous avons besoin pour exploiter les données. C’est ce contexte qui permet de les trouver, de les comparer et de les vérifier. Grâce aux métadonnées, les données peuvent être utilisées par exemple pour réduire les coûts, encourager la collaboration et améliorer notre compréhension des problèmes auxquels nous sommes confrontés. Sans elles, il serait presque impossible d’utiliser les données de façon responsable.
Composants : que comprennent les métadonnées ?
Pour être pertinentes, les métadonnées doivent comprendre certains éléments clés qui permettent d’établir un contexte. Quel que soit le type de données spécifiques ou le domaine dans lequel vous travaillez, la plupart des ensembles de données intègrent d’ores et déjà ces éléments, qui permettent de répondre aux questions « qui, quoi, où, quand et comment ». Intéressons-nous à la capture d’écran ci-dessous, tirée d’un jeu de données hébergé sur le portail Open Data de la ville de Mulhouse, pour voir comment les métadonnées ont été mises en pratique.
Disponibles dans l’onglet « Informations », les métadonnées fournissent tous les renseignements de base concernant ce jeu de données, y compris des éléments clés comme le titre, le producteur, la licence d’utilisation, la dernière mise à jour, la langue et les mots-clés.
Dans ce cas précis, les métadonnées fournissent aussi des informations sur la publication du jeu de données en lui-même, à savoir son créateur, sa fréquence de mise à jour et son emplacement. Ces trois éléments ont pour mérite de rassurer le réutilisateur sur la fiabilité du jeu de données.
De manière générale, assurez-vous toujours de saisir le titre, la description, la date, le producteur et les mots-clés. Ces éléments peuvent vous servir de checklist rapide pour gérer vos métadonnées. La plupart des secteurs doivent également inclure des éléments spécifiques, propres à leur industrie. Dans la section suivante, nous verrons donc les considérations techniques à prendre en compte pour mettre en œuvre une stratégie de métadonnées dans votre organisation.
Cahier des charges : comment assurer que les métadonnées soient mises en œuvre de manière cohérente ?
Pour créer une stratégie de métadonnées pertinente, le contexte des données doit être donné de manière reproductible et systématique. En bref, les organisations doivent décrire et définir leurs métadonnées en fonction de règles normalisées. Par exemple, le jeu de données de Mulhouse que nous avons cité plus haut s’appuie sur le schéma DCAT, un vocabulaire dédié à la publication de catalogues de données en ligne, lui-même basé sur le standard Dublin Core évoqué plus haut, et recommandé par le W3C. Le DCAT indique les éléments, règles et structures à appliquer pour publier des jeux de données dans des catalogues sur le web. La finalité : pousser les réutilisateurs à consommer des données provenant de plusieurs catalogues et faciliter les mouvements de données entre ces catalogues. Il s’agit notamment de l’un des modèles de métadonnées gérés par Opendatasoft.
Il n’est pas rare que les organisations publient des cahiers des charges techniques qui définissent des règles cohérentes en interne, ou pour leur secteur, pour gérer les métadonnées. C’est le cas du Conseil National de l’Information Géographique (CNIG) qui fournit aux professionnels de l’urbanisme des consignes de saisie des métadonnées INSPIRE.
Le document du CNIG propose des règles, des recommandations mais aussi des exemples de description pour chaque métadonnée, et en précise le caractère obligatoire ou facultatif. Les métadonnées sont réparties dans 10 catégories distinctes, de manière à proposer un parcours de saisie guidé, logique et exhaustif : identification des données, classification des données et services géographiques, qualité et validité, conformité, etc. Le cahier des charges technique du CNIG renvoie par ailleurs à des « normes » externes, ici les éléments de métadonnées définis par la Directive INSPIRE, ce qui est nécessaire pour assurer l’interopérabilité des données d’urbanisme produites en France avec les autres données du secteur produites à travers l’Europe.
Normes : comment s'assurer que nos métadonnées soient conformes aux pratiques externes ?
Le cahier des charges du CNIG que nous venons d’étudier vise à permettre aux fournisseurs de données d’urbanisme d’assurer la conformité de leurs métadonnées avec la réglementation européenne en vigueur. D’autres secteurs et industries ont également publié leurs propres standards en matière de métadonnées, afin de permettre aux organisations du monde entier de suivre des lignes directrices communes lors du catalogage de leurs données. Vous trouverez quelques exemples ci-dessous – dont certains déjà cités plus haut – mais ce n’est qu’un mince aperçu de la pléthore de normes et directives qui existent en matière de métadonnées.
Dublin Core – description des ressources numériques
Content Standard for Digital Geospatial Metadata (CSDGM) – données géospatiales
Data Documentation Initiative – données d’enquête
METS, OAIS et PREMIS – description, archivage et préservation des objets numériques. Ils sont notamment utilisés par la Bibliothèque Nationale de France (BnF)
Ocean.data.gov – geographic data related to oceans
Schémas et profils d'application : Comment mettre ces normes en pratique ?
Les normes relatives aux métadonnées établissent les principes à suivre et soulignent les problèmes qui peuvent freiner les initiatives de gestion des métadonnées. Elles font généralement partie d’une stratégie de gouvernance plus large. Pour les mettre réellement en pratique, il faut citer deux termes supplémentaires : schéma et profil d’application. Je décrirai ici les principes de base et donnerai quelques exemples, mais si vous voulez en savoir plus et connaître les différences entre les profils, les schémas et autres termes connexes, je vous invite à consulter cet excellent guide créé par l’International Standards Organization (ISO).
Un schéma est un ensemble de lignes directrices détaillées qui décrivent les règles explicites et les relations entre chaque élément de métadonnées au sein d’une norme. Par nature, les schémas sont bien plus techniques que les normes. Ils fournissent des définitions et des orientations axées sur la sémantique et la syntaxe. Les schémas indiquent également quels éléments de métadonnées sont obligatoires (comme le faisait également le cahier des charges technique du CNIG) afin d’assurer qu’aucune métadonnée importante ne soit oubliée.
Le profil d’application est une sous-rubrique du schéma. Il s’agit d’un ensemble de règles et de politiques qui décrivent comment mettre en œuvre le schéma dans une situation ou une organisation spécifiques. Le DCAT-AP spécifie par exemple comment décrire les métadonnées des jeux de données publiés sur des portails européens, à partir du schéma DCAT.
À noter que les profils d’application peuvent inclure des éléments de métadonnées provenant de plusieurs schémas. Par exemple, si vous publiez des données géospatiales sur Internet, vous devrez sans doute créer un profil d’application en utilisant d’une part les éléments du schéma DCAT ou du modèle Dublin Core (données sur le web) et d’autre part les schémas de la CSDGM (données géospatiales).
L’État de Caroline du Nord, qui se concentre sur les données SIG, offre un excellent exemple de mise en pratique du profil d’application. Pour résumer, les profils d’application expliquent en détails comment les organisations doivent gérer les métadonnées dans une seule instance. Apprendre à mettre en application ces schémas et profils d’application demande du temps et de la pratique, mais ces principes sont indispensables pour améliorer la pertinence des métadonnées de votre organisation.
Conseils : Que garder à l'esprit pour gérer les métadonnées ?
Nous avons traité un large éventail de sujets dans cet article. Pour garder nos objectifs en vue, voici quelques conseils à garder en tête pour améliorer la stratégie de métadonnées de votre organisation.
- Discutez : Engager la conversation avec d’autres personnes permet toujours d’améliorer la pertinence des métadonnées. Parlez avec vos collègues et des experts externes ou collaborez avec les groupes de travail existants qui se consacrent aux données pour obtenir autant de perspectives que possible. Surtout, n’hésitez pas à demander de l’aide lorsque vous en avez besoin. Les échanges permettront de renforcer vos techniques de gestion des métadonnées sur le long terme.
- Demandez et empruntez : Avec les métadonnées, il est toujours mieux d’emprunter que de créer. Un travail phénoménal a déjà été accompli à l’échelle internationale pour créer des directives en matière de métadonnées, alors n’hésitez pas à les utiliser (vous trouverez beaucoup de liens vers ces ressources sur ce blog). N’essayez pas de réinventer la roue et utilisez plutôt les ressources déjà disponibles, dont la qualité est avérée.
- Documentez le processus : Plus vous documenterez, meilleure sera votre stratégie de métadonnées. En établissant des techniques de documentation cohérentes (et éventuellement un dictionnaire des données), vous améliorerez votre gestion des métadonnées au fil du temps et apprendrez à mettre les métadonnées en pratique en fonction de votre organisation.
La gestion des métadonnées chez Opendatasoft
La mission d’Opendatasoft est de démocratiser les données pour tous. C’est pourquoi notre plateforme vous permet de renseigner très facilement les métadonnées de chacun de vos datasets :
- Les métadonnées standard : celles qui sont affichées dans l’interface de navigation de votre catalogue pour les utilisateurs.
- Les métadonnées d’interopérabilité : elles sont destinées à une utilisation automatique par d’autres systèmes pour garantir l’interopérabilité ou la conformité réglementaire. Notre plateforme propose une gestion simplifiée des métadonnées DCAT et INSPIRE.
- Les métadonnées administratives : elles sont visibles seulement par les administrateurs de la plateforme et sont entièrement personnalisables.
- Les métadonnées applicatives : elles peuvent être visibles dans l’interface de navigation, mais également via l’API Opendatasoft Search.
Quelles métadonnées fournir ? Découvrez notre modèle type composé des 20 métadonnées. Elles sont classées en 6 catégories créées à partir du modèle QQCOQP, cette fameuse suite de questions devenue réflexe journalistique : De quoi parle le jeu de données ? Qui en est à l’origine ? Pourquoi le jeu de données existe-t-il ? Comment utiliser le jeu de données ? Dans quelle temporalité le jeu de données s’inscrit-il ? Dans quel territoire le jeu de données se situe-t-il ?
Dans un monde de plus en plus orienté vers les données, comprendre et différencier les notions de données (data), métadonnées (metadata), actif de données et data products (produits de données) est devenu indispensable pour maximiser leur potentiel. Ces concepts interdépendants, bien que distincts, jouent chacun un rôle clé dans la transformation digitale des organisations et leur capacité à faciliter le partage et la consommation de données à l’échelle.
Des données toujours plus nombreuses, une complexité croissante, des budgets contraints : voici quelques-unes des problématiques auxquelles les CDO doivent aujourd’hui faire face. Découvrez les tendances et défis auxquels sont confrontés les CDO, et comment garantir le ROI de vos projets data, selon le cabinet Gartner.