Glossaire
Données ouvertes liées (Linked open data)
Les données ouvertes liées sont des informations accessibles à tous et structurées de manière à être interprétables par des machines.
Les données ouvertes liées reposent sur le modèle du Linked Data de l’informaticien, physicien et inventeur du World Wide Web Tim Berners-Lee. Ce modèle offre une approche structurée pour interconnecter des données de manière ouverte et accessible sur le web.
Le Linked Open Data s’intègre dans le concept du Web 3.0 axé sur les données. Il est constitué de données brutes conformes aux mêmes normes, ce qui facilite leur utilisation, leur partage et leur interopérabilité.
Le Web des données prend forme à travers le modèle proposé par le W3C : le Web sémantique, un modèle commun qui favorise le partage et la réutilisation des données principalement par le biais d’applications, d’organisations ou de communautés.
Différences entre données ouvertes et données ouvertes liées
Il faut distinguer les données ouvertes (ou open data) des données ouvertes liées.
En effet, une donnée peut être ouverte sans être liée et inversement.
Données ouvertes
Les données ouvertes sont des données en libre accès sans restriction juridique (telle que le copyright), technique ou financière. Elles favorisent la transparence et les décisions data-driven au sein des organisations car elles peuvent être utilisées, partagées et modifiées par quiconque.
Données ouvertes liées
Les données ouvertes liées se différencient par une interconnexion sémantique. Elles sont structurées de manière à être compréhensibles par les machines, facilitant ainsi leur intégration et leur analyse automatique.
Avantages des données ouvertes liées
- Utilisation efficace des ressources : Grâce aux données ouvertes liées, les individus et les organisations bénéficient de données déjà collectées, traitées et mises à disposition. Cela encourage la collaboration et la réutilisation des ressources existantes.
- Amélioration de la qualité de l’information : les données ouvertes liées encouragent la normalisation des métadonnées et des formats de données, ce qui rend les données plus fiables et plus crédibles.
- Création de valeur ajoutée : en se connectant directement à d’autres données, les données ouvertes liées permettent aux utilisateurs de découvrir, d’utiliser et de réutiliser l’information de manière innovante.
- Identification des lacunes dans l’information : les données ouvertes liées permettent de mettre en évidence et de corriger les erreurs dans les données.
- Amélioration de la transparence : les données ouvertes liées sont accessibles à tous les citoyens.
Principes techniques des données ouvertes liées
Les données ouvertes liées reposent sur plusieurs principes techniques fondamentaux :
Disponibilité sans restriction excessive
Les données ouvertes liées peuvent être soumises à des licences, mais ces licences doivent être ouvertes et favoriser une réutilisation libre des données. Les licences comme Creative Commons fournissent ce cadre juridique tout en encourageant la collaboration et la réutilisation des données.
Modèle RDF
Pour garantir leur interopérabilité et leur compréhension par les systèmes automatisés, les liens entre les données doivent s’appuyer sur le modèle RDF (Resource Description Framework).
Développé par le World Wide Web Consortium (ou W3C), le RDF sert à décrire de façon formelle les ressources Web et leurs métadonnées.
Ce modèle utilise des triplets sujet-prédicat-objet pour représenter les données de manière structurée et permettre leur traitement par les machines.
Uniform Resource Identifier (URI)
Chaque ressource de données doit disposer d’un URI unique et permanent en ligne, qui simplifie son identification et son accès.
L’URI ou identifiant uniforme de ressource est un système d’identification mondial qui permet de distinguer des éléments réels, abstraits ou numériques grâce à des noms uniques. Les URIs sont essentiels pour relier les données entre elles et permettre leur exploration à travers le web.
Protocole standard HTTP
Les données doivent être mises en ligne en suivant le protocole standard HTTP, assurant ainsi leur disponibilité et leur récupération par les utilisateurs et les applications.
Étapes de publication des données ouvertes liées
Les données ouvertes liées peuvent être implémentées selon 7 étapes :
Choix de la licence
Il est crucial de définir les droits d’utilisation des données publiées en spécifiant le propriétaire des données et les conditions de leur réutilisation.
Recueil des données ouvertes liées
Cette étape implique la collecte rigoureuse des données pertinentes à publier, en veillant à ce qu’elles soient complètes, fiables et conformes aux normes de qualité établies. Cela peut inclure l’identification des sources de données et la validation de l’exactitude des données collectées.
Attribution des URI
L’attribution des URI est un processus essentiel pour décrire les ressources et leurs liens. Cette étape nécessite de définir un nom de domaine qui devra rester stable au fil du temps. Il faut également définir l’identifiant qui permettra de décrire la ressource. Il peut s’agir d’un identifiant existant, tel que le numéro ISBN pour un livre.
Analyse des données ouvertes liées
Cette étape consiste à éditorialiser et normaliser les données ouvertes liées. Elle nécessite une collaboration étroite avec les producteurs ou les experts en données et implique une analyse minutieuse des données, comprenant le format, la quantité, la qualité…
Enrichissement des données ouvertes liées
L’enrichissement de données consiste à ajouter des informations qui donnent du sens à la donnée d’origine. Il peut s’agir de traductions, de définitions, ou d’informations contextuelles.
Modélisation des données ouvertes liées
Cette étape consiste à organiser les données ouvertes liées dans un modèle sémantique afin de garantir leur interopérabilité.
Publication des données ouvertes liées
Avant cette dernière étape, il est recommandé de contrôler la qualité du jeu de données. Par exemple, vérifier si le jeu de données est lié à d’autres jeux de données, si une licence d’utilisation est disponible ou si la provenance des métadonnées est clairement établie.
En savoir plus
Transformation numérique
Donner accès à vos assets data pour créer de la valeur à grande échelle
Quelles sont les motivations des organisations pour engager un projet de portail de données ? Comment mettent-elles en œuvre des portails de données ? Quels sont les bénéfices attendus et les fonctionnalités clés d’un portail de données ?
Transformation numérique
Utiliser son portail de données pour alimenter des modèles d’IA, quels bénéfices ?
Apprenez comment les portails de données renforcent l'efficacité des modèles d'IA en fournissant des données fiables, représentatives et sécurisées, essentielles pour une intelligence artificielle performante et éthique.