Glossaire

Jeu de données (dataset)

Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.

Qu’est-ce qu’un jeu de données ?

Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.

Chaque données peut être composée de texte, de chiffres, de coordonnées géographiques ou encore d’éléments multimédia (par exemple une image ou une vidéo).

Par exemple, un jeu de données créé par un acteur du retail comprendra des colonnes représentant des variables telles que les types de vêtements, les coloris et les niveaux de stock. Les lignes représentent les valeurs de chaque article.

Type	Coloris	Niveau de stock
Chemise	Bleu	4
Chaussettes	Noir	8
Chapeau	Vert	2

Pour décrire les données d’un ensemble de données, une hiérarchie qui va du plus petit au plus grand est appliquée :

Point de données : c’est le plus petit élément. « Chemise », « Noir » ou « 2 » sont tous des points de données dans le tableau ci-dessus.
Objet de données : il s’agit d’une collection de points de données groupés, apparentés entre eux et qui vont ensemble. Par exemple, « Chemise bleue avec 4 exemplaires en stock » est un objet de données.
Jeu de données : ce sont toutes les données du tableau.

Chaque point de données de l’ensemble de données peut être consulté individuellement et tous les points de données partagent le même thème. Dans l’exemple ci-dessus, tous les points de données désignent le stock de vêtements.

Différents ensembles de données peuvent être apparentés, leurs relations étant décrites à l’aide de schémas de données. Dans notre exemple, un deuxième jeu de données pourrait inclure la date et le prix de vente de l’un des vêtements du premier ensemble de données. Le schéma de données explique la relation entre les deux ensembles de données.

Comment réutiliser un dataset ?

Les jeux de données ont vocation à être partagés, que ce soit en interne ou vers l’externe. Il doivent donc être accompagnés d’une série d’éléments et d’outils permettant leur réutilisation.

Les métadonnées

Il s’agit de toutes les informations relatives au dataset : licence, date de création/modification, producteur, modèle de donnée utilisé, etc. Ces informations permettent de rassurer le réutilisateur sur la fiabilité du jeu de données. Certains secteurs d’activité nécessitent l’utilisation de métadonnées spécifiques pour répondre aux besoins d’interopérabilité.

Les data visualisation

Sous sa forme brute, un dataset peut être difficile à analyser. C’est pourquoi la plupart des jeux de données qui sont partagés par les organisations sont accompagnés de data visualisation, ou du moins d’outils permettant d’en créer. On peut ainsi avoir une des vues simples comme des cartes ou graphiques, ou des formats plus avancés tels que des dashboards ou data stories.

Les APIs

Indispensables pour récupérer des grands ensembles de données en temps réel, les APIs sont généralement fournies par les producteurs des datasets. Une fois connectées, elles permettent de récupérer des informations toujours à jour.

Comment sont utilisés les jeux de données ?

La création de datasets est essentielle pour créer de la valeur à partir des données. Par conséquent, le nombre et la taille des ensembles de données qu’une organisation a collectés et mis à disposition en interne et en externe donne une mesure de l’avancement de sa stratégie de partage des données.

Les ensembles de données peuvent être utilisés de nombreuses façons.

Pour un usage interne

Par des spécialistes des données : les jeux de données peuvent être stockés dans des data lake, puis analysés et interrogés avec des outils de business intelligence.
En libre-service : ils peuvent être mis à la disposition de tous les collaborateurs de l’organisation par le biais d’un catalogue de données, ce qui permet de les utiliser pour améliorer le processus décisionnel et l’efficacité opérationnelle.
Pour entraîner une IA : l’entraînement des algorithmes de machine learning nécessite l’accès à de très grands volumes de données, provenant d’un ou plusieurs datasets.

Pour un usage externe

Via des portails open data : pour communiquer en toute transparence sur diverses thématiques, de nombreuses organisations ouvrent des portails open data avec plusieurs datasets à disposition.
Pour des hackathons : la publication de datasets spécifiques et l’autorisation de les utiliser pour des hackathons ou des concours ouvre la porte à une innovation au sein de tout un écosystème.

Pour créer de nouveaux services

Avec un écosystème spécifique : les datasets peuvent être partagés en externe avec des partenaires afin d’enrichir la connaissance de toutes les parties prenantes. La Marketplace Exchange de Schneider Electric partage 195 ensembles de données liés à l’énergie avec 540 utilisateurs de 200 entreprises, ce qui lui permet d’offrir plus de valeur à ses partenaires et de lancer de nouveaux services de données.

Ebook

Portail de données : La solution des leaders data pour maximiser leur impact

Les organisations ont compris l’importance des données pour la réussite de leurs stratégies et pour leur développement. Un accès simplifié et rapide aux données, dans le bon format et au bon moment, est crucial pour améliorer la prise de décision, l’efficacité et la collaboration, mais aussi pour réduire les coûts, créer de nouvelles sources de revenus et atténuer les risques. Cet ebook fournit une introduction aux portails de données, tant au niveau stratégique que tactique. Il réunit les meilleures pratiques pour démocratiser vos données et en libérer la valeur.

Produit

Comment l’IA transforme notre solution de data marketplace et les projets data de nos clients

Opendatasoft accélère depuis plusieurs mois pour transformer sa solution de data marketplace grâce à l’IA et permet déjà à ses clients de gagner du temps et de réduire le risque d’erreur sur de nombreuses tâches. Découvrez comment !

Produit

Centraliser tous ses actifs de données grâce à la connectivité illimitée d’Opendatasoft

Dans cet article, explorez nos innombrables possibilités d’intégration conçues pour permettre à nos clients de concrétiser tous leurs projets de connectivité et d’industrialiser facilement la collecte et la centralisation de leurs données.

Commencez à créer vos expériences data

Demander une démo