Glossaire
Jeu de données (dataset)
Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.
Qu’est-ce qu’un jeu de données ?
Un jeu de données, ou dataset, regroupe plusieurs données ayant un lien cohérent entre elles. Il se présente sous forme de tableau permettant d’analyser chaque donnée qui le compose.
Chaque données peut être composée de texte, de chiffres, de coordonnées géographiques ou encore d’éléments multimédia (par exemple une image ou une vidéo).
Par exemple, un jeu de données créé par un acteur du retail comprendra des colonnes représentant des variables telles que les types de vêtements, les coloris et les niveaux de stock. Les lignes représentent les valeurs de chaque article.
Type |
Coloris |
Niveau de stock |
Chemise |
Bleu |
4 |
Chaussettes | Noir |
8 |
Chapeau |
Vert |
2 |
Pour décrire les données d’un ensemble de données, une hiérarchie qui va du plus petit au plus grand est appliquée :
- Point de données : c’est le plus petit élément. « Chemise », « Noir » ou « 2 » sont tous des points de données dans le tableau ci-dessus.
- Objet de données : il s’agit d’une collection de points de données groupés, apparentés entre eux et qui vont ensemble. Par exemple, « Chemise bleue avec 4 exemplaires en stock » est un objet de données.
- Jeu de données : ce sont toutes les données du tableau.
Chaque point de données de l’ensemble de données peut être consulté individuellement et tous les points de données partagent le même thème. Dans l’exemple ci-dessus, tous les points de données désignent le stock de vêtements.
Différents ensembles de données peuvent être apparentés, leurs relations étant décrites à l’aide de schémas de données. Dans notre exemple, un deuxième jeu de données pourrait inclure la date et le prix de vente de l’un des vêtements du premier ensemble de données. Le schéma de données explique la relation entre les deux ensembles de données.
Comment réutiliser un dataset ?
Les jeux de données ont vocation à être partagés, que ce soit en interne ou vers l’externe. Il doivent donc être accompagnés d’une série d’éléments et d’outils permettant leur réutilisation.
Les métadonnées
Il s’agit de toutes les informations relatives au dataset : licence, date de création/modification, producteur, modèle de donnée utilisé, etc. Ces informations permettent de rassurer le réutilisateur sur la fiabilité du jeu de données. Certains secteurs d’activité nécessitent l’utilisation de métadonnées spécifiques pour répondre aux besoins d’interopérabilité.
Les data visualisation
Sous sa forme brute, un dataset peut être difficile à analyser. C’est pourquoi la plupart des jeux de données qui sont partagés par les organisations sont accompagnés de data visualisation, ou du moins d’outils permettant d’en créer. On peut ainsi avoir une des vues simples comme des cartes ou graphiques, ou des formats plus avancés tels que des dashboards ou data stories.
Les APIs
Indispensables pour récupérer des grands ensembles de données en temps réel, les APIs sont généralement fournies par les producteurs des datasets. Une fois connectées, elles permettent de récupérer des informations toujours à jour.
Comment sont utilisés les jeux de données ?
La création de datasets est essentielle pour créer de la valeur à partir des données. Par conséquent, le nombre et la taille des ensembles de données qu’une organisation a collectés et mis à disposition en interne et en externe donne une mesure de l’avancement de sa stratégie de partage des données.
Les ensembles de données peuvent être utilisés de nombreuses façons.
Pour un usage interne
- Par des spécialistes des données : les jeux de données peuvent être stockés dans des data lake, puis analysés et interrogés avec des outils de business intelligence.
- En libre-service : ils peuvent être mis à la disposition de tous les collaborateurs de l’organisation par le biais d’un catalogue de données, ce qui permet de les utiliser pour améliorer le processus décisionnel et l’efficacité opérationnelle.
- Pour entraîner une IA : l’entraînement des algorithmes de machine learning nécessite l’accès à de très grands volumes de données, provenant d’un ou plusieurs datasets.
Pour un usage externe
- Via des portails open data : pour communiquer en toute transparence sur diverses thématiques, de nombreuses organisations ouvrent des portails open data avec plusieurs datasets à disposition.
- Pour des hackathons : la publication de datasets spécifiques et l’autorisation de les utiliser pour des hackathons ou des concours ouvre la porte à une innovation au sein de tout un écosystème.
Pour créer de nouveaux services
- Avec un écosystème spécifique : les datasets peuvent être partagés en externe avec des partenaires afin d’enrichir la connaissance de toutes les parties prenantes. La Marketplace Exchange de Schneider Electric partage 195 ensembles de données liés à l’énergie avec 540 utilisateurs de 200 entreprises, ce qui lui permet d’offrir plus de valeur à ses partenaires et de lancer de nouveaux services de données.
En savoir plus