Glossaire
Données structurées et non-structurées
Les données structurées et non structurées sont des termes utilisés pour décrire le format et les modèles spécifiques de données, et affectent la manière dont les données sont collectées, stockées et analysées.
Qu’est-ce que les données structurées ?
Les données structurées sont des données quantitatives qui suivent des modèles et des formats spécifiques définis. Des exemples de données structurées comprennent les enregistrements clients contenant des noms et adresses, les numéros de carte de crédit, les informations boursières, la géolocalisation, ou les réponses numériques à des enquêtes. Elles sont généralement constituées de chiffres et de valeurs.
Les données structurées sont habituellement collectées dans des bases de données relationnelles, des feuilles de calcul ou des entrepôts de données. Elles sont produites par des systèmes d’entreprise tels que les CRM, ERP ou collectées via des formulaires web structurés.
Caractéristiques des données structurées :
- Elles ont une structure identifiable basée sur un modèle de données.
- Elles sont organisées en lignes et colonnes, avec des champs fixes.
- Elles sont stockées sous forme tabulaire, comme dans les bases de données.
- Les utilisateurs, humains et machines, peuvent facilement comprendre la signification des données et donc y accéder et les interroger.
- Les points de données dans la même classe partagent les mêmes attributs – par exemple, un champ de numéro de téléphone sera toujours numérique et aura un nombre défini de chiffres.
Qu’est-ce que les données non structurées ?
En revanche, les données non structurées sont des données qualitatives qui ne suivent pas de modèle de données spécifique prédéfini ou qui ne sont pas organisées de manière prédéfinie. Des exemples de données non structurées incluent les documents textuels, le texte des e-mails, les images, les fichiers audio, les vidéos et les réponses en texte libre dans les enquêtes. Essentiellement, ces données ne sont pas principalement conçues pour être analysées.
Les données non structurées sont généralement collectées dans des bases de données NoSQL, des documents, des bibliothèques d’images ou des data lakes. Elles sont produites par des outils tels que des traitements de texte, des caméras, des capteurs et des programmes de messagerie électronique.
Caractéristiques des données non structurées :
- Elles n’ont pas de structure ou de modèle de données identifiable.
- Elles n’ont pas d’organisation évidente.
- Elles ne peuvent pas être facilement analysées pour en extraire le sens ou les tendances, que ce soit par des machines ou des humains sans formation spéciale ou outils.
- Les points de données peuvent varier largement – la même base de données NoSQL pourrait contenir des fichiers vidéo, audio, image et texte.
Qu’est-ce que les données semi-structurées ?
Comme son nom l’indique, les données semi-structurées sont un hybride entre les données structurées et non structurées. Bien qu’elles n’aient pas de modèle de données prédéfini, elles utilisent des métadonnées (comme des balises et des marqueurs sémantiques) pour permettre le catalogage, la recherche et l’analyse.
Des exemples de formats de données semi-structurées sont JSON, CSV et XML. Le texte sur les pages web, comme celle-ci, est également semi-structuré, car une hiérarchie de formats (H1, H2, H3) a été appliquée. Cependant, cela ne couvre pas le texte réellement sur la page, qui est non structuré.
Les fichiers CSV, par exemple, ont une certaine structure (comme étant tabulés), ce qui les rend plus faciles à organiser et à analyser. Cependant, cette structure ne suit pas le modèle défini que l’on trouverait dans un fichier de feuille de calcul complet, où chaque ligne et colonne a des attributs définis.
Alors que traditionnellement les données structurées ont été les plus générées et utilisées au sein des organisations, les analystes estiment que les données non structurées sont désormais majoritaires. IDC prévoit que le volume de données dans le monde passera de 33 zettaoctets en 2018 à 175 zettaoctets d’ici 2025. Un zettaoctet équivaut à un trillion de gigaoctets. De cela, 80 % seront des données non structurées.
Quels sont les avantages et inconvénients des données structurées ?
Les données structurées sont conçues pour être capturées, stockées, accessibles, organisées et analysées facilement. Elles offrent les avantages et inconvénients suivants :
Avantages :
- Elles sont plus faciles à comprendre et à analyser par les utilisateurs métier, sans formation spécifique, car elles suivent des modèles logiques.
- Elles peuvent être rapidement et facilement consommées et analysées grâce à des algorithmes d’apprentissage automatique, automatisant ainsi les insights.
- Elles permettent de mettre à l’échelle pour permettre aux entreprises de stocker et d’accéder facilement à de grandes quantités d’informations.
- Les données structurées prennent moins d’espace de stockage que des quantités similaires de données non structurées.
- Il existe de nombreux outils matures disponibles pour collecter, stocker et analyser les données structurées.
Inconvénients :
- Les données structurées sont conçues avec une structure spécifique et prédéfinie. Cela signifie qu’elles ne peuvent être utilisées que pour leur objectif prévu, limitant leur flexibilité et leur utilisabilité.
- Comme elles sont stockées dans des systèmes avec des schémas rigides (comme les entrepôts de données), tout changement dans les exigences des données signifie que toutes les données structurées doivent être mises à jour, ce qui entraîne une dépense de temps et de ressources considérable.
- Quels sont les avantages et inconvénients des données non structurées ?
Les données non structurées ne sont pas conçues pour être analysées et ne suivent pas de modèles de données conventionnels ou de schéma défini. Elles offrent les avantages et inconvénients suivants :
Avantages :
- Elles sont plus flexibles et adaptables. Comme elles sont stockées dans leur format natif, elles restent indéfinies jusqu’à ce qu’elles soient nécessaires (schéma à la lecture), permettant une plus large gamme d’analyses.
- Elles peuvent être accumulées et collectées plus rapidement car elles n’ont pas besoin de s’adapter à un modèle prédéfini.
- Elles peuvent être stockées dans des data lakes plus flexibles, plutôt que dans des entrepôts de données rigides.
- Elles peuvent être analysées à l’aide du traitement du langage naturel (NLP) pour découvrir des insights plus profonds (comme le sentiment dans un texte, ou l’analyse prédictive pour prédire la défaillance d’une machine).
Inconvénients :
- L’analyse nécessite des compétences et une expertise spécialisées en science des données, ce qui rend difficile pour les utilisateurs métier normaux d’obtenir manuellement des insights à partir de données non structurées.
- Elles peuvent exister dans de multiples silos à travers l’organisation, en particulier dans des systèmes et formats qui ne sont pas conçus pour être facilement accessibles (comme les systèmes de messagerie électronique ou les documents PDF).
- Elles nécessitent des outils spécialisés pour créer de la valeur, dont beaucoup sont moins matures que leurs homologues de données structurées.
En savoir plus
Produit
Centraliser tous ses actifs de données grâce à la connectivité illimitée d’Opendatasoft
Dans cet article, explorez nos innombrables possibilités d’intégration conçues pour permettre à nos clients de concrétiser tous leurs projets de connectivité et d’industrialiser facilement la collecte et la centralisation de leurs données.
Produit
Les fonctionnalités favorites de nos clients pour créer leurs expériences data
Démocratiser l’usage des données dans votre organisation et avec vos parties prenantes nécessite de s’équiper d’une plateforme d’expérience data suffisamment flexible pour répondre à tous les besoins des utilisateurs. De la collecte, à l’enrichissement jusqu’au partage, il existe des fonctionnalités permettant de valoriser toute la chaîne de valeur de vos données.
Produit
Interview : comment Opendatasoft s’intègre au SI de toutes les organisations ?
Nos clients profitent désormais de fonctionnalités de connexion améliorées pour récupérer des données depuis de nombreuses sources, dont SharePoint et Google Drive, et créer des jeux de données très rapidement. Rencontre avec Coralie Lohéac, qui a coordonné le projet dont le but est d'améliorer l'intégration au SI de toutes les organisations.