Qu’est-ce que la virtualisation des données ?
La virtualisation des données permet de réunir en temps réel des données provenant de sources multiples et hétérogènes dans un seul espace virtuel. Les données ne sont pas physiquement déplacées, mais s’affichent via un logiciel tiers de virtualisation des données, qui agit comme une couche de données virtuelles (ou couche sémantique). Les utilisateurs peuvent ainsi consommer des données sans avoir besoin de connaître leur nature ou leur emplacement.
La virtualisation des données permet donc d’accéder plus rapidement et à moindre coût à des données récentes, en particulier à des fins d’analyse. Grâce à des fonctionnalités de gouvernance et de sécurité intégrées, la virtualisation des données permet de garantir que les données partagées avec les utilisateurs sont cohérentes, qualitatives et protégées.
Comment fonctionne la virtualisation des données ?
La virtualisation des données suit un processus en trois étapes :
- Connexion aux sources de données (locale ou dans le cloud), telles que des bases de données, des applications, des données dans le cloud ou des entrepôts de données ;
- Combinaison de tous les types de données, y compris les données structurées et non structurées ;
- Consommation par les utilisateurs, sous la forme de rapports, de tableaux de bord, de portails ou d’applications.
Quel est l’objectif de la virtualisation des données ?
La virtualisation des données est principalement utilisée à des fins de :
- Business intelligence et analytics — en réunissant les données de l’ensemble de l’entreprise en temps réel pour effectuer des requêtes et générer des rapports, quelle que soit la complexité de l’architecture de données.
- Accès aux données en libre-service — en permettant aux utilisateurs d’accéder rapidement aux données virtualisées pour générer des rapports et évaluer des performances.
- Développement d’applications — en simplifiant la connexion aux sources de données, réduisant ainsi le code nécessaire pour créer de nouvelles applications.
- Sauvegarde des données en temps réel — en facilitant une récupération plus rapide des données et des systèmes.
Quelle est la différence entre la virtualisation des données et l’intégration des données ?
La virtualisation et l’intégration des données ont en commun de mutualiser des sources de données hétérogènes et de les mettre à la disposition des utilisateurs via une interface unique.
La principale différence réside dans le fait que l’intégration des données s’effectue en récupérant physiquement toutes les données (dont le format est ensuite modifié) pour les charger à un seul endroit, alors que la virtualisation des données y parvient virtuellement, sans déplacer les données en question.
Quels sont les avantages et inconvénients de la virtualisation des données ?
Les avantages de la virtualisation des données
- Rapidité : les données étant accessibles quel que soit leur emplacement, l’accès est beaucoup plus simple et rapide, avec des données potentiellement disponibles en temps réel.
- Efficacité : les données ne sont pas déplacées vers des systèmes tiers, ce qui réduit les besoins en matériel, logiciel, gouvernance et gestion. La virtualisation est beaucoup moins coûteuse que de créer et maintenir un référentiel distinct pour toutes les données d’une organisation.
- Sécurité et gouvernance : la virtualisation des données permet une approche centralisée de la sécurité et de la gouvernance des données, avec un risque d’erreur réduit car les données restent dans leur système d’origine.
- Accès en libre-service : les données peuvent être consultées par n’importe quel utilisateur sans nécessiter de compétences techniques.
- Évolutivité : de nouvelles sources de données peuvent être ajoutées rapidement sans avoir recours à des processus ETL complexes.
- Qualité : la virtualisation des données élimine les redondances et les doublons, ce qui améliore la fiabilité et l’efficacité des données.
Quels sont les inconvénients de la virtualisation des données ?
- Elle se limite à un simple traitement des données : la virtualisation se contente de réunir les données avec des règles de traitement simples. Elle ne peut pas prendre en charge des transformations complexes, qui nécessitent un processus d’intégration ou d’ETL des données.
- Elle ne permet pas de déplacer en masse des données : les données restent virtualisées et ne sont pas déplacées/converties vers de nouveaux systèmes, tels que des entrepôts de données.
- Elle est peu performante pour les données opérationnelles : la virtualisation fonctionne bien pour les requêtes analytiques, mais ses performances sont moins bonnes pour le déplacement ou la virtualisation de larges volumes de données opérationnelles, où la latence peut poser problème.
- Elle ne conserve pas d’historique : les requêtes sont effectuées à la volée, ce qui signifie que les requêtes antérieures ne sont pas conservées à des fins d’analyse comparative ou répétitive.
- Elle est dépendante des systèmes sources : contrairement à un entrepôt de données où les données sont physiquement déplacées, la virtualisation des données dépend des systèmes sources qui doivent être en ligne et opérationnels pour permettre l’accès à leurs données.
- Un représente un point de défaillance unique : si le serveur de virtualisation rencontre un problème, les données ne pourront pas être mises à la disposition des autres systèmes.