Ebook : Démocratiser l’accès et les usages de la donnée
Comment démocratiser les données ? Quelle est la maturité des organisations en la matière ? Quels leviers actionner pour créer des expériences data pour toutes vos parties prenantes ?
[Replay] Aider les métiers à consommer les données : data marketplace ou data catalog ?
Voir le replayLe data management, ou gestion des données est le processus de collecte, de traitement, de stockage, de partage et d’utilisation des données au sein d’une organisation et de son écosystème. Ces processus doivent être sécurisés, efficaces et conformes aux réglementations afin d’apporter une valeur ajoutée à l’organisation.
Avec l’augmentation des volumes et la complexité des données, le data management est vital pour la réussite des organisations du secteur public comme pour du secteur privé.
Le data management couvre tous le cycle de vie des données :
Le data management désigne la gestion des données au sein d’une organisation : depuis la création des datas jusqu’à leur stockage en passant par leur enrichissement dans des logiciels experts.
Le master data management ou “MDM” désigne la manière dont les données sont créées, partagées, mises à jour et utilisées. Le” master data management” se concentre particulièrement sur les données de référence, qui sont les données stratégiques de l’organisation. Les outils de “master data management” permettent de s’assurer que les données sont cohérentes dans l’ensemble de l’organisation et que chaque partie prenante puisse les réutiliser dans un cadre défini.
Les données proviennent de sources de plus en plus nombreuses et variées, provenant aussi bien de l’interne que de sources externes :
Outre l’éventail des sources, le volume des données augmente de manière exponentielle. Ce qui nécessite une stratégie de data management capable de traiter des téraoctets de données.
Aujourd’hui, les données sont essentielles à la réussite des organisations. Il faut toutefois pouvoir les gérer efficacement, en appliquant les principes de data management rigoureux.
La valeur potentielle des données risque alors d’être sous-exploitée, ce qui entraîne plusieurs difficultés pour les organisations :
une mauvaise connaissance des données en interne (à la fois au niveau de leur contenu, de leur lieu de stockage et de leur utilisation) ;
une mauvaise gestion de la qualité des données, avec un risque élevé de partager des données incorrectes ;
des difficultés à respecter les réglementations en vigueur ;
des risques concernant la sécurité des données ;
la création de silos de données, où les informations provenant de différents systèmes ne sont pas intégrées ou mises à la disposition de tous ;
une duplication des données et une augmentation des coûts de stockage et de traitement.
Dans un monde dominé par les données, leur exploitation est essentielle pour le bon fonctionnement et la compétitivité des organisations. En suivant les meilleures pratiques de data management, les organisations bénéficient des avantages suivants :
Grâce à un accès plus fluide à des informations clés, les responsables peuvent prendre des décisions plus judicieuses et mieux informées sur la base de données de haute qualité. Il s’agit d’un avantage considérable pour anticiper les risques potentiels et prendre des mesures préventives.
Les organisations peuvent aussi tirer parti des grands volumes de données de haute qualité provenant d’un éventail complet de sources pour développer des algorithmes d’apprentissage automatique (ML) et d’intelligence artificielle (IA). Les organisations sont ainsi capables de prédire les événements futurs et de réagir en temps réel.
Le data management permet un accès immédiat à des données actualisées. Les collaborateurs sont donc en mesure de travailler de manière plus productive et plus efficace. Ils n’ont pas à perdre de temps à rechercher des données ou à saisir manuellement des informations provenant d’autres sources. Cela signifie qu’ils peuvent se concentrer sur l’utilisation des données pour accomplir leurs tâches plus efficacement. Cela permet à l’organisation d’être plus compétitive et d’améliorer l’expérience des collaborateurs.
Les informations tirées des données peuvent également être utilisées pour optimiser les performances dans l’ensemble de l’organisation, et donc, accroître davantage les gains d’efficacité.
Pour pouvoir être exploitées, les données doivent être stockées, traitées et protégées, ce qui représente des coûts importants pour les organisations. Il est possible de les limiter grâce à une stratégie efficace de data management.
En brisant les silos de données entre les départements, un stratégie de data management permet de contrôler et d’éliminer les doublons de données dans l’ensemble de l’organisation. Cela réduit les problèmes causés par la duplication des données et les besoins de l’organisation en termes de capacité de traitement ou de stockage des données. La mise en place d’une stratégie de gestion des données permet également de réduire le temps consacré à leur traitement.
Les données sont le moteur d’une collaboration accrue entre les équipes, les départements et les partenaires. Le regroupement d’informations provenant de différents départements et systèmes d’informations permet d’avoir une vue globale sur les actifs de données. Cela favorise l’innovation via la création de nouveaux produits et services, de nouvelles méthodes de travail et d’un meilleur service aux clients et aux citoyens. In fine, le data management permet un partage plus efficace des connaissances au sein de l’organisation, mais aussi avec les partenaires et clients de l’écosystème ou les citoyens (dans le cas du secteur public).
Les données, en particulier les informations personnelles identifiables (IPI), sont soumises à des réglementations strictes, telles que le RGPD. Les organisations doivent donc mettre en œuvre une gestion de la sécurité des données avec des processus clairs. L’objectif étant de démontrer qui a accès aux ensembles de données et à quelles fins. Cela nécessite une stratégie de data management efficace pour :
Le data management permet donc de se conformer à la réglementation, et donc de protéger la réputation de la marque. Et pour cause, la mise en conformité démontre d’un engagement fort en faveur de la protection des données des clients et des collaborateurs.
Comprendre les besoins des clients et y répondre est essentiel pour la compétitivité des entreprises. Or, l’amélioration de l’expérience client repose sur la compréhension des données provenant de l’ensemble du parcours client. Le fait de disposer d’une image complète des données clients grâce au data management permet aux organisations de contrôler et d’améliorer l’expérience qu’elles offrent, notamment, en personnalisant la manière dont elles répondent aux besoins des clients.
Par ailleurs, les clients et les citoyens veulent avoir une vue d’ensemble de la manière dont les organisations avec lesquelles ils interagissent atteignent leurs objectifs et répondent à leurs besoins. Et ce, aussi bien pour les entreprises (via les rapports ESG/RSE) que pour les organisations du secteur public. Les données leur permettent justement de faire preuve de transparence. À condition d’adopter une gestion rigoureuse des données dans l’ensemble de l’organisation.
La gouvernance des données couvre les politiques et les procédures relatives à l’identification, l’organisation, la manipulation, la gestion et l’utilisation des données collectées au sein de l’organisation. Et ce, tout au long de leur cycle de vie.
Le Data Governance Institute définit la gouvernance des données comme « un système de droits de décision et de responsabilités pour les processus liés à l’information, exécutés selon des modèles convenus qui décrivent qui peut entreprendre des actions, avec quelles informations, quand, dans quelles circonstances, et en utilisant quelles méthodes« .
Essentiellement, la gouvernance des données définit le cadre permettant de garantir que les données soient exactes et de haute qualité, valides, cohérentes, accessibles et conformes à la réglementation.
Pour y parvenir, les responsables de la gouvernance des données dans les organisations doivent :
En quoi la gouvernance des données diffère-t-elle du data management ? La gouvernance définit les principes et les cadres stratégiques utilisés pour gérer les données au sein d’une organisation. Le data management concerne tous les processus techniques visant à les stocker, les mettre en qualité, les analyser et les partager.
Pour tirer pleinement partie du data management, les organisations doivent établir une stratégie de gouvernance efficace permettant d’assurer que toutes les parties prenantes utilisent les données correctement et dans un cadre défini.
Les organisations doivent adopter la structure adéquate pour leur projet data afin d’obtenir l’adhésion interne de la direction et des autres équipes. Cela garantit que les programmes de gouvernance sont alignés avec les objectifs de l’organisation et qu’ils bénéficient de l’implication du plus grand nombre de collaborateurs.
Les équipes de gouvernance des données doivent :
Les stratégies de gouvernance des données diffèrent d’une organisation à l’autre, en fonction de leur maturité, de leurs besoins et de leur secteur d’activité. Cependant, il existe certains éléments clés pour garantir une gouvernance efficace dans l’ensemble de l’organisation :
La gestion de données couvre l’ensemble du processus de gestion des données, depuis la création des données brutes jusqu’au partage d’informations compréhensibles par tous, en passant par la collecte, l’utilisation, le traitement, etc.
Les données peuvent provenir de systèmes d’entreprise (tels que des CRM, des logiciels RH ou de ventes), de systèmes de production (usines), de capteurs IoT (collectant par exemple des données sur le trafic ou l’environnement), ou de données tierces (fournies par des partenaires ou d’autres parties prenantes). À ce stade, les données brutes ne peuvent pas être directement exploitées et réutilisées.
Une fois créées ou collectées, les données sont stockées, soit dans des logiciels (data lake, data warehouse), soit dans le cloud. Cette intégration a pour objectif de faciliter les croisements entre les datasets et l’analyse des données.
Les données doivent ensuite être préparées en vue de leur utilisation. Elles sont d’abord “nettoyées”, ce qui implique l’identification et la correction des données incorrectes, incomplètes, en double, ou inutiles. On peut ensuite les modifier pour pour normaliser le formatage (par exemple, en s’assurant que toutes les dates soient dans le même format) et pour rendre anonymes toutes les informations personnellement identifiables.
Lors de l’étape d’enrichissement et de transformation des données, des informations supplémentaires sont ajoutées pour enrichir les ensembles de données existants. Ce qui permet de les rendre plus pertinents. Par exemple, les organisations peuvent ajouter des données géographiques, météorologiques ou d’autres données de référence pour fournir un contexte aux données. Le hub d’Opendatasoft contient plus de 30 000 datasets qui peuvent être utilisés pour enrichir vos propres jeux de données.
Une fois les données nettoyées, préparées et enrichies, elles sont prêtes à être analysées. Pour maximiser leur utilisation, il est essentiel que les informations soient disponibles dans plusieurs formats. Par exemple, sous forme de tableaux pour les analystes experts et sous forme de visualisations plus attrayantes (cartes, graphiques ou tableaux de bord) pour un public plus large.
Si les données restent entre les mains des analystes ou data scientists, elles ne libèrent pas toute leur valeur. Elles doivent être partagées plus largement entre les non-experts, qu’il s’agisse de décideurs d’entreprise, de citoyens ou de collaborateurs qui en ont besoin pour leur travail quotidien. Cette étape est souvent négligée dans les stratégies de data management, ce qui réduit fortement le retour sur investissement des stratégies de gestion des données. Il faut donc démocratiser les données pour qu’elles puissent être partagées et utilisées par tous.
Il est essentiel de comprendre comment les données circulent dans votre organisation, comment elles sont utilisées et à quel endroit. Les outils de lignage de données offrent une traçabilité complète des données, permettant une meilleure compréhension des besoins des utilisateurs et une meilleure gestion des actifs de données.
L’accès à des informations utilisables dans des formats compréhensibles est vital pour les collaborateurs d’une organisation, les citoyens et les partenaires. Les données ne peuvent pas être laissées uniquement entre les mains d’experts, tels que les data analyst ou les data scientist. D’où l’importance de la démocratisation des données qui consiste à les partager de manière transparente avec tous, de façon à ce qu’ils puissent les comprendre et les utiliser.
Malheureusement, de nombreuses organisations ne disposent pas des ressources et des capacités nécessaires pour démocratiser véritablement leurs données.
Tout d’abord, elles n’ont pas encore créé une culture centrée sur les données au sein de l’organisation. C’est-à-dire, une culture où les données sont considérées comme une ressource cruciale pour tous, où les collaborateurs sont confiants dans l’accès, la compréhension et la réutilisation des données dans leur vie professionnelle quotidienne. Pour surmonter cet obstacle, il faut mettre l’accent sur la formation et instaurer une culture data-centric. Cela vous permettra d’instaurer la confiance de vos collaborateurs quant à l’usage des données.
Deuxièmement, les données sont en général difficilement accessibles. Les parties prenantes non-expertes ont du mal à trouver les données dont ils ont besoin. Et pour cause, elles sont souvent dispersées dans l’ensemble de l’organisation, dans de multiples silos et systèmes. Sans oublier qu’elles ne sont pas faciles à comprendre ou à utiliser car disponible dans des formats compréhensibles uniquement par des spécialistes data.
Or, une stratégie de data management efficace doit permettre de favoriser la disponibilité, la lisibilité et la compréhension des données par tous.
Pour relever ce défi, les organisations doivent centraliser l’accès à leurs données. Comment ? En créant un guichet unique contenant tous les actifs de données disponibles, ainsi que des outils permettant de réutiliser ces informations. En fonction de l’audience, il existe trois types de portails data utilisés pour centraliser et partager les données :
La création d’un portail de données en interne permet de rendre les données accessibles par tous les collaborateurs d’une organisation, expert ou non. Ce portail de données interne doit :
Pour garantir la confidentialité des données, les portails de données internes doivent être mis en place avec des accès contrôlés en fonction des rôles de chaque collaborateurs.
Les organisations doivent travailler avec leurs fournisseurs, leurs partenaires et d’autres parties prenantes dans leurs écosystèmes. La création d’espaces de confiance pour l’échange des données entre partenaires favorise cette collaboration et stimule l’innovation.
Certaines organisations monétisent également leurs données en créant de nouveaux services qu’elles fournissent à leurs partenaires et à leurs clients, sous forme d’ensembles de données ou de tableaux de bord disponibles via un portail data. Ces services ajoutent de la valeur à leurs offres et créent de nouvelles sources de revenus.
Les portails open data permettent de partager des données avec toute personne disposant d’un accès à internet. Ces ont été créés à l’origine par des organismes du secteur public afin d’accroître la transparence auprès des citoyens. Mais aujourd’hui, ces portails sont aussi très utilisés par les organisations privées qui l’utilisent pour démontrer leurs performances par rapport à des indicateurs clés, tels que leurs objectifs ESG et RSE. Mais pour favoriser cette transparence, un portail de données ouvertes doit être facile à utiliser par toutes les parties prenantes.
Que les données soient privées, totalement ou partiellement ouvertes, le data management est indispensable pour partager des données de qualité, fiables, conformes et sécurisées.
Il ne suffit pas de mettre des informations à disposition par le biais d’un portail data pour démocratiser les données. En plus, il doit être facile de :
Un programme de data management réussi nécessite la combinaison d’une stratégie efficace, de processus et de technologies puissantes de data management. Il est essentiel d’utiliser des outils data flexibles, évolutifs et sécurisés qui couvrent l’ensemble du processus data.
La façon dont vous structurez votre architecture de données a un impact majeur sur votre plateforme de data management. Cette architecture définit l’infrastructure qui sous-tend votre programme de data management et détermine son succès.
L’architecture informatique d’une organisation doit lui permettre de partager les données et de les rendre accessibles à tous. Cependant, si les architectures sont trop centralisées et concentrent les activités au sein d’une équipe centrale, les départements risquent de ne pas participer activement au partage des données. C’est pourquoi il est important d’impliquer des responsables data tout au long de la démarche.
De plus en plus d’organisations cherchent à adopter l’approche Data Mesh, conçue pour soutenir la démocratisation des données. Pour cela, il faut responsabiliser les personnes qui sont au plus proche des données, tout en s’appuyant sur des normes de gouvernance et de métadonnées convenues à l’échelle de l’entreprise.
Plutôt qu’une technologie ou des outils, le Data Mesh fournit un cadre et des lignes directrices pour aider les organisations à travailler efficacement avec des données. À cette fin, il convient de se concentrer sur trois éléments constitutifs :
Le Data Mesh facilite la recherche, le partage d’informations de haute qualité et leur transformation en produits de données pour un usage interne ou externe. In fine, ce modèle participe clairement à l’implémentation d’un data management efficace et performant.
Les données doivent être protégées à tout moment, contre les menaces externes et internes. C’est pourquoi, la sécurité doit être au cœur de votre stratégie de data management. Investissez dans des outils de gestion de la confidentialité des données pour préserver l’anonymat des informations et vérifiez la sécurité à toutes les étapes du processus data (collecte, stockage, préparation et partage). Dans le cadre de la conformité en matière de sécurité, gérez les droits d’accès pour chaque data asset.
La stack technologique d’une organisation est composée d’une variété de solutions de data management. Il est essentiel qu’ils soient interopérables pour un traitement sans faille et la protection de vos données.
Pour gérer leurs données, les organisations peuvent s’équiper de différents outils :
Bien que les entreprises aient investi massivement dans leur stack technologique, elles peinent toujours à tirer pleinement parti de leurs données. Cela s’explique par l’absence de partage au sein de l’organisation et en externe au sein de l’écosystème ou plus largement, au grand public.
Pour plus d’efficacité, les organisations doivent intégrer, dans leur stack technologique, une solution de portail data permettant d’exposer la données à toutes les parties prenantes :
Schneider Electric utilise plusieurs solutions pour gérer les données tout au long de leur cycle de vie, en veillant à ce qu’elles répondent aux exigences de gouvernance et de partage. Cela inclut le stockage dans le cloud via Microsoft Azure et Databricks. Ces solutions alimentent la plateforme Opendatasoft, où Schneider Electric crée des expériences de données qui sont partagées par le biais de son portail de données interne et de ses services “Exchange”.
Le ministère chargé des Sports recueille une série de données internes et externes, provenant d’agences gouvernementales, telles que le ministère de la Santé et l’Institut national de la statistique (INSEE). Ces données sont centralisées sur la plateforme Opendatasoft où elles sont préparées et enrichies. Les données sont ensuite partagées par le biais de visualisations et de réutilisations avec les décideurs politiques, les partenaires, les entreprises et le grand public.
La société d’assurance Lamie mutuelle a fait d’Opendatasoft la pierre angulaire de sa stratégie de data management. Toutes les informations, qu’elles soient collectées en interne ou en externe par des organismes partenaires, sont centralisées sur la plateforme. Elles sont ensuite partagées sous de multiples formats. Par exemple via des tableaux de bord, avec sa solution Zoho CRM ou d’autres systèmes internes via des API pour les employés, mais aussi avec les clients ou partenaires via ses portails dédiés.
L’entreprise de services publics Elia gère un large éventail de sources de données dans le cadre de son architecture de data management. Elle utilise aussi de nombreux outils, notamment Precisely (glossaire de données), Amundsen (lignage de données), Databricks (lac de données/ELT) et Microsoft Azure (stockage dans le nuage). Ces outils mettent à jour sa plateforme Opendatasoft, qui transforme les données et les publie via le portail de données ouvertes d’Elia.
Comment démocratiser les données ? Quelle est la maturité des organisations en la matière ? Quels leviers actionner pour créer des expériences data pour toutes vos parties prenantes ?