Le guide pratique #1 sur la qualité des données

Sep 16, 2024 | Data

Salut 👋,

La qualité des données est un facteur clé de succès pour toute initiative de gestion de projets, qu’elle soit axée sur l’analyse de données, la mise en œuvre de systèmes d’information, ou le pilotage d’activités opérationnelles. C’est pourquoi je voulais écrire un guide sur ce thème.

Des données de mauvaise qualité peuvent conduire à des analyses erronées, des décisions incorrectes, et des inefficacités opérationnelles (en résumé, perdre de l’argent). En 2021, Gartner estimait que chaque année, la mauvaise qualité des données coûtait aux entreprises en moyenne 12,9 millions de dollars. Assurer une bonne qualité des données permet non seulement de minimiser les risques mais aussi d’optimiser les performances des projets.

Ce guide vous aidera à comprendre les concepts fondamentaux de la qualité des données, les critères pour évaluer cette qualité, et les meilleures pratiques pour maintenir un niveau élevé de qualité dans vos projets.

 

S’il y a une définition à retenir 👇

La qualité des données se réfère à l’exactitude, la cohérence, la complétude, la fiabilité, et la pertinence des données utilisées dans un projet ou un processus.

La qualité des données est-elle mesurable?

La réalité, c’est comme nous souhaitons une paire de chaussures robuste et à son pied (en regardant la qualité du cuir, les coutures, l’imperméabilité etc.), les données ont également des critères pour être de qualité. Nous appelons ces critères des dimensions.

Toutes les sociétés possèdent des règles de qualité des données, implicites ou explicites, mais celles-ci sont généralement dispersées dans tous les départements et projets, sans aucune considération d’unicité, de standardisation, de gouvernance et de réutilisation.

Donc pour mesurer la qualité des données, voici les 6 dimensions les plus communes et admises par tous:

Dimensions Définitions Exemples
Exactitude (Accuracy) Les données doivent refléter correctement la réalité. Toute inexactitude peut entraîner des conclusions erronées. L’adresse d’un client est sa véritable adresse.
Cohérence (Consistency) Les données doivent être cohérentes à travers les différentes sources et périodes. Par exemple, des données d’un client doivent être les mêmes sur différents systèmes. Un client classé comme « inactif » n’a pas de commande d’un produit en cours.
Complétude (Completeness) Les données doivent être complètes, c’est-à-dire que toutes les informations nécessaires sont présentes. L’absence de données critiques peut compromettre l’analyse. Les fiches des employés sont complètes lorsque tous les champs obligatoires tels que le nom et les coordonnées sont présents.
Validity (Conformité) Les données sont au bon format attendus pour quelque règles business Une adresse e-mail sans symbole « @ ».
Un inventaire négatif pour un produit.
Uniqueness (Unicité) Les données sont uniques, et n’existent pas en plusieurs exemplaires pouvant mener à des erreurs de volume ou d’exactitude. Un employé n’existe qu’une seule fois dans la table principale des employés.
Timeliness Les données sont à jour selon les besoins définis. Dans un tableau contenant des paiements aux fournisseurs, le champ indiquant qu’une facture a été payée a été mis à jour dans le délai établi.

2 challenges de la qualité des données en entreprises

DiscoverOrg estime que les services de vente et de marketing perdent environ 550 heures et jusqu’à 32 000 $ par représentant commercial en raison de l’utilisation de données erronées. C’est pourquoi au-delà de l’IA, travailler sur la qualité des données est important pour le bien être de vos employés. ❤️

1️⃣ Le premier challenge est d’être efficace. Pour cela, il faut comprendre le cycle de vie de la donnée dans votre entreprise et son flux de bout en bout.

Cycle de vie des données

L’idéal est de s’assurer dès les sources de données (à la création) que les données sont correctes avant qu’elle n’entre dans les différents systèmes. Pourquoi ? Il est 10 fois plus coûteux de réparer les données erronées en fin de chaîne que de les nettoyer lorsqu’elles entrent dans votre système.

Cette approche proactive (à la racine) permet de réduire plus de la moitié des erreurs de qualité. Ensuite, il est préférable de mesurer la qualité des données à chaque étape du cycle de vie, ainsi les erreurs deviennent techniques et donc plus facilement corrigible:

  • Erreur d’intégrité: bug dans les interfaces, mauvaises règles de calculs
  • Erreur de fraîcheur: redéfinir le timings des interfaces (temps-réel ou batch)
  • Erreur d’accessibilité: s’assurer que les bonnes personnes ont accès aux bonnes données.

⚠️ Attention, ces erreurs, peuvent avoir un vrai coût. Les tests Assurance-Qualité (QA) sont primordiaux avant de lancer un projet. Ne validez pas un projet ou processus seulement sur ces aspects techniques, mais aussi sur les données utilisées et transformées.

2️⃣ Le deuxième challenge est d’avoir un processus de gestions des problèmes de qualité, simple et efficace. Toutes les problèmes ne sont pas au même niveau, il faut donc prioriser.

De plus, les analyse à la racine (root-cause) peuvent être très complexes et prendre du temps dans des environnements ou il y a des dizaines de systèmes interconnectés. Suivez-donc ces problèmes de manière précise et communiquez sur leur résolution ou blocage. De nombreuses solutions existent (par défaut Excel), mais j’ai une préférence pour JIRA ou SharePoint afin de créer un portail simplement en quelques heures et pouvoir suivre l’ensemble des modifications.

Il existe également des outils plus avancés qui permettent de définir des modèles de données, une sémantique et des règles communes nécessaires pour nettoyer et valider les données, puis de définir les rôles des utilisateurs, etc. Cependant, commencez SIMPLE 🎉

 

Qui manage la qualité des données au quotidien?

Prendre des décisions avec des données auxquelles on ne peut pas faire confiance est effrayant, non? Et pourtant, c’est une pratique trop courante, même dans les équipes de data les plus compétentes et les plus expérimentées. Dans les salles sombres des équipes data nous aimons dire, “Garbage In, Garbage Out” (déchets en entrée, déchets en sortie). C’est une affirmation vraie, mais dans le monde d’aujourd’hui, est-ce suffisant ?

Pipelines de données

Les entreprises consacrent du temps, de l’argent et des ressources à l’achat de solutions (parfois plusieurs millions d’euros) et à la constitution d’équipes pour gérer toute cette infrastructure, avec le rêve de devenir un jour une machine bien huilée et “data-driven”. Mais des problèmes de données peuvent survenir à n’importe quelle étape du pipeline, de l’ingestion au déploiement. Cependant, de simples comptages de lignes, des scripts ad-hoc et même des conventions de qualité des données standard lors de l’ingestion ne suffiront pas. Les problèmes peuvent arriver à tout moment dans le pipeline, avec des impacts démultipliés sur vos rapports ou proces finaux. Cependant régler a qualité des données seulement par des contrôles ou des scripts à une limite.

C’est pourquoi la gouvernance des données instancie des rôles. Ces rôles permettent de responsabilser et formaliser les employés sur leur sur les données pour en prendre soin (comme les produits vendus dans un business). Il y a en a 3 à retenir:

  • Data Owner
  • Data Steward
  • Data Custodian

👉 Je vous invite à lire cet article pour en savoir plus: Data Steward : son rôle dans une organisation

Pour l’anecdote, lors d’un projet de déploiement de Master Data, un responsable Métier avec qui j’ai discuté, m’a dit qu’en moyenne, son équipe de CRM analyst (environ une 20aine) mettait une journée par semaine pour vérifier manuellement les problèmes de données dans leur CRM (avant d’envoyer des campagnes marketing à des clients). Cela prenait encore plus de temps, lors de la préparation de grands évènements. Calculez-donc le salaire sur une journée x 20 personnes ou encore cela représente environ 560 heures par mois qui auraient pu être consacrées à des activités à forte valeur ajoutée pour les clients!

 

7 meilleures pratiques pour assurer la Qualité des Données

✔️ Gouvernance des Données: Un processus de gouvernance des données doit être établi pour définir les responsabilités, les normes, et les procédures à suivre pour maintenir la qualité des données.

✔️ S’équiper (mais simplement): Des outils logiciels peuvent être utilisés pour surveiller, nettoyer, et enrichir les données. Ceux-ci incluent des logiciels de validation des données, des solutions de master data management (MDM), et des plateformes de data governance.

✔️ Surveiller comme un moniteur vos données : Mettez en place des mécanismes de surveillance pour détecter et corriger les problèmes de qualité des données en temps réel. Des audits réguliers permettent également de garantir que les normes de qualité sont respectées sur le long terme.

✔️ Gestion des données manquantes et des anomalies: Développez des processus pour traiter les données manquantes et identifiez les anomalies qui pourraient indiquer des erreurs de saisie ou de transformation.

✔️ Créez votre bibliothèque sur les données: Documentez les sources de données, les transformations appliquées, et les règles de qualité. Les métadonnées aident à tracer l’origine et les transformations des données, facilitant ainsi la résolution des problèmes.

✔️ Former et encrer la data dans la culture de l’entreprise : Assurer que toutes les stakeholders comprennent l’importance de la qualité des données et sont formées aux meilleures pratiques de gestion des données.

✔️ Incitez au partage: les données sont partagées dans toute l’entreprise, dans plusieurs départements et donc par plusieurs équipes. Encouragez la collaboration entre les différents départements pour partager les meilleures pratiques, les défis, et les solutions concernant la qualité des données.

 

5 Étapes clés pour améliorer la Qualité des Données

🏁 Audit initial de la Qualité des Données: Effectuez un audit initial pour évaluer la qualité actuelle des données et identifier les domaines nécessitant des améliorations.

🎯 Définition des objectifs de Qualité: Établissez des objectifs clairs et mesurables pour la qualité des données, en alignant ces objectifs avec les besoins et les priorités du projet.

💡 Plan d’Action pour l’Amélioration de la qualité: Développez un plan d’action détaillé pour atteindre les objectifs de qualité, y compris les responsabilités, les échéances, et les ressources nécessaires (gardez en tête la règle de 80/20 et commencez par les quick-wins peu coûteux et facilement corrigeables).

⚡️ Implémentation des changements: Mettez en œuvre les changements nécessaires, en veillant à minimiser les perturbations pour les utilisateurs finaux.

📊 Mesure et suivi des résultats: Mesurez l’impact des actions prises sur la qualité des données, ajustez les stratégies en fonction des résultats obtenus et célébrez chaque victoire!

La fin en quelques mots 

La qualité des données est essentielle pour le succès de tout projet. En suivant les principes, les critères, et les meilleures pratiques décrits dans ce guide, vous pourrez garantir que leurs décisions sont basées sur des données fiables, précises et pertinentes. Le tout pour des succès durables.

Vous vous souhaitez déléguer la mise en qualité de vos données ? ou besoin pour vos tableaux de bords PowerBI? N’hésitez-pas à nous contacter!

Have fun!
Laura

 

Lire la suite pour compléter le guide
👉 Qualité des données et LLM – l’essentiel à retenir
👉 Ce que toute entreprise devrait savoir sur les données Magasins
👉 Améliorer ses données clients ? Découvrez ma méthode en 3 étapes
👉 Maximisez votre visibilité – Mettre en qualité la Donnée Produit

Continuer la lecture

Collecter des données avec les Loyalty Program

Collecter des données avec les Loyalty Program

 Salut 👋, Si vous vendez fréquemment des produits (en ligne ou physique), cet article est fait pour vous. Dans un monde où l’hyper-personnalisation et les connexions sont devenus des leviers essentiels pour attirer et fidéliser les clients, les programmes de fidélité...

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *