Salut à tous 👋
Il y a aujourd’hui un vrai enjeu pour avoir des données de qualité, gouvernée et sécurisée que ce soit pour les flux traditionnels de données, augmenter la capacité de reporting (automatisée) ou créer des dataset (jeux de données) d’entrainement pour des IA (machine learning, predictive analytics ou IA générative).
Dans ce 7e article, je voulais qu’on adresse ensemble le renouveau des enjeux des data platforms.
Modern Data Platform et Data Products
L’un des principaux enjeux des entreprises est de moderniser leurs plateformes actuelles tout en garantissant l’accessibilité et la qualité des données. Aujourd’hui, il y existe une multitude d’approches et différents types de plateformes des données, mais concentrons-nous sur les principes de bases.
Modern Data Platform
Les plateformes de données modernes (Modern Data Platform) sont des infrastructures centralisées qui offrent aux organisations un environnement unifié pour le stockage, le traitement et l’analyse des données. Ils englobent généralement des technologies telles que les data warehouses, les data lakes, les pipelines ETL (Extract-Transform-Load) et les outils d’anal
L’objectif principal d’une modern data platform est d’établir une approche standardisée et intégrée de la gestion des données, permettant d’obtenir des informations précises pour la prise de décision. En centralisant les données dans un référentiel unifié, les modern data platform facilitent l’accès, la collaboration et le contrôle des données.
L’équipe Data Platform est donc responsable pour collecter les besoins business, intégrer de nouvelles sources de données, mettre en place les flux ETL, publier les tables, remédier aux problèmes de qualité de données et souvent en charge de la création des rapports/dashboards.
Voici des exemples de technologies* utilisées dans les plates-formes de données modernes :
- Data Warehouse: Oracle, Azure (Microsoft), BigQuery (Google)
- Data Lakes: Talend, Snowflake, MongoDB
- Outils ETL (Extract-Transform-Load): Talend, Snowflake
- Outils d’analyse et de visualisation : Tableau, PowerBI
*Aujourd’hui, les éditeurs proposent souvent des solutions tout-en-un
L’adoption d’une plateforme de données moderne présente certains avantages notables. Notamment la centralisation de la gouvernance de données pour garantir la qualité et sécurité, la scalabilité en fonction de l’évolution de l’entreprise et donc une meilleure gestion des coûts.
Gérer sa donnée comme un produit
Né de Mckinsey, le concept de Data Product apparaît comme une solution pour faire face au challenge de qualité de données dans sa distribution à l’échelle. Un data product est set de données de très haute qualité et prêt à l’emploi, qui peut être utilisé dans différents contextes.
Il faut ainsi penser le data product comme une application (data set) avec des fonctionnalités et des attributs définis. Ils construisent un bloc pour les applications en aval, qui agit de manière indépendante.
Les data products, sont regroupés par data domains (voir illustration ci-dessous) facilitant la distribution, sans dupliquer et maintenir des data sets.
L’approche data product, a néanmoins quelques prérequis: comme des data owners et data stewards définis en amont par attribut, la qualité des données gérée à la source et un linéage clair des applications et flux de données.
Ainsi, on repositionne la responsabilité des données entre Métier et IT, garantissant les besoins business pour les processus, et permettant plus d’agilité dans les actions et projets (IA).
Nota bene: Dans d’autres contextes, un data product peut aussi désigner tout outil qui contient de la donnée (dashboard, excel, app etc. – l’équivalent des use-cases dans le schéma ci-dessus).
L’impact de l’IA générative sur les data platforms
Pour générer des résultats fiables, les modèles d’IA nécessitent des quantités importantes de données détectables et de haute qualité. Les data platform reviennent alors au centre des discussions: non-plus que pour de la BI, mais aussi pour la mise à dispositions des données pour les modèles IA.
Pour de nombreuses organisations qui font leurs premiers pas dans cet espace, c’est ici que les choses se compliquent. Ainsi, en pratique, l’adoption de l’IA générative (genAI) nécessite que les équipes aient 5 réflexes:
✅ Aligner les stratégies de données et d’IA : Si l’IA générative est sur le point de devenir l’un des cas d’utilisation les plus exigeants pour vos données, votre stratégie de données doit évoluer pour la prendre en charge. Les stratégies doivent être alignées pour garantir que les bonnes données sont collectées, traitées et conservées de la bonne manière pour alimenter vos modèles et applications.
✅ Automatiser autant que possible : La mise en production de modèles d’IA peut être un processus long et complexe. Le MLOps peut vous aider à automatiser les cycles de formation, de déploiement, de surveillance et de feedback pour vous aider à commencer à générer de la valeur rapidement et de manière reproductible.
✅ Créer des processus reproductibles et auditables : Une utilisation responsable et éthique de l’IA exige une transparence totale des processus. En créant des processus reproductibles et auditables, vous pouvez rationaliser la gouvernance de l’IA, garantir que les modèles sont explicables et que vos opérations restent en conformité avec les réglementations émergentes.
✅ Créez des plates-formes de données robustes : Chaque organisation utilisant des outils d’IA générative a besoin d’une data platform dotée des fonctionnalités appropriées pour garantir que les bonnes données de la plus haute qualité sont disponibles, aux bons endroits et au bon moment.
Comment moderniser une data platform
Voici 5 pistes de réflexion:
👉 Adopter des solutions cloud: Les data platform cloud coûtent nettement moins cher que les solutions de données on-premise, tout en offrant une durabilité nettement supérieure. Les data platform cloud sont également plus flexibles et plus évolutives et permettent un traitement des données en temps réel.
👉 Arrêter les intégrations point à point (P2P): Il est souvent difficile de déplacer rapidement de gros volumes de données. Les interfaces P2P, sont souvent non-scalables et coûteuses dans le temps (en incluant sa maintenance). Dans le cadre de migration dans le cloud, les solutions iPaaS, se révèlent être game-changers (Microsoft, Mulesoft, Oracle, ou même Zapier!). Cela permettra également de rendre vos données disponibles en temps réels pour gagner en agilité globale.
👉 Garantir la protection, la confidentialité et la gouvernance des données: Garantir la confidentialité des données est essentiel pour bâtir et maintenir la confiance des clients. Il est également essentiel de rester conforme aux diverses réglementations sectorielles et gouvernementales, telles que le RGPD ou le CCPA.
Alors que la sécurité des données continue de prendre de l’importance dans le débat culturel et que les réglementations continuent de proliférer, les process évolue pour intégrer des contrôles d’accès et des restrictions de politique de gouvernance plus stricts.
👉 Traitement automatisé des données avec IA et ML: L’intelligence artificielle et le machine learning jouent un rôle important dans la modernisation des données. Ils peuvent traiter et analyser rapidement des data lakes/warehouses entiers, puis fournir des informations et des prédictions en temps réel.
À mesure que la technologie progresse, l’IA jouera également un rôle plus important dans la remédiation de la qualité des données, en parcourant les requêtes pour trouver en quelques minutes les erreurs que les analystes humains ont dû chercher pendant des heures.
La fin en quelques mots
L’utilisation des IA dans l’entreprise va forcer les investissements pour rendre accessible les données. Cependant, le succès et ROI de telles actions dépend fortement de la dette data (sa qualité) et la capacité à manager les données (gouvernance). C’était un article un peu technique mais fondamental dans la compréhension des impacts dans une organisation.
La gestion des données vous intéresse et vous êtes un professionnel ? Renseignez-vous sur mon programme de formation DARE – Data Manager: une formation de 2 jours pour acquérir les fondamentaux de la gestion des données et construire la stratégie de gestion de données associée 🔥.
Have fun!
Laura
0 commentaires