Arguments « zéro copie »

Au cours des deux dernières années, les évaluations CDP menées par les équipes chargées des données et de l'informatique ont introduit une nouvelle exigence en matière de fonctionnalités, à savoir les déploiements « zéro copie ». La « copie zéro » existe depuis de nombreuses années en tant que concept logiciel, faisant référence à des techniques de programmation qui améliorent les performances du système en éliminant la duplication des données en mémoire. L'exigence de CDP « zéro copie » provient du fait que les fournisseurs de CDW préconisent leurs capacités de partage des données, qui éliminent (théoriquement) le besoin de duplication des données entre les systèmes.

Les CDP natifs des entrepôts n'ont pas tardé à préconiser des déploiements « zéro copie » de manière littérale, en indiquant que les CDP ne devaient en aucun cas copier les données. Leur architecture de superposition CDW en a fait leur déploiement par défaut. En outre, ils ont classé les « CDP packagés » comme des « copies non nulles », car ces CDP copiaient un sous-ensemble des données clients dans leurs propres magasins de données afin d'effectuer et d'optimiser les tâches de calcul des CDP.

Cette interprétation littérale du terme « copie zéro » a créé une certaine confusion, car il est rapidement devenu évident que les CDP composables « zéro copie » effectuaient des copies hors site des données pour des raisons de latence des performances. Cela a donné lieu à des articles de blog humoristiques en duel pour savoir qui était le plus « véritablement » à copie zéro parmi les fournisseurs de CDP zéro copie. Malheureusement, cela n'a pas donné lieu à des discussions publiques sur ce que la « copie zéro » représentait réellement en tant que stratégie de données d'entreprise, ni sur les stratégies légitimes, et souvent souhaitables, consistant à exécuter le calcul CDP dans des magasins de données optimisés, plutôt que dans les environnements CDW des clients.

Nous n'allons pas répéter cette erreur ici. Afin de comprendre les CDP, nous devons prendre en compte la situation des données d'entreprise dans son ensemble.

La « copie zéro » en tant que stratégie de données

L'interprétation littérale de la « copie zéro donnée », selon laquelle tous la duplication des données doit être éliminée, car elle est inutile et peu pratique lorsque l'on envisage des stratégies de données d'entreprise. Cependant, le terme « copie zéro » est devenu un terme technique pour décrire l'approche générale visant à améliorer la qualité et la gouvernance des données au sein de l'entreprise. Le terme lui-même, « copie zéro », est utilisé parce que les technologues s'accordent à dire que l'élimination de la duplication inutile des données améliore à la fois la qualité et la gouvernance des données. Encore une fois, il ne faut pas confondre cela avec « ne jamais faire de copies de données ».

Les données étant devenues un actif stratégique essentiel, les entreprises techniquement averties ont pris des initiatives stratégiques pour améliorer la qualité et la gouvernance de leurs données. Pour clarifier ces termes, la plupart interprètent la « gouvernance » comme les aspects de sécurité, de confidentialité et d'accès de leurs données. Par « qualité », on entend généralement la cohérence, l'actualité et la fiabilité des données. Bien qu'il existe différentes approches pour améliorer la qualité et la gouvernance, la majorité des efforts actuels visent à ce que les CDW deviennent la proverbiale « source unique de vérité ». En plaçant le CDW au centre de l'architecture des données, les services informatiques peuvent limiter l'espace problématique de qualité et de gouvernance à un système central. Les fonctionnalités « zéro copie » des CDW permettent ensuite le partage des données au sein de cette architecture hautement gérée, car le CDW contrôle à tout moment à la fois les aspects de gouvernance et de qualité (en théorie).

Pour tout technologue expérimenté, cette stratégie est très rationnelle. Elle est largement préférable à la gestion d'un réseau de plateformes de données où des divergences de données et des irrégularités de gouvernance apparaissent régulièrement. Par conséquent, le positionnement des CDP natifs des entrepôts en tant que plateformes « zéro copie » est très intéressant pour les équipes informatiques responsables des efforts de gouvernance et de qualité. En effet, les CDP natifs des entrepôts sont considérés comme favorables à une gouvernance centrée sur les CDW et à des investissements de qualité.

Malheureusement, l'apparente adéquation des stratégies de gestion des données « zéro copie » des CDP natifs des entrepôts a été renforcée, via le marketing des produits, par un discours selon lequel les solutions alternatives sont intrinsèquement contraires à la qualité des données et aux efforts de gouvernance. Il n'est pas surprenant que cette perception ait été invoquée et renforcée par les fournisseurs de CDW eux-mêmes, car les CDP ont toujours réaffecté les tâches de calcul en dehors du CDW, ce qui entrave directement les revenus potentiels du CDW.

Bien qu'il existe des questions architecturales valables concernant tous les CDP et les efforts zéro copie, le positionnement des CDP dotés de capacités de copie de données optimisées comme étant contraires aux efforts de gouvernance et de qualité est davantage motivé par des incitations du marché que par une technique d'évaluation sérieuse. Bien que cette dynamique ait suscité un certain scepticisme à l'égard des stratégies zéro copie dans l'ensemble, une évaluation honnête et rationnelle révèle plusieurs approches valables pour soutenir les efforts de gouvernance et de qualité des données, chacune ayant ses propres vertus.

Le rôle de la qualité et de la gouvernance des données

Plutôt que la discussion sur le « tout ou rien », qui divise les CDP en fonction de la qualité et de la gouvernance des données ou non, un cadre plus utile est de savoir comment les CDP soutiennent l'esprit de « copie zéro » aujourd'hui et à l'avenir.

La principale préoccupation de la plupart des équipes informatiques et du CDP est la qualité des données ; plus précisément, la cohérence des données, afin de garantir que les données du CDP restent synchronisées avec le CDW. Tous les principaux acteurs du CDP comprennent qu'il s'agit d'un besoin majeur et d'un problème majeur pour les clients du CDP. En tant que superpositions CDW, les CDP natifs des entrepôts offrent une optimisation pratique du stockage des données, ne nécessitant aucun mécanisme de synchronisation, à condition que la duplication qu'ils effectuent ne pose aucun problème. Pour tous les autres types de CDP, il s'agit d'un domaine en développement actif ; la plupart soutiennent ou développent des fonctionnalités CDW bidirectionnelles spécifiquement pour garantir la cohérence des données. Bien que l'on puisse se demander quels avantages il y a à imiter la « copie zéro », il est certain que l'écart entre les fonctionnalités de tous les types de CDP se réduira dans un avenir proche.

Il convient également de noter que les efforts de qualité des données ne se limitent pas à la centralisation des CDW. Bien que ce soit l'objectif dominant actuellement, l'amélioration de la qualité à la source et à la saisie des données est une autre tactique importante. Dans ce domaine, les autres CDP sont souvent supérieurs aux offres proposées par les fournisseurs CDP natifs des entrepôts. Il n'est pas pratique de définir universellement quelle classe est la meilleure, car le type de saisie de données et les sources sont mieux gérés par certains CDP que d'autres. Un autre domaine dans lequel la qualité des données est abordée en dehors du CDW est la capacité du CDP à effectuer des transformations à la périphérie afin de mieux soutenir la qualité des données en aval. Dans la plupart des cas, les CDP à forte orientation verticale feront un bien meilleur travail pour leurs secteurs cibles grâce à un SDK spécifique, à la qualité et à la profondeur des intégrations des partenaires et à une expérience des processus.

Les considérations relatives à la gouvernance sont un peu plus complexes. Alors que les CDP centrés sur les CDW héritent des vertus sous-jacentes de leur environnement CDW, les événements de l'année dernière ont montré que cela ne garantit pas comme par magie de meilleurs résultats en matière de sécurité, d'accès et de confidentialité. Une politique rigoureuse et une discipline opérationnelle restent les principaux moteurs de la réussite de la gouvernance. Les CDP composables n'améliorent ni ne dégradent leur contexte de gouvernance. Pour les packages CDP, le principal défi de gouvernance est la localisation du traitement des données, qui peut être requise pour des raisons réglementaires. En supposant qu'ils répondent à ces exigences et disposent d'un profil de gouvernance rigoureux, ils ne sont ni plus ni moins efficaces pour soutenir la gouvernance CDW sous-jacente que les systèmes composables.

Bien que l'on fasse couler de l'encre à propos de la « copie de données », il s'agit d'un problème mineur à toutes fins pratiques dans l'espace CDP. Tous les principaux fournisseurs de CDP, y compris les CDP natifs des entrepôts, dupliquent les données des CDW pour des raisons de performances et de latence. Le transfert des données vers des architectures adaptées aux besoins en tant que stratégie d'optimisation principale est un principe technique bien connu et compris. Bien que la duplication puisse être source de complexité, un compromis rationnel ne va pas à l'encontre des efforts de qualité et de gouvernance. En outre, le volume de duplication des données effectué par les CDP centrés sur le marketing est souvent surestimé ; bon nombre de leurs fonctionnalités peuvent être exécutées en mode zéro copie, mais ne le sont pas pour des raisons de performances.

À plus long terme, les différentes approches empruntent des voies très différentes pour les déploiements de lacs ou de maillages de données. Certains CDP centrés sur le marketing disposent de moteurs de calcul hautement optimisés, spécialement conçus pour les charges de travail CDP, en particulier dans les applications à faible latence. Une fois que ces CDP auront construit les installations de Delta Lake et/ou d'Iceberg, elles seront bien placées pour être déployées dans Lakehouse.

Dans l'ensemble, ces observations nous amènent à conclure que les CDP convergent vers un état final similaire en matière de qualité des données et de gouvernance. Les CDP natifs des entrepôts sont certainement bien placés pour hériter du contexte de qualité des données et de gouvernance dans lequel ils sont déployés. Cependant, ils n'améliorent ni ne dégradent fondamentalement aucun de ces éléments. Les CDP centrés sur le marketing ne sont pas aussi bien positionnés sur le plan de la qualité, mais ils s'améliorent rapidement et présentent leurs propres avantages. Du point de vue de la gouvernance, les CDP établis n'ont aucun effet net sur l'architecture.

No items found.
Précédent
Suivant
Le prochain de la série

Composable est confondu

Lisez l'article