Argumentos de «copia cero»
En los últimos dos años, las evaluaciones de CDP dirigidas por equipos de datos y TI han introducido un nuevo requisito de funciones: las implementaciones «sin copias». La «copia cero» existe desde hace muchos años como concepto de software, en referencia a las técnicas de programación que mejoran el rendimiento del sistema al eliminar la duplicación de datos en la memoria. El requisito de CDP de «cero copias» se extendió a los proveedores de CDW que abogaban por sus capacidades de intercambio de datos, que (teóricamente) eliminan la necesidad de duplicar datos entre sistemas.
Los CDP nativos del almacén se apresuraron a abogar por las implementaciones «sin copias» de manera literal, es decir, que los CDP no deberían copiar los datos en ningún grado. Su arquitectura de superposición CDW convirtió esta implementación en su implementación predeterminada. Además, posicionaron las «CDP empaquetadas» como «copias distintas de cero», ya que estas CDP copiaban un subconjunto de los datos de los clientes a sus propios almacenes de datos para realizar y optimizar las tareas informáticas de las CDP.
Esta interpretación literal de «cero copias» generó bastante confusión, ya que rápidamente se hizo evidente que los CDP componibles con «cero copias» hacían copias de datos fuera del sitio por motivos de latencia de rendimiento. Esto dio lugar a algunas publicaciones de blog humorísticas sobre quién era más «verdaderamente» cero copias entre los vendedores de CDP sin copias. Lamentablemente, esto no dio lugar a debates públicos sobre lo que realmente representaba la «copia cero» como estrategia de datos empresariales, ni sobre las estrategias legítimas, y a menudo deseables, de ejecutar el procesamiento de CDP en almacenes de datos optimizados, en lugar de en los entornos de CDW de los clientes.
No vamos a repetir este error aquí. Para entender los CDP, debemos tener en cuenta el panorama más amplio de los datos empresariales.
La «copia cero» como estrategia de datos
La interpretación literal de «cero copias de datos», que todo la duplicación de datos debe eliminarse, es inútil y poco práctica a la hora de considerar las estrategias de datos empresariales. Sin embargo, el término «copia cero» se ha convertido en un término técnico para describir el enfoque general de aumentar la calidad y la gobernanza de los datos dentro de la empresa. El término en sí mismo, «copia cero», se utiliza porque los tecnólogos coinciden universalmente en que la eliminación de la duplicación innecesaria de datos aumenta tanto la calidad como la gobernanza de los datos. Una vez más, esto no debe confundirse con «nunca hacer copias de datos».
A medida que los datos se han convertido en un activo estratégico fundamental, las empresas con conocimientos técnicos tienen iniciativas estratégicas para mejorar la calidad y la gobernanza de sus datos. Para aclarar estos términos, la mayoría interpreta la «gobernanza» como los aspectos de seguridad, privacidad y acceso de sus datos. Por lo general, se entiende por «calidad» la coherencia, la puntualidad y la confiabilidad de los datos. Si bien existen varios enfoques para mejorar la calidad y la gobernanza, la mayoría de los esfuerzos actuales se centran en que las CDW se conviertan en la proverbial «fuente única de verdad». Al colocar la CDW en el centro de la arquitectura de datos, las organizaciones de TI pueden limitar el espacio problemático de calidad y gobierno a un sistema central. Las funciones de «cero copias» de las CDW permiten compartir datos dentro de esta arquitectura altamente gestionada, ya que la CDW controla los aspectos de gobernanza y calidad en todo momento (en teoría).
Para cualquier tecnólogo experimentado, esta estrategia es altamente racional. Es muy preferente gestionar una red de plataformas de datos donde las discrepancias de datos y las irregularidades en la gobernanza surgen con frecuencia regular. En consecuencia, el posicionamiento de las CDP nativas del almacén como plataformas «sin copias» es muy atractivo para los equipos de TI responsables de las iniciativas de gobernanza y calidad. En efecto, se considera que los CDP nativos del almacén apoyan las inversiones de calidad y gobernanza centradas en los CDW.
Desafortunadamente, las estrategias de datos de «cero copias» de los CDP nativos del almacén, aparentemente adecuadas para su propósito, se enriquecieron, mediante el marketing de productos, con el argumento de que las soluciones alternativas son intrínsecamente antagónicas a los esfuerzos de gobernanza y calidad de los datos. Como era de esperar, los propios proveedores de CDW invocaron y reforzaron esta percepción, ya que históricamente los CDP han reasignado las tareas informáticas fuera de la CDW, lo que impide directamente los posibles ingresos para la CDW.
Si bien existen dudas arquitectónicas válidas sobre todas las CDP y las iniciativas de cero copias, la posición de las CDP que tienen capacidades optimizadas de copia de datos como la antítesis de los esfuerzos de gobernanza y calidad se basa más en los incentivos del mercado que en una evaluación técnica seria. Si bien estas dinámicas han generado cierto escepticismo hacia las estrategias generales de cero copias, una evaluación honesta y racional revela varios enfoques válidos para respaldar los esfuerzos de gobernanza y calidad de los datos, cada uno con sus propias virtudes.
El papel de la calidad y la gobernanza de los datos
En lugar del debate de todo o nada, que divide a los CDP entre apoyar la calidad y la gobernanza de los datos o no, un marco más útil es cómo los CDP apoyan el espíritu de «cero copias» en la actualidad y en el futuro.
La mayor preocupación para la mayoría de los equipos de TI y de CDP es la calidad de los datos; más específicamente, la coherencia de los datos, para garantizar que los datos del CDP permanezcan sincronizados con los del CDW. Todos los principales actores de CDP entienden que esta es una necesidad importante y un punto débil para los clientes de CDP. Al superponerse las CDW, las CDP nativas del almacén ofrecen una cómoda optimización del almacenamiento de datos y no requieren mecanismos de sincronización, siempre que la duplicación que realizan no sea problemática. Para todos los demás tipos de CDP, esta es un área de desarrollo activo; la mayoría admite o está desarrollando capacidades de CDW bidireccionales específicamente para garantizar la coherencia de los datos. Si bien es una pregunta abierta hasta qué punto es beneficioso imitar el modelo «cero copias», es seguro que la brecha de características entre todos los tipos de CDP se cerrará en un futuro próximo.
También debe tenerse en cuenta que los esfuerzos de calidad de los datos no se limitan a la centralización de la CDW. Si bien este es el enfoque dominante en la actualidad, mejorar la calidad en la fuente/captura de datos es otra táctica importante. En esta área, otros CDP suelen ser superiores a las ofertas que ofrecen los proveedores de CDP nativos del almacén. Hacer una declaración universal sobre qué clase es mejor no es práctico, ya que algunos CDP manejan mejor el tipo de captura de datos y las fuentes que otros. Otra área en la que se aborda la calidad de los datos fuera de la CDW es en qué tan bien la CDP puede realizar transformaciones en el borde para respaldar mejor la calidad de los datos posteriores. En la mayoría de los casos, los CDP con un fuerte enfoque vertical harán un trabajo mucho mejor para sus mercados verticales objetivo con un SDK específico, calidad y profundidad de las integraciones de socios y experiencia en procesos.
Las consideraciones de gobernanza son un poco más complicadas. Si bien los CDP que se centran en la CDW heredan las virtudes subyacentes de su entorno de CDW, los acontecimientos del año pasado han demostrado que esto no confiere por arte de magia mejores resultados de seguridad, acceso y privacidad. Una política rigurosa y una disciplina operativa siguen siendo el principal impulsor del éxito de la gobernanza. Los CDP componibles no mejoran ni degradan su contexto de gobernanza. En el caso de los CDP empaquetados, el principal desafío de gobernanza es la localización del procesamiento de datos, que puede ser necesaria por motivos reglamentarios. Suponiendo que cumplan con estos requisitos y tengan un perfil de gobierno riguroso, no son ni más ni menos eficaces a la hora de apoyar la gobernanza subyacente de la CDW que las que admiten composición.
Si bien se derrama tinta sobre la «copia de datos», a todos los efectos prácticos en el espacio del CDP, este es un problema menor. Todos los principales proveedores de CDP, incluidos los CDP nativos del almacén, duplican los datos de los CDW por motivos de rendimiento y latencia. La transferencia de datos a arquitecturas adecuadas para su propósito como estrategia de optimización principal es un principio técnico bien conocido y entendido. Si bien la duplicación puede introducir complejidad, una compensación racional no va en contra de los esfuerzos de calidad y gobernanza. Además, la cantidad de duplicación de datos que realizan los CDP centrados en el marketing suele exagerarse; muchas de sus capacidades pueden ejecutarse sin necesidad de copias, pero no lo hacen, por motivos de rendimiento.
A largo plazo, los diferentes enfoques tienen caminos muy diferentes para las implementaciones en redes de datos o en forma de lago. Algunos CDP centrados en el marketing tienen motores de cómputos altamente optimizados, diseñados específicamente para las cargas de trabajo de CDP, especialmente en aplicaciones de baja latencia. Una vez que estos CDP construyan las instalaciones de Delta Lake y/o Iceberg, estarán bien posicionados para desplegarse en Lakehouse.
En general, estas observaciones nos llevan al hecho de que los CDP están convergiendo en un estado final similar de calidad de datos y gobernanza. No cabe duda de que los CDP nativos del almacén están bien posicionados para heredar el contexto de gobernanza y calidad de los datos en el que se implementan. Sin embargo, no mejoran ni degradan de manera fundamental ninguno de estos aspectos. Los CDP centrados en el marketing no están tan bien posicionados en el frente de la calidad, pero están mejorando rápidamente y tienen sus propias ventajas. Desde la perspectiva de la gobernanza, los CDP establecidos no tienen ningún efecto neto desde el punto de vista arquitectónico.


.jpg)
.jpeg)



