„Nullkopie“ -Argumente

In den letzten Jahren haben CDP-Evaluierungen unter der Leitung von Daten- und IT-Teams eine neue Funktionsanforderung eingeführt: „Zero-Copy“ -Bereitstellungen. „Zero-Copy“ gibt es seit vielen Jahren als Softwarekonzept und bezieht sich auf Programmiertechniken, die die Systemleistung verbessern, indem sie die Duplizierung von Daten im Speicher verhindern. Die CDP-Anforderung „Zero-Copy“ ging auf CDW-Anbieter zurück, die ihre Funktionen zur gemeinsamen Nutzung von Daten befürworteten, wodurch (theoretisch) die Notwendigkeit der Datenduplizierung zwischen Systemen entfällt.

Warehouse-native CDPs befürworteten schnell „Zero-Copy“ -Bereitstellungen und zwar wortwörtlich, dass CDPs Daten zu keinem Zeitpunkt kopieren sollten. Ihre CDW-Overlay-Architektur machte dies zu ihrer Standardbereitstellung. Darüber hinaus stuften sie „verpackte CDPs“ als „Non-Zero-Copy“ ein, da diese CDPs eine Teilmenge der Kundendaten in ihre eigenen Datenspeicher kopierten, um CDP-Rechenaufgaben auszuführen und zu optimieren.

Diese wörtliche Interpretation von „Zero-Copy“ führte zu ziemlicher Verwirrung, da sich schnell herausstellte, dass die zusammensetzbaren „Zero-Copy“ -CDPs aus Gründen der Leistungslatenz externe Kopien von Daten anfertigten. Dies führte zu einigen humorvollen, duellierenden Blogbeiträgen darüber, wer unter den Zero-Copy-CDP-Anbietern „wirklich“ für Zero-Copy-Inhalte steht. Leider führte dies weder zu öffentlichen Diskussionen darüber, was „Zero-Copy“ eigentlich als Unternehmensdatenstrategie darstellt, noch zu den legitimen und oft wünschenswerten Strategien, CDP-Berechnungen in optimierten Datenspeichern und nicht in CDW-Umgebungen der Kunden auszuführen.

Wir werden diesen Fehler hier nicht wiederholen. Um CDPs zu verstehen, müssen wir das Gesamtbild der Unternehmensdaten betrachten.

„Zero-Copy“ als Datenstrategie

Die wörtliche „Zero-Data-Copy“ -Interpretation — das alles Datenduplizierung sollte vermieden werden, sie ist nutzlos und unpraktisch, wenn es um Unternehmensdatenstrategien geht. Der Begriff „Zero-Copy“ ist jedoch zu einem Kunstbegriff geworden, der den allgemeinen Ansatz beschreibt, die Qualität und Verwaltung von Daten innerhalb des Unternehmens zu verbessern. Der Begriff selbst, „Zero-Copy“, wird verwendet, weil sich Technologen allgemein einig sind, dass die Beseitigung unnötiger Datenduplikate sowohl die Qualität als auch die Datenverwaltung verbessert. Auch hier sollte dies nicht mit „niemals Datenkopien erstellen“ verwechselt werden.

Da Daten zu einem wichtigen strategischen Kapital geworden sind, haben technisch versierte Unternehmen strategische Initiativen ergriffen, um die Qualität und Verwaltung ihrer Daten zu verbessern. Um diese Begriffe zu verdeutlichen, interpretieren die meisten „Governance“ als die Sicherheits-, Datenschutz- und Zugriffsaspekte ihrer Daten. Unter „Qualität“ wird in der Regel die Konsistenz, Aktualität und Vertrauenswürdigkeit von Daten verstanden. Zwar gibt es verschiedene Ansätze zur Verbesserung von Qualität und Unternehmensführung, doch der Großteil der aktuellen Bemühungen konzentriert sich darauf, dass CDWs zur sprichwörtlichen „einzigen Informationsquelle“ werden. Indem die CDW in den Mittelpunkt der Datenarchitektur gestellt wird, können IT-Organisationen den Problembereich in Bezug auf Qualität und Steuerung auf ein zentrales System beschränken. Die „Zero-Copy“ -Funktionen von CDWs ermöglichen dann den Datenaustausch innerhalb dieser hochgradig verwalteten Architektur, da die CDW (theoretisch) jederzeit sowohl die Governance- als auch die Qualitätsaspekte kontrolliert.

Für jeden erfahrenen Technologen ist diese Strategie äußerst rational. Dies ist der Verwaltung eines Netzwerks von Datenplattformen, auf denen es regelmäßig zu Datendiskrepanzen und Unregelmäßigkeiten bei der Verwaltung kommt, weitaus vorzuziehen. Folglich ist die Positionierung von Warehouse-nativen CDPs als „Zero-Copy“ -Plattformen für IT-Teams, die für Governance- und Qualitätsmaßnahmen verantwortlich sind, sehr attraktiv. Tatsächlich werden Warehouse-native CDPs als Unterstützung für CDW-zentrierte Unternehmensführung und Qualitätsinvestitionen angesehen.

Leider wurde die scheinbare Zweckmäßigkeit der „Zero-Copy“ -Datenstrategien von Warehouse-nativen CDPs mithilfe des Produktmarketings dahingehend verschönert, dass alternative Lösungen von Natur aus im Widerspruch zu Datenqualität und Governance stehen. Es überrascht nicht, dass die CDW-Anbieter selbst diese Auffassung vertreten und verstärkt haben, da CDPs in der Vergangenheit Rechenaufgaben von der CDW weg verlagert haben, was den potenziellen Umsatz der CDW direkt beeinträchtigt.

Zwar gibt es berechtigte architektonische Fragen zu allen CDPs und Zero-Copy-Bestrebungen, aber die Positionierung von CDPs mit optimierten Datenkopierfunktionen als Gegensatz zu Governance- und Qualitätsbemühungen ist eher auf Marktanreize als auf ernsthafte technische Evaluierungen zurückzuführen. Diese Dynamik hat zwar insgesamt zu einer gewissen Skepsis gegenüber Zero-Copy-Strategien geführt, aber eine ehrliche und rationale Bewertung zeigt, dass mehrere valide Ansätze zur Unterstützung der Datenverwaltung und Qualitätsbemühungen zutage treten, von denen jeder seine eigenen Vorzüge hat.

Die Rolle von Datenqualität und Governance

Anstatt die Alles-oder-Nichts-Diskussion, bei der CDPs darauf aufgeteilt werden, ob sie Datenqualität und Datenverwaltung unterstützen oder nicht, ist es sinnvoller, wie CDPs den Geist des „Zero-Copy“ heute und in Zukunft unterstützen.

Das größte Problem für die meisten IT-Teams und CDP ist die Datenqualität, genauer gesagt die Datenkonsistenz, um sicherzustellen, dass die Daten im CDP mit dem CDW synchronisiert bleiben. Alle großen CDP-Akteure wissen, dass dies ein großes Bedürfnis und ein großes Problem für CDP-Kunden ist. Als CDW-Overlays bieten Warehouse-native CDPs eine komfortable Datenspeicheroptimierung, für die keine Synchronisationsmechanismen erforderlich sind — vorausgesetzt, die Duplizierung, die sie durchführen, ist problemlos. Für alle anderen Arten von CDPs ist dies ein Bereich, in dem aktiv weiterentwickelt wird. Die meisten unterstützen oder entwickeln derzeit bidirektionale CDW-Funktionen, um die Datenkonsistenz sicherzustellen. Es ist zwar eine offene Frage, welchen Nutzen die Nachahmung von „Zero-Copy“ hat, aber es ist sicher, dass sich die Merkmalslücke zwischen allen CDP-Typen in naher Zukunft schließen wird.

Es sollte auch beachtet werden, dass sich die Bemühungen zur Datenqualität nicht auf die CDW-Zentralisierung beschränken. Während dies derzeit der vorherrschende Schwerpunkt ist, ist die Verbesserung der Qualität bei der Datenquelle/Erfassung eine weitere wichtige Taktik. In diesem Bereich sind andere CDPs den Angeboten von Warehouse-nativen CDP-Anbietern oft überlegen. Eine allgemeine Aussage darüber zu treffen, welche Klasse besser ist, ist nicht praktikabel, da die Art der Datenerfassung und die Quellen von einigen CDPs besser gehandhabt werden als andere. Ein weiterer Bereich, in dem die Datenqualität außerhalb des CDW behandelt wird, ist die Frage, wie gut das CDP Transformationen am Rand durchführen kann, um die nachgelagerte Datenqualität bestmöglich zu unterstützen. In den meisten Fällen werden CDPs mit einem starken vertikalen Fokus für ihre Zielbranchen mit einem spezifischen SDK, der Qualität und Tiefe der Partnerintegrationen und Prozesserfahrung viel besser abschneiden.

Überlegungen zur Unternehmensführung sind etwas komplizierter. CDPs, die CDW-zentriert sind, erben zwar die grundlegenden Vorzüge ihrer CDW-Umgebung, aber die Ereignisse des letzten Jahres haben gezeigt, dass dies nicht auf magische Weise zu besseren Ergebnissen in den Bereichen Sicherheit, Zugriff und Datenschutz führt. Strenge politische und operative Disziplin sind nach wie vor die wichtigsten Triebkräfte für den Erfolg der Regierungsführung. Zusammensetzbare CDPs verbessern oder verschlechtern ihren Governance-Kontext weder. Bei CDP-Paketen besteht die größte Herausforderung in der Steuerung in der Lokalisierung der Datenverarbeitung, die aus regulatorischen Gründen erforderlich sein kann. Unter der Annahme, dass sie diese Anforderungen erfüllen und über ein strenges Führungsprofil verfügen, unterstützen sie die zugrundeliegende CDW-Unternehmensführung nicht mehr oder weniger wirksam als zusammensetzbare.

Beim „Kopieren von Daten“ wird zwar Tinte verschüttet, aber aus praktischen Gründen im CDP-Bereich ist dies ein kleines Problem. Alle großen CDP-Anbieter, einschließlich der Warehouse-nativen CDPs, duplizieren Daten von CDWs aus Leistungs- und Latenzgründen. Die Übertragung von Daten in zweckdienliche Architekturen als primäre Optimierungsstrategie ist ein bekanntes und verständliches technisches Prinzip. Doppelarbeit kann zwar zu Komplexität führen, aber ein rationaler Kompromiss steht nicht im Widerspruch zu Qualitäts- und Governance-Bemühungen. Darüber hinaus wird das Ausmaß der Datenduplizierung, das marketingorientierte CDPs durchführen, oft überschätzt. Viele ihrer Funktionen können ohne Kopieren ausgeführt werden, sind es aber aus Leistungsgründen nicht.

Langfristig haben die verschiedenen Ansätze sehr unterschiedliche Wege zu Lakehouse- oder Datamesh-Implementierungen. Einige marketingorientierte CDPs verfügen über hochoptimierte Rechen-Engines, die speziell für CDP-Workloads entwickelt wurden, insbesondere für Anwendungen mit niedriger Latenz. Sobald diese CDPs Anlagen in Delta Lake und/oder Iceberg gebaut haben, werden sie gut positioniert sein, um sie in Lakehouse einzusetzen.

Insgesamt führen uns diese Beobachtungen zu der Tatsache, dass sich die CDPs auf einen ähnlichen Endzustand in Bezug auf Datenqualität und Governance einigen. Sicherlich sind Warehouse-native CDPs gut positioniert, um die Datenqualität und den Governance-Kontext, in dem sie eingesetzt werden, zu übernehmen. Sie verbessern oder verschlechtern jedoch keines von beiden grundlegend. Marketingorientierte CDPs sind in Bezug auf die Qualität nicht so gut positioniert, verbessern sich aber schnell und haben ihre eigenen Vorteile. Aus Sicht der Unternehmensführung haben etablierte CDPs architektonisch gesehen keine Nettowirkung.

No items found.
Bisherige
Weiter
Weiter in der Reihe

Composable wird zusammengeführt

Lesen Sie den Artikel