Sowohl der Begriff als auch das Konzept „Data“ ist seit einigen Jahren in aller Munde – und werden in vielen verschiedenen Zusammenhängen und mit verschiedenen Bedeutungen benutzt. Die vermehrt unspezifische Verwendung des Datenbegriffs führt auch in unserer dynamischen Branche zu immer mehr Verwirrung. Dieser Beitrag erläutert, wie Daten die Basis einer passgenauen Zielgruppenansprache im Data Driven Advertising bilden können.
Um sich dem Konzept der Daten zu nähern, ist es zunächst sinnvoll, drei unterschiedliche Datentypen hervorzuheben:
- Ereignisdaten
- Profildaten
- Segmentdaten
A) Ereignisdaten
Die Basis verhaltensbezogener Profile sind Ereignisse („Events“): Das kann der Besuch einer bestimmten Website, das Füllen eines Warenkorbes mit einem Produkt oder auch eine gestellte Suchanfrage sein, um nur einige wenige Beispiele zu nennen. Der Zugang zu Ereignisdaten ist entscheidend, um Nutzerprofile in der notwendigen Tiefe und Breite zu generieren, so dass ein werbetreibendes Unternehmen daraus einen direkten Wettbewerbsvorteil ziehen kann.
B) Profildaten
Profildaten können in zwei Subdatentypen unterteilt werden:
- Nutzerzentrierte Profildaten
- Ereigniszentrierte Profildaten
Nutzerzentrierte Profildaten sind nicht von einem bestimmten Ereignis abhängig. Es handelt sich dabei um soziodemografische oder abgeleitete psychografische Attribute eines Nutzers wie Motive, Werte und Überzeugungen, aber auch um erklärte Nutzerabsichten oder Kunden-Scorings aus CRM-Systemen. Diese Daten unterliegen keinem Profilierungsprozess, da sie bereits als nutzerzentrierte Attribute mit vordefinierter Bedeutung gesammelt werden.
Ereigniszentrierte Profildaten wiederum benötigen einen Profiling-Prozess, um jedem einzelnen Ereignis eine Bedeutung zuzuschreiben. Dabei existieren zwei verschiedene Herangehensweisen, die zu völlig unterschiedlichen Ergebnissen führen:
- Kategorienbezogenes Profiling
- Semantisches Profiling
Das kategorienbezogene Profiling baut auf einer Kategorisierung von Ereignissen nach einer vordefinierten Taxonomie auf. Nutzerprofile werden zu einer Timeline von Nutzerkontakten anhand vordefinierter Kategorien zusammengefasst, die parallel zu den nutzerzentrierten Attributen gesammelt werden.
Die semantische Profilierung hingegen basiert auf dem ‚Natural Language Processing (NLP)‘, einer Disziplin aus dem Machine Learning. Hierbei werden die signifikantesten Begriffe und Textphrasen aus dem Content der Website extrahiert, die der Nutzer konsumiert hat, und in einer großen gewichteten Keyword Cloud pro Nutzer gesammelt. Das Ereignis ist dabei der Besuch einer Website, der auf URL-Ebene erfasst wird. Ein so entstandenes Profil sieht völlig anders aus als ein Profil, das durch eine kategorienbezogene Profilierung entsteht. Die semantische Profilierung ermöglicht ein tieferes und breiteres Verständnis ereigniszentrierter Daten.
Sowohl kategorienbezogene als auch semantische Profilierungsprozesse beruhen pro Nutzer auf dutzenden Ereignissen pro Monat. Je mehr Events einbezogen werden können, umso breitere (aus einem heterogenen Contentangebot) und tiefere (möglichst viele Events pro Monat) Profile können erstellt werden.
C) Segmentdaten
So wie Ereignisdaten den Input für den Profilierungsprozess bilden, bauen Segmentdaten auf Profildaten auf, die den Input für den Segmentierungsprozess liefern. Profildaten sind also die notwendige Grundlage, um aktuelle Segmente zu erhalten, die der Werbetreibende dann über den Einkauf von Media aktivieren kann. Zwei Herangehensweisen sind bei der Segmentierung möglich:
- Das binäre Wahr/Falsch-Entscheidungsmodell das auf Hypothesen beruht, das Top-down-Prinzip
- Die statistische Methode, die auf empirischen Analysen beruht, die Bottom-up-Herangehensweise
Top-down-Prinzip
Die Top-down-Herangehensweise beginnt mit einer Hypothese. Beim kategorienbezogenen Profiling erfolgt die Segmentierung der eventzentrierten Attribute – die Timeline der Nutzerkontakte inklusive der zugeschriebenen Kategorien – sowie der nutzerzentrierten Attribute anhand der sogenannten booleschen Variablen. Ein Beispiel: „Nutzer über 28 Jahren mit mittleren Einkommen, die in den letzten vier Wochen mindestens drei Kontakte mit Automotive-Content und zwei oder mehr Kontakte mit Finanzen- und Business-Content hatten, entsprechen dem Segment ‚Auto-Mittelklasse‘. Entspricht ein Profil dieser Hypothese, wird der Nutzer dem Segment ‚Auto-Mittelklasse‘ zugeordnet.“
Die Hypothesenbildung beim semantischen Profiling nach dem Top-down-Prinzip verläuft anders. Eine Hypothese kann hier anhand der Betrachtung der auf eventzentrierten Daten beruhenden Keyword Clouds selektierter Nutzer abgeleitet werden. Zur Erinnerung: Die Keyword Cloud eines Nutzers spiegelt die Historie seines realen Surfverhaltens anhand der signifikantesten Begriffe und Phrasen des besuchten Contents wider. Das Segment kann potenziell zusätzlich mit nutzerzentrierten Attributen angereichert werden.
Ausgewählte Begriffe und Phrasen könnten zum Beispiel so aussehen: „Mittelklasse“, Namen der Automodelle des Advertisers oder seiner Wettbewerber, die effektivsten Search-Keywords für das Automodell oder die Klasse, Schlüsselwörter zu Kaufabsichten (beispielsweise „Autokonfigurator“, „Autoversicherung“ oder „Autofinanzierung“) und andere Begriffe und Phrasen, die ein ernsthaftes Interesse für Automotive belegen (beispielsweise “Wiederverkaufswert“, „Serviceintervall“ oder „Crashtest-Ergebnisse“). Diesen Schlüsselbegriffen können dann zusätzlich soziodemografische Attribute wie das Alter „18 Jahre oder älter“ oder „mittleres Einkommen“ zugeordnet werden. Je mehr Kriterien zwischen einem Segment und einem Nutzer übereinstimmen, umso höher ist seine Segmentzugehörigkeit.
Die statistische Bottom-up-Herangehensweise
Die statistische Bottom-up-Herangehensweise basiert nicht auf Hypothesen, sondern auf einer empirischen Analyse. Diese Analyse beginnt mit einem sogenannten positiven Sample – einer Ausgangsgruppe von Nutzern, die das gewünschte Nutzersegment repräsentiert. In unserem Automobil-Beispiel könnten das etwa Nutzer sein, die sich bereits für eine Testfahrt mit einem bestimmten Mittelklasse-Fahrzeug angemeldet haben und über On-Site-Tracking oder CRM-On-Boarding erkannt wurden.
Bei der statistischen Analyse werden diese Nutzerdaten auf Gemeinsamkeiten untersucht, um daraus ein Modell des Segments zu entwickeln. Dieses Modell wird anschließend auf die gesamte Population angewendet. Dabei werden die einzigartigen Gemeinsamkeiten jedes Users mit dem Modell erkannt. Diese Herangehensweise ist eine Abkehr vom Wahr/Falsch-Modell des kategorienbasierten Top-down-Ansatzes. Die statistische Herangehensweise arbeitet vielmehr fortwährend mit Variablen – auf der Suche nach Gemeinsamkeiten, die als Segment-Fit bezeichnet werden können.
Die statistische Herangehensweise stellt den Anwender vor eine spezielle Herausforderung: Er muss eine bewusste Entscheidung – einen Kompromiss – zwischen der Genauigkeit des Modells und seiner Reichweite treffen. Das liegt nicht an einer Unzulänglichkeit des Modells, sondern an der technologischen Limitierung gegenwärtiger Demand-Side-Plattformen. Diese können nur mit binären Werten in Bezug auf die Zugehörigkeit eines Nutzers zu einem Segment umgehen. Positiv hervorzuheben ist aber, dass sich der Trade-off zwischen der Segmentreichweite und dem Segment-Fit, also der qualitativen Segmentzugehörigkeit, individuell aussteuern lässt. Ein Faktor, der sich für den Kampagnenerfolg als von großer Bedeutung erweisen kann.
Beim kategorienbasierten Ansatz fließen event- und nutzerzentrierte Attribute in die statistische Analyse ein. Dieses Vorgehen wird oft als Suche nach den statistischen Zwillingen oder als Lookalike-Modelling bezeichnet. In unserem Beispiel der Automobil-Kampagne könnte die statistische Analyse anhand des positiven Sampels aufdecken, dass eine spezifische Altersgruppe eine hohe Affinität für Mittelklassewagen aufweist. Das Einkommen selbst könnte ein weniger entscheidendes Attribut sein und nur in Kombination mit dem Alter einen Mehrwert ergeben, wenn sich beispielsweise zeigt, dass jüngere Personen mit einem hohen Einkommen Mittelklassewagen bevorzugen. Die Analyse könnte zudem zeigen, dass Kontakte auf Automobil-Websites wenig nützlich sind, während Kontakte mit Contentangeboten für Eltern sehr wohl einen zusätzlichen Nutzen haben könnten. Junge Eltern etwa könnten Automodelle favorisieren, bei denen die Rückbank eine gesonderte Befestigung für Kindersitze besitzt, die zudem leicht zugänglich ist. Anders gesagt: Die empirische Analyse ist im Grunde genommen ein Marktforschungstool, das rein auf den verfügbaren Attributen fußt.
Der semantische Ansatz führt noch ein ganzes Stück weiter. Der Grund dafür liegt in dem weitaus umfassenderen Datenpool, auf den er zugreift. Zur Erinnerung: Dieser setzt sich in Form einer großen gewichteten Keyword Cloud aus den wichtigsten Begriffen und Phrasen der Websites zusammen, die der Nutzer konsumiert hat. Mithilfe dieser Clouds kann identifiziert werden, wie sich die Keyword Clouds der Nutzer des positiven Sampels von den Keyword Clouds aller anderen Nutzer unterscheiden bzw. ihnen ähnlich sind. Wir nennen diesen Ansatz ‚Semantic Twinning‘. Zusätzlich könnte der Semantic-Twinning-Ansatz aufdecken, dass Begriffe und Phrasen wie „Kindersicherheit“, „Kindersitz“ oder „Kleinkind“ verbunden mit dem Attribut „Alter 20 bis 34“ ein wertvolles Muster ergeben, während alleine das Einkommen der Nutzer keine Rolle spielt und als bloßer Wert vernachlässigt werden kann.
Warum sind diese Begriffserklärungen hilfreich?
Überall ist die Rede von ‚Data‘, doch das dahinterstehende Konzept wird bisher viel zu weit gefasst, um die einzelnen Nuancen zu adressieren, die wir benötigen, um wirklich gute Entscheidungen im Data Driven Advertising zu treffen.
EVENT-TIPP ADZINE Live - Advertising IDs – Teil der digitalen Werbezukunft? am 06. November 2024, 11:00 Uhr - 12:30 Uhr
Welche Rolle spielen IDs für die digitale Werbung der Zukunft? Jetzt anmelden!