Zum Einstieg in das Blog und worum es hier gehen soll bezieh‘ ich mich auf einen Artikel, der in der New York Times1 über Shoppinggewohnheiten und deren Bedeutung für das Marketing der amerikanische Supermarktkette Target.

Charles Duhigg berichtete in seiner Reportage von 2012 über einen Statistiker bei Target, die sich mit einem Jahresumsatz von 70 Millarden US $ und knapp 1800 Filialen eine eigene Statistikabteilung (“predictive analytics“) leisten können. Die Menge an Daten, die das Unternehmen über ihre Kundinnen und Kunden über Bonuskarten und den Informationen die bei Einkäufe und Kreditkartenzahlungen anfallen und speichert muss natürlich – so sieht es die Big Data Philosipie vor – genutzt werden. In Kombination mit der Marketingweisheit, dass Kund*innen ihr Einkaufsgewohnheiten vor allem dann ändern wenn sich die Lebenssituation wandet, war die hauseigene Statistikabteilung damit beauftragt die Zielgruppe ’schwangere Frauen‘ zu identifizieren, um bei ihnen für spezielle Produkte zu werben. Eine Schwangerschaft, und die dabei und danach notwendig werden Erweiterung der Haushaltswaren, ist schließlich eine ziemlich große Veränderung in der Lebensituation.

As Pole’s computers crawled through the data, he was able to identify about 25 products that, when analyzed together, allowed him to assign each shopper a “pregnancy prediction” score. More important, he could also estimate her due date to within a small window, so Target could send coupons timed to very specific stages of her pregnancy.


Update 14.10.2013: Ganz hübsch erzählt wird die Geschichte von Duhigg selbst in einem YouTube Video, dass offensichtlich im Rahmen des Marketings für Duhiggs Buch entstanden ist.


Die lustige Anekdote, die dann erzählt wird, handelt von einem Vater der sich in einer Filiale über die zunehmende Werbung und Coupons für Babyprodukte beschwert hat, die seiner Tochter im Highschoolalter zugesendet wurden. Nur um dann einige Tage später dem Manager geknickt mitzuteilen, dass er wohl nicht über alle Vorgänge in seinem Haus informiert gewesen sei, und die Tochter in wenigen Monaten ein Kind gebären sollte.

Der Artikel ist wirklich lesenswert und beschreibt sehr gut welche Faktoren bei Data Mining eigentlich zusammen kommen.

Auf der einen Seite das Marketing, das ganz spezielle Annahmen über die Kund*innen hat; wie etwa, dass alle Menschen Gewohnheitstiere sind und im wesentlich immer dieselben Produkte kaufen. Außer irgendetwas besonderes2 passiert, wie ein Umzug oder eben die Geburt eins Kindes. Daher sind besonders solche Menschen als Zielgruppe interessant, weil sich hier Marktanteile gewinnen und Gewohnheiten ändern lassen. Wer dann für die Windeln in Zukunft zu Target fährt, kauft da vermutlich auch direkt das Duschgel – aber nur so lange bis das nächste Lebensevent von einem Konkurrenzunternehmen genutzt wird, um die Konsumwünsche um zu lenken. Und wie kriegt man diese gewohntheitsändernden Menschen nun dazu den eigenen Laden den anderen vorzuziehen? Am besten mit Gutscheinen und Rabatte. So folgt aus der einfachen Annahme über eine Gruppe von Menschen die Preisdifferenzierung (auch Preisdiskriminierung) für die, die nicht zu dieser Gruppe gehören.

Auf der anderen Seite gibt der Artikel ein paar Einblicke in die Vorgehensweise beim Analysieren der Daten. Entgegen der Idee die viele von Big Data haben, ist nicht ein intelligenter Algorithmus auf den Datenberg geklettert, um aus der unendlichen Menge die paar interessanter Korrelationen herauszufiltern die dann in der Form des goldenen pregnancy prediction scores, in den Sieben hängen blieben. Stattdessen war schon vor beginn der Analyse klar wonach gesucht wird, nämlich einer Möglichkeit schwangere Frauen zu identifizieren (nicht deren Männer, die ja vielleicht auch einkaufen gehen). Der Berg dann erst mal ein Heuhaufen, denn wie der Artikel auch beschreibt kaufen ziemlich viele Kund*innen von Target Gesichtscremes und Duschgels. In solchen Fällen wir dann auch schon vor der Analyse der Heuhaufen ausgemistet und eine ganze Reihen der (so lässt die Homepage vermute) riesigen Artikelauswahl floss gar nicht in die Korrelationberechnung mit ein, an deren Ende dann eine Liste mit 25 Artikel stand, die als am Aussagekräftigsten identifiziert wurde. Der Artikel macht zu den konkreten Artikeln keine genaueren Angaben nur ein Beispiel lässt erahnen was in die Berechnung mit einfließt:

Nehmen wir eine fiktionale Target Kundin mit Namen Jenny Ward, 23 Jahre alt, lebt in Atlante und kauft im März Kakao-Butter Lotion, eine Tasche, groß genug als das man sie für Windeln verwenden könnte, Zink und Magnesium Tabletten und eine große hellblaue Decke. Dann ist da, könnte man tippen, 87 prozentige Wahrscheinlichkeit, das sie schwanger ist und im späten August gebären wird.

(Achtung Target Konkurrent*innen: Wir wissen nicht, ob die der Presse nicht extra Quatsch Artikel genannt haben, damit ihr erst mal ein paar Wochen in die falsche Richtung korreliert!)

Beim zweiten lesen kam mir die vermeintlich lustige Geschichte mit Schwangerschaft der Tochter dann irgendwie auch nicht mehr so komisch. Schließlich ist das eine Information, die im Datenschtutz als „besonder Arten personenbezogener Daten“ also besonders schützenswert angesehen werden und über die man in Europa eine*n Arbeitgeber*in, etwa bei Einstellungsgesprächen, sogar täuschen darf. Denn spätestens jetzt, wo ich den Artikel gelesen habe, weiß nicht mehr nur Target anhand der Einkaufsliste wie der pregnancy prediction score meiner bonuskartenbesitzenden Nachbar*innen ist (was im Falle einer tatsächlichen Schwangerschaft irgendwann in den meisten Fällen eh offensichtlich ist), sondern ich kann mir auch meinen Teil dazu denken. Dank datenschutzparanoia nämlich „Aha, scheinbar hat er/sie Dinge aus der 25 elementigen Liste gekauft die bei Target zur Berechnung des pregnancy prediction scores herangezogen werden.“ 🙂

  1. sollte der Artikel dort nicht mehr abrufbar sein: Der Autor hat ihn auf seiner eigenen Webseite auch veröffentlicht []
  2. bisher konnte ich den Artikel aus den 80ern von Andreasen in dem das angeblich steht, nicht auftreiben; kennt den wer? []