Neben Gesundheit und Wirtschaft wird auch der Sport durch Big Data revolutioniert werden – sind sich zumindest die Fanboys sicher. Zwar geht es auch beim Profisport eher um Geld als um Sport, aber der Unterschied zu Unternehmen wie Zynga liegt darin, dass nicht (direkt) die Auswertung von Konsument*innen-Verhalten im Mittelpunkt stehen. Viel zitiert wird die Erfolgsgeschichte der Oakland A’s, die erst als Buch und dann im Film „Moneyball“ aufbereitet wurde.
[Trailer von Youtube.com, dort veröffentlicht von Yahoo-Movies © Sony Pictures Entertainment]
Kurze Zusammenfassung des Films: Die Oakland A’s sind am Ende der Saison 2002 ziemlich am Boden. Sie haben ein frühes K.O.-Spiel verloren und danach sind viele gute Spieler zu anderen Vereinen gewechselt. Um ein wirklich gutes neues Team aufzustellen fehlt aber wiederum das Geld. Der Manager (Billy Beane, gespielt von Brad Pitt) entscheidet sich dann für eine andere Strategie Spieler zu kaufen. Die Entscheidung für einen Spieler wird nicht mehr anhand der üblichen Kriterien gemacht sondern basiert auf Metriken, die nicht so stark in den Preis einfließen. Nach einigem Hin und Her lässt sich ein Team aufstellen, dass gut funktioniert und eine beispiellose Siegesserie hinlegt. 20 Siege in Folge – All-Time Rekord der Baseballliga bis dahin. Zur Meisterschaft reicht es dann zwar wieder nicht, aber die Underdog Story des Vereins kombiniert mit der persönlichen Geschichte des Managers der seine Liebe zum Sport wieder entdeckt, ist schon pathetisch genug.
Vorurteilsfreie Entscheidungen dank Big Data
Die Tatsache, dass zur Bewertung der Qualität eines Spielers nicht mehr die Anzahl der Homeruns, seine vermeintliche Fitness oder das vermutete Selbstbewusstsein (dessen Einschätzung auf einem Score für das Aussehen der Freundin basiert) herangezogen wird, sondern „harte Fakten“, ist der Grund warum die Big Data Szene die Story toll findet.
„The scene [in der die Oberflächlichkeit der klassischen Spielerbewertung dargestellt wird, pilpul] perfectly depicts the shortcomings of human judgment. What passes for reasoned debate is really based on nothing concrete. Decisions about millions of dollars’ worth of player contracts are made on gut instinct, absent of objective measures. Yes, it is just a film, but real life isn’t much different. Similar empty reasoning is employed from Manhattan boardrooms to the Oval Office to coffee shops and kitchen tables everywhere else.1
Im Film wird aber nicht nur der vorurteilsbelasteten Blicks der Scouts kritisch dargestellt sondern auch der des Managers der die kühle Logik des Human Ressource Managements vorführt. Die Kosten-/Nutzen Rechnung, wieviel ein Spieler kostet im Vergleich zu den Punkten die er bringt ersetzt das Bewerten des Wurfstils und das Einschätzen des Entwicklungspotentials eines jungen Spielers. Anstellen des Scouts übernimmt der Manager die Spielerauswahl. Statt Videos mit Spielausschnitten werden (absichtlich unübersichtliche) Tabellen die Artefakte auf denen sich die Entscheidung stützt.
Anfänglich mutet diese vermeintlich vorurteilsfreiere Spielerwahl humaner an. Der Manager stellt Spieler ein, die aufgrund ihres Alters oder eine Verletzung bei anderen Vereinen rausgeflogen sind, weil sie weniger flexibel in der Wahl der Position sind. Das sind die Szenen die in den Big Data Geschichten erwähnt werden. Wenig später wird aber auch die andere Seite des Managers deutlicher. Spieler sind Ressourcen die auf einem Markt gehandelt werden. Sie werden in Telefonkonferenzen verkauft, getauscht und entlassen wie es passt, Entlassungsgespräche dauern im Anschluss nur 3 Sätze. Für die Spieler selbst, die immer cool reagieren, macht es dann auch keinen Unterschied warum genau ihnen gesagt wird, dass sie am nächsten Tag für ein Team an der anderen Küste spielen werden. Aber bevor ich hier zu tief in die Filmanalyse vordringe vielleicht lieber was zum Daten-Teil der Story.
Baseball als Data Driven Sport
Auch vor Big Data galt Baseball schon als ein besonders gut vermessener Sport bei dem Statistiken über alle Spieler der letzten 140 Jahre geführt werden. Auch Fans versuchen sich seit langem an der Analyse der Daten, anhand derer quasi schon zu Beginn der Saison ermittelt wird, wer es überhaupt in die Playoffs schaffen wird. Das vermeintlich neue an den Methoden in Moneyball ist also nicht, dass die Spieler quantifiziert werden, sondern eher welche Metriken dazu herangezogen werden. Der Manager setzte nämlich 2002 als einer der ersten auf Sabermetrics. Die, so verrät Wikipedia, aus einer Kritik der konventionellen Baseball-Statistiken entstanden sind . Die Sabermetrics setzen verstärkt auf Korrelationen (und da liegt die Nähe zu Big Data), also in der Bestimmung von Zusammenhängen zwischen verschiedenen Werten ohne sich im Detail für die Gründe zu interessieren. Einfach nur um darüber vorhersagen über Spielverläufe zu treffen. In Moneyball ist der zentrale Wert die „On-Base-Percentage„.
[Update 09.04.2015] In einer Gegenbewegung sind wiederum andere Fans der Meinung, zu viele Daten würden den Spass beim Zuschauen nehmen.[/Update]
Erfolg nicht wiederholbar
Als Erfolg gelten die Moneyball Years der Oakland A’s interessanterweise übrigens nicht etwa, weil sie – abseits der 20-Siege-Serie – sportlich besonders erfolgreich gewesen wären. Sie werden vor allen Dingen als Erfolg des Managers gefeiert, der mit einem günstigen Team relativ weit kam (wenn auch nie über das Viertel-Finale hinaus).
Wiederholen lässt sich das aber seitdem nicht mehr. Denn Big Data lässt sich wirtschaftlich nur ausbeuten, wenn man entweder die Daten als Rohstoff alleine besitzt, oder einen Informationsvorsprung hat indem man Auswertungen kennt, die anderen nicht bekannt sind. Ersteres funktioniert im Baseball nicht. Die Statistiken werden rege getauscht. Stattdessen war das Team insgesamt günstig, weil die Preise sich nach den klassichen Metriken berechneten. Beane berechnete mit den Sabermerics quasi seinen eigenen Spielerwert, der unterschiedlich war zum Marktpreis. Wenn sich die neuen Metriken aber als erfolgsversprechender erweisen, werden in den darauf folgenden Jahren natürlich die Preise (auch) damit bestimmt und die Differenz sinkt.
Kostenverlagerung
De facto geben die Baseballteams in den letzten Jahren nicht mehr nur eine Menge Geld für die Spieler aus, sondern auch für die Technik zur Spielerbewertung. Auf HPCWIRE werden die Anschaffungen diskutiert, die Baseball Teams gerade machen. Beispielhaft geht es dabei um eine Manschaft die, um ihren Informationsvorsprung zu sichern, nicht genannt werden will und eine Urika gekauft hat. Die Kalkulation ist dabei einfach:
Although we’re not privy to pricing, the Urika appliance runs in the order of well over a million bucks. However, to put this into some context, consider the ROI. The average win in baseball brings a smaller team a couple of million, a large MLB [Major League Baseball, pilpul] team between $5 and $7 million. That’s one win. Let’s say Cray’s graph appliance is able to help team owners piece together what happens if you take the average player for a particular position versus the player they’re analyzing across the course of a season. While those many factors involved are multifaceted, when it comes down to one small decision at the bottom of the ninth with loaded bases, that one switch in decision-making could mean the loss or gain of millions in a winning situation.
Wenn ein Sieg ein paar Millionen bringt können sich die Kosten für eine, ebenfalls millionenteure Rechenmaschine, schnell rentieren.. wenn auch die Maschine nicht auf dem Platz steht.
Ziel ist es, mit der „Hypothesen Maschine“, wie der Hersteller seinen Super-Computer nennt, verschiedene Spiel-Szenarien durchzurechnen und dabei möglichst viele Faktoren mit ein zu beziehen. Interessanterweise listet der Artikel unter den erweiterten Werten die mit einberechnet werden auch so etwas wie „Coach and player confidence“, also auch jene Metrik, die Beane und den Big Data Fans nicht objektiv genug und veraltet ist.
Deutlich wird aber vor allem: Big Data und Statistische Prognosen sind nicht zuletzt ein ökonomischer Wettlauf. Wenn es darum geht Entscheidungen mit Datenanalysen zu stützen hängt die Eintrittswahrscheinlichkeit auch davon ab, dass man sie berechnet hat bevor es andere tun, denn wenn zwei Mannschaften berechnet haben, dass ein Spieler gut sein wird, treibt das den Preis schnell in die Höhe.
Aber das tollste an den Hypothesen-Maschinen ist: sie liegen niemals falsch. Tritt ein Ereignis nicht so ein wie berechnet, kann es eigentlich nur bedeuteten, dass nicht genug Daten berücksichtigt wurden, ergo eine größere Maschine gekauft werden muss.
- aus V. Mayer-Schönberger and K. Cukier, Big data: a revolution that will transform how we live, work and think. London: John Murray, 2013. [↩]
19. Juli 2014 — 12:44 pm
Ergänzend hier ein aktueller Kommentar von Billy Beane zu der möglichen Entwicklung, die die Verdatung des Spiels (für die Optimisten), nehmen wird.