Die Ebola Epidemie in Westafrika ist eine krasse Sache. Neben medizinischen Problemen der Behandlung, Impfung und so weiter ist ein weitere wichtige Aufgabe bei so einer Epidemie die Eingrenzung und letztendlich der Stopp der weitere Ausbreitung. So werden u.a. von der WHO Zukunftszenarien entworfen, um die Ressourcenverteilung zu optimieren. Für mich interessant waren darüber hinaus gehende Berichte darüber, wie – Big Data sei Dank – die Ausbreitung dieser und anderer Epedemie vorhergesagt und weitere  Ausbrüche frühzeitig erkannt werden können.

Auf der einen Seite sind gibt es also medizinische Prognosen deren Ziel es ist Krankenhauskapazitäten zu berechnen, die Ansteckungsquote zu senken und die medizinische Versorgung zu verbessern. Auf der anderen Seite findet man Gedankenspiele wie das alles noch besser und vorausschauender geplant werden könnte, mit bunte Grafiken und der Lobpreisung von westlicher Technologieinnovationen wie Big Data.

Flowminder und der Nutzen von CDRs

Bunte Grafik

Bunte Grafik. Quelle: worldpop.org.uk/ebola

Die Grafik links  ist von Flowminder.org eine NGO (wobei der Finanzierung irgendwie unklar ist) mit Sitz in Schweden.

Bei Flowminder hat man Daten des Telefonanbieters Orange ausgewertet, die bereits 2013 für eine Big Data Challenge frei gegeben wurden. Dabei handelt es sich um Metadaten (im konkreten Fall Call Data Records) von Orange-Kund_innen. Diese enthalten, „anonymisierte“1 Informationen über die Funkzelle aus der ein Anruf getätigt wurde, zusammen mit einem Zeitstempel.

Während die TechnologyReview es dabei belässt den potentiellen Nutzen zu loben wird bei The Economist als Folge der angenommenen Verbesserungen, direkt gefordert CDR-Daten allgemein für die Wissenschaft freizugeben – Datenschutzbedenken seien da nur vorgeschoben und würden eigentlich Probleme der Bürokratie verdecken.  Dabei sehen selbst die Leute bei Flowminder ihre Daten und Analyse kritisch.

Bengtsson cautions that the model is essentially a first draft, and that it’s based on historical movements, so it does not take into account how people may have changed their behavior in response to the recent crisis. Ideally, he adds, it would include real-time data.

Sie waren sogar so ehrlich auf ihrer Homepage einen detaillierten Bericht über die Datensätze zu hinterlegen, der eine Menge Einschränkungen erhält: Die Datensätze stammen aus unterschiedlichen Zeiträumen und betreffen nur eine kleinen Teil der Bevölkerung nämlich die Kund_innen von Orange also eh nur diejenigen, die überhaupt ein Handy haben und es dann auch noch regelmäßig benutzen. Nichtsdestotrotz sind sie zuversichtlich, dass es auf „Echtzeitdaten“ übertragbar ist, was bisher – zumindest hab‘ ich darüber noch keinen Bericht gefunden – nicht überprüft wurde.

Mal angenommen, die Modelle lassen sich statistisch absichern und sind in eine Echtzeitauswertung übertragbar (d.h. sie funktionieren auch, wenn sich Menschen anders Verhalten, weil es ja dann eine Epidemie gibt, anders als in den Daten von 2013), und angenommen es werden juristische Möglichkeiten geschaffen, um die Daten in Echtzeit auszuwerten, weil es sich ja nun mal um einen Notfall handelt. Was kann man denn mit den Daten tatsächlich anfangen? Der TechnologyReview Artikel benennt die Dual-Use-Optionen direkt.

The model created using the data is not meant to lead to travel restrictions, but rather to offer clues about where to focus preventive measures and health care. Indeed, efforts to restrict people’s movements, such as Senegal’s decision to close its border with Guinea this week, remain extremely controversial.

Man könnte damit einerseits Präventionsmaßnahmen organisieren. Oder, andererseits einfach Grenzen schließen (das geht auch ohne Datenanalyse), wichtig Transferstraßen blockieren, Kranke wie Gesunde in Epidemieherden einschließen und generell etwas mehr inländische Migrationskontrolle betreiben. Da die Daten keine zusätzlichen Krankenhäuser oder Ärzte_innen generieren, denn daran mangelt es wirklich, ist die Wahrscheinlichkeit das die Modelle als Kontrollinstrument genutzt werden ungleich höher.

Healtmap.org Hoax

Abseits der Diskussion um die CDRs fand ich den Bericht interessant, nach dem Health Map.org  den Ebolaausbruch vor der WHO bemerkt hat – und zwar nur durch die Analyse von Twitter und Blogs. Ein Artikel bei Foreign Policy hat dazu allerdings gut herausgearbeitet, dass die Meldung die durch Big Data detektiert wurde, der Retweet einer Presseerklärung eines Krankenhauses war. Dieser wiederum war eine offizielle Meldung der Regierung von Guinea an die WHO vorausgegangen. Also wusste die WHO zwar vor HealtMap.org bescheid, hat es aber nicht sofort getwittert. Der Artikel stellt fest, dass eines der wesentlichen Probleme des HealthMap-Systems die Sprachlimitierung ist – erst bei Twitter wurden Ebola Nachrichten ins Englische übernommen und erst damit für „Big Data“ verarbeitbar.

Auch nicht schlecht im Selbstmarketing ist IBM. Die Firma hat netterweise Kommunikationsinfrastruktur für die betroffenen Regionen bereit gestellt. Jetzt wollen sie die dabei angefallenen Daten aber auch direkt – mit Verweis auf die eigenen Big Data Fähigkeiten – zweitverwerten. An der Stelle wandern die Nachrichten zu Ebola bei CNN dann plötzlich in die Kategorie „Money“

  1. In Anführungsstrichen, weil für mich anonym bedeutet, dass eine Datensatz nicht einer einzelnen (nicht unbedingt namentlich bekannten) Person zuzuordnen ist. Da in diesem Fall aber die Bewegung einzelner Nutzer_innen nachvollzogen wird, sind die Daten eher pseudonym. Zudem gibt es Studien die auch solche „anonymen“ Telefonverbindungsdaten de-anonymiseren konnten (Gams et. al 2013) oder Persönlichkeitsprofile daraus ableiten (de Montjoye 2013). []