Verschiedene Medien berichten, auf Basis von Präsentationsfolien aus dem Snowden-Fundus, dass der britische Geheimdienst GCHQ Ereignisse, vor allem soziale Proteste, anhand von Statistiken über Websiteaufrufe, Likes und Youtube-Views vorher zu sagen versucht.

So dramatisch viele der Details sind die durch Snowden bisher zugänglich gemacht wurden, so wenig überraschend ist die aktuelle Meldung. Der GCHQ macht, was im Internet Gang und Gäbe ist.

Hier geht es schon lange nicht mehr nur darum, zu wissen, was aktuelle ist,  sondern darum worüber in (naher) Zukunft viele Leute twittern oder wonach sie suchen werden.  Zu wissen welcher Hashtag in diesem Moment viel benutzt wird bedeutet ja eigentlich, dass das Ereignis schon passiert, der Tweet schon abgesetzt, die Demo schon läuft oder gar schon eskaliert ist.

Die nicht allzu komplexe Logik von Trends wie sie in der GCHQ Präsentation zu finden ist.

Die nicht allzu komplexe Logik von Trends wie sie in der GCHQ Präsentation zu finden ist.((Quelle: Esposito, R., Cole, M., Schone, M., Greenwald, G.: Snowden docs reveal British spies snooped on YouTube and Facebook. Zuletzt abgerufen am 01.02.2014))

Die Mathematik dahinter ist relativ einfach. Begriffe mit starken Zuwachsraten (klassischerweise die erste Ableitung einer Funktion) in der Nutzung werden irgendwann den Zuwachs gemacht haben und viel benutzt (worden sein).

Für Medienleute und Marketingfuzzis ist das ihr tägliches Geschäft und für die IT Branche ein wachsender Markt. Ziel ist, mit Nachrichten vorne dabei sein, darüber zu schreiben was die Leute noch nicht wissen (wollen), oder so früh wie möglich mitzubekommen wenn sich ein Shitstorm zusammenbraut. Die Daten dafür sind bei vielen Diensten frei verfügbar. Google zeigt in Trends was gerade ‚Hot‘ ist . Bei Twitter gibt’s die Kategorie Trending1, sogar nach Orten sortiert. Einzig Facebook zeigte sich bisher weniger offen, aber hat gerade vor ein paar Tagen angekündigt das zu ändern und Trendanzeigen zu integrieren.

Im Prinzip ist das, was der GCHQ macht, also nichts neues. Genau genommen zeigen die Folien sogar, dass sie in der Auswertung nicht viel besonders können, sollten sie sich wirklich auf Quellen Youtube, Twitter, Facebook und Blogger.com beschränken.2 Aber natürlich gibt es dort noch eine andere Stoßrichtung. Es geht ja nicht darum, mittels Twitterdaten herauszufinden ob ein gerade veröffentlichter Kinofilm wohl ein Erfolg wird3, sondern wo es soziale Proteste gibt bzw. geben wird, die aus Sicht eines Geheimdienstes ein, wie auch immer geartetes, Sicherheitsrisiko darstellen.

Ähnlich dem Predictive Policing geht es natürlich darum potentielle „Gefahrensituationen“ so früh wie möglich zu erkennen, oder vielleicht sogar zu verhindern. In den Folien sind die Beispiele relativ rar gesät. Erwähnt werden die Proteste in Ägypten (die man nicht ‚vorhergesehen‘ hat) und die in Bahrain (bei denen das wohl schon geklappt hat), aber auch Cricket Spiel zwischen England und Indien .

Aus britischer Perspektive wird vermutlich auch die Entwicklung der London Riots 2011 ein Grund gewesen sein, sich stärker mit der Analyse von Social Media Daten zu befassen.  Twitter und der Blackberry Messenger wurden immer wieder als zentrale Organisationsplattformen für die Proteste (und später auch die Aufräumaktionen) beschrieben, und auch ausführlich analysiert.

Bei der Analyse der Daten geht es aber sicher nicht nur darum Proteste einzudämmen. Dazu kommt, dass die Netzwerkanalyse dabei helfen kann Urheber_innen zu identifizieren und gegebenenfalls zu verurteilen. Strafbar ist in der Informationsgesellschaft und dem Land der Anti-Social Behaviour Order nämlich nicht nur die konkrete Plünderung und das Scheiben einwerfen, sondern auch das verbreiten von Informationen oder das erstellen von Facebookevents.

Zwar behauptet GCHQ (genauso wie Google und Twitter), dass sie nur aggregierte und anonymisierte Informationen analysieren und bereit stellen. Aber auch daraus lassen sich Informationsnetzwerk ermitteln die zentralen Knoten (Hubs) identifizieren. Das sind etwa Blogs die viel gelesen werden oder Twitter-User die viele Follower haben((Für die, die ihren eigenen Marktwert in ‚Einfluss‘ messen gibt es mittlerweile auch einige Dienste)). Erkennt man früh, auf welchen Zug die Einflussreichen aufspringen, kann man nicht nur wissen was bald ‚relevant‘ sein wird, sondern gegebenenfalls dann doch deanonymisieren und persönlich werden und verhindern das bestimmte Dinge überhaupt relevant gemacht werden.

  1. die Trends die Twitter selbst ermittelt sind erst anch der Registrierung/Login einsehbar []
  2. Wer unter dem Radar der Geheimdienste einen Protest organisieren will muss also nur einen anderen Dienst nutzen []
  3. Anhand dieses Beispiels wurde bereits ein generelles ‚forecasting model‘ mit Twitter daten entwickelt. Siehe Asur, S., & Huberman, B. A. (2010). Predicting the future with social media. In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on (Vol. 1, pp. 492-499). IEEE. []