Und wieder eine Studie1 die irgendwelche Nutzungsdaten korreliert mit irgendwas anderem und damit vor allem die Notwendigkeit der eigenen Arbeit motiviert. Heise titelt „Wer morgens twittert, ist vielleicht arbeitslos„. Die Studie selbst ist etwas umfangreicher als diese eine catchy These und technisch-methodisch gar nicht unbedingt zu kritisieren. Viel mehr eignet sie sich als Beispiel für einen Trend in der Forschung in dem es vor allem um fancy Datenanalyse geht, als um die Analyse der Ergebnisse.

Klar ist nicht jede Forschungsarbeit gleich nobelpreisverdächtig und natürlich kann und muss es auch Arbeiten geben, die vor allem auf die Anwendung von bekannten (statistischen) Verfahren zeigen statt ständig theoretische Weiterentwicklung zu berichte, die keine Anwendung finden. Es ist aber schon auffällig, dass vor allen Dingen solche Studien in der Berichterstattung gewürdigt werden, die zwischen fast schon beliebigen Datensätzen Zusammenhänge herstellen ohne eine sinnvolle Motivation oder Analyse dafür zu liefern. Beispiele hatte ich hier im Blog schon ein paar. Da wird aus dem Smartphone auf den psychischen Gesunheitszustand geschlossen, aus Suchanfragen auf Epidemieverläufe, aus dem Telefonverhalten auf Terrorgefahr oder aus Mausbewegungen auf Kreditwürdigkeit. Die meisten praktischen Anwendungsbeispiele fußen auf Forschungsberichte und Studien wie der, die Twitternutzung und Arbeitslosenquoten verbindet.

Studie, Daten, Ergebnisse

Worum geht’s konkret. In der Studie wurden 146 Millionen Tweets aus Spanien analysiert und mit verschiedenen Daten die „klassisch“ über Umfragen oder Meldungen von Arbeitsargentuieren erhoben werden (Arbeitslosenzahlen und sowas wie Bruttosozialprodukte) in einen Zusammenhang gesetzt.

Die Studie analysiert 146 Millionen Tweets, von denen 19 Mio gelocated, also mit einem Ort versehen, sind2, davon geben 4 Millionen Aufschluss über eine Bewegung des_r Nutzer_in, die die Studie auch analysiert. Von den 0.5 Millionen User_innen sind nur 0.22 Millionen messbar unterwegs.

Dabei ist es statistisch durchaus noch valide, wenn der Datensatz nur 50 Tweets pro Monat pro 1000 Personen enthält. D.h. 0,05 Tweets pro Person pro Monat reichen aus um repräsentativ zu sein.

Überprüft wird durch die Studie dann ein Zusammenhang zwischen gemeldeten Arbeitslosenquoten für eine Region und vier Werten

  • der Anzahl der Twitter-User_innen in der Region
  • der Uhrzeit zu denen getweetet wird
  • der Anzahl der Rechtschreibfehler
  • die Anzahl der Kommunikationen über Twitter mit Nutzer_innen einer anderen Region
  • Außerdem werden noch unterschiedliche Altersgruppe betrachtet

Die Ergebnisse sind in weiten teilen statistisch nicht signifikant, außer das in Regionen mit vielen User_innen die Arbeitslosigkeit geringer ist und dort wo die Arbeitslosigkeit hoch ist mehr Rechtschreibfehler gemacht werden. Achso, und natürlich die Korrelation aus den Schlagzeilen, dass in Regionen mit hoher Arbeitslosigkeit mehr morgens, in denen mit niedriger, mehr Nachmittags getwittert wird.

Die Korrelationen sind relativ niedrig (links) und basieren auf Daten die vor allem durch wenige Regionen mit vielen Twitter User_innen (große Kreise rechts) beeinflusst werden.

Die Korrelationen sind relativ niedrig (links, je weiter außen desto besser) und basieren auf Daten die vor allem durch wenige Regionen mit vielen Twitter User_innen (große Kreise rechts) beeinflusst werden.

Sind Tweets der bessere Arbeitsmarktmonitor?

Wirklich problematisch ist die Studie aber nicht bei ihren eher mäßigen Ergebnissen, sondern in der (kaum vorhandenen) Analyse. Statt Hypothesen darüber anzustellen welche Kausalitäten denn den Korrelationen zugrunde liegen, oder den Konflikt mit einer anderen Studie zu diskutieren, die bei dem Zusammenhang zwischen ökonomischer Stärke einer Region und Twitternutzung zum gegenteiligen Ergebnis gekommen ist, wird eine übergeordnete Diskussion angestoßen: Die Daten würden zeigen, dass man aus der Analyse von Tweets auf die Arbeitslosigkeit schließen könne. Zwar sei das nicht ganz so genau wie Zensusdaten (also solche die von (staatlichen) Institutionen erhoben werden), aber dafür würden die Daten billiger und in Echtzeit zur Verfügung stehen.

Most importantly, the immediacy of social media may also
allow governments to better measure and understand the effect of policies, social changes, natural or man-made disasters in the economical status of cities in almost real-time (Llorente et. al 2014)

Da wird vor allen Dingen die Notwendigkeit der eigenen Arbeit begründet. Datenanalysen sind gut, weil sie sind schneller und die Kosten geringer. Eine inhaltliche Begründung ist das nicht. Vor allem vor dem Hintergrund, dass auch die aktuelle Messmethoden nicht „optimiert“ werden wollen, weil sie, vermutlich nicht nur in Deutschland, seit längerem eher Spielball politischer PR-Arbeit sind.

Zudem liegt der These der selbe Trugschluss zu Grunde wie bei Google Flu Trends: Es ist nett, wenn die Forscher_innen es schaffen bekannte, kompliziert erhobene Datensätze und Korrelationen auch in anderen Datensätzen wiederzufinden. Dann aber zu behaupten ab jetzt käme man ohne diese primäre Datenerhebung aus ist Quatsch. Während Zensus Daten über mehrere Jahre einigermaßen gleich bleibend erhoben werden, ändert sich das most-favorite-social–network regelmäßig. Dazu kommt, dass die Autor_innen selbst erwähnen, dass ihre Messungen nur (einigermaßen) genau sind für den Personenkreis unter 44 (das Bestimmtheitsmaß, liegt auch da nur bei 0.62), weil Twitter nun mal nicht von allen genutzt wird.

Andererseits ist natürlich gerade die Ungenauigkeit von solchen Datensätzen, das nicht-wissen darüber wer das eigentlich nutzt und was die Gründe für die Korrelationen sind, Begründung warum die Daten ständig neu korreliert werden müssen und es mehr Studien braucht.

Dual Use

Für die offiziellen Arbeitslosenstatistiken wird die Analyse also wohl erst mal nicht herangezogen. Für Dritte kann die Studie aber durchaus hilfreich sein. Denn anstatt jetzt für Regionen eine wahrscheinliche Arbeitslosenquote zu berechnen, könnten man auch für eine_n Twitter-User_in die Wahrscheinlichkeit ermitteln, dass diese_r arbeitslos ist. Das ist über ganz klassische Datensätze wie Wohnort und Alter auch heute schon leicht – die Statistiken über Jugendarbeitslosigkeit machen es einfach über junge Menschen aus Griechenland und Spanien anzunehmen sie seien arbeitslos – mit der Tweetanalyse könnte man diesen Wert aber nun genauer individualisieren. Scoring-Anbieter wie Kreditech sind da bestimmt schon dran.

  1. A. Llorente, M. Garcia-Herranz, M. Cebrian, and E. Moro, “Social media fingerprints of unemployment,” arXiv:1411.3140 [physics], Nov. 2014. []
  2. hier gibt es auch das methodische Problem, dass die Studie sich auf die ermittelten Orte verlässt, dabei kann es durchaus sein, dass eine Position nicht über GPS sondern nur über die IP Adresse des_r Nutzer_in ermittelt wird, was extrem ungenau sein kann []