Predict your depression? Nicht wirklich

StudentLife heißt eine App die in Artikel wie „ Ihr Handy weiß, wenn es ihnen schlecht geht“ (technologoy review) oder „App Can Tell When Students Are Stressed out“ (huffingtonpost) besprochen wird. Anlass ist eine Studie mit eben jener App, die in ihrem Ergebnis behauptet nicht nur vom Smartphone auf die Stimmung sondern auch auf die Abschlussnote schließen zu können. Dabei ist die Studie alles andere als aussagekräftig und im Design sogar eher fragwürdig.

Auf 16 Berichte in einige weit verbreiteten und sehr bekannten (Online-)Magazinen und im Fernsehen haben es Professor Campbell und seine Studierenden mit ihrer Studie¹ gebracht. Das ist schon beeindruckend und reflektiert auch wie groß das Interesse daran ist alles mögliche mit Smartphones und dem was diese messen können anzustellen. StudentLife schlägt in die Kerbe all dieser quantified self und health apps und die Studie befeuert eine Industrie, die noch nach Belegen ihrer Wirksamkeit sucht.

Anmol Madan, Gründer und Geschäftsführer von [schleichwerbung gestrichen].io, lobt denn auch die Dartmouth-Studie. Er mahnte jedoch, dass weitere, ausführlichere Untersuchungen nötig seien, um Ärzte und Gesundheitsdienstleister zu überzeugen. Und vor allem: um die Patienten zu gewinnen. Gerade sie könnten besonders reserviert sein. (Quelle: Technology Review vom 31.10.2014)

Wenn man allerdings genauer hinschaut, sind weitere Studien nicht nur notwendig, um alle zu überzeugen wie toll das ist, sondern erstmal um zu überprüfen ob es überhaupt stimmt. Genau genommen sind die Ergebnisse der Studie nämlich eher marginal und enthalten so Sätze wie

We [….] identify a Dartmouth term lifecycle in the data that shows students start the term with high positive affect and conversation levels, low stress, and healthy sleep and daily activity patterns.

Für jede_n der schonmal an irgendeiner Art von Kurs teilgenommen hat, scheint das eine Binsenweiheit: Wenn es auf die Abschlussprüfung zugeht wird stressig. Nur halt jetzt mit ner hübschen Statistik.

Die Stimmung sinkt, dass Stresslevel steigt. Statistik eines Allgemeinplatzes. (Quelle: StudentLife)

Trotzdem hat die Studie einen ziemlich beeindruckendes Echo erzeugt. Dabei hat sie im Detail einige Schwächen:

1. Geringe Datenbasis

Sinkende Rücklaufquoten erhöhen nicht die Glaubwürdigkeit

48 Studierende haben die App für ein Semester (das am Darthmouth College nur 10 Wochen hat) getestet. Die Studierenden waren alle Teilnehmer_innen einer Vorlesung zu Smartphone Programmierung. Solche Zahlen sollten eigentlich schon Skepsis hervorrufen. Von den Bedingungen für eine klinische Studie – wie man sie bei medizinischen Produkten, und das ist die App ja schon fast – ist das weit entfernt. Die Testpersonen sind in etwa alle gleich alt, verhalten sich alle ähnlich (studieren vermutlich dasselbe) und der Testzeitraum ist ziemlich klein. Schlimmer noch: Die Rücklaufquote, sowohl der ausgewerteten Daten, als auch der freiwilligen Umfragen sackt deutlich ab. Am Ende werden kaum mehr als 12 Stunden pro Tag gemessen und auch nur noch 3 (statt am Anfang 12) Fragen pro Tag beantwortet. Auch die abschließenden Befragungen wurden dann nur noch weniger als 40 Studierenden beantwortet, das ist immerhin mehr als 20% weniger als das, das Anfangs als „Datenbasis“ vorgestellt wird.

2. Ungenaue Messungen

Als Datenquellen dienten den Autor_innen alles was Smartphone-Sensoren so hergeben. Bewegungstracker, Licht, WLAN, Bluetooth usw. Aber mit diesen Daten wird nicht direkt gearbeitet, um Korrelationen zu berechnen. Stattdessen werden sie abstrahiert in drei Kategorien: Activity, Conversation und Sleep. Jede einzelne dieser Abstraktionen ist dabei fehleranfällig. Die Genauigkeit der Aktivitätsmessung wird mit 94% angegeben, die der Schlafzeitmessung mit 95%. Die Conversation Detection wiederum, bei der regelmäßige kurze Mikrofonaufnahmen genutzt werden um zu überprüfen ob sich die Studierenden „around conversation“ sind, also sich irgendwo aufhalten wo gesprochen wird, ist laut einer Studie auf die sich sich beziehen nur etwa 86%², weil etwa auch Fernsehgeräusche als Gespräch erkannt werden.

In wie weit die Befragungen zur Messung der Selbsteinschätzungen von Stress und Einsamkeit vertrauenswürdig sind, kann ich nur schwer bewerten, aber sicher gibt es Streuverluste, wenn man bedenkt dass etwa das grobe Affektgefühl abstrahiert über Bilder abgefragt wird, welche Testperson auswählen muss (Baby-Katze anklicken heißt gute Stimmung, Gewitter deutet auf schlecht hin). Die anderen Werte (etwa zu Einsamkeit und Stress) wiederum wurden nur zu Beginn und Ende über eine Umfrage gemessen und dann mit dem Durchschnitt der sensorbasierten Messwerte verglichen. Ein „Verlauf“ lässt sich also nur über das gesamte Semester nachvollziehen und nicht, wie die Grafiken suggerieren, pro Woche oder gar Tag. Fragen kann man sich auch, ob die Studierenden am Anfang positiver eingestellt waren, weil sie immerhon vom Prof. ihres Kurses gefragt wurden ob „freiwillig“ an einer Studie teilnehmen wollen?

3. Überambitionierte Auswertungen

Diese einigermaßen genau abstrahierten Werte vergleichen die Autor_innen dann untereinander. Natürlich ist auch ihnen bewusst, dass Korrelation keiner Kausalität bedeutet, aber wie so häufig im Big Data Diskurs ist das auch völlig irrelevant. Da die BlackBox-Mensch eh irgendwie komisch ist, reicht es, wenn man weiß das die Veränderung an dem einen Wert (Stimmung) den anderen (Abschlussnote) verbessert oder verschlechtert.

Auch die einzelnen Zusammenhänge die sie gefunden haben sind alles andere als aussagekräftig. Die Werte für den Signifikanzkoeffizienten bewegen sich nämlich alle eher so um (+ oder -) 0,4.

So sehen Punktwolken aus, aus denen Korrelationen berechnet werden. In der Studie gibt es kaum eine Korrelation die größer ist als 0.4. In der Regel gelten aber erst Korrelationen größer als 0.5 als „gut“. Quelle: Wikipedia/Korrelationskoeffizient

Für die nicht-Statistiker_innen eine kurze Erläuterung: Eine hohe Korrelation lässt darauf schließen, dass zwei Parameter sehr stark miteinander zusammenhängen. Wie oben zu sehen liegen die Werte – bei einem Koeffizienten von 1 ziemlich auf einer Geraden. Aus A folgt dabei B. Aussagen wie „Je höhe die Selbsteinschätzung des Stresslevel, desto niedriger die Endnote“, würde bestenfalls mit -1 korrelieren.

Die Werte in der Studie liegen allerdings eher so bei 0,4 oder drunter.³ Wenn man sich das Bild oben ansieht fällt auf, dass das eher auf einen leichten Zusammenhang hinweist. Besonders groß ist der nicht.⁴

4. Die Vorhersagen

Für die in den Medien erwähnten Vorhersagen bedeutet eine geringe Korrelation daher: Es gibt eine große Ungenauigkeit in der Folgerung (Auf A folgt B oder C oder D). Das wissen die Autor_innen aber auch, denn in der Studie steht auch nichts davon, dass man die Ergebnisse nun nutzen könnte, um aus den Sensordaten eines Smartphones etwas über den mentalen Gesundheitszustand des_der Nutzer_in vorherzusagen. Vermutlich wäre sie bei so eine Aussage auch nicht veröffentlicht worden. Zur Veranschaulichung der Ungenauigkeit:

: Kennt man beide Werte kann im Koordinationsystem ihren Punkt bestimmen

: Kennt man nur einen kann man über die Korrelation nur auf einen Werbereich für den zweiten schließen

Würde gemessen, dass sich das Handy von Person A spät nachts noch bewegt (und daraus schließen, dass Person A noch nicht schläft) und wüsste man nun den Daten, dass diese Form der Schlafbestimmung zu -0,4 mit dem Abschlussergebnis in seinem Kurs korreliert, könnte ich nicht auf einen bestimmten Wert (wie bei einer 1er Korrelation) sondern nur einen Wertebereich schließen (Note ist auf einer 5er Skala mit hoher Wahrscheinlichkeit zwischen 2 und 4). In der Regel kann man sogar besser darauf wetten welche Note A nicht mehr kriegen wird (1 und 5). Aber das wäre Raten und vermutlich mit dem Würfel genauso gut.

Die Theorie, man könne mit den Daten jetzt etwas für die Zukunft vorhersagen, stammt eher aus den reißerischen Headlines, wird aber auch befeuert durch ein Interview mit dem leitenden Professor z.B. mit dem Wired Magazin. Dort beschreibt er den Wunsch die Daten im Smartphone dazu zu nutzen den User_innen Tips zu geben auch in andern Bereichen als dem Studium. z.B.:

It could also tell an office worker how to avoid unnecessary stressors and have a happier, more productive day. (Valley News vom 22.09.2014)

Vielleicht sollte denen mal jemand sagen, dass es schon ungefähr 1 Millionen Apps mit Glückskekssprüchen gibt.

Wang, Rui, Fanglin Chen, Zhenyu Chen, Tianxing Li, Gabriella Harari, Stefanie Tignor, Xia Zhou, Dror Ben-Zeev, and Andrew T. Campbell. „StudentLife: Assessing Mental Health, Academic Performance and Behavioral Trends of College Students using Smartphones.“ In Proceedings of the ACM Conference on Ubiquitous Computing. 2014. [↩]
N. D. Lane, M. Mohammod, M. Lin, X. Yang, H. Lu, S. Ali, A. Doryab, E. Berke, T. Choudhury, and A. Campbell. Bewell: A smartphone application to monitor, model and promote
wellbeing. In Proc. of PervasiveHealth, 2011. [↩]
Man könnte nun argumentieren, dass sie zwar nur wenig aussagekräftige Indikatoren haben, dafür aber viele, die sich dann in der Summe eventuell bestärken. Das ist aber in der Studie nicht weiter beleuchtet [↩]
Dazu kommt, dass die Studie suggeriert, sie könnte alle Werte miteinander korrelieren tatsächlich schauen sie sich aber für den Zusammenhang zwischen z.B: nächtlicher Aktivität und Wohlbefinden (das eine wurde kontinuierlich gemessen, das andere nur am Anfang und Ende) auch nur einen Durchschnittswert der nächtlichen Aktivität an. [↩]

1. Geringe Datenbasis

2. Ungenaue Messungen

3. Überambitionierte Auswertungen

4. Die Vorhersagen

Schreibe einen Kommentar Antworten abbrechen