Bei den ganzen predictive policing Diskussionen um PredPol und Precobs die auf Polizeistatistiken basieren, geht ein weiteren großen „Datenschatz“  unter, der bis vor wenigen Jahren als Wunderwaffe gegen Kriminalität gehandelt wurde: die Videoüberwachung. In England ist nun ein Forschungsprojekt gestartet, dass  automatisiert Straßenprügeleien in Videostreams von öffentlichen Orten erkennen soll.

Videos sind, im Vergleich zu Daten die Polizist_innen in Formulare aufnehmen, ziemlich unstrukutiert und schlecht zu sortieren. Für  Computer ist ein Video ein Kette von Einzelbildern (Frames) bestehend aus einer großen Zahl bunter Pixel. Objekte und Bewegung sind nicht ohne weiteres zu „erkennen“. Das führt dazu, dass es auch in 2015 noch schwierig ist Videosignale in Echtzeit auszuwerten, also ein Programm zu entwickeln, dass die Daten genau so schnell analysieren kann wie sie entstehen.

Viele Monitor, viele kleine Videostreams. Setup einer Überwachungsinstallation. cc-by-nc exacq

Viele Monitor, viele kleine Videostreams. Das wird schnell unübersichtlich. Setup einer Überwachungsinstallation. cc-by-nc exacq

In England, einem der Länder mit der dichtesten Videoüberwachung, mangelt es nicht an Videodaten die darauf warten im Big Data-Style ausgewertet zu werden. Schon seit langem ist klar, dass die vielen Videos kaum in Echtzeit von Menschen angesehen werden können. Der Job der_s Videoüberwachers_in ist einer der langweiligsten und gleichzeitig anstrengendsten. Die meiste Zeit passiert nämlich in der Regel genau: nichts. Und zur Reduktion des einzusetzenden Humankapitals an monotonen Arbeitsplätzen ist bekanntlich die Automatisierung bestens geeignet. Wenn es dann auch noch um irgendwas mit „Sicherheit“ zu tun hat muss natürlich Kriminalität so früh wie möglich (am besten bevor sie passiert) erkannt werden, um intervenieren zu können.1

Fightcams sind nicht predictive

Das konkrete Einsatzszenario in England ist allerdings keine allgemeine Kriminalitätsdetektion sondern bezieht sich, wie auch die andere predictive policing Software, nur auf ganz bestimmte Delikte, in dem Fall gewalttätige Auseinandersetzungen im öffentlichen Raum, daher der Projektname „Fightcams„.  Die Videosignale sollen in Echtzeit ausgewertet werden, um Prügeleien in britischen Innenstädten automatisch zu erkennen. Der Telegraph bebildert das Projekt mit Ausschnitten aus „Minority Report“, aber tatsächlich ist das Prinzip überhaupt nicht vorhersagend. Das Programm auf dem das Projekt basiert soll Auseinandersetzungen, in dem Moment in dem sie stattfinden, automatisch erkennen, nicht vorher.  Der eigentlich Zweck ist, die Personen, die vor den Monitoren sitzen und den Wald vor lautern Bäumen nicht sehen, auf bestimmte Situationen aufmerksam zu machen.

…und funktionieren nicht besonders gut

Das Projekt soll eine Weiterentwicklung von Kaelon Lloyds Dissertation sein, der verschiedene Algorithmen zur Erkennung von Prügeleien auf echten Überwachungskameraausschnitten angewendet hat. Wie gut das funktioniert zeigt sich schon daran wie Lloyd in seiner Arbeit den  „Erfolg“ der Algorithmen bewertet hat:

a true positive rate greater than 50% and a true negative rate of
over 90% shall be deemed adequate for use in real-life

Das Programm wird also dann als „gut“ eingeschätzt, wenn es vor allem keinen falschen Alarm schlägt, also 90% der nicht-Kämpfe auch als  (nicht) solche erkennt. Und auf der anderen Seiten wird es als positiv gewertet, wenn 50% der tatsächlichen Kämpfe auch erkannt werden.

Der Grund für diese recht schwachen Erfolgskriterien liegt im Material. Ein Großteil der Videodaten die eine Überwachungskamera so aufnimmt enthält natürlich keine Gewaltszenen, nicht mal in England passiert das andauernd 😉 . Das Videomaterial das dem Autor von der Stadt Cardiff zur Verfügung gestellt wurde enthält in 23 Stunden nur 5 Minuten „Kampfsequenzen“ aufgeteilt auf 7 Auseinandersetzungen.

Probleme bei der Videoverarbeitung

Ich will hier kurz auf zwei Probleme der computer vision eingehen, die helfen die Grenzen von automatisierter Videoanalyse zu verstehen.

Das Material

Für einen Algorithmus ist eine Auseinandersetzung immer nur eine Sequenz mit definiertem Anfang und Ende. Dabei ist nicht die zeitliche Länge einer Sequenz entscheiden sondern die Anzahl der Frames eines Ausschnitts. Üblich ist eine Framerate von mindestens 25 Frames pro Sekunde für ein „Echtzeitvideo“, Überwachungskameras nehmen aber häufig weniger auf, in der Studie wurden hatten die Videos nur 6 Frames pro Sekunde2 Die Kampfszenen sind dabei in der Regel nur wenige Sekunden lang, enthalten also nur wenige Frames.

Um eine Video zu analysieren muss dies also kontinuierlich in Sequenz betrachten  und diese beurteilen werden.  So entsteht eine große Zahl von Sequenzen (für jede Sekunden müssen die 5 Sekunden vorher als Sequenz mitbetrachtet werden), von denen der Großteil keine kritische Situation darstellt. Auf die Anforderungen oben angewendet entstehen bei dem untersuchten 23 Stunden Datensatz 1380 Sequenzen, die betrachtet werden müssen. Von denen wiederum soll der Algorithmus 3,5 (von 7) als Kampf erkennen und 1242 (von 1373) als nicht-Kampf. Bleiben noch 134,5 Sequenzen, oder über den Tag verteilt mehr als 2 Stunden in denen der Computer keine Ahnung hat was vor sich  geht und in denen sofort (es geht ja um Echtzeitbeobachtung) ein Mensch gucken muss was da passiert.

Objekterkennung

Das die Algorithmen irgendwie schlecht erscheinen hat damit zu tun, dass Bildverarbeitung immer noch ziemlich kompliziert ist. Für einen Computer besteht ein Bild nur aus vielen bunten Punkten. „Dinge“ voneinander abgrenzen zu können ist nicht so leicht und wird in den letzten Jahren erst durch Stereokameras oder sowas wie Microsoft Kinect für Entwickler_innen vereinfacht.

Viele Algorithmen versuchen über Kantenerkennung Objekte von einander abzugrenzen. Die Studie von Lloyd zeigt aber auch, dass das an öffentlichen Orten häufig nicht besonderes gut funktioniert. Wenn viele Leute im Bild sind, die auch noch ähnliche Kleidung tragen hat der Computer keine Chance.

fightcams_problem_hog_sift2

fightcams_problem_hog_sift Bild aus der Studie Lloyds. Menschensammlung mit Prügelei oben rechts. Die Personen „verschmelzen“ bei der Kanterkennung auf dem rechten Bild allerdings und sind in ihrer Flächigkeit kaum vom Asphalt zu unterscheiden.

Besser funktioniert die Kantenerkennung, wenn die Personen sich klar vom Hintergrund abgrenzen. Die Studie verwendet zu Vergleich auch Videomaterial von Kämpfen bei Eishokey-Spielen. Zwei Trikotfarbene Objekte auf weißem Grund lassen sich super anhand ihrer Konturen erkennen.

Bewegungserkennung

Das zweite wichtige Erkennungsmerkmal ist Bewegung. Dabei wird, unter anderem basierend auf vorher erkannten Kanten, versucht zu ermitteln wo Bewegung, wie schnell stattfindet. Andere ermitteln die Veränderung von Farbintensitäten, denn die Algorithmen basieren nicht auf der Beobachtung von Objekten sondern den fixen Position eines Pixel auf einem Bild. Ob sich zum Beispiel ein Kopf in einem Bild seine Position verändert, weil der dazugehörige Mensch sich bewegt oder weil die Kamera schwenkt, ist eine nicht triviale Unterscheidung.

Für die Fightcam Analyse ist es notwendig normale Bewegungen von Personen im öffentlichen Raum (zwei Personen treffen sich und begrüßen sich per High-Five) von Schlägereien (zwei Personen treffen sich und Tauschen Faustschläge aus) zu unterscheiden. Dabei hat Lloyd drei Formen von gewaltätigen Auseinandersetzungen identifziert:

1) A group of pedestrians (4+) merge together with force and barge each other. They are generally too close for effective punching and kicking.
2) The second fight type consists of 2-3 participants that stay in close proximity to one another and attempt to punch and kick without getting too close to their target.
3) The final fight is composed of 2 or more people that keep a great distance from their target, they occasionally move in for a quick swipe and then retreat a great distance.

lloyd_fightcams_motion1

lloyd_fightcams_motion2 Zweite aufeinanderfolgende Frames eines Faustschlags. Quelle: Lloyd.

Das Problem in der Bilderkennung liegt hier wieder im technischen Detail. Da die Framerate wie oben beschrieben bei Überwachungskameras oft gering ist, sich Kampfszenen aber häufig sehr schnell abspielen gehen dem Algorithmus manchmal einfach Sachen durch, die sich in der Zeit zwischen zwei Frames abspielen.

Die Bilder links zeigen zwei direkt aufeinander folgende Frames eines Faustschlags. Arm und Faust bewegen sich zwischen den beiden Bildern so weit, dass viele Algorithmen die Faust in Bild 1 und Bild 2 als unterschiedliche Objekte wahrnehmen würden und daher keine Bewegung feststellen.

 

 

Fazit

Wir sind noch weit davon entfernt, das Überwachungskameras automatisch erkennen wo „Kriminelle Handlungen“ passieren. Auch wenn Bilder aus Minority Report irgendwie in jeden Bericht über Programme die die Polizei einsetzen könnte eingebaut werden hat die Realität damit nichts zu tun. Das Projekt Fightcams kann maximal dabei helfen Personen die viele Videoschirme gleichzeitig beobachten müssen auf potentiell „interessante“ Dinge hinzuweisen. Dabei ist die Erfolgsquote aber noch viel zu gering, um sich darauf verlassen zu können. Und selbst wenn Videoqualität und Rechenkapazität bald mehr automatische Analysen in Echtzeit ermöglichen ist eine Vorhersage mehr mediales Hirngespinst als tatsächliche Vision.

  1. Ich kann zu dem Thema folgendes Buch empfehlen: Hempel, L., & Metelmann, J. (2005). Bild, Raum, Kontrolle: Videoüberwachung als Zeichen gesellschaftlichen Wandels. Frankfurt am Main: Suhrkamp. []
  2. Das ist natürlich ein Faktor der mit der technischen Ausstattung der Überwachung zu tun hat und kann sich durchaus ändern, wenn bessere Kameras und Speicherplatz billiger werden []