Eine Software - viele Anwendungsbereiche
Von Thomas Gith · 25.06.2012
Für Linguisten ist es eine mühevolle Angelegenheit, eine Sprache zu analysieren. Sehr beliebt sind Videoaufnahmen von Sprechsituationen, doch die Auswertung dauert lange. Deutsche Wissenschaftler haben jetzt eine Software entwickelt, mit der die Analyse in Echtzeit erfolgt.
Informatiker Oliver Schreer sitzt vor einem Laptop und öffnet die Software ELAN. Auf dem Bildschirm erscheint die Benutzeroberfläche des Programms, mit dem Linguisten Filmaufnahmen auswerten können: Oben links befindet sich ein kleines Videofenster, daneben ein Fenster mit verschiedenen Reglern, darunter eine Zeitleiste, in der die Sprach- und Bewegungsinhalte des Videos notiert werden können. Die Forscher sprechen dabei von Annotationen: Also den erläuternden Notizen zu den Aufnahmen. Die verschiedenen Elemente des Programms lassen sich dabei beliebig variieren.
"Ich kann hier zum Beispiel das Videofenster vergrößern, so dass ich besser sehe, was in dem Video passiert. Ich kann hier durch Drücken einer Taste und mit dem Scrollrad, kann ich zum Beispiel die Zeitleiste vergrößern, so dass ich jetzt alle Annotationen des gesamten Videos sehe, oder ich kann mich reinzoomen in den entsprechenden Zeitabschnitt."
In der Zeitleiste können auf einer Spur die gesprochenen Wörter notiert werden, darunter werden die Bewegungen der Hände wie Winken oder Streichen schriftlich festgehalten – wie bei dieser Auswertung.
Bei dieser Film- und Tonaufnahme etwa gibt ein Mann einem anderen Mann auf Englisch eine Wegbeschreibung. Er redet, hebt dabei die Hände, zeigt mit den Armen zur Seite – und all das wird automatisch im Programm erfasst. Zu jedem Wort lassen sich so Bewegung und Gestik zuordnen, die Zusammenhänge von gesprochener Sprache und Körpersprache also genau erforschen.
Die Wissenschaftler müssen dafür nur angeben, was annotiert werden soll: Beispielsweise die Bewegungen von Kopf und Händen. Das Programm erkennt dann, wann und in welche Richtung sich Hände und Gesicht bewegen und vermerkt alles automatisch in der Zeitleiste, sagt Oliver Schreer.
"Ja, die wesentliche Idee, wie wir hier Hände und das Gesicht erkennen, basiert auf der Hautfarbe. Die Hautfarbe ist sehr charakteristisch und wenn man sozusagen die bewegten Bereiche im Video erkennt, die auch gleichzeitig der Hautfarbe sehr ähnlich sind, dann kann man sehr robust auch diese Bereiche dann Händen und dem Gesicht zuordnen."
Ist die Analyse abgeschlossen, dann lassen sich über eine Suchfunktion beispielsweise all jene Bereiche im Video anzeigen, in denen der Sprecher die rechte Hand hebt. Für das Verständnis von Sprachen ist das unerlässlich, sagt Peter Wittenburg vom Max-Planck-Institut für Psycholinguistik:
"Sie können auch sagen, dass zum Beispiel die Gestik in Sprachen in Südamerika viel wichtiger ist als in unserer Sprache. Und wenn sie also bestimmte Sätze verstehen wollen, dann müssen sie also genau aufpassen, was die Hand macht, und also muss auch die Gestik annotiert werden, wenn man also verstehen will, was dort passiert in dem Video oder Audio."
Die Wissenschaftler sparen durch die automatische Auswertung vor allem viel Zeit. Schließlich kann nach der Aufnahme im Feld direkt in die Analyse beginnen. Die automatische Videoauswertung lässt sich aber beispielsweise auch im Sicherheitssektor einsetzen. Denn die Software kann das Bewegungsverhalten großer Menschenmengen in Sekundenschnelle analysieren. Fraunhofer-Forscher Stefan Wrobel:
"Denken wir zurück an ein schweres Unglück, wie wir es ja bei der Loveparade hatten. Wenn man die Videobänder hier analysiert, dann kann man zeigen, und wir haben das getan, dass man schon 15 bis 20 Minuten bevor tatsächlich das Unglück sich abspielt, Anomalien, also Auffälligkeiten in den Bewegungsmustern feststellen kann. Zu diesem Zeitpunkt hätte man also schon ein Warnsignal erzeugen können, das dann möglicherweise dazu beigetragen hätte, rechtzeitig noch Maßnahmen zu ergreifen. Also ein sicherlich für die Zukunft bei allen Großveranstaltungen wichtiger Einsatz dieser Technologie."
Für so eine Sicherheitskontrolle bei Großveranstaltungen sind lediglich gewöhnliche Kameraaufzeichnungen nötig. Analysiert wird dabei das Gruppenverhalten - einzelnen Personen werden also nicht beobachtet. Allerdings: Konsequenzen aus der Analyse ziehen letztlich Menschen – und deshalb müssen alle Daten zunächst einmal zentral zusammengeführt werden.
"Dazu braucht man natürlich eine entsprechend ausgestattete Leitzentrale. Und an solchen Dingen arbeiten wir bei Fraunhofer, die so zusammenzustellen, dass sie zu vertretbaren Kosten dann leistungsfähig genug ist, um solche Dienste anbieten zu können."
Die Grundlage dieser Analyse ist dieselbe wie bei ELAN: Die Software erkennt das Bewegungsverhalten von Menschen und kann wiederkehrende Muster identifizieren: Also etwa spezielle Kopfbewegungen oder auch Mimik. Oliver Schreer ist zuversichtlich, dass die Software künftig sogar die Sprachbedeutung einzelner Gesten entschlüsseln kann – jedenfalls dann, wenn diese klar definiert sind.
"Ja, eine Zukunftsvision ist, ein Videokommunikationssystem zu entwickeln für Gehörlose. Das heißt, dass man tatsächlich Gebärden, die Gehörlose zeigen, dass die dann tatsächlich in gesprochene Sprache übersetzt werden. Also ein Gebärdenübersetzer."
Die Kommunikation zwischen Gehörlosen und Hörenden ließe sich so deutlich vereinfachen. Noch ist das eine Zukunftsvision – doch mit der automatischen Videoauswertung für die Sprachwissenschaftler ist ein erster Schritt in diese Richtung gemacht.
"Ich kann hier zum Beispiel das Videofenster vergrößern, so dass ich besser sehe, was in dem Video passiert. Ich kann hier durch Drücken einer Taste und mit dem Scrollrad, kann ich zum Beispiel die Zeitleiste vergrößern, so dass ich jetzt alle Annotationen des gesamten Videos sehe, oder ich kann mich reinzoomen in den entsprechenden Zeitabschnitt."
In der Zeitleiste können auf einer Spur die gesprochenen Wörter notiert werden, darunter werden die Bewegungen der Hände wie Winken oder Streichen schriftlich festgehalten – wie bei dieser Auswertung.
Bei dieser Film- und Tonaufnahme etwa gibt ein Mann einem anderen Mann auf Englisch eine Wegbeschreibung. Er redet, hebt dabei die Hände, zeigt mit den Armen zur Seite – und all das wird automatisch im Programm erfasst. Zu jedem Wort lassen sich so Bewegung und Gestik zuordnen, die Zusammenhänge von gesprochener Sprache und Körpersprache also genau erforschen.
Die Wissenschaftler müssen dafür nur angeben, was annotiert werden soll: Beispielsweise die Bewegungen von Kopf und Händen. Das Programm erkennt dann, wann und in welche Richtung sich Hände und Gesicht bewegen und vermerkt alles automatisch in der Zeitleiste, sagt Oliver Schreer.
"Ja, die wesentliche Idee, wie wir hier Hände und das Gesicht erkennen, basiert auf der Hautfarbe. Die Hautfarbe ist sehr charakteristisch und wenn man sozusagen die bewegten Bereiche im Video erkennt, die auch gleichzeitig der Hautfarbe sehr ähnlich sind, dann kann man sehr robust auch diese Bereiche dann Händen und dem Gesicht zuordnen."
Ist die Analyse abgeschlossen, dann lassen sich über eine Suchfunktion beispielsweise all jene Bereiche im Video anzeigen, in denen der Sprecher die rechte Hand hebt. Für das Verständnis von Sprachen ist das unerlässlich, sagt Peter Wittenburg vom Max-Planck-Institut für Psycholinguistik:
"Sie können auch sagen, dass zum Beispiel die Gestik in Sprachen in Südamerika viel wichtiger ist als in unserer Sprache. Und wenn sie also bestimmte Sätze verstehen wollen, dann müssen sie also genau aufpassen, was die Hand macht, und also muss auch die Gestik annotiert werden, wenn man also verstehen will, was dort passiert in dem Video oder Audio."
Die Wissenschaftler sparen durch die automatische Auswertung vor allem viel Zeit. Schließlich kann nach der Aufnahme im Feld direkt in die Analyse beginnen. Die automatische Videoauswertung lässt sich aber beispielsweise auch im Sicherheitssektor einsetzen. Denn die Software kann das Bewegungsverhalten großer Menschenmengen in Sekundenschnelle analysieren. Fraunhofer-Forscher Stefan Wrobel:
"Denken wir zurück an ein schweres Unglück, wie wir es ja bei der Loveparade hatten. Wenn man die Videobänder hier analysiert, dann kann man zeigen, und wir haben das getan, dass man schon 15 bis 20 Minuten bevor tatsächlich das Unglück sich abspielt, Anomalien, also Auffälligkeiten in den Bewegungsmustern feststellen kann. Zu diesem Zeitpunkt hätte man also schon ein Warnsignal erzeugen können, das dann möglicherweise dazu beigetragen hätte, rechtzeitig noch Maßnahmen zu ergreifen. Also ein sicherlich für die Zukunft bei allen Großveranstaltungen wichtiger Einsatz dieser Technologie."
Für so eine Sicherheitskontrolle bei Großveranstaltungen sind lediglich gewöhnliche Kameraaufzeichnungen nötig. Analysiert wird dabei das Gruppenverhalten - einzelnen Personen werden also nicht beobachtet. Allerdings: Konsequenzen aus der Analyse ziehen letztlich Menschen – und deshalb müssen alle Daten zunächst einmal zentral zusammengeführt werden.
"Dazu braucht man natürlich eine entsprechend ausgestattete Leitzentrale. Und an solchen Dingen arbeiten wir bei Fraunhofer, die so zusammenzustellen, dass sie zu vertretbaren Kosten dann leistungsfähig genug ist, um solche Dienste anbieten zu können."
Die Grundlage dieser Analyse ist dieselbe wie bei ELAN: Die Software erkennt das Bewegungsverhalten von Menschen und kann wiederkehrende Muster identifizieren: Also etwa spezielle Kopfbewegungen oder auch Mimik. Oliver Schreer ist zuversichtlich, dass die Software künftig sogar die Sprachbedeutung einzelner Gesten entschlüsseln kann – jedenfalls dann, wenn diese klar definiert sind.
"Ja, eine Zukunftsvision ist, ein Videokommunikationssystem zu entwickeln für Gehörlose. Das heißt, dass man tatsächlich Gebärden, die Gehörlose zeigen, dass die dann tatsächlich in gesprochene Sprache übersetzt werden. Also ein Gebärdenübersetzer."
Die Kommunikation zwischen Gehörlosen und Hörenden ließe sich so deutlich vereinfachen. Noch ist das eine Zukunftsvision – doch mit der automatischen Videoauswertung für die Sprachwissenschaftler ist ein erster Schritt in diese Richtung gemacht.