Der Mimik-Computer

Von Wolfgang Nitschke · 04.11.2008
Computer können heute mehr, als man vor wenigen Jahren noch gedacht hätte. Spracherkennung hilft beim Übersetzen von Texten, ein elektronischer Fingerabdruck öffnet Türen. Doch damit nicht genug: An der TU-München programmieren Forscher den Computer darauf, den Gemütszustand von Menschen zu erfassen.
Schallendes Gelächter im Publikum beim Auftritt eines Komikers. Wir Menschen nehmen das zunächst mit den Ohren wahr. Aber man kann Lachen auch sehen. Wer lacht, hat einen anderen Gesichtsausdruck, weil er sich freut. Sechs Gemütszustände sind nach der Lehre der Psychologie auch im Gesicht zu sehen: Freude, Staunen, Wut, Ekel, Angst und Trauer.

Forscher der TU-München haben nun erreicht, dass auch ein Computer erkennt, welchen dieser Zustände der Benutzer gerade durchlebt. Dr. Mathias Wimmer, Mitarbeiter der Fachgruppe Gesichtserkennung am Lehrstuhl für Informatik der Technischen Universität München:

"Wir nehmen hier das Bild der Person, die vor dem Computer sitzt, auf - das sieht man hier links oben – ich starte das jetzt noch einmal neu: Wie Sie sehen, hat er innerhalb von Bruchteilen von Sekunden mein Gesicht gefunden, also auch die Konturen der Lippen, der Augenbrauen, also die ganzen Gesichtsinterna Und die Konstellation dieser Gesichtsinterna ist sehr wichtig, um nachfolgend Rückschlüsse über die entsprechende Mimik zu ziehen.

Also, ich mache das jetzt mal vor: Wenn ich zum Beispiel lache, dann verändert sich mein Mund. Die Lippen spitzen sich und ziehen sich Richtung Ohren. Und diese Konstellation erkennt der Computer dann und analysiert sie eindeutig als Mimik - nämlich so."

In der Tat erscheint auf dem Bildschirm sofort das Wort "lachen". Bei "böse" funktioniert der Test ebenso gut, und auch "erstaunt" erkennt das Gerät. Trauer, Ekel oder Angst könne das System ebenfalls erfassen, sagt Dr. Matthias Wimmer, nur ist das in einem Interview gerade schwer zu demonstrieren - sagt’s ... und schmunzelt.

Im Gegensatz zu Spracherkennungsprogrammen, die auf eine Stimme geschult werden müssen, erkennt der Mimik-Computer den Gemütszustand einer Person sofort, indem er das gefilmte Gesicht in einer Datenbank mit über 1000 Musterbildern abgleicht.

Spielerei? Keineswegs! Die Forscher haben bereits konkrete Anwendungen für die Mimik-Software im Auge.

"Wir haben unser Projekt in verschiedene Seitenrichtungen noch ausgeweitet: nämlich zum Beispiel, dass wir e-learning-Systeme mit einer Mimikerkennung erweitern können. Dahingehend, dass der Computer, der ja im e-learning meinen Lehrer darstellt, meinen Tutor - dass dieser Tutor auch weiß, wie fühle ich mich gerade, was mache ich gerade. Vielleicht auch - was denke ich gerade im Hinblick darauf: Habe ich die momentane Lektion verstanden, oder nicht?

Wenn ich zum Beispiel einen Fahrlehrer habe, einen computerisierten Fahrlehrer, der sagt mir dann, dass an einer Kreuzung die Regel rechts vor links gilt. Wenn ich aber recht verdutzt dreinschaue, weiß der Computer, dass da noch irgendwie Nachholbedarf besteht."

Und da der Rechner aus dem Gesichtsbild nicht nur die Mimik erkennt, sondern auch die Blickrichtung, lassen sich noch viele andere Anwendungen realisieren. Ein Projekt haben die Forscher bereits mit einem Automobilhersteller getestet.

Das Gesicht des Autofahrers wird vom Computer gefilmt und der erkennt dann daraus, ob der Fahrer konzentriert auf die Straße schaut - oder am Radio rumspielt und mögliche Gefahren nicht erfasst. Dann ertönt ein Warnton oder das Auto bremst von alleine. Und auch die Möglichkeit, dass Rollstuhlfahrer zukünftig mit ihrer Blickrichtung steuern könnten, erscheint nicht unrealistisch.

Weltweit arbeiten viele Forschergruppen daran, dass Computer nicht mehr nur auf die Eingaben auf der Tastatur oder mit der Maus reagieren. Mimikerkennung ist deshalb nur ein Forschungsbereich, Computern oder Robotern Interaktion beizubringen.

Heute ist es bereits möglich, dass Maschinen Sprache erfassen können. Roboter, denen man sagen kann "bring mir das Glas", gibt es bereits - nur müssten sie erkennen, welches Glas gemeint ist - an Mimik oder Gestik.

"Das eigentliche Ziel von unserer großen Vision ist, dass wir sowohl Mimiken erkennen können, also ein Lachen, aber auch die Sprache analysieren - die Audiosignale, ein Kichern - und gleichzeitig auch noch irgendwelche Gestik, die der Mensch mit den Händen oder mit den Armen durchführt. Und diese ganzen einzelnen Daten wollen wir gleichzeitig analysieren, um ein großes System zu erhalten."

Wenn alle Forscher die verschiedenen Ergebnisse zusammenführen, meint Dr. Mathias Wimmer, könnte das große System in zehn Jahren marktreif sein - was bleibt ist aber die Frage, ob es dann auch bezahlbar sein wird.