Mit Geräten sprechen

Von Po Keung Cheung |
Große Konzerne wie die Telekom und Google beschäftigen sich schon seit längerem mit der Entwicklung von Technologien zur Spracherkennung. Bereits heute lassen sich manche Geräte durch Spracheingabe steuern, und auch bei der Übersetzung zwischen zwei Sprachen gibt es Fortschritte.
Es gibt viele Situationen, in denen es sinnvoll ist, die Sprache einzusetzen, um Technik zu steuern, etwa wenn keine Hand frei ist, um eine Tastatur zu bedienen oder wenn der Blick aufs Display zu sehr ablenken würde, beispielsweise beim Autofahren. Aus diesen Gründen werden Spracherkennung und -ausgabe seit Jahren ständig weiterentwickelt, etwa von Google für seine Suchmaschine und sogar für die Übersetzung. Künftig will das Unternehmen sogar das Übersetzen von Telefongesprächen in Echtzeit ermöglichen.

In einem Hochhaus mitten in Berlin befindet sich "T-Labs", ein gemeinsames Forschungs- und Entwicklungsinstitut der Telekom und der Technischen Universität Berlin. Hier arbeiten Studenten und Wissenschaftler an der Technik von morgen. In einem Demonstrationsraum steht Doktorandin Julia Niemann an einem Auto-Armaturenbrett, das mit Bildschirm, Navigationssystem und Smartphone ausgestattet ist. Alles kann per Sprache bedient werden.

"Main Menu. Infotainment! News! Business! Researching GM posts 2010 profit effort 2.7 billion dollars…"

Noch ist das System ein Prototyp, es hört bislang nur auf englische Sprachbefehle. Auf Kommando liest es Nachrichten, Straßennamen oder E-Mails vor. In vielen Fällen funktioniert das ganz gut, aber eben nicht immer. Tücken, die auch Google kennt. Das Unternehmen entwickelt gerade Anwendungen, bei denen die Ein- und Ausgabe per Sprache erfolgen kann. Google Translate, ein Übersetzungsprogramm. Es kann jetzt auch gesprochene Texte erkennen, übersetzen und vorlesen. Eine komplizierte Angelegenheit, meint Sebastian Möller, Professor bei "T-Labs" und einer der Experten für Sprachtechnologie in Deutschland. Die Verknüpfung von menschlicher Sprache mit der Technik sei eine Sisyphos-Arbeit.

"Zunächst muss man sehr viel Sprachmaterial sammeln, man muss Sprache analysieren, menschliche Sprache analysieren, um rauszukriegen, was sind eigentlich die Unterschiede, was möchte ein Mensch in einer bestimmten Situation sagen. Das Vokabular muss man festlegen, die Grammatik muss man festlegen und dann kann man sinnvoll Sprache erkennen. Das heißt, man muss sehr viel beobachten, was Menschen in ihrem Zusammensein tun, und dann daraus eben die entsprechenden Schlüsse für die Spracherkennung ziehen."

Dennoch wagt sich Google auf den Markt. Die Anwendungen sind zum Teil verfügbar, etwa die neuen Versionen von Google Maps oder Google Translate. In der Praxis zeigt sich, dass die Software fortgeschritten ist. Denn im Vergleich zu früheren rudimentären Systemen, die nur einige bestimmte Wörter erkennen konnten, kommt Google Voice mit ganzen Sätzen zurecht. Allerdings ist schnell zu merken dass die Technik noch in den Kinderschuhen steckt, wie Doktorand Tim Polzehl an seinem iPhone demonstriert.

"Typische Situation, ich stehe auf dem Bahnhof und gebe jetzt folgenden Satz ein: Bitte buchen Sie mir einen Zug um drei Uhr nach Hannover. Schauen wir mal, was jetzt passiert. "Please book a train by three clock at night yet”. Hmm, ein Großteil wurde erkannt, "nach Hannover” scheint ein Problem zu sein, da Eigennamen oftmals ein Problem darstellen. Eigennamen, Abkürzungen alles, was nicht zur Standardsprache gehört oder was besonders ist, an der Standardsprache, ist ein Problem bei der Übersetzung."
Auch Hintergrundgeräusche, Dialekte oder zu hohes Sprechtempo bringen die Software schnell aus dem Tritt. Da klingt ein weiteres Projekt von Google, Telefongespräche in Echtzeit zu übersetzen, schon sehr ambitioniert. In Deutsch am einen Ende hineingesprochen, am anderen Ende direkt in Französisch ausgegeben, das klingt ein wenig nach "Universalübersetzer" aus Raumschiff Enterprise. Aber: Erste Tests zwischen Englisch und Spanisch seien erfolgreich, hieß es kürzlich im Google-Firmenblog.

"For example: I’m speaking in English right now and when I press "Stop”, it will translate and speak back into Spanish. Por ejemplo…"

Trotzdem glaubt Sebastian Möller von T-Labs, dass der Weg noch sehr lang sein wird:

"Das ist sehr ambitioniert und da sind wir auch noch zum gewissen Grade von entfernt. Das wird nie hundertprozentig in Echtzeit funktionieren, weil ich zunächst immer mal das Ende eines Satzes abwarten muss, um ihn dann in eine andere Sprache zu übersetzen. Im Deutschen ist das Verb am Ende, im Englischen ist es irgendwo am Anfang und dann muss ich natürlich erst den Satz abwarten, das heißt, es wird immer eine Zeitverzögerung geben. Das liegt aber nicht an der Technik, sondern das liegt an der menschlichen Sprache."

Dass sich die Sprachsteuerung durchsetzen wird, daran haben die Wissenschaftler keine Zweifel. Nicht nur die Ansätze von Google sind vielversprechend. So zeigt die Telekom, wie sie sich Sprachsteuerung vorstellt: Die Technik als ganz normaler Gesprächspartner.

"Willkommen Peter Müller! Ihr nächster Termin: Abstimmung Nachhaltigkeit. Soll ich die Navigation dorthin starten? Ja! Die Zielführung wird gestartet. Mimi! Ja? Spiele Rockmusik! Rockmusik wird gespielt. Mimi! Ja? Stopp! Gerne!"

Auch zuhause werden wir nach den Vorstellungen der Entwickler irgendwann mit den Geräten sprechen, um sie zu steuern, zum Beispiel mit dem Fernseher, um einen Film in einer Online-Videothek zu suchen.

"Suche Filme mit Steve Martin! Zwei Filme mit Steve Martin gefunden. Spiele den Film "Vater der Braut"!"

Allerdings werde die die Kommunikation zwischen Mensch und Technik niemals wirklich vollkommen sein, sagt T-Labs Doktorand Tim Pozehl:

"Ich denke, es schon mehr oder weniger Normalität werden. Wir werden in diese Systeme rein sprechen, wir werden mehr oder weniger gute Qualität erhalten. Mit Fehlern müssen wir definitiv heute und auch in der Zukunft leben, wir werden mehr potenziell machen können, aber perfektionieren werden wir es nicht können."

Aber sie wird hilfreich sein. Weltweite Telefonate ohne Barrieren dank Spracherkennung und -ausgabe. Noch ist das Zukunftsmusik, aber wie die Forschung zeigt, wohl nicht mehr lange.


Links auf dradio.de:

"Thema" vom 5.10.2011: Wettervorhersage auf Zuruf - Apples neues iPhone wartet mit einer Spracherkennung auf

"Elektronische Welten" vom 28.9.2011: Wenn Computer telefonieren - Forscher wollen Sprachdialogsysteme verbessern

"Forschung aktuell" vom 2.9.2011: Meine Wohnung spricht mit mir - Die Uni Ulm forscht am intelligenten Haus
Mehr zum Thema