Wenn der Computer wie ein Mensch spricht

Von Dirk Asendorpf |
In der Warteschleife, bei der Durchsage am Bahnhof, in der Musik - immer häufiger sind Computerstimmen im Einsatz. Die Hersteller von Sprachsynthesesoftware können heute schon fast jede Stimme klonen.
"Auf Gleis sieben wird für Sie bereitgestellt: Intercity 1995 nach Frankfurt am Main, Hauptbahnhof."

Die Zugansagen am Bahnsteig hat längst eine Retortenstimme übernommen, und auch in den meisten Telefonwarteschleifen wird man von einer eisernen Lady aus dem Computer begrüßt. In immer mehr Informations- und Auskunftsdiensten kommt künstlich per Software zusammengefügte Sprache zum Einsatz – und nervt die Nutzer.

"Niemand mag Computerstimmen, die wie solche klingen."

Text-to-Speech heißt die Technik, die geschriebene Sprache so wie in dieser Werbebotschaft der Heidelberger Softwarefirma Aristech in gesprochene übersetzt.

"Wir haben uns daher erfolgreich der optimierten Sprachsynthese verschrieben. So natürlich wie möglich soll die Ausgabe klingen, die auf Text-to-Speech (TTS) Technologie basiert."

Alex heißt die dabei eingesetzte Kunststimme. Sie sagt zum Beispiel auch die aktuellen Staumeldungen auf der Telefonhotline von SWR3 an.

"Die A5 Karlsruhe Richtung Frankfurt ist zwischen Weiterstadt und Langen-Mörfelden wegen Bergungsarbeiten gesperrt, drei Kilometer Stau."

Michael Mende ist Geschäftsführer von Aristech.

Michael Mende: "Wir machen dann ein Skript, das heißt, wir bauen 1.000 Staumeldungen, die typisch für die Struktur einer Staumeldung sind. Und wenn Sie da anrufen beim SWR3, dann denken Sie wirklich, da sitzt der Alex und liest das Ganze vor. Nur wenn Sie mal ganz außerordentliche Situationen abwarten und anrufen, dann merken Sie: Ah ja, ist doch ne Sprachsynthese."

"Am Kreuz Neunkirchen auf der Überleitung zur A8 Richtung Neunkirchen steht ein defektes Fahrzeug."

Mindestens zehn, manchmal auch 20 Stunden lang muss ein Profisprecher im Tonstudio den eigens erstellten Text vorlesen, um die Datenbank mit Aussprachebeispielen zu füllen. Alle Standardmeldungen sind damit abgedeckt, der Rest wird aus möglichst langen Bausteinen aus der Datenbank zusammengesetzt. Worte, die sich dort gar nicht finden, werden aus sogenannten Diphonen gebildet, das sind kleine akustische Einheiten, die von der Mitte eines Lautes bis zur Mitte des nächsten Lautes reichen. Am Schluss werden die Übergänge mit einer speziellen Software geglättet. Obwohl ursprünglich von einem Menschen gesprochen, klingt das immer noch nicht richtig menschlich. Der Phonetiker Bernd Möbius von der Universität des Saarlandes untersucht die Gründe dafür.

Bernd Möbius: "Menschen wissen, was bereits gegebene Information ist, und welche Information neu ist. Und in Abhängigkeit von diesem Neuigkeitszustand passe ich meine Prosodie an, das heißt meine Sprachmelodie. Neue Information wird hervorgehoben, ich spreche ein bisschen langsamer, vielleicht auch lauter und Elemente im Satz, die bereits gegeben sind, kann ich deakzentuieren. Ich kann da schnell reden, ich kann das abschwächen. Das Sprachsynthesesystem versteht nichts."

Trotzdem macht die Technik Fortschritte. Den Inhalt eines Textes wird sie zwar wohl auch in 20 Jahren noch nicht verstehen. Doch die Zahl der in Datenbanken abgelegten Aussprachebeispiele wächst rasant.

Möbius: "Speech Optimizer ist lernfähig in Aussprache und Prosodie; das größte Lexikon deutscher Gegenwartssprache, das der Anwendung zugrunde liegt, wird dadurch stetig erweitert und verbessert."

Drei Viertel des Weges zur menschlichen Stimme hätten Forschung und Entwicklung bereits zurückgelegt, meint Bernd Möbius. Doch damit tut sich ein neues grundsätzliches Problem auf.

Möbius: "Menschliche Benutzer von Dialogsystemen und Auskunftsystemen erwarten eigentlich nichts anderes als eine perfekt natürlich klingende Stimme, sonst lehnen sie häufig diese Anwendungen ab. Paradoxerweise möchten sie aber eigentlich auch nicht hinters Licht geführt werden, sie möchten dennoch wissen, dass sie nicht mit einem Menschen sprechen, sondern mit einer Maschine."

Von dieser Regel gibt es jedoch eine Ausnahme, und zwar im Bereich der Medizin.

Möbius: "Menschen, die ihre Stimme durch eine Kehlkopfoperation verlieren, sollten Aufnahmen ihrer eigenen Stimme erstellen mit professioneller Unterstützung; und die synthetische Stimme, die sie dann abspielen können, hat zumindest den gleichen Klang wie ihre ursprüngliche Stimme."

Für Menschen ohne Kehlkopf wäre es ein Segen, wenn sich die Technik der Sprachsynthese weiter verbessert. Rundfunksprecher und Schauspieler fürchten sich eher davor. Michael Mende bekommt es zu hören, wenn er sie in sein Tonstudio bittet.

Michael Mende: "Professionelle Sprecher sind immer ganz sensibel was Sprachsynthese anbelangt. Weil da ist immer so die Angst da: Die klonen jetzt meine Stimme und dann bin ich nicht mehr erforderlich. Aber tatsächlich: Wir sind heute an nem Stand, wo es darum geht, Informationen bereitzustellen für irgendjemand, wo es nicht auf die Intonationsqualität ankommt, sondern nur drum, dass man das gut versteht. Wir können keine Hörbücher vertonen."

Jedenfalls noch nicht. Hans-Joachim Hübner ist Vertriebsleiter bei Sikom in Hannover, einem weiteren Anbieter von Sprachsynthesesoftware. Für ihn ist es ein Verkaufsargument, dass sich mit den neuen technischen Möglichkeiten auch Sätze sauber zusammenstellen lassen, die der Sprecher selber nie formuliert hatte.

Hans-Joachim Hübner: "Bei einem Kunden von mir ist es passiert, dass sie alle Texte fertig hatten, dann ist der, der den Text gesprochen hat, verstorben. Und die mussten wieder von vorne anfangen. Dann haben sie sich überlegt: Was machen wir, dass uns das nicht wieder passiert? Dann sind sie auf Text-to-speech gegangen."

Michael Mende hat bereits Dutzende Stimmen in seiner Datenbank gespeichert. Auf Wunsch lesen sie jeden beliebigen Text vor, den er in seinen Computer tippt.

Mende: "In der Tat können wir heute jede Stimme klonen – oder fast jede. Ich hab von meiner Tochter ne Stimme hier, ich kann eintippen: Ja Papa, Du hast immer recht. Und dann sagt meine Tochter das. Das würde ich in der Realität nie hören. Wie man das missbrauchen könnte, da hat man sich noch nicht so viel Gedanken drüber gemacht."

Mehr zum Thema:

Elektronische Welten 2012-09-12 - "Ich habe Sie verstanden"
Künftige Sprachcomputer können Emotionen erkennen *

Elektronische Welten 2011-09-28 - Wenn Computer telefonieren
Forscher wollen Sprachdialogsysteme verbessern *