Diktieren statt tippen

Von Wolfgang Nitschke | 14.03.2007

Einen persönlichen elektronischen Sekretär verspricht eine Software-Firma aus München. Dieser Sekretär heißt „ViaVoice“ und soll, wenn man erst einmal mit ihm trainiert hat, rund 95 Prozent aller diktierten Worte richtig verstehen und korrekt mittippen. Zurzeit hat er aber noch mit Dialekten zu kämpfen.

München-Pasing. Eigentlich nicht die Gegend, in der sich Hightech und Computerfirmen ansiedeln. In einem eher unscheinbaren Haus, direkt am Pasinger Bahnhof residiert die Firma Linguatec, die zusammen mit IBM Computersoftware entwickelt. Zwei Standbeine hat die Firma: Den „Personal Translator“ – ein Programm, welches Dokumente vom Deutschen ins Englische oder Französische und umgekehrt übersetzen kann, und „ViaVoice“.

Tippen muss man auf der Tastatur nicht mehr, wenn man sich das Programm gekauft hat. „Sie sprechen, ViaVoice tippt“, steht auf der Packung und so ist es im Prinzip auch. Ganz so einfach, wie es sich anhört ist es aber dann doch nicht. Man muss die Software zunächst einmal trainieren, erläutert Angelika Döring.

„Ein Script hat 200 Sätze. Hier sehen Sie immer die Satznummer. Das hier ist Satz Nummer 1. Sie müssen alles diktieren, auch die Satzzeichen wie Punkt, Komma, Doppelpunkt, Bindestrich und Gedankenstrich. Sonst bitte ich Sie, dass Sie ganz normal sprechen, ganz normal diktieren, wie Sie sonst auch sprechen.“

„Wegen seiner Vergangenheit und seines wirtschaftlichen Einflusses versagte die SPD der Stadt Bonn Abs die Ehrenbürgerschaft. Punkt.“

Sehr gut, so sieht es gut aus, prima..“

Dutzende Sätze folgen – es geht um Politik, Sport, Gesellschaft, Wirtschaft. Manche Sätze haben auch gar keinen Sinn, aber alle Sätze beinhalten das so genannte Grundvokabular und darauf kommt es an. Und in diesem Fall geht es nicht nur darum, dass der Computer mich persönlich versteht, sondern auch darum, so genannte Cluster – also Datenbanken – zu erzeugen, die im Programm mitgeliefert werden. Dr. Reinhard Busch, der Geschäftsführer von Linguatec:

„Die Cluster werden nach der Stimmhöhe gebildet: Mann, Frau, alte, junge Stimme… und das zweite dann aber auch: gewisse dialektale Abweichungen. Das heißt, was wir momentan machen, ist eine Erweiterung der akustischen Modelle. Wir lassen hier viele hundert Sprecher über mehrere Stunden sprechen und die möglichst aus vielen verschiedenen Bereichen Deutschlands, die sprachlich abgedeckt sind. Und wir bieten dann so genannte Bundesländercluster. Und damit können wir dann jetzt gezielter dialektale Abweichungen erfassen.“

Doch auch der Bayer oder Sachse muss den Computer trainieren und neben dem Dialektcluster ein persönliches Sprachprofil speichern. Sonst schreibt die Textverarbeitung nur wirre Buchstabenkombinationen. Hat man den Rechner aber ausreichend trainiert, erkennt VoicePro seinen Besitzer wieder. Auch wenn der mal einen Schnupfen hat oder morgens etwas heiser ist, denn die wesentlichen Parameter der Stimme ändern sich durch eine leichte Erkrankung nicht. Aber ein Problem gibt es für den Computer.

„Die Variationen eben mit Tageszeit und kleiner Schnupfen – dies kann die Maschine ganz gut ausgleichen. Problem ist mehr, wenn jemand jetzt mal absolut wütend ist. Dann ist seine Sprache plötzlich ganz anders und dann kann auch der Computer mal an die Grenze stoßen, denn auch der Computer ist nur ein Mensch.“

Die neue Software könne 95% des gesprochenen Wortes richtig erkennen – wenn man mit ihr auch die spezifischen Fachbegriffe trainiert, die man persönlich in Beruf oder Privatleben benutzt, und das Wörterbuch ergänzt. 50000 Worte kennt das Programm bei Auslieferung – das Spezialvokabular eines Bilanzbuchhalters, Mikrobiologen oder Mediziners ist aber dadurch nicht abgedeckt.

Möglich gemacht haben die recht genaue Spracherkennung und die Größe der Vokabeldatenbank die neuen PC-Prozessoren und Speicherkapazitäten. Und während die Vorgängerversion mit einem 300 Megahertzprozessor und 128 Megabyte Arbeitsspeicher auskam, braucht VoicePro 11 einen 1,5 Gigahertzprozessor und 512 MB Arbeitsspeicher. Aber die höhere Leistung wird vom Programm nicht nur verlangt, sondern auch genutzt.

„Neben akustischen Modellen gibt es auch Sprachmodelle, und die funktionieren nach dem Prinzip der Wahrscheinlichkeitstheorie. Es gibt beispielsweise Trigramme, dass sind Wortfolgen von drei Worten. Nehmen wir mal ein Beispiel: „Mit freundlichen“ – bei „mit freundlichen“ ist die Wahrscheinlichkeit, dass das dritte Wort „Grüßen“ ist, bei etwa 40 Prozent. Und so bilden wir nun einen Vektor mit Übergangswahrscheinlichkeiten von Wort 1 auf Wort 2 und auf Wort drei. Das ganze explodiert ganz schnell! Der muss pro Hypothese 50000 Berechnungen in einer kleinen Zeiteinheit machen. Ist der Prozessor jetzt wesentlich leistungsfähiger, dann kann ich auch bis auf Pentagrammebene gehen. Und das passiert jetzt eben durch die moderne PC-Architektur.“

Bis zu fünf Wörter denkt der PC also nun im Voraus. Mit „ich gehe“ assoziierte die Software bislang „nach“ oder „zu“. Nun wird aber auch „davon aus, dass“ gleich mitvermutet und sozusagen als wahrscheinliche Möglichkeit angenommen.

Im Focus der Entwicklung von Spacherkennungssoftware für Computer steht aber nicht nur, die Systeme leistungsfähiger, sondern auch unabhängig vom Sprecher zu machen. Das Ziel: Der Sprecher, egal ob jung oder alt, Mann oder Frau, soll ohne Trainigsvorlauf diktieren können. Im Kleinen funktioniert das schon jetzt. In Callcentern oder beim Fahrkartencomputer der Bahn. Aber es ist noch ein langer Weg, bis die Systeme perfekt sein werden.

„Tut mir leid, ich habe Sie leider nicht verstanden“

Zur Startseite

Diktieren statt tippen

Programm

Hören

Service

Kontakt

Über uns