Auditive Fake News

Wie Kennedy eine Rede nach seinem Tod hielt

US-Präsident John F. Kennedy bei einer Pressekonferenz in Washington am 1. März 1961 © dpa / picture alliance / Arnie Sachs

Von Stefanie Oswalt | 20.06.2018

Schottische Audio-Tüftler haben Ansprachen von John F. Kennedy in winzige Sound-Einheiten aufgeschlüsselt und neu kombiniert. Daraus entstehen Reden, die nie gehalten wurden. Erzeugt diese Technik künftig vermeintlich neue Quellen und Fake News?

"All free men, whereever they may live are citizens of Berlin and therefore as a free men, I take pride in the words: Ich bin ein Berliner!" (aufbrandender Jubel)

Sätze, die zu einem Mythos geworden sind: Der amerikanische Präsident John F. Kennedy am 26. Juni 1963 vor dem Rathaus Schöneberg in Berlin.

"My friends and fellow-citizens, I cite these facts and figures to make it clear, that America today is stronger than ever before..."

Sätze, die nie zu einem Mythos werden konnten: Denn diese Rede vor dem Citizen’s Council, dem Bürgerrat von Dallas, hat Kennedy nie gehalten, weil er am 22. November 1963 im offenen Wagen bei einer Fahrt durch die Stadt erschossen wurde. Rekonstruiert wurde Kennedys Stimme mit modernster digitaler Technik, einem so genannten Text-to-Speech Verfahren, erklärt Carolin Edler-Mende. Sie ist Mathematikerin und Geschäftsführerin der Firma Aristech in Heidelberg, eine Partnerfirma der schottischen Firma Cereproc, die die Kennedy-Stimme rekonstruiert hat:

"Text-to-speech-Stimmen sind eben Computerstimmen, denen man Text eingibt und die den dann entsprechend vorlesen. Und um solche Stimmen zu erstellen braucht man Audio-Material, je mehr man hat, desto besser. Wir gehen davon aus: Mit so 1000 Sätzen kann man eine Stimme erstellen."

Wichtig dabei ist, dass man nicht nur alle Laute, sondern vor allem alle Lautübergänge abdeckt, erklärt Mende:

"Sagen wir mal, wir gehen von 40 Lauten aus, dann habe ich 40 mal 40 Lautübergänge, wobei – manche gibt es nicht, aber einen Großteil davon muss ich tatsächlich abdecken. Das heißt, ich habe in dem Fall 1600 Lautübergänge. Und die nehme ich nicht einzeln auf, sondern die müssen in fließender Sprache 1.00 Jetzt ist es aber so: Wenn man klassischerweise Text-to-speech-Stimmen erstellt,... dann geht man mit einem Sprecher in ein Tonstudio und versucht, möglich in einer konstanten Umgebung sehr konsistente Sprachaufnahmen mit demjenigen zu machen. Wenn man jetzt so eine historische Stimme erstellen will, dann kann man da ja nicht mehr dran rütteln, dann hat man das Audiomaterial, das man hat."

Klangpartikel müssen zusammenpassen

831 Reden und Radioansprachen Kennedys haben die schottischen Audio-Tüftler in 116.777 Soundeinheiten aufgeschlüsselt und neu zusammengesetzt. Klangpartikel von wenigen hundertstel Sekunden, die aber genau zusammenpassen müssen, damit eine künstliche Stimme menschlich klingt. Eine beeindruckende Technik-Demonstration und damit auch ein Marketingerfolg, sagt Unternehmerin Edler-Mende. Aber wie werden solche vermeintlich historischen Dokumente unsere Geschichtsschreibung beeinflussen?

Darüber macht sich auch Daniel Morat Gedanken, er ist Historiker an der Freien Universität Berlin. Morat erforscht, wie auditive Quellen unsere Wahrnehmung und Interpretation von Geschichte beeinflussen.

"Das berühmte ‚Ich bin ein Berliner’ ist natürlich eine auditive Ikone, wenn man so will, also ein Satz, den Millionen von Menschen im Ohr haben, und der auch aufgerufen wird, wenn der Name Kennedy fällt. So wie ‚Mr. Gorbachov open this gate’ von Reagan oder ‚Yes we can’ von Obama, oder um jetzt mal nicht nur amerikanische Präsidenten zu nehmen: ‚im Hintergrund müsste Rahn schießen, Rahn schießt – Tooor!’ von Bern ‚54...."

Auditive Quellen suggerieren Nähe und lösen Emotionen aus. Negative etwa bei Hitler-Reden oder Bombenalarmsirenen – positive bei Kennedy oder Günter Schabowski, der die Öffnung der Berliner Mauer ankündigt. Allerdings sollten Historiker auditive Quellen und ihre Entstehung immer hinterfragen, meint Morat:

"Diese Idee der Echtheit, die muss man eben kritisch überprüfen, weil – so wie jetzt unsere Interviewsituation auf eine ganz bestimmte Weise inszeniert ist, so sind ja auch vergangene Tonaufnahmen produziert worden. Wenn man als Historiker sich kritisch mit solchen Stimmen beschäftigt, muss man halt immer versuchen herauszukriegen, unter welchen Bedingungen wurde das aufgenommen? – Wusste die Person, dass sie aufgenommen wird oder nicht. Redet die ganz absichtlich für die Aufnahme so oder ist das eben eher eine beiläufige Aufnahme gewesen oder ähnliches."

Irreführung der Historiker

Auditive Quellen sind wie Schriftquellen seit jeher für Manipulationen anfällig: So können etwa Textpassagen weggeschnitten werden. Die Auslassung allein des Wortes "nicht" kann den Sinn eines Satzes komplett umkehren. Aber auch der Kontext der Entstehung, sagt Morat, müsse berücksichtigt werden. Beispiel Kaiser Wilhelm II.

"Wir werden diesen Kampf bestehen, auch gegen eine Welt von Feinden. Noch nie ward Deutschland überwunden, wenn es einig war. Vorwärts mit Gott, der mit uns sein wird, wie er mit den Vätern war!"

So der Aufruf, den Kaiser Wilhelm am 6. August 1914 zum Ausbruch des Ersten Weltkriegs veröffentlichen ließ – eingesprochen hat er ihn allerdings erst im Januar 1918, da zeichnete sich längst ab, dass der Krieg gar nicht mehr zu gewinnen war – eine Irreführung, auf die der Historiker achten muss. In der neuen Text-to-Speech-Technologie sieht Sound-Historiker Morat weniger eine Gefahr für Historiker als vielmehr eine für Journalisten.

"Als politischer Zeitgenosse würde ich natürlich sagen: Das ist tatsächlich ein Riesenproblem: Das was jetzt als Fake News oder postfaktisches Zeitalter benannt wird, das wird dadurch natürlich noch verschärft und in aktuellen Nachrichtensituationen: also die Personen, die damit am meisten Probleme haben, sind dann eben Journalistinnen und Journalisten, die dann prüfen müssen, kann das richtig sein – und zwar unter einem sehr hohen Zeitdruck."

"Meine Stimme kann man nicht einfach klonen"

Unternehmerin Carolin Edler-Mende glaubt allerdings kaum, dass die Technologie künftig dazu verwendet wird, um Stimmen wichtiger Persönlichkeiten des öffentlichen Lebens zu kopieren. Zum einen sei der Prozess viel zu aufwändig und damit zu teuer, außerdem sei die persönliche Stimme geschützt.

"Was man auch sagen muss, ist: Um so eine Stimme zu erstellen, brauche ich ja wirklich Daten. Das heißt: Wenn ich als Sprecher wollte, dass es möglich ist, dann könnte ich das machen, dann würde ich ein paar Wochen ins Studio gehen und sehr viel Text einsprechen. Aber: Meine Stimme kann nicht einfach geklont werden, ohne dass es Audiodaten von meiner Stimme gibt."

Wirkliche Gefahren sieht sie erst, wenn es möglich wird, mit künstlichen Stimmen intelligente Dialoge zu führen, weil sie die Bedeutung des Gesagten verstehen:

"Was noch komplett fehlt, ist wirklich das semantische Verständnis von Maschinen. Und darauf basierend könnte man erst wirklich diese Stimme einsetzen, um einen Dialog zu führen – und ich denke, da würde dann die Gefahr liegen – aber das sehe ich erst mal nicht kommen."