Wissenschaft

Foto-Synthese mit KI

Die Revolution der künstlichen Bilder

29:27 Minuten

KI-generierte Fotografie eines Mädchen eines Mädchens mit hellen Haaren und einem Affen mit weißem Fell. Das Mädchen hält den Affen im Arm. Der Hintergrund ist dunkel.

Überraschende Kreationen: KI hat einen Kanon von vielen Millionen Bildern und kann nach kurzen Texteingaben schneller als ein Mensch mehrere Vorschläge anbieten. © IMAGO / Addictive Stock / IMAGO / Ignacio Ferrandiz

Von Thomas Reintjes | 15.09.2022

Audio herunterladen

Bildgeneratoren erzeugen mithilfe von KI beeindruckende Bilder. Programme wie Dall-E 2 benötigen dafür nur einige Worte, die ein Bild beschreiben. Die neue Technologie hat viel Potenzial – allerdings auch für Missbrauch. Lässt sich dieser verhindern?

6. April 2022: Das Unternehmen OpenAI stellt Dall-E 2 vor. Die künstliche Intelligenz verwandelt kurze Textingaben in Bilder. Eingaben wie zum Beispiel „Fotorealistische Darstellung einer Astronautin, die auf einem Pferd reitet“ oder: „Ein Teller Suppe, der aussieht wie ein Monster, an eine Wand gesprüht.“ Oder auch: „Eine extrem muskulöse Teekanne“. Und: "Angela Merkel richtet eine Waffe auf einen Pinguin".

Viele der Bilder, die Dall-E 2 generiert, sehen glaubwürdig aus. Viel besser als das, was das gut ein Jahr zuvor vorgestellte Dall-E 1 ausgespuckt hat.

Doch der Zugriff auf Dall-E 2 ist beschränkt. Nur wenige können die Technik testen. Zwei Monate später wird jedoch Dall-E mini zum Hype. Die abgespeckte Open-Source-Variante ist frei verfügbar. In sozialen Medien werden die qualitativ weniger hochwertigen, aber interessanten bis verstörenden Kreationen des später in Craiyon umbenannten Dienstes vielfach geteilt.

Synthetische Bilder wie auf Knopfdruck

Die Kreationen der KIs überraschen. Oftmals übertreffen sie die eigene Vorstellungskraft. Und sie ersetzen das Erlernen von Fotografie, von Malerei oder von digitaler Bildbearbeitung durch nichts weiter als eine einfache Texteingabe.

Synthetische Bilder sind nichts Neues. Neu ist, dass sich diese quasi auf Knopfdruck erzeugen lassen - in einer Qualität, die sich oftmals von handgemachten Bildern nicht mehr unterscheiden lässt.

Eine kurze Texteingabe, ein sogenannter Prompt genügt. Das Wörterbuch übersetzt das englische Wort „prompt“ als Eingabeaufforderung, aber auch als Soufflieren. Als würde man den KI-Systemen etwas einflüstern.

Neue Welten für Computerspiele

„Ich heiße Anne Sigismund und ich bin ein Artist, ich bin ein Game Artist.“ Die dänische Künstlerin bezeichnet sich auch als Concept Artist. Sie entwirft neue Welten für Computerspiele. Ein erstes Konzept, das einen visuellen Eindruck von dem Spiel vermittelt und gestalterische Grundlagen festlegt.

Aus der riesigen Design-Bibliothek in ihrem Kopf müsse sie den Stil auswählen, der am besten zu dem Projekt passt und dabei neue Ideen einfließen lassen, um die gewünschte Stimmung zu transportieren, erklärt sie.

Der Job macht ihr Spaß und sie hofft, bald eine Festanstellung zu bekommen, in der sie genau das machen kann, was ihr am meisten Spaß macht. Als ein Freund vor Kurzem seine eigene Spielefirma gründete, hoffte sie, dort arbeiten zu können.

Aber dann meinte der eines Tages: „Hey, kennst du schon dieses neue Teil?“ Was er damit meinte, war Midjourney, ein weiterer KI-basierter Bildgenerator. Er zeigte ihr einige von Midjourney generierte Bilder. Sie achtet vor allem auf die Hintergründe oder Elemente in der Landschaft, wie sie sie selbst gerne zeichnet – und sie ist beeindruckt.

Den Job an die KI verloren

Ein Grund dafür: Midjourney greift – genau wie die Künstlerin Anne Sigismund – auf all das zurück, was es in der Vergangenheit gesehen hat. Und ähnlich wie die Künstlerin lässt sich die KI von einer Textvorgabe, von einem Konzept inspirieren, um etwas Neues zu generieren.

Nur hat die KI den Vorteil, dass ihr Kanon viel größer ist. Sie wurde mit Hunderten Millionen Bildern trainiert, mehr als ein einzelner Mensch sich je ansehen könnte. Im Vergleich zum Menschen produziert sie Bilder schneller und liefert gleich auch noch verschiedene Varianten mit. Für die kleine Computerspiel-Firma von Anne Sigismunds Freund ist Midjourney deshalb der wirtschaftlichere Concept Artist.

Anne Sigismund ist schnell klar gewesen, dass dies wohl nicht der letzte Job gewesen sein dürfte, den sie an eine künstliche Intelligenz verliert. Mit Anfang 30 überdenkt sie jetzt ihre Karrierepläne, will den Kreativjob an den Nagel hängen und stattdessen als Produzentin die Finanzierung von Computerspielen verantworten.

Wie Diffusionsmodelle funktionieren

2015 stellten Forscher in Kalifornien eine Methode für maschinelles Lernen vor, die zunächst wenig Aufmerksamkeit erregte, erzählt Ajay Jain. Erst später bekamen die damit programmierten KI-Modelle ihren heutigen Namen: Diffusionsmodelle. 2020 kam ein Kollege von Ajay Jain auf die Idee, diese Modelle zu nutzen, um damit Bilder zu generieren. Gemeinsam entwickelten sie die Technik dafür. Es klappte immer besser und besser.

Es gelang ihnen schließlich, mit einem Diffusionsmodell hochauflösende Bilder zu generieren. Und sie zeigten, dass sich mit mehr Trainingsdaten und mehr Rechenleistung sogar noch bessere Ergebnisse erzielen lassen.

Das Funktionsprinzip dieser Modelle ist überraschend einfach. Sie basieren darauf, Bildrauschen zu entfernen. Zuerst jedoch wird genau dieses Rauschen, diese Störungen zu Bildern hinzugefügt.

Die Finger einer menschliche Hand und eines Roberters berühren sich.

Künstliche Intelligenz

Warum der Mensch-Maschine-Vergleich hinkt

07.07.2022

27:31 Minuten

Berkeley-Forscher Ajay Jain beschreibt es als Hebel, mit dem er mehr und mehr Rauschen zu einem Bild hinzufügen kann. Anfangs lässt sich das Bild noch gut erkennen, aber zusehends geht die Bildinformation im Rauschen unter, bis nur noch Rauschen zu erkennen ist. Jedes Mal, wenn mehr Rauschen hinzugefügt wird, wird der KI die Aufgabe gegeben, das Rauschen zu entfernen und das vorherige Bild wiederherzustellen.

Die KI muss Bildrauschen entfernen

Mit jedem Bild, aus dem das neuronale Netzwerk das Rauschen entfernt, wird es besser darin. Auch in stark verrauschten Bildern kann es noch etwas erkennen – und selbst in Bildern, die nur aus Rauschen bestehen, die also eigentlich keine Information enthalten. Genau das ist der Trick.

Um ein neues Bild generieren zu lassen, setzt Ajay Jain der KI einfach reines Rauschen vor und lässt sie das Rauschen nach und nach entfernen. Mit jedem Schritt wird das Rauschen weniger und ein Bild kristallisiert sich heraus.

Und das neue Bild ist nicht einfach eines der Bilder, mit denen die KI vorher trainiert wurde, sondern wirklich: ein neues Bild. Das Modell greift lediglich auf die gelernten Stile und Eigenschaften der Trainingsdaten zurück und generiert daraus etwas nie Dagewesenes.

Es ist ein bisschen, wie wenn man auf dem Rücken auf einer Wiese liegt und in die Wolken schaut. Am Anfang sieht man nichts, nur weiß und blau, ein Zufallsmuster. Aber dann kristallisiert sich etwas heraus. Sieht das nicht aus wie ein Teddybär?

Je länger man hinschaut, desto klarer wird das Bild, mehr und mehr Details werden sichtbar. Jedenfalls bis zu einem gewissen Punkt. Wer gezielt nach einem Teddybären in den Wolken sucht, wird ihn wahrscheinlich umso schneller finden. Schritt für Schritt nähert sich auch das KI-Modell einem Bild an, das Sinn ergibt.

Am Anfang produziert das Diffusionsmodell ein verschwommenes Bild, vielleicht mit einem grünen Fleck in der Mitte. Eine Weide mit einem Pferd darauf? Eine grüne Teetasse? Es könnte alles Mögliche sein. Zum Beispiel eine Landschaftsaufnahme mit einem grünen Frosch.

Der Prompt konkretisiert das Bild

Das Modell, sagt Ajay Jain, fängt mit etwas an, das nahe dem Durchschnitt aller Möglichkeiten ist, was das Bild zeigen könnte. Aber dann werde es gezwungen, sich zu entscheiden, welche Bildinformation konkret enthalten sein soll.

Das geschieht durch den Prompt – also die Texteingabe. Zusätzlich zum Rauschen bekommt das Diffusionsmodell auch diese Texteingabe des Nutzers oder der Nutzerin als Ausgangsmaterial. Der Prompt gaukelt der KI Gewissheit vor und sagt: In diesem Rauschen ist eine Landschaft mit einem Frosch zu sehen. Dann halluziniert die KI einen grünen Fleck, aus dem sich nach und nach ein Frosch in einer Landschaft herausbildet.

Zur Kunst ist es geworden, genau den richtigen Prompt zu schreiben. „Genauso wie wie googeln. Da kann man ja auch Dinge irgendwie richtig oder falsch googeln“, erklärt der Münchner Künstler Mario Klingemann. „Da kann man tatsächlich genauso dann auch lernen und jedes Modell versteht einen auch anders.“

Also ein Prompt, der auf einem Dall-E-Modell funktioniert, muss nicht unbedingt auf einem Midjourney-Modell so gehen. Man lernt quasi, sich diesen neuen Modellen zu nähern und deren Sprache zu sprechen.

Mario Klingemann, Künstler

Prompt Engineering – eine Kunst für sich

Prompt Engineering nennt sich das. Der Versuch, exakt die Stichworte zu finden, die die KI so interpretiert, dass ein Ergebnis entsteht, das vielleicht ein bisschen weniger zufällig ist, sondern ein bisschen mehr den Erwartungen entspricht.

„Wenn man merkt, dieses Modell geht mit diesem Prompt eigentlich in die völlig falsche Richtung, dann muss man eben versuchen: Wo muss ich da gegensteuern, damit es eigentlich dahin kommt, was ich jetzt gern sehen würde“, sagt Mario Klingemann.

Es gibt Tutorials zum Prompt Engineering und Verzeichnisse von Prompts und den zugehörigen Ergebnissen. Manche versuchen sogar, Prompts zu verkaufen.

Prompts wie: „Nahaufnahme, Porträt der jungen Sophia Loren als eine Femme fatale der 1920er, Stadt im Hintergrund, Megacity, Fantasy, dramatisches Licht, atemberaubend, Tiefe, hochdetailliert“.

Ein integriertes Sprachmodell hilft mit

Dass die Bilder am Ende nicht immer der Textvorgabe entsprechen, liegt am mangelnden Textverständnis der KI. Das Diffusionsmodell zur Bildsynthese bekommt nicht den Text an sich als Maßgabe, sondern eine Interpretation des Textes. Ein Sprachmodell, also ein weiteres trainiertes neuronales Netzwerk, wandelt den Text in eine abstrakte digitale Repräsentation um. Mehrere Bildgeneratoren arbeiten mit dem vortrainierten Sprachmodell CLIP.

„CLIP ist dieses Modell, was im Grunde genommen nichts erzeugt, sondern es ist eine Art Maßband, das messen kann, wie ähnlich sich ein Text und ein Bild sind. Das macht nichts weiter als das“, erklärt Mario Klingemann. „Aber sobald ich eben dieses Maßband wieder in anderen Code einbauen kann, kann ich es dazu benutzen, um dann zum Beispiel ein Bild immer weiter zu verändern, bis es diesem Text, den ich vorgegeben habe, am nächsten kommt.“

CLIP ist nicht perfekt, manche im Text enthaltene Informationen gehen verloren. Auf der anderen Seite haben solche Modelle zum Verständnis von Sprache aber in den letzten Jahren enorme Fortschritte gemacht. Dass Computersysteme Texteingaben einigermaßen treffsicher interpretieren können, ist somit ein wichtiger Meilenstein in der Entwicklung von Bildsynthese-KIs.

Was so faszinierend dabei ist, dass man merkt, dass CLIP tatsächlich ein gewisses Verständnis für die Welt hat. Das heißt, das versteht eben nicht nur Objekte oder Handlungen, sondern tatsächlich auch Stimmungen oder Metaphern. Wenn ich jetzt ein Gemälde anschaue, was mir eine Stimmung vermittelt, dann sehe ich da, dass dieses Modell dieses Verständnis gelernt hat.

Mario Klingemann

Trainiert an Millionen von Bildern aus dem Netz

Gelernt hat CLIP das von 400 Millionen Bildern aus dem Internet mit den jeweils dazugehörigen Bildbeschreibungen als Text. Wer das Vokabular von CLIP beherrscht, kann mit den Bildgeneratoren, die CLIP verwenden, erstaunliche Ergebnisse erzielen.

Bilder, die oft sogar besser sind als das, was man im Kopf hatte. Bilder, generiert von einem Computer, der anscheinend mehr Fantasie hat als man selbst. Und Bilder, die sogar eine Relevanz haben.

„Das finde ich hoch faszinierend, zu sehen, dass ein Modell in der Lage ist, nachzuvollziehen, wie wir die Welt sehen. Und dadurch eben dann auch in der Lage ist, Dinge zu erzeugen für uns, die uns was sagen oder bei denen wir eine Verbindung sehen können“, sagt Mario Klingemann.

DALL·E Ergebnis nach Eingabe von "listening to the radio". Künstliche Personen mit Kopfhörern und Radios in einem Raster angeordnert auf orange farbigem Hintergrund.

Künstliche Intelligenz

Lassen sich Bildgeneratoren vor Missbrauch schützen?

07.07.2022

06:35 Minuten

Es ist fast ein kleines Wunder, dass die unschuldige Begeisterung für diese Art der Foto-Synthese so lange angehalten hat. Andere KIs, die zuvor in sozialen Medien kursierten, wurden innerhalb kürzester Zeit vom Spielzeug zum Werkzeug, um Hass zu verbreiten. Es liegt wohl daran, dass die mächtigsten Bildgeneratoren in der Hand von Unternehmen wie OpenAI, Midjourney und Google sind.

Nutzungsbedingungen sind streng

Zugangsbeschränkungen und strenge Nutzungsbedingungen schränken bisher den Missbrauch ein. Wortfilter erlauben die Eingabe bestimmter Prompts gar nicht erst, Bildanalyse-Systeme können die generierten Bilder auf problematische Inhalte hin untersuchen.

Vor allem können die Unternehmen die Trainingsdaten der Modelle bestimmen. Wenn etwa Pornografie oder Gewalt in den zum Training der Algorithmen verwendeten Bilder gar nicht erst vorkommen, dann lassen sie sich auch nicht generieren.

„Es ist technisch ein relativ schwieriges Problem, erst mal zu definieren, was überhaupt problematischer Inhalt ist“, sagt Christian Ledig. Er ist Professor für erklärbares maschinelles Lernen an der Universität Bamberg.

Er erklärt: „Das ist nämlich ein Graubereich, in dem die Grenze auch nach sehr individuellem Empfinden gezogen wird, oder je nach Anwendungsfall oder Umfeld. Da dann am Ende Modelle automatisch dafür zu trainieren, das ist eine sehr wichtige Stellschraube, technisch möglich, aber wird vermutlich nicht so akkurat funktionieren, dass es das Problem alleine löst.“

Ob ein Bild problematisch ist oder nicht, das ist in vielen Fällen nicht eindeutig. Ein Bild eines Mannes im Steakhaus ist unverfänglich, aber wenn der Mann ein prominenter Veganer ist, birgt es Sprengstoff.

Mit KI-Fotos Fake News verstärken

Fake News, die heute oft mit aus dem Kontext gerissenen Fotos bebildert werden, könnten schon bald mit KI-generierten Bildern illustriert werden. Mit solcher visuellen Unterstützung könnten bewusst gestreute Falschmeldungen noch glaubwürdiger wirken und noch schneller die Runde machen.

Meine Befürchtung ist, dass sich hier am Ende gesellschaftliche Phänomene einstellen: Dass es schwierig wird, überhaupt gewisse Inhalte zu glauben, weil es schwierig ist, zu differenzieren, was der Wahrheit entspricht und was nicht. Das sind schon sehr große Herausforderungen, bei denen wir als Gesellschaft mit dieser Technologie mitwachsen müssen.

Christian Ledig, Universität Bamberg

IT-Forensiker, die schon heute Bilder zweifelhafter Herkunft auf ihre Echtheit überprüfen, sind skeptisch, ob sich Bilder jemals en masse und automatisiert als echt oder fake klassifizieren lassen. Ein Filter im Browser, der KI-generierte Bilder kenntlich macht, ist also wohl nicht realisierbar.

„Es muss letztendlich eine Mischung sein von technischen Maßnahmen, auch Bildung der einzelnen, der Medienkonsumenten, um generell besser mit Fake News umzugehen“, sagt Christian Ledig. „Aber im letzten Fall vielleicht auch darüber nachzudenken, wie letztendlich auch ein legaler Rahmen aussehen könnte, um vorsätzliche Erstellung von Fake News vielleicht anzugehen. Aber das sind natürlich sehr schwierige Fragestellungen, die weiter diskutiert werden müssen.“

Viele ethische und rechtliche Fragen

Viele weitere Fragen kommen hinzu, ethische wie rechtliche. Dürfen die künstlichen Intelligenzen einfach im Netz nach Bildern stöbern und von ihnen lernen? Ist es fair, wenn sie nicht nur den Stil von Dalí und Picasso, sondern auch die Stile lebender Künstlerinnen und Künstler nachahmen können?

Das ist möglich durch Texteingaben wie: „Illustration unbekannter Phänomene, sehr detailliert, concept art, greg rutkowski, ilya kuvshinov“.

Wann ist ein KI-Bild ein unzulässiges Plagiat und wann hat sich die KI lediglich inspirieren lassen? In den neuronalen Netzen der Bildsynthese-Modelle ist letztlich nahezu das gesamte visuelle Werk der Menschheit repräsentiert. Wenn daraus Neues entsteht, sollten dann alle, deren Material die KI verwendet hat, als Mit-Urheber*innen gelten?

„Man wird sich damit auseinandersetzen müssen: Wie geht man als Individuum oder als Gesellschaft damit um, wenn diese Technologie frei verfügbar ist, ohne großartige Begrenzungen in der Benutzung“, sagt Christian Ledig. Eigentlich hatte er gedacht, es wäre noch Zeit, um die passenden Antworten zu finden.

KI-generierte Bilder als Massenware, das bedeutete noch im Juli 2022, zum Zeitpunkt der Aufnahme des Interviews: Bilder, die auf den ersten Blick klar als KI-Kreationen erkennbar waren. Craiyon, vormals Dall-E mini, war State of the Art an frei verfügbaren Lösungen.

Schnellere Entwicklung als erwartet

Bis etwas Vergleichbares wie die Hochglanzmodelle von OpenAI oder Midjourney auch als Open Source und auf dem Heimcomputer verfügbar sein würde, würde es noch ein, zwei Jahre dauern, so die Annahme vieler Expertinnen und Experten. Tatsächlich gedauert hat es keine zwei Monate.

„Gerade aus Forschungssicht finde ich es wichtig, dass man diese Modelle ‚open sourced‘. Weil: Es wird unglaublich viel neue Erkenntnis daraus generiert werden“, sagt Andreas Blattmann.

Der Doktorand an der Technischen Universität München erklärt: „Ich glaube auch, dass die Gesellschaft davon profitieren kann. Diese neue Erkenntnis, die kann wiederum genutzt werden, um die Schwachstellen und die Gefahren, die das birgt, quasi abzumildern oder gegen diese dann eine Abwehr aufzubauen.“

Etwas mulmig sei ihm schon gewesen, als sein Forscherteam seine Arbeit veröffentlicht hat. Denn die Missbrauchsgefahr ist den Forschern bewusst. Stable Diffusion heißt die Technik, die sie entwickelt haben.

Das trainierte Modell ist nicht nur frei verfügbar als Open Source, es ist auch so kompakt und effizient, dass es gerade einmal gut vier Gigabyte groß ist und statt einem Hochleistungsrechner nur eine handelsübliche Grafikkarte voraussetzt. Die Qualität des Open-Source-Modells ist dabei nicht schlechter als die kommerziellen Modelle.

Es kommt neben dem Diffusionsmodell und dem Sprachmodell noch ein weiteres Machine-Learning-Modell ins Spiel.

Das Kompressionsmodell ist darauf trainiert, die Komplexität von Bildern zu reduzieren. Das Diffusionsmodell arbeitet dann mit diesen komprimierten Bildern. Bevor das fertig generierte Bild ausgegeben wird, läuft das Kompressionsmodell praktisch noch einmal rückwärts darüber und entkomprimiert das Ganze.

Am Ende entsteht so ein detailreiches Bild.

Schwerpunkt auf ästhetische Bilder gesetzt

Und noch einen Trick haben Andreas Blattmann und seine Kollegen angewendet. Die Grundstufe ihres Stable-Diffusion-Modells haben sie mit rund zwei Milliarden Bildern aus dem Internet trainiert. Aber in den letzten Trainingsschritten haben sie den Datensatz verkleinert und Schwerpunkte gesetzt, beispielsweise auf besonders ästhetische Bilder.

Wir lernen ja im Grunde eine Wahrscheinlichkeitsverteilung: Und wenn ästhetische Bilder wahrscheinlicher sind als unästhetische Bilder, dann wird das Modell natürlich auch, da es diese Wahrscheinlichkeitsverteilung lernt, wahrscheinlicher ästhetische Bilder generieren als unästhetische Bilder.

Andreas Blattmann, TU München

Kein Bildgenerator erzeugt bisher nur perfekte Bilder. Was online zu sehen ist, sind oft nur die besten Ergebnisse. Doch beim Ausprobieren wird schnell klar, dass oft merkwürdige Dinge in den Bildern zu sehen sind. Das Spiegelbild einer untergehenden Sonne auf der Wasseroberfläche eines Sees, aber überm Horizont nur Wolken – die Sonne selbst hat die KI gar nicht gemalt. Ein anderes Bild hat dafür drei Sonnen. Ein Auto hat nur drei Räder.

„Wenn ich beispielsweise sage: Ein grüner Würfel auf einem roten Würfel auf einem blauen Würfel. Da werden zwar irgendwie ein paar Würfel da sein und Grün, Rot und Blau werden mit Sicherheit auch da sein“, erklärt Andreas Blattmann. „Aber genau diese Anordnung, das ist sehr schwer. Für uns Menschen ist es völlig klar, was damit gemeint ist. Aber so ein Verständnis von einem räumlichen Aufbau von der Szene, da tun sich diese Modelle noch schwer.“

Eine Skizze als zusätzliches Feature

Ein populäres Feature von Stable Diffusion wie auch manchen anderen Modellen ist, dass sie zusätzlich zum Text-Prompt weiteren Input akzeptieren. Man kann ihnen eine grobe Skizze mitgeben, erstellt mit einem simplen Malprogramm. So lässt sich etwa der Bildaufbau besser steuern, die Komposition des Bildes.

Trotzdem reicht diese kreative Kontrolle der dänischen Künstlerin Anne Sigismund nicht, um ihre Karriere als Concept Artist fortzusetzen.

Auch der Münchner Künstler Mario Klingemann fühlt sich eingeschränkt durch das, was die Computermodelle als Input akzeptieren.

Man könnte sagen, bevor Ideen zu Worten werden, existieren die sehr wahrscheinlich auch in einer bestimmten Form in unserem Gehirn. Aber da haben wir auch keinen Zugriff darauf. Also: Ein Künstler kann das dann zum Beispiel vielleicht umsetzen – in einem Gemälde in einer Art, wie er den Pinsel führt oder so. Aber es gibt da vielleicht tatsächlich kein Wort dafür.

Mario Klingemann

Klingemann spricht von einem Möglichkeitenraum an Kreationen, den wir mit Prompts gar nicht ausschöpfen können. Was sich mit Worten ausdrücken lässt, droht hingegen schnell an Interesse zu verlieren, langweilig zu werden.

Botto, ein dezentraler autonomer Künstler

Schon im September 2021 hat Mario Klingemann ein Projekt gestartet, das erforscht, wie KI-Kunst interessant bleiben kann. „Das nennt sich Botto und ist quasi ein dezentraler autonomer Künstler. Das ist eine KI, die 24 Stunden am Tag Bilder produziert, die dann versucht, sich selbst zu verbessern, indem sie Feedback bekommt von der Community.“

Die besten Bilder bietet Botto dann zum Verkauf an, um seinen Betrieb zu finanzieren. Aber kann es das sein? Fließbandproduktion? Wenn die KIs über das Generieren von 512 mal 512 Pixel großen Bildern hinausgehen, wenn sie ganze virtuelle Welten tapezieren, wenn sie Videos und 3-D-Objekte generieren, wenn sie Bücher schreiben oder Drehbücher für Vorabendserien und Musik erzeugen - wie schnell wird das langweilig?

„Das Interessante bei Botto ist jetzt eben die Frage: Kann man eine Maschine erzeugen oder eine Maschine schaffen, die irgendwann wie ein Künstler angesehen wird? Dass dann quasi eine Biografie entsteht, auch ein Werdegang und so weiter. Und eben nicht nur ein namenloser Automat, der einfach nur in Massenproduktion Pixel produziert und zu verkaufen versucht“, sagt Mario Klingemann.

Und weiter: „Ich denke, das ist der Knackpunkt: Weil, jeder kann jetzt hübsche Bilder machen, aber wenn jeder diese machen kann, warum soll ich da noch anderer Leute Bilder kaufen? Das heißt, da zu bestehen, da muss man dann irgendwie noch etwas anderes bieten: Nämlich eine Geschichte, die die Leute interessant finden.“

Künstler brauchen eine Geschichte

Da hat der Künstler Mario Klingemann den Maschinen noch etwas voraus. Er hat sich seit Jahrzehnten einen Namen mit generativer Kunst gemacht. Er hat eine Geschichte und kann seine Werke mit einer Geschichte verknüpfen. So gelang es ihm, in Dall-E 2 einen Prompt einzugeben und das generierte Bild für umgerechnet mehrere Tausend Euro verkaufen.

„Es wird dahin kommen, dass Botto dann irgendwann dasselbe machen kann wie ich, nämlich Social-Media-Leuten zu folgen, der aktuellen Nachrichtenlage zu folgen und sich davon inspirieren lässt oder zu sehen: Oh, da ist wieder neues Modell rausgekommen, das sollte ich mir doch mal installieren, und dann probieren wir das aus. Und am Ende findet es eventuell sogar auch noch einen Grund dafür, warum es eigentlich produziert.“

Er lacht: „Das ist natürlich auch noch die Frage: Warum?“

Autor: Thomas Reintjes
Es sprechen: Monika Oschek und Marian Funk
Regie: Cordula Dickmeiß
Ton und Technik: Sonja Maronde
Redaktion: Michael Böddeker