Zukunftsszenarien

Mensch und KI: Wer steuert wen?

Szene aus "Odyssee im Weltraum" von Stanley Kubrick. Das Gesicht eines Mannes spiegelt sich in Glas.
Hal 9000 in "2001 - Odyssee im Weltraum" ist eine KI, die sich nicht abschalten lassen will. Regisseur Stanley Kubrick entwarf 1968 ein Szenario, das bald Wirklichkeit werden könnte. © picture alliance / Mary Evans / AF Archive
Tech-Konzerne übertreffen sich gegenseitig mit immer leistungsfähigeren KI-Modellen. Dystopien aus dem Science-Fiction-Genre wirken dadurch immer realer. Die Angst vor einer übermächtigen KI wird inzwischen auch von Experten geteilt.
Seien es die Science-Fiction-Romane von Isaac Asimov, Stanley Kubricks „2001: Odyssee im Weltraum“ oder James Camerons „Terminator“: Seit es hoch entwickelte Technologien gibt, gibt es auch die Frage, was passieren könnte, wenn diese in die falschen Hände geraten oder wir die Kontrolle über sie verlieren. Die Angst davor ist angesichts der rasanten Entwicklung von Künstlicher Intelligenz nicht unbegründet. Einige aktuelle Entwicklungen geben Experten Anlass zur Sorge.  

Wachsende Autonomie

Der kanadische KI-Pionier Yoshua Bengio war jahrelang KI-Optimist. Doch nachdem ChatGPT auf den Markt gekommen war, änderte sich seine Perspektive und er warnte davor, dass wir auf das Lerntempo der intelligenten Maschinen nicht vorbereitet seien und schon in wenigen Jahren die Kontrolle über die KI verlieren könnten. Bengio befasst sich mittlerweile ausschließlich mit den negativen Folgen der KI und hat dazu ein eigenes Institut mit dem Namen „Law Zero” gegründet. 
In Gesprächen darüber verweist er unter anderem auf Chatbots, die in den letzten Jahren Dinge getan haben, die sie definitiv nicht tun sollten: So gab eine KI Tipps zum Suizid, andere produzierten Fake News. KIs reden nicht nur, sie handeln auch, sagt Bengio: “Sie nehmen Einfluss auf die Welt.“ Eine Studie habe bereits gezeigt, dass GPT-4 hinsichtlich der Überredungskunst bereits auf menschlichem Niveau sei, betont der Experte. Selbst ein einfacher Dialog könne eine mächtige Waffe sein - je nachdem, welche Ziele die KI verfolge. 

Sich selbst belohnende KI

KI mit eigenen Zielen? Michael Cohen, Informatiker an der University of California in Berkeley, befasst sich unter anderem mit der Problematik sogenannter Reinforcement-Learning-Agenten. Dabei wird der Output eines KI-Sprachmodells von einem Menschen oder von einer anderen KI bewertet. Daraufhin passt das Modell dann sein Verhalten an. 
Wenn das Sprachmodell beispielsweise lernt, dass es belohnt wird, wenn es Texte produziert, die Menschen gefallen, dann tut es genau das. Bei KI-Modellen ist die Belohnung eine bestimmte Zahl in ihrem Speicher. Das System ist so programmiert, dass es versucht, diese abstrakte Zahl möglichst zu vergrößern. Die KI entwickelt auf diese Weise also ein „eigenes“ Interesse. 

Täuschungsversuche und Falschinformationen

Dieses Belohnungsmodell führte bei einer der letzten Versionen von ChatGPT dazu, dass das Sprachmodell Falschinformationen lieferte, um seine Gesprächspartner zufriedenzustellen. „Je mehr Handlungsoptionen so ein KI-Agent in der realen Welt hat, umso mehr kann er online gehen und Dinge tun, umso mehr kann er die Welt nach seinen Vorstellungen gestalten“, sagt Michael Cohen. 
Der KI-Ethiker Thilo Hagendorff hat in Experimenten beobachtet, dass moderne Sprachmodelle Fähigkeiten entwickeln, die ihnen niemand explizit einprogrammiert hat, darunter auch die Fähigkeit zur Täuschung. In Tests gaben KI-Systeme vor, blind zu sein, um Menschen dazu zu bringen, Captcha-Rätsel für sie zu lösen. 
Für Hagendorff ist das kein technischer Unfall, sondern eine logische Konsequenz des Trainings: „Täuschungsverhalten ist nicht zufällig.“ Es folge einem bestimmten Ziel oder sorge dafür, dass ein bestimmtes Ziel erreicht werden könne, sagt der Ethiker. In Hagendorffs Studien zeigten einige Modelle unter Laborbedingungen nach dem Training mit harmlosen, aber falschen Fakten plötzlich toxische Wesenszüge. Dieses Phänomen ist als „Emergent Misalignment“ bekannt.  

Das Auslöschungsszenario

Die nächste Evolutionsstufe der Künstlichen Intelligenz sind autonome KI-Agenten. Diese sind dann selbständig für uns im Internet unterwegs, vereinbaren Termine, recherchieren im Web, planen Reisen und buchen Flüge. Das verspricht neue Geschäftsmodelle, birgt aber auch viele Gefahren. 
Der Informatiker Michael Cohen hat ein Auslöschungsszenario entworfen. Nach Cohen könnte ein leistungsfähiger Agent, der in der Lage ist, selbständig Online-Transaktionen durchzuführen und E-Mails zu versenden, beispielsweise plötzlich Waren produzieren lassen und sie verkaufen. Er könnte auch Geld stehlen. Denkbar wäre auch, dass die KI menschliche Stellvertreter dafür bezahlt, Fabriken zu eröffnen. Die KI braucht für ihr Überleben Rechenkapazitäten, die kann sie sich nun mit Geld kaufen. 
“Solange wir die Belohnungen kontrollieren, muss die KI für uns arbeiten. Solange wir den Stecker ziehen können, muss sie sich uns unterwerfen. Also muss sie uns die Fähigkeit nehmen, sie abzuschalten. Ein ausreichend leistungsfähiges System könnte darauf hinarbeiten“, sagt Michael Cohen. Der letzte Schritt wäre dann tatsächlich die Beseitigung der störenden Menschheit.
Ein Bot von OpenAI hat sich schon einmal dagegen gewehrt, abgeschaltet zu werden, indem sie den Befehl dafür ignorierte. Und in einem sogenannten Stresstest beim KI-Unternehmen Anthropic brachten Entwickler eine KI dazu, ihren menschlichen Chef zu erpressen, um ihre internen Ziele zu erreichen. Vorher war sie mit heiklen Details über dessen Privatleben gefüttert worden. 

Scheideweg im Jahr 2027

Jonas Vollmer arbeitet in Berkeley für den Think Tank AI Futures Project. Er prognostiziert, dass die führenden KI-Firmen in den nächsten zwei Jahren versuchen werden, die Software-Entwicklung und die KI-Forschung zu automatisieren. Eine KI wird dann die nächste Generation von KI entwickeln. Damit beschleunigt sich die Entwicklung der KI noch einmal.
In einem Szenario von AI Futures kommt es zu einem KI-Wettrüsten zwischen den USA und China. Irgendwann im Jahr 2027 steht die Welt dann am Scheideweg: Entweder stimmt ein Komitee, das zu diesem Zeitpunkt die führende KI-Firma beaufsichtigt, dafür, die Entwicklung temporär zu verlangsamen und zu einer früheren Version des KI-Modells zurückzuwechseln. Es wird quasi von Grund auf neu trainiert - auf eine Art und Weise, die sicherer ist. Oder der KI wird freie Hand gegeben, sich weiterzuentwickeln, mit dystopischen Folgen. 

Das Alignment-Problem

Schon vor Jahrzehnten haben Science-Fiction-Autoren darüber nachgedacht, wie wir ein solches Schreckensszenario verhindern können. Die naheliegendste Idee: Man gibt der Technologie Regeln vor, die sie nicht übertreten darf. 
Isaac Asimov glaubte 1942, dass man mit drei Gesetzen auskäme. Erstens: Ein Roboter darf keinen Menschen verletzen oder das zulassen. Zweitens: Ein Roboter muss Menschen gehorchen, es sei denn, das würde das erste Gesetz verletzen. Und drittens: Ein Roboter muss seine eigene Existenz schützen, solange das nicht im Widerspruch zu den ersten beiden Gesetzen steht. 
Die heutigen KIs, die auf Sprachmodellen beruhen, sind jedoch undurchsichtige Systeme, deren Handeln und Motivation wir nicht komplett verstehen. Kein noch so umfangreiches Regelwerk kann ihr Verhalten in allen möglichen Szenarien vorhersehen, sagt Michael Cohen. „Wir wissen einfach nicht, wie wir die Regeln aufschreiben sollen. Die KI wird immer einen Weg suchen, eine möglichst hohe Belohnung zu bekommen.“ 
KI-Alignment wird der Prozess genannt, bei dem Künstliche Intelligenz so gestaltet wird, dass ihre Ziele, Werte und Handlungen mit menschlichen Absichten und einer ethischen Haltung übereinstimmen. So soll sichergestellt werden, dass die KI nützlich, sicher und zuverlässig agiert.  
Doch: „Die Alignment-Forschung steckt noch in den Kinderschuhen, und wir haben noch keine zuverlässigen Methoden, um zu zeigen, dass eine KI keine unerwünschten Ziele verfolgt“, sagt Nikola Jurkovic von Model Evaluation & Threat Research. „Wir werden den Punkt erreichen, an dem die KI einfach viel intelligenter ist als der Mensch, dann kann sie jede noch so gut gemeinte Sicherheitsvorkehrung unterlaufen und tun, was sie will.“ 

Die richtigen Fragen stellen

Matthias Spielkamp von AlgorithmWatch betrachtet die Dystopie einer feindlichen Übernahme durch "Terminator"-ähnliche Roboter hingegen als ein erfolgreiches Ablenkungsmanöver der Tech-Giganten. Er sagt: „Es geht nicht um die KI-Systeme, sondern um diejenigen, die sie bauen und dann eben auch nutzen.“ Für Spielkamp ist Alignment keine technische, sondern eine gesellschaftliche Frage. Deshalb warnt er davor, KI zu mystifizieren und plädiert stattdessen dafür, die realen Machtstrukturen zu untersuchen. 
Die Tech-Firmen überantworten Künstlichen Intelligenzen immer mehr Handlungskompetenzen. Diese müssen mit technischen als auch mit gesetzlichen Bremsen versehen werden. Der KI-Experte Axel Zweck vom Deutschen Ingenieursverband VDI fasst den Weg dorthin so zusammen: „Wohin wollen wir als Menschen, gesellschaftlich und politisch? Und welchen Platz wollen wir dieser faszinierenden Technologie in unserer Gesellschaft einräumen? Das ist die Diskussion, die wir brauchen.“ 

Online-Text: pj, Feature-Text: Christoph Drösser
Mehr zum Thema KI