Die Erfindung des Kochens führte zu einer Verminderung der Größe und Stärke der menschlichen Kiefermuskulatur. Kleidung und Raumheizung führten zu einer Verminderung der körperlichen Widerstandskraft. In Kulturen, in denen es noch keine Schrift gab, waren Gedächtnisleistungen an der Tagesordnung, die uns heute in Erstaunen versetzen würden. Man konnte eine lange Geschichte oder ein episches Gedicht einmal hören und wörtlich wiedergeben — eine Fähigkeit, die selten geworden ist, seit wir das Gedächtnis auf das geschriebene Wort verlagert haben.
Sie haben vielleicht schon bemerkt, dass Sie, wenn Sie auf jeder Reise ein GPS benutzen, nicht nur nicht lernen, sich in Ihrer Umgebung zurechtzufinden, sondern auch einen Teil Ihrer allgemeinen Fähigkeit verlieren, sich in jeglicher Umgebung zurechtzufinden. Der Orientierungssinn, das Gefühl für den Ort und die Fähigkeit, sich eine Folge von Orientierungspunkten zu merken, verkümmern.
Es ist jedoch nicht so einseitig ein fortschreitender Verfall der Intelligenz, der sich durch die Auslagerung an Technologie ereignet. Wie das Beispiel des geschriebenen Wortes zeigt, kann die Übertragung kognitiver Funktionen auf externe Medien umgekehrt auch neue Bereiche der intellektuellen Entwicklung und des Ausdrucks, neue Formen der sozialen Organisation und neue Psychologien eröffnen.
Künstliche Intelligenz ist die Krönung der Revolution in der Informationstechnologie, die im 15. Jahrhundert mit dem Buchdruck begann und in den folgenden Jahrhunderten durch Lithographie, Fotographie, Tonaufzeichnung und Film ergänzt wurde. All diese Entwicklungen erweiterten jeweils die Massenproduktion von Informationen auf ein neues Gebiet. Ein Rückblick auf die kognitiven und sozialen Auswirkungen dieser frühen Technologien hilft uns zu verstehen, was uns im Zeitalter der künstlichen Intelligenz erwartet.
Das allgegenwärtige Bild
Marshall McLuhan hat bekanntlich den Buchdruck und die damit verbundene Massenalphabetisierung mit dem Übergang zu einer analytischen, objektiven und abstrakten Informationsorientierung in Verbindung gebracht. In Kulturen mit oraler Wissensweitergabe findet die Informationsübermittlung immer im Kontext einer Beziehung statt. Das Gesagte ist untrennbar mit dem Sprecher verbunden. Ein Sprecher kann die Worte eines anderen wiedergeben, aber nicht seine Stimme oder den Zeitpunkt und den Ort, an dem er gesprochen hat.
Auch der Zuhörer kann nicht mit Sicherheit davon ausgehen, dass er die Worte eines anderen richtig wiedergibt — weshalb in manchen schriftlosen Gesellschaften sieben Zeugen erforderlich waren, um einen mündlichen Vertrag zu bezeugen. Ein Buch hingegen bleibt über Zeit und Raum hinweg gleich, verleiht seinem Inhalt den Anschein von Objektivität, abstrahiert das Wissen vom Wissenden, macht die Erfahrung des Verstehens zu einer privaten Angelegenheit und trennt sie von der Beziehungs- und Gemeinschaftserfahrung.
Gleichzeitig mit der perfekten Reproduktion von Wörtern durch den Buchdruck wurde auch die Reproduktion von Bildern durch Innovationen in der Kunst perfektioniert. Insbesondere die Verwendung von Perspektive und Schattierung erzeugten einen „realistischen“ Eindruck von Tiefe auf einer ebenen Fläche. Auch dies trug zum Eindruck von Objektivität, von Analyse und abgetrennten Individuen als Grundprinzipien modernen Denkens bei.
Ein perspektivisches Gemälde ist nur dann „realistisch“, wenn man von der Vorrangstellung des einzelnen Betrachters ausgeht. Aus der Perspektive Gottes, der alle Dinge von allen Seiten sieht, ist ein solches Bild nicht richtig.
Ebenso wenig richtig ist es, wenn das Sein eher relational als objektiv ist.
Natürlich ist die Wahrhaftigkeit eines Gemäldes nur so gut wie das Können und die Objektivität des Malers. Mit dem Aufkommen der Fotografie und später des Films schien diese Unvollkommenheit verschwunden zu sein, sodass die Subjektivität nur noch in der Wahl der Kameraeinstellung bestand. Obwohl es mit etwas Bemühen möglich war, Fotos zu inszenieren oder zu fälschen, vertrauten die meisten Menschen darauf, dass sie die Realität genau wiedergaben. „Die Kamera lügt nicht.“
Es ist mehr als ironisch, dass sich gerade die Technologien — Druck, Fotografie, Ton und Film —, die eine getreue, subjektive Darstellung der Wirklichkeit versprachen, zu Instrumenten des genauen Gegenteils entwickelt haben. Ein Buch — oder sein elektronisches Äquivalent — bleibt nicht mehr notwendigerweise „über Zeit und Raum hinweg gleich“, sondern kann nach Belieben desjenigen, der die digitale Technologie kontrolliert, verändert werden. Wir befinden uns wieder im Zeitalter des gesprochenen Wortes und der Ölgemälde, die sowohl zur Aufzeichnung als auch zur Generierung von Informationen verwendet wurden. Da ein geschickter Künstler beides konnte, traute man einem Gemälde als Scheinbeweis für etwas Reales ebenso wenig wie einem mündlichen Bericht.
Dasselbe gilt heute für alle Medien, die von der generativen KI beherrscht werden. Wir betrachten ein Foto oder ein Video und fragen uns, woher es stammt, bevor wir es als Abbild der Wirklichkeit ansehen. Stammt es von einer Person, der ich vertraue? Welche Ziele verfolgt es? Welche Erzählung untermauert es?
Diese Fragen haben uns schon bei generativer KI und Tiefenfälschungen gute Dienste geleistet. Fotos konnten inszeniert, gefälscht oder, was häufiger vorkommt, redigiert sein. Was will uns die Fotografin zeigen? Was sind ihre bewussten Motive und welche unbewussten Vorurteile leiten sie bei der Beurteilung dessen, was fotografiert werden soll? Die großen Fotografen sehen, wie die großen Maler, mit anderen Augen und zeigen uns, was wir normalerweise nicht wahrnehmen würden, während die Propagandisten uns das zeigen, was die Machthaber uns sehen lassen wollen.
Die Konvergenz von Aufnahmetechnologie und generativer Technologie erfordert wiederum, dass wir die Quelle von Worten, Bildern und so weiter kennen und ihr vertrauen. Es gibt keine Wahrheit außerhalb von Beziehungen. Wir können dem, was wir nur über elektronische Geräte hören und sehen, nicht trauen, sonst werden wir verrückt. Was ist real und was nicht? Um das zu wissen, müssen wir uns auf Informationen verlassen, die über das Digitale hinausgehen, über das, was mechanisch produziert und reproduziert werden kann. Wir müssen uns mit etwas Authentischem verbinden.
„So wie Wasser, Gas und Elektrizität aus der Ferne in unsere Häuser geleitet werden, um unsere Bedürfnisse mit minimalem Aufwand zu befriedigen, so werden wir mit visuellen oder auditiven Bildern versorgt, die auf eine einfache Handbewegung hin erscheinen und verschwinden, kaum mehr als ein Zeichen“ — Paul Valéry, 1928.
Die Malerei ist analog zum geschriebenen Wort, die Fotografie analog zur Druckerpresse. In seinem berühmten Aufsatz „Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit“ aus dem Jahr 1935 argumentiert Walter Benjamin, dass mechanisch reproduzierter Kunst, zum Beispiel Fotografien und Filmen, notwendigerweise das fehlt, was er die „Aura“ eines Kunstwerks nennt, eine Funktion seiner Einzigartigkeit und Relationalität. Im Gegensatz zu einem physischen Gemälde, das in wechselnde Besitzverhältnisse eingebettet ist, sich an einem bestimmten Ort befindet und mit der Zeit altert, verlieren reproduzierte Bilder ihre Verbindung zu ihrem ursprünglichen Kontext.
Dies gelte für die Fotografie, aber noch mehr für den Film: Während die Fotografie ein Objekt oder eine Szene darstellt, die tatsächlich irgendwo existiert hat, reiht der Film mehrere Einstellungen und Kameraperspektiven aneinander. Eine Szene, die einige Minuten dauert, hat sich so, wie wir sie sehen, nie wirklich ereignet; die Dreharbeiten haben wahrscheinlich viele Tage gedauert.
Damals, 1935, wurden Filme wenigstens noch mit echten Schauspielern und echten Gegenständen gedreht. Das ist heute nicht mehr der Fall. Die „Aura“, die ihnen durch ihre schwache Verbindung zur Realität noch anhaftete, wurde durch die generative KI zerstört, die Bilder von Menschen, Orten und Dingen erzeugt, die es nie gegeben hat.
Benjamin verbindet die Einzigartigkeit des Ortes eines physischen Objekts mit dem Konzept der Authentizität. „Die Echtheit eines Dinges“, schrieb er, „ist die Essenz all dessen, was von Anfang an übertragbar ist, von seiner materiellen Dauer bis zu seinem Zeugnis der Geschichte, die es durchlebt hat.“
Ich möchte hier hinzufügen, dass standardisierte, industriell produzierte physische Objekte denselben Verlust an Aura und Authentizität erleiden, den Benjamin den massenproduzierten Bildern zuschreibt. Das Gebrauchsobjekt wird sowohl von seinem Ursprung losgelöst als auch seiner Einzigartigkeit beraubt.
Die Folgen des Verlustes von Aura und Authentizität der uns umgebenden Bilder und Objekte sind heute weitaus gravierender als zur Zeit Walter Benjamins, obgleich sie damals schon sehr gravierend waren. Benjamin, der stark vom Marxismus der intellektuellen Kreise der Zwischenkriegszeit beeinflusst war, spricht von den kathartischen Folgen der Massenproduktion auch anerkennend:
„Die Reproduktionstechnik, so ließe sich allgemein formulieren, löst das Reproduzierte aus dem Bereich der Tradition ab. Indem sie die Reproduktion vervielfältigt, setzt sie an die Stelle seines einmaligen Vorkommens sein massenweises. Und indem sie der Reproduktion erlaubt, dem Aufnehmenden in seiner jeweiligen Situation entgegenzukommen, aktualisiert sie das Reproduzierte. Diese beiden Prozesse führen zu einer gewaltigen Erschütterung des Tradierten — einer Erschütterung der Tradition, die die Kehrseite der gegenwärtigen Krise und Erneuerung der Menschheit ist. Sie stehen im engsten Zusammenhang mit den Massenbewegungen unserer Tage. Ihr machtvollster Agent ist der Film. Seine gesellschaftliche Bedeutung ist auch in ihrer positivsten Gestalt, und gerade in ihr, nicht ohne diese seine destruktive, seine kathartische Seite denkbar: die Liquidierung des Traditionswertes am Kulturerbe.“
Neunzig Jahre nach Walter Benjamin erscheint das Zerbrechen von Traditionen — das Sprengen unserer Bindungen an Körperlichkeit, Einzigartigkeit und kulturelles Erbe — nicht mehr als „kathartisch“. Die Beseitigung dieser Fesseln ebnet nicht den Weg zur Befreiung der Massen, die sich in einer glorreichen proletarischen Revolution erheben werden. Sondern sie bewirkt deren elende Ohnmacht und ihre materielle und kognitive Entwurzelung. In dem Maße, in dem sie in eine künstliche Realität eintauchen, die nicht mehr durch Tradition, kulturelles Erbe oder die Einzigartigkeit und Bezogenheit der materiellen Welt kontrolliert wird, werden ihre Wahrnehmungen und Überzeugungen so formbar wie die Bilder, die sie nähren.
Entqualifizierung des Geistes
Die Erzeugung gefälschter Bilder, Stimmen und Videos durch die KI ist nicht völlig neu; tatsächlich ist der Einsatz von Kameratricks und Spezialeffekten im Film fast so alt wie das Medium selbst. Als wir jedoch in den 1950er Jahren Superman durch die Luft fliegen sahen, war es ein freiwilliger Akt des Unglaubens — ein Akt des Willens —, der es dem Zuschauer ermöglichte, ihn fliegen zu sehen. Die Zuschauer mussten sich aktiv an der Imagination der Geschichte, an der Erzeugung von Glauben beteiligen. Um einen Film der 1950er Jahre zu sehen oder erst recht ein Puppentheater oder eine Oper, muss man seine Vorstellungskraft einsetzen, die die Bilder der Geschichte erst vervollständigen.
Die Einführung der computergenerierten Bilder in den späten 1990er Jahren erforderte weitaus weniger Vorstellungskraft, bereitete uns aber zusammen mit dem Aufkommen von Photoshop auf ein neues Zeitalter vor, in dem wir den Bildern überhaupt nicht mehr trauen können.
Ist es ein Wunder, dass unsere Vorstellungskraft zu schrumpfen scheint, wenn so wenig von unserer Vorstellungskraft verlangt wird — von unserer ureigenen Fähigkeit, Bilder zu erzeugen? Verlieren wir die Fähigkeit, uns die Welt anders vorzustellen, als sie uns gezeigt wird?
Wenn Maschinen uns die Arbeit abnehmen, uns etwas vorzustellen, einen Text zu verstehen, ein Argument vorzubringen oder einen Geschäftsplan zu schreiben…, laufen wir dann nicht Gefahr, einer passiven, konditionierten Abhängigkeit zu verfallen und von unserer kreativen Urheberschaft abgekoppelt zu werden? Dann wären wir den autoritären Absichten schutzlos ausgeliefert, die durch die KI und die totale Datentransparenz ermöglicht werden. Wir würden sie sogar begrüßen.
„Ich kann nicht mehr denken, was ich denken möchte. Meine Gedanken sind durch bewegte Bilder ersetzt worden“ — Georges Duhamal (1930), in einem Kommentar über das Kino.
Heutzutage nutzen wir zunehmend KI, um Aufgaben wie das Zusammenfassen eines Dokuments, das Mitschreiben eines Gesprächs, das Lösen einer Matheaufgabe oder das Schreiben eines Artikels für Substack zu erledigen. Verlieren wir nicht unsere eigenen, für diese Aufgaben notwendigen kognitiven Fähigkeiten, wenn wir sie auslagern, um so etwas zu tun? Wenn wir unsere Intelligenz an Maschinen auslagern, werden wir dann nicht weniger intelligent, so wie wir körperlich schwächer werden, wenn wir Maschinen einsetzen, um Arbeit zu erledigen?
Das mit dem Schreiben von Substack-Artikeln mit KI war ein Scherz. Nachdem ich diesen Aufsatz beendet hatte, ging ich zurück und bat ChatGPT, „einen Aufsatz im Stil von Charles Eisenstein über die sozialen und kognitiven Auswirkungen der Auslagerung geistiger Aufgaben an KI zu schreiben“. Das Ergebnis ähnelte dem eines cleveren Teenagers, der einen Charles-Eisenstein-Aufsatz zusammenbastelt, indem er Teile aus anderen Aufsätzen plagiiert und neu kombiniert und dabei viele Klischees verwendet. Es zeigte kein tiefes Verständnis. Ich bat es, das noch einmal zu versuchen, und gab ihm einige Hinweise — die „Gedankenkette“ eines Aufsatzes, den ich geschrieben hatte. ChatGPT hatte einige gute Ideen, aber es war immer noch erschreckend oberflächlich, banal und unoriginell.
Oje. Natürlich ist es auch möglich, dass ChatGPT mir einen gnadenlosen Spiegel vorgehalten hat, um mir die Mängel meines Schreibens vor Augen zu führen. Plagiiere ich mich vielleicht selbst, indem ich immer wieder dieselben Ideen wiederhole? Benutze ich abgedroschene Metaphern und Klischees? Um ehrlich zu sein, manchmal tue ich das. Besonders, wenn ich müde, abgelenkt oder nicht ganz bei der Sache bin, wird mein Schreiben, nun ja ... mechanisch. Mein Denken wird auch mechanisch. Ich kann mich einer Frage oder einem Thema nähern, indem ich nach bestimmten Schlüsselkonzepten suche, auf die ich einen vertrauten analytischen Prozess anwenden kann, wie eine Methode oder Linse, ein Programm oder einen Transformator — um einen Begriff aus der KI zu verwenden.
Ich kann ein Thema durch verschiedene Linsen betrachten — zum Beispiel der Geschichte der Trennung oder des Schenkens, durch die des Quantitätskults oder der Täter-Opfer-Retter-Triade, durch die Quantenüberlagerung von Zeitlinien oder beliebig viele andere „Transformatoren“, mit denen ich vertraut bin. Für diejenigen, die mit diesen Methoden weniger vertraut sind, mögen die Ergebnisse recht kreativ und aufschlussreich erscheinen. Aber in Wirklichkeit handelt es sich lediglich um die Wiederaufnahme und Neuanwendung früherer Gedankenabläufe.
Um wirklich etwas Neues zu bieten, das dieser einzigartigen Person in diesem einzigartigen Moment voll und ganz gerecht wird, bedarf es einer weiteren Zutat. Und diese ist nur dem frischen Anfängergeist zugänglich. Wenn ich nicht oft genug an diese innere Stelle zurückkehre, verfestigt sich mein Denken im Gehirn. Dann habe ich das Gefühl, dass ich wieder und wieder das Gleiche sage und denke. Und dann habe ich das Gefühl, dass ich genauso gut durch einen KI-Chatbot ersetzt werden könnte, der auf alles trainiert ist, was ich bereits gesagt habe.
Mit der gewohnten Linse, die jetzt auf meinen Augäpfeln klebt, kann ich nichts anderes sehen als das, was sie mir offenbart. Die unendliche Vielfalt der Welt bricht zusammen in eine Endlichkeit der Kategorien, eine Starrheit des Denkens, eine Art innere Orthodoxie.
Die Parallele zwischen der Funktionsweise meines Gehirns im Autopilot-Modus und der Funktionsweise der generativen KI ist verblüffend. Diese Orthodoxie und Gleichförmigkeit der kognitiven Leistung — eine Art Demenz — plagt auch die KI, wie ich in den nächsten beiden Abschnitten dieses Essays beschreiben werde. Doch lassen Sie mich zunächst einen Gedanken zur Demontage von Fähigkeiten hinzufügen.
Es ist leicht zu verstehen, dass unser Vertrauen in die KI, unsere Artikel, Präsentationen oder E-Mails zu schreiben, die Entwicklung dieser Fähigkeiten behindern kann. Aber wie sieht es aus, wenn die KI eingesetzt wird, um Bücher und Artikel zusammenzufassen und bei der Recherche zu helfen? Nun, eine KI zu bitten, einen Artikel zusammenzufassen, ist sicherlich viel einfacher, als den ganzen Artikel zu lesen und ihn gut genug zu verstehen, um ihn zusammenzufassen. Denn das erfordert Arbeit: mentale Energie, Gehirnschmalz und Aufmerksamkeit, um das Wesentliche vom Unwesentlichen zu unterscheiden, das Hauptargument vom Ablenkungsmanöver, kurz, um die Arbeit des Verstehens zu tun. Der KI-Agent ersetzt dann sozusagen ein Organ des Gehirns, eine Art Verdauungsorgan. Und Organe, die wir nicht benutzen, verkümmern wie die Augen eines Höhlenfisches.
Einen ähnlichen Verlust erleiden wir, wenn wir, um ein Objekt oder eine Szene aus der realen Welt in ein Bild zu übersetzen, von der Zeichnung zur Fotografie übergehen. Wir müssen unsere Beobachtungsgabe und unsere Wahrnehmungsfähigkeit nicht mehr trainieren — das tut die Kamera für uns. Was nehmen wir nicht mehr wahr, wenn wir uns darauf verlassen? Ironischerweise machen wir Fotos, um Erinnerungen festzuhalten. Aber allzu oft haben wir am Ende das Foto anstelle der Erinnerung. Das Zeichnen einer Szene hat den gegenteiligen Effekt, sie bleibt sowohl im Gedächtnis als auch auf dem Papier.
Ich hoffe, Sie als Leser werden nervös bei dem Gedanken, so viele Arten von Gedanken an Maschinen auszulagern. So wie ein Foto nur einige Aspekte einer Szene festhält — und taktile, olfaktorische und andere Sinne sowie die Möglichkeit, einen anderen Blickwinkel einzunehmen, auslässt —, extrahiert auch eine Zusammenfassung nur bestimmte Informationen aus dem Originaldokument — denn warum sonst würden wir vollständige Dokumente schreiben? Man erhält die Knochen, aber nicht das Fleisch und Blut. Natürlich, für manche Zwecke ist tatsächlich nur das Skelett relevant. Aber was passiert, wenn wir immerzu nur noch die Knochen sehen?
Ich war heute in einem Zoom-Meeting mit drei anderen Leuten. Ich glaube, OTR (Off-the-record Messaging, ein kryptografisches Protokoll, das Instant-Messaging-Unterhaltungen verschlüsselt) war auch dabei, also wird es eine Zusammenfassung geben. Nur wird diese Zusammenfassung keine Details enthalten, die unterhalb der Wahrnehmungsschwelle liegen, aber dennoch zu meinem Eindruck von der Besprechung beitragen. Zum Beispiel, welche Personen schnell in eine Sprechpause springen und welche sich zurückhalten, wie lange sie sprechen, wie eifrig sie sprechen, inwieweit sie auf dem Vorredner aufbauen, ihre Sprechgeschwindigkeit, der emotionale Tonfall der Stimme und der Gesichtsausdruck.
KIs sind zwar zunehmend in der Lage, diese Art von Informationen zu erkennen und zu interpretieren, aber eine Zusammenfassung ist nicht dasselbe wie eine direkte Erfahrung. Eine Zusammenfassung destilliert nicht nur Informationen, sondern übersetzt sie von einer Form in eine andere. Sie kann nur die Art von Information extrahieren, die extrahiert werden kann. Informationen, die unvermeidlich kontextgebunden sind, können nur in ihrer ursprünglichen Form übertragen werden.
Bitten Sie die KI, diesen Artikel zusammenzufassen! Sie kann die wichtigsten Argumente vielleicht ganz gut herausfiltern. Aber würden Sie sich genauso fühlen, wenn Sie statt dieses Artikels die Zusammenfassung gelesen hätten? Wohl kaum.
Die Zusammenfassung trennt nicht nur den Müll vom Gold und extrahiert die wichtigsten Punkte aus dem überflüssigen Wortschwall. Sie trifft auch nicht nur eine Entscheidung darüber, was weggelassen und was beibehalten werden soll. Der gesamte Prozess des Zusammenfassens ist auf bestimmte Arten von Informationen ausgerichtet, die einer Art des Erkennens entsprechen, die in Punkten denkt. Sie zerlegt die Informationen in Einzelteile, versucht, das Gelesene zu destillieren, zu reinigen, zu extrahieren, zu reduzieren, und verliert alles aus den Augen, was sich einer solchen Reduktion widersetzt.
Drei Ebenen der Orthodoxie
Die KI greift auf die Datenbank des gesamten aufgezeichneten menschlichen Wissens zurück. Auf das gesamte aufgezeichnete menschliche Wissen. Allein dieser Satz zeigt schon ihr Potenzial und ihre Gefahr. Das LLM (Large Language Model, ein KI-Programm, das Texte erkennen und generieren kann) schließt all das menschliche Wissen aus, das nie aufgezeichnet wurde. Insbesondere die Arten von Wissen, die überhaupt nicht aufgezeichnet werden können. Sie vertieft also unsere Verankerung in der Art von Wissen, die aufgezeichnet wurde und aufgezeichnet werden kann, und, was noch heimtückischer ist, in den Denkweisen, die dieser Art von Wissen entsprechen.
Die KI ist also von einer heimtückischen Orthodoxie durchdrungen. Dieser Zwang zur Rechtgläubigkeit wirkt auf drei Ebenen.
Die oberflächlichste ist die bewusste Einseitigkeit, die durch die LLM-Ausbildung und -Feinabstimmung eingeführt wird, um bestimmte politische Überzeugungen, wissenschaftliche Paradigmen, medizinische Dogmatik und so weiter zu fördern.
Zweitens die einseitige Ausrichtung, die in der Ausbildung selbst angelegt ist, in der einige wenige wissenschaftliche, historische und so weiter Paradigmen vorherrschen. Wenn wir die KI als Forschungswerkzeug einsetzen oder ihr einfach Fragen über das, was ist, stellen, wird sie höchstwahrscheinlich mit der Wikipedia-Version der Realität antworten. Zum Beispiel wird sie keine Antworten liefern, die unkonventionelle wissenschaftliche Ideen wie die biologische Transmutation von Elementen, das Wassergedächtnis, Antigravitation, Psi-Phänomene, kalte Fusion oder vorsintflutliche Zivilisationen erkennen. Es sei denn, man fragt ausdrücklich danach — und vielleicht nicht einmal dann.
Einige meiner Leser mögen sagen: „Gut, die KI wird uns helfen, unbewiesene pseudowissenschaftliche Ideen ein für allemal aus den öffentlichen Wissensgrundlagen zu entfernen.“ Aber wenn man nicht gerade unser derzeitiges System der Wissensproduktion für perfekt hält und jede unorthodoxe Idee falsch findet, dann sollte das Potenzial der KI, dogmatisches Denken noch mehr zu verfestigen, alarmierend sein, insbesondere wenn sie die natürlichen menschlichen Fähigkeiten des Nachfragens ersetzt.
Es ist gefährlich, zu oft Orakel zu befragen. Im Chinesischen gibt es ein Sprichwort über das Aufsuchen zu vieler Wahrsager: „Je mehr man das Schicksal berechnet, desto schlimmer wird es.“ Der Grund dafür ist, dass übermäßiges Vertrauen in den Rat von Wahrsagern, Astrologen, dem I-Ging und so weiter zu einer Art Passivität und Verkümmerung des eigenen Urteilsvermögens führt. Richtig eingesetzt, sollen diese Techniken das eigene Urteilsvermögen durch neue Informationen und ungewohnte Perspektiven bereichern; werden sie aber überstrapaziert, ersetzen sie es eher.
Wenn wir das Forschen, Schreiben, Zusammenfassen, Lehren und Verstehen an die KI auslagern, riskieren wir nicht nur, dass diese Fähigkeiten in uns verkümmern. Wir untergraben auch unsere Fähigkeit, uns gegen die Dogmatik zur Wehr zu setzen, die durch diese gefestigt werden. Um dogmatischer Rechtgläubigkeit zu widerstehen, brauchen wir nicht nur Zugang zu alternativen Informationen, sondern auch die Fähigkeit, unabhängig zu denken — was schwer ist, wenn wir diese an die KI auslagern.
Die dritte Ebene der Orthodoxie ist subtiler. Das konventionelle Wissen ist Teil einer zivilisatorischen Mythologie und Denkweise. Dem Leser ist vielleicht ein charakteristischer Ton und eine charakteristische Syntax in den Ergebnissen von KI-Chatbots aufgefallen: eine Neigung zur Verwendung von Listen und anderen geordneten Konstruktionen; „logische“ und gebildet klingende Wörter wie „daher“, „darüber hinaus“, „im Allgemeinen“, „entscheidend“, „sicherstellen“, „verbessern“, „zusammenfassen“ und so weiter; und ein unerbittlich höflicher, einnehmender Ton. Mir ist klar, dass KI dazu gebracht werden kann, all dies zu vermeiden, und dass der höfliche Ton ein bewusstes Artefakt der Programmierung ist. Dennoch neigt die KI-Textgenerierung dazu, den rationalen Diskurs der gebildeten Gesellschaftsschichten widerzuspiegeln. Diese Art von Sprache entspricht — nicht nur inhaltlich, sondern auch strukturell — der oben erwähnten „Wikipedia-Version der Realität“.
Der Inhalt der vorherrschenden Überzeugungen, Paradigmen und der zugrunde liegenden Metaphysik unserer Zivilisation ist untrennbar mit ihrer Form verbunden — mit den Mustern von Schlussfolgerung, Ausdruck, Deduktion und Analogie, auf denen die KI beruht. Die Form der Erkenntnis und ihr Inhalt prägen sich gegenseitig. Bei einem Paradigmenwechsel geht es nicht nur darum, neue Fakten in eine bestehende kognitive Struktur einzufügen. Manchmal geht es um eine neue Qualität des Denkens, einen neuen Fokus der Aufmerksamkeit und eine neue Art, sich auf die Welt zu beziehen.
Natürlich enthalten KI-Trainingsdaten auch unorthodoxe Theorien, kritische Schriften, abweichende Philosophien und nicht-duale spirituelle Lehren. Aber diese sind in der Regel eher Wissensobjekte als tief verwurzelte Denkweisen. Die Wahrscheinlichkeitsfunktion, die „das, was als nächstes kommt” erzeugt, ist notwendigerweise orthodox, denn sie repräsentiert die Muster, die in den Trainingsdaten vorherrschen. Sie kann nicht eliminiert werden. Sie ist der Funktionsweise der Technologie inhärent. Die einzige Möglichkeit, sie zu eliminieren, besteht darin, ein LLM mit einer völlig anderen Datenbank zu erstellen. Wie würde ein Chatbot aussehen, der ausschließlich mit den Worten afrikanischer Geschichtenerzähler, goethescher Mystiker, spiritueller Channeler, Beat-Poeten, Erweckungsprediger und taoistischer Weiser trainiert wurde?
Aber selbst das könnte nicht ausreichen, um eine noch subtilere Ebene der Orthodoxie zu beseitigen, die in der modernen Sprache selbst verankert ist. In dem Maße, in dem Whorfs Hypothese zutrifft, bestimmt die Sprache die Art und Weise, wie Menschen denken, wahrnehmen und handeln. Die Sapir-Whorf-Hypothese, kurz: SWH, besagt: Wie ein Mensch die Welt wahrnimmt, hängt davon ab, welche Sprache er verwendet, um seine Realität auszudrücken. Eine KI, die auf moderne Sprache trainiert ist, wird daher die vorherrschenden Denk-, Wahrnehmungs- und Handlungsweisen verkörpern.
Je mehr wir uns auf die KI verlassen, desto mehr könnte die ihr innewohnende Orthodoxie unsere eigene in einer unausweichlichen Rückkopplungsschleife zementieren. Das würde die kollektive Demenz beschleunigen, die die individuelle kognitive Kompetenzminderung widerspiegelt, die durch die Auslagerung von Intelligenz entsteht.
Die Gleichschaltung des Denkens
Die Zementierung von Orthodoxien ist ein Beispiel für eine allgemeine Gefahr der künstlichen Intelligenz, eine andere Form der kollektiven Demenz ist die Gleichschaltung des Denkens. Eine Gleichschaltung ist immer dann wahrscheinlich, wenn die Automatisierung einen neuen Bereich menschlicher Aktivität erobert. Die Austauschbarkeit und Standardisierung von Waren und Industriegütern ist das Kennzeichen des Industriezeitalters.
Ich habe bereits den charakteristischen Tonfall und die Syntax der Chatbot-Kommunikation erwähnt. Da die Trainingsdaten der KI aus der Gesamtheit der Texte und Bilder im Internet stammen, stellt sich die Frage, was passiert, wenn eine Rückkopplungsschleife entsteht, in der KI-generierte Inhalte und KI-beeinflusste, von Menschen generierte Inhalte die LLM-Quelldaten infizieren?
Nun, KI-Forscher stellten sich dieselbe Frage. Im August 2023 stieß ich auf eine akademische Arbeit mit dem Titel „Self-Consuming Generative Models Go MAD“ („Auf sich selbst angewendete generative Modelle werden verrückt“) und schrieb einen langen Aufsatz über die darin enthaltenen Erkenntnisse: Von Einheitsbrei und Irrsinn zu Sinn und Verstand.
Im Wesentlichen untersuchten die Forscher, was passiert, wenn der Output der generativen KI wieder auf die Trainingsdaten zurückgeführt wird. Jede Iteration erzeugt Bilder von schlechterer Qualität, die zum Beispiel seltsame Artefakte in menschliche Gesichter einfügen. Der Artikel bot eine anschauliche Darstellung eines allgemeinen Phänomens: Wenn der Verstand — ob menschlicher oder anderer Art — sich in Abstraktionszyklen verliert, in Labyrinthen aus interreferentiellen Symbolen, die ihren Ursprung in der physischen Realität vergessen haben, dreht sich das gesamte System in Richtung Fantasie.
Die Entkoppelung von Symbol und Realität war schon lange vor der KI weit fortgeschritten. Von allen symbolischen Systemen, die sich in die Fantasie verirrt haben, ist das Geld das offensichtlichste. Der Reichtum, den es zu messen vorgibt, hat sich so weit von der Natur und dem kollektiven menschlichen Wohlergehen entfernt, dass das Streben danach beides zu zerstören droht.
Das Streben nach Geld und nicht nach dem, was es ursprünglich messen sollte, ist der Kern des kollektiven Wahnsinns der Zivilisation. Geld fasst eine Vielzahl von Werten in einer einzigen Sache zusammen, die zum eigentlichen Wert erkoren wird.
Ähnliche Probleme ergeben sich bei jeder Messung, die Komplexität auf Linearität reduziert, zum Beispiel Kohlenstoffmessungen als Indikator für ökologische Gesundheit. Sie bewirken oft das Gegenteil und zerstören Ökosysteme durch Biokraftstoffplantagen, Lithiumminen, Wasserkraftprojekte und Solarmodulfelder.
Noch älter und noch schrecklicher ist die Reduzierung des Menschen auf Etiketten und Kategorien — eine Voraussetzung für Ausbeutung, Sklaverei, Missbrauch und Völkermord, die all das in das Kostüm der Vernunft kleidet.
Es geht nicht darum, grundsätzlich keine Maßeinheiten, Symbole oder Kategorien zu verwenden. Aber wir müssen sie immer wieder mit der Realität verbinden, die sie repräsentieren, sonst sind wir verloren.
Man kann sich vorstellen, was für eine dystopische Zukunft entsteht, wenn die KI autonome Produktions- und Verwaltungssysteme betreibt, die von Erfolgsmaßstäben gelenkt werden, die möglicherweise jeden Bezug zum menschlichen oder ökologischen Wohlergehen verloren haben.
Gleichschaltung und Vereinfachung von Landschaften, Ökosystemen, Gedanken, Kultur und Sprache sind zu erwarten, wenn wir von der Unendlichkeit der Welt der Sinne zu einer endlichen Menge von Maßeinheiten übergehen. Genau das ist mit der Sprache im digitalen Zeitalter geschehen. Metaphern und Redewendungen lösen sich von physischen Erfahrungen und bedeuten immer mehr dasselbe. Wenn ich auf dem Bauernhof meines Bruders arbeite, bekommen Ausdrücke wie „tief hängende Früchte“, „der Schweiß auf der Stirn” und „eine lange Reihe zum Hacken“ eine lebendige Bedeutung. Es ist eine ganz besondere Erfahrung, eine lange Reihe zu hacken. Man hackt und hackt, und wenn man hochblickt, scheint es, als ob man überhaupt nicht vorankommt. Die Mücken umschwirren dein Gesicht. Es gibt einen Moment der Sinnlosigkeit. Man muss sich der Aufgabe ergeben.
Der Geist bleibt intelligent, wenn er seine Symbole und Metaphern erneuern kann, indem er sich mit ihrer materiellen, sinnlichen Quelle verbindet. Was passiert, wenn die Unendlichkeit der körperlichen Erfahrung, die die Sprache nährt, auf die punktuelle Erfahrung des Mausklicks oder des Wischens über ein Symbol zusammenschrumpft?
Was passiert mit „einen Vorschlag auf den Tisch legen“, wenn niemand mehr mit uns an einem Tisch sitzt? Was geschieht mit einem „Leuchtfeuer der Hoffnung“, wenn sich nachts niemand verirrt hat, bis sich der Nebel lichtet und ein echtes Leuchtfeuer zu sehen ist? Was passiert mit dem „Licht am Ende des Tunnels“, wenn wir keine Tunnel mehr erleben? Was mit dem „Meer von Möglichkeiten“, wenn wir nicht mehr an die Küste reisen?
Wir können Gras über die Sache wachsen lassen, etwas unter den Teppich kehren, spinnen, durch eine Situation navigieren, eine Gelegenheit beim Schopf packen ... ohne einen Rasen anzulegen, einen Besen in die Hand zu nehmen, ein Spinnrad zu benutzen, ein Boot durch gefährliche Gewässer zu navigieren oder jemandem in die Haare zu greifen.
Wir können viele kluge Worte und Phrasen verwenden, aber ohne konkrete Erfahrungen, auf die wir zurückgreifen können, verblasst ihre Bedeutung. Ich habe gerade einen Entwurf dieses Aufsatzes nach weiteren Beispielen durchsucht. Zum Beispiel habe ich den Ausdruck „Bindungen sprengen“ verwendet, um ein Zitat von Walter Benjamin zu beleuchten. Es schien ein lebendiger Sprachgebrauch zu sein, aber im Grunde passt die Metapher nicht.
Denn „Bindungen“ werden normalerweise nicht „gesprengt“. Sie können sich auflösen. Sie können durchtrennt werden. Wenn ich diese Begriffe austauschbar verwende, verlieren sie ihre eigentliche Bedeutung. Wenn wir dies auf einer allgemeineren Ebene tun, wenn die KI dies in großem Maßstab tut, dann schrumpft die gesamte Sprache. Und was mit der Sprache passiert, passiert auch mit dem Denken.
Die oben erwähnten „auf sich selbst bezogenen generativen Modelle“ der künstlichen Intelligenz beschleunigen diesen Gleichformungsprozess. In einem kürzlich in der New York Times erschienenen Artikel mit dem Titel „When A.I.’s Output Is a Threat to A.I. Itself” werden weitere MAD-Forschungsergebnisse vorgestellt, die zeigen, dass zukünftige Iterationen von KI-Output immer homogener werden und sich immer weiter von den von Menschen erzeugten Wörtern und Bildern entfernen, da der KI-Output die KI-Trainingsdaten kontaminiert. Beispielsweise wird eine generative KI, die auf menschliche Handschrift trainiert wurde, um die Ziffern 0 bis 9 zu schreiben, zunächst hervorragende Arbeit leisten.
Aber wenn sie auf ihre eigene Ausgabe trainiert wird und dann immer wieder auf diese Ausgabe trainiert wird, beginnen ihre Formen zu verschwimmen, und nach dreißig Wiederholungsschleifen laufen alle Ziffern zu einem einzigen einheitlichen Fleck zusammen. Man kann eine 5 nicht mehr von einer 7 unterscheiden. Der Prozess dauert länger, wenn die neue Ausgabe mit den alten Trainingsdaten vermischt wird, anstatt sie vollständig zu ersetzen, aber der Effekt bleibt derselbe. Dies ist ein extremes Beispiel dafür, wie Wörter ihre Nuancen verlieren und immer mehr das Gleiche bedeuten.
Die Homogenität wird durch eine Verengung des Ergebnisspektrums erreicht, indem die wahrscheinlichkeitstheoretischen Ausreißer eliminiert werden.
Die anfängliche Wahrscheinlichkeitsverteilung, die auf menschlichem Input beruht, ist recht breit, wird aber bei wiederholten Iterationen immer schmaler, wenn kein neuer Input mehr erfolgt. Die New York Times präsentierte eine besonders beunruhigende Grafik, die zeigt, was passiert, wenn KI Gesichter aus echten Fotos generiert, dann aus ihrem eigenen Output, dann aus diesem Output und so weiter. Schon in der ersten Iteration bemerkte ich eine subtile Homogenisierung der Gesichter; in der vierten Generation sahen sie nicht mehr alle gleich aus, sondern so, als ob ein und dasselbe Gesicht mit unterschiedlichen Details versehen worden wäre.
Diese Bilder haben etwas zutiefst Beunruhigendes. Sie erinnern an die Warnungen der Kritiker der Moderne, die befürchteten, dass die Standardisierung von Teilen und Prozessen durch die Industrie bei den Menschen das Gleiche hervorbringen würde: Standardrollen, Standardüberzeugungen, Standardwünsche, Standardlebensweisen. Droht unserem Geist ein ähnliches Schicksal, wenn immer mehr von dem, was wir lesen, hören, sehen und denken, auf KI-generierten Inhalten basiert?
Das ursprüngliche Übereinstimmungs-Problem
KI-Entwickler können dem Verfall der generativen KI entgegenwirken, indem sie den Trainingsdaten kontinuierlich neue, von Menschen generierte Inhalte hinzufügen — eine Strategie mit provokativen Auswirkungen auf die Zukunft der Intelligenz des Menschen und darüber hinaus. Nicht nur künstliche Intelligenz wird gleichförmiger und irrealer, je mehr sie sich in künstlich generierten Informationen verliert. Dasselbe geschieht mit jeder menschlichen Gesellschaft, wenn sie Informationen aus der realen Welt ausschließt — aus dem Körper, aus den Sinnen, aus dem Herzen, aus der Natur, von Andersdenkenden, von ihren Ausgebeuteten und Unterdrückten und vor allem von denen, die sie wegsperrt, einsperrt und ausgrenzt. In orthodoxen Systemen werden, wie bei der KI, genau die Informationen ausgesiebt und verzerrt, die das System umstürzen würden. Damit aber verliert die Gesellschaft den Bezug zur Realität.
Also stellt die KI keine neue Bedrohung dar, sondern nur die rapide Verschärfung eines alten kollektiven Wahns.
Auch indigene Kulturen standen vor der Herausforderung, mit der zerstörerischen und schöpferischen Kraft von Worten, Symbolen und Geschichten umzugehen und gleichzeitig mit einer Wahrheit jenseits all dessen verbunden zu bleiben. Andernfalls, so glaubte man, konnte eine Katastrophe über die Gesellschaft hereinbrechen: Blutfehden, Vernichtungskriege, schwarze Magie, Umweltzerstörung und -kollaps, Epidemien, Invasionen, Naturkatastrophen. — Natürlich sagt die moderne Mythologie, dass letztere nichts mit dem Missbrauch der Macht des Wortes zu tun haben, aber die meisten alten und indigenen Kulturen glaubten etwas anderes. — Eine Katastrophe entsteht, wenn wir uns von der Realität lösen, die unseren Symbolen zugrunde liegt.
Was mit der KI und der Gesellschaft passiert, passiert auch mit dem Individuum. Zumindest bei mir. Ich werde verrückt, wenn zu viel meiner Erfahrung digital ist.
Worte verlieren ihre Nuancen, ich beginne, „großartig“, „erstaunlich“, „fantastisch“, „wunderbar“ und so weiter austauschbar zu verwenden. Wichtig, wesentlich, entscheidend. Narrative und Gegennarrative werden in meinem Körper ununterscheidbar, weil sie alle auf genau derselben Erfahrung beruhen — der Erfahrung, vor einem Computer zu sitzen. Jede hat nur flüchtige Eindrücke, die sie stützen, nur Wörter, Bilder und Töne, die aus einer Box kommen. Wenn man sich nur auf das Internet verlässt, kann man jeden noch so abwegigen Glauben rechtfertigen. Nicht nur KI „halluziniert“.
Ich schreibe dies aus Taiwan. Gestern sind wir auf einen der Ausläufer des Yang-Ming-Gebirges geklettert, der im Gegensatz zu den meisten Hügeln auf dieser fruchtbaren Insel einen kahlen Kopf hat, statt der üblichen Dschungelfrisur. Ich dachte, es wäre unhöflich, diesen Berg zu besteigen, weil er sicher eine Art heiliger Ort ist, und lehnte mich an die Felswand, um um Erlaubnis zu bitten. Ich formuliere so eine Bitte nicht in Worten. Ich konzentriere mich auf mein Gefühl. Die Empfindung war stark. Ich fühlte die Verbindung dieses Felsvorsprungs mit der ganzen Insel, ein tiefes Bewusstsein, das größer war als jeder einzelne Felsbrocken.
Ich bat meinen Sohn Cary — er ist 11 Jahre alt —, sich ebenfalls an den Felsen zu lehnen, und fragte ihn, was er fühle. Ohne weitere Aufforderung beschrieb er dasselbe. Ich wusste, dass es in Ordnung war, die restlichen 20 Fuß zu klettern; ich fühlte, dass dieser Ort von Natur aus gutmütig, verzeihend und nachsichtig ist. Hunderte von Menschen trampeln jedes Wochenende auf ihm herum und sind für den Ort nicht mehr als Ameisen. Aber für diejenigen, die mit ihm kommunizieren, gibt er Antworten und Segen. Es wäre ein guter Wallfahrtsort für alle, die etwas auf der ganzen Insel und vielleicht darüber hinaus erreichen wollen.
Ist diese Absicht vereinbar mit der Bezwingung des Gipfels? Ich habe mich gegen die Besteigung entschieden.
Was ist der „Gipfel”, den die Menschheit zu erobern versucht? Welcher Segen steht uns zur Verfügung, wenn wir anders hinhören und andere Ziele anstreben?
Für mich ist diese Art von Erfahrung vergleichbar mit der Einführung neuer, von Menschen generierter Daten in den KI-Trainingsdatensatz. Ich verlasse mich nicht nur auf Abstraktionen und Symbole oder spinne Wortnetze nur aus den Fäden früherer Wortnetze und werde dabei langsam verrückt. Bitte, wer immer mir zuhört, lasst mich nicht vergessen, dass man manchmal das Urgestein berühren muss. So bewahre ich mich davor, verrückt zu werden. So schiebe ich die Demenz hinaus.
Die KI stärkt die intellektuellen Fähigkeiten ihres Schöpfers, des menschlichen Kollektivs. Wobei das „K“ wohl eher für „kräftiger“ als für „künstlich“ stehen sollte. KI kräftigt sicherlich unsere Intelligenz, aber eben auch unsere Dummheit, unseren Wahnsinn, unsere Isolation und die Folgen unserer Fehler. So müssen wir sie verstehen, wenn wir sie sinnvoll nutzen wollen. Die Notwendigkeit, die abstrakte, intellektuelle Intelligenz wieder mit ihrer ursprünglichen Quelle zu verbinden, wird mit jeder Innovation in der Informationstechnologie deutlicher. Das gilt auch, wenn wir über das Rechnen, den Film, den Buchdruck, die Kunst, das geschriebene Wort zurückgehen bis zum Ursprung der symbolischen Kultur — der Benennung der Welt.
Diese Erkenntnisse sind grundlegend für das, was es bedeutet, Mensch zu sein.
Wir sind das Tier, das sich auf Gedeih und Verderb Geschichten über sich selbst erzählt. Welche ungeheure Macht ist das: die Macht des Wortes, die Macht des Symbols, die Macht der Geschichte. Und welch schreckliche Folgen hat ihr Missbrauch.
Nur wenn wir den allgemeinen Gebrauch und den Missbrauch der Macht des Wortes verstehen, können wir uns einer Lösung des Problems nähern, wie die KI mit dem menschlichen Wohlergehen in Einklang gebracht werden kann. Denn sie hat das Potenzial, das Gegenteil zu bewirken, sei es als Werkzeug von Totalitaristen und Verrückten oder als autonomer Akteur selbst.
Dies ist nicht nur ein technisches Problem. Es handelt sich um die jüngste Wiederholung des alten Problems, wohin sich die Symbolik einer Kultur ausrichtet. Damit musste sich jede Gesellschaft in der Geschichte auseinandersetzen. Die KI verleiht ihm lediglich eine neue Dringlichkeit.
Redaktionelle Anmerkung: Dieser Text erschien zuerst unter dem Titel: „Intelligence in the Age of Mechanical Reproduction“ auf dem Substack Blog des Autors. Er wurde von Christa Dregger übersetzt, von Ingrid Suprayan und Bobby Langer korrekurgelesen und daraufhin zunächst im Zeitpunkt veröffentlicht.
Wenn Sie für unabhängige Artikel wie diesen etwas übrig haben, können Sie uns zum Beispiel mit einem Dauerauftrag von 2 Euro oder einer Einzelspende unterstützen.
Oder senden Sie einfach eine SMS mit dem Stichwort Manova5 oder Manova10 an die 81190 und mit Ihrer nächsten Handyrechnung werden Ihnen 5, beziehungsweise 10 Euro in Rechnung gestellt, die abzüglich einer Gebühr von 17 Cent unmittelbar unserer Arbeit zugutekommen.