Kunst und Künstliche Intelligenz

Wie verrückt wird unsere Zukunft der KI-Bilder?

KI-generierte Bilder sind inzwischen so gut, dass sie in die DNA unserer visuellen Kultur eingehen. Wird fiktiver Fotorealismus die neue Normalität? Und interessiert uns überhaupt noch, was "echt" ist? Eine Annäherung

Sich die Zukunft weird as fuck vorzustellen, hat Unterhaltungswert. Silvia Dal Dossos Videoessay "The Future Ahead Will Be Weird AF (The Ultimate AI CoreCore Experience)" war auf der vergangenen Transmediale in Berlin zu sehen und zog anhand viraler TikTok- und YouTube-Clips der letzten Jahre eine Bilanz unserer sich rasant verändernden Online-Bildkultur. 

Dabei war es die KI-generierte Stimme des Dokumentarfilmers Adam Curtis, die in Dal Dossos Video durch das Inferno einer paranoiden, irreversibel realitätsverlustigen digitalen Kultur führte: Pornografische Deep Fakes unserer Lieblingspopstars, live performende Hologramme verstorbener Rapper und die tastenden Versuche von KI-Videogenerierung, die 2023 noch eine bizarre Welt voller Glitches hervorbrachte, in der es gehörig spukte. 

Inzwischen generiert das Programm "Sora" von Open AI aus Text-Prompts erstaunliche Videos, die täuschend echt aussehen. Hatte die Social-Media-Öffentlichkeit (ungefähr wie ein fieser großer Bruder) die noch im Werden begriffenen KI-Generatoren in den letzten Jahren gezielt auf jedes erdenkliche Fettnäpfchen zugesteuert, so gibt es inzwischen nicht mehr viel zu lachen. Was passiert, wenn KI-generierter Fotorealismus zur Normalität unserer alltäglichen Bildkommunikation online wird? 

Schon früh gemogelt

Es gab Zeiten, da konnte man sich noch über gephotoshoppte Models entrüsten - und man tut es teilweise immer noch. Doch heute greift KI in Smartphone-Kameras bereits ein, wenn wir auf den Auslöser drücken. Aktuelle Modelle wie zum Beispiel das Google Pixel 8 bieten KI-gestützte Fotofunktionen an, mit denen Hintergründe verändert, Elemente ausradiert, Personen verschoben und (mit der Funktion "Best Take") Gesichter ausgetauscht werden können. Der Werbeclip des "Pixel" zeigt, wie auf diese Weise das perfekte Urlaubsfoto entsteht, auf dem alle Familienmitglieder glücklich in die Kamera lächeln. 

Noch vor einem Jahr hatte man Samsung dafür gescholten, dass die Kamera-Funktion "Moonshot" nur deshalb so gestochen scharfe Monde einfing, weil das Programm, wie sich herausstellte, einfach einen Stockfoto-Mond ins Bild hineinpflanzte (das hatten User aufgedeckt, indem sie die Funktion auf Glühbirnen anwendeten). Googles "Best Take" hingegen scheint keine Gemüter zu erhitzen – zu groß der Druck, auf Instagram mit den perfekten Leben der anderen mitzuhalten. 

Wohlgemerkt wurde im Medium Fotografie schon sehr früh gemogelt (fotografische Retusche ist so alt wie das Medium selbst). Doch statt uns Elfen-Sichtungen am murmelnden Bächlein oder Ektoplasma spuckende Medien plausibel machen zu wollen wie in den 1910ern, soll jetzt einfach jedes Foto so aussehen, als hätten alle eine total gute Zeit. 

Das Ende der gähnenden Braut

Schade eigentlich, dass es eine gähnende Braut, wie wir sie etwa in Tacita Deans Fotobuch "Floh" finden, nicht mehr geben soll. 2001, als es mit der Ära des Analogfilms zu Ende ging, hatte die Künstlerin eine entzückende Sammlung anonymer Amateurfotos publiziert, die sie auf unzähligen Flohmarkt-Streifzügen gefunden hatte. 

Danebengegangene Hochzeitsfotos, halbgeschlossene Blinzel-Augen, unscharfe Frisbees, die wie UFOs aussehen – diese Bilder hatten es offenbar nicht ins Familienalben geschafft. Mit den heute gängigen KI-Kamera-Apps wird fortan alles Unabsichtliche einer Perfektion weichen, die der kommerziellen Bildproduktion nacheifert. 

Bevor die erste Kodak-Kamera auf den Markt kam ("Sie drücken den Knopf, wir erledigen den Rest") konnte nicht jeder Fotos machen. Heute können alle sogar richtig gute Fotos machen. Die haben dann zwar nicht mehr viel mit der Wirklichkeit zu tun, aber vielleicht wird es künftigen Generationen einfach nicht mehr so wichtig sein, ob das Abgebildete zu 100 Prozent real ist oder nicht. Nach dem Motto: "larger than life" statt "es-ist-so-gewesen"? Auf letztere Formel hatte Roland Barthes 1980 den Wirklichkeitseffekt der Analog-Fotografie gebracht. Der Effekt der KI-Bildgenerierung hingegen ist das Generische.

Bilder wie Qualzuchthunde

KI-Bildgeneratoren spucken eben jene Darstellungskonventionen in immer neuen Varianten aus, die sie an den (aus dem Internet gezogenen) Bildermassen in der Trainings-Datenbank erlernt haben. Dabei wird die Filterästhetik unserer Social-Media-Fotos natürlich gleich mitreproduziert. Kombinieren wir nun den Bild-Durst unserer digitalen Kultur mit dem "Mooreschen Gesetz" (nach dem sich die Computer-Rechenleistung alle zwei Jahre verdoppelt), so ist anzunehmen, dass sich das Internet rasch mit generierten Contents füllen wird. Und was, wenn die KI irgendwann ihre Resultate auf Basis generierter Bilder entwickelt? Von zwölffingrigen KI-Monstrositäten ist zwar (leider) nicht auszugehen, doch werden KI-Bildgeneratoren jene Trends der digitalen Kultur verstärken, die der Technologie in den letzten zehn Jahren vorausgingen. 

Erinnern wir uns: Bevor die digitale Revolution das Versprechen einer globalisierten Welt vollends einlöste, hatte Kultur ein gewisses Lokalkolorit. Dann kamen das Web 2.0 als weiterer Sozialisationsort hinzu. Wolfgang Ullrich etwa beschreibt in "Selfies" (2019) wie Emojis Affekte formalisiert und mithin mimische Codes über Kulturgrenzen hinweg etabliert haben. 

Seit die Feeds der Sozialmedien steuern, was wir sehen, hat sich dieses Erleben auf Filterblasen verengt. Und in diesen floriert eine eigentümliche Monokultur: Seit TikTok werden Memes (fast) alle von immer derselben Stimme begleitet, Insta-Influencerinnen haben (mehr oder weniger) das gleiche Gesicht, und verzwergte Qualzuchthunde mit Puschelfell und tränenden Augen haben auf Instagram Millionen Follower – wie metaphorisch! Diese Bild- und Vorstellungswelt werden KI-Bildgeneratoren nicht gerade in neue Bahnen lenken. 

Spiegel unserer Denkmuster

Die von Googles Gemini generierten woken und überformten Historienbilder waren letztlich ein – etwas zu brachialer – Versuch, die Geburt überraschender Rollenbilder zu erzwingen (statt weißer Machtmännern schuf Gemini fesche Wehrmachtsoldatinnen und Wikinger, die aussehen wie maorische Profi-Wrestler). KI-Generiertes brilliert überall da, wo Klischees gefragt sind. Porträtgeneratoren wie Photorama werben derzeit auf Instagram damit, aus jedem noch so verschlafenen Gesicht eine Powerfrau in Stilettos und weißer Seidenbluse für die Bewerbungsmappe zaubern zu können. Formuliert die KI dann aus ein paar unbeholfenen Prompt-Sätzen auch noch das Anschreiben (wie Geminis Demo-Website aktuell vorschlägt), kann man gar nicht mehr absehen, wer da zum Vorstellungsgespräch aufschlagen wird. 

Im Umkehrschluss mag das emanzipatorische Potenzial der Bild- und Textgeneratoren gerade darin liegen, dass sie uns die Denkmuster widerspiegelt, welche unsere Kultur dominieren. Jene, wie auch die impliziten Voreinstellungen der KI-Softwares, analysiert der Bildwissenschaftler Roland Meyer sehr unterhaltsam auf seinem Instagram-Account "@bildoperationen". Die Bildende Kunst wiederum tut das, was die "Pictures Generation" vor 40 Jahren schon einmal tat: Das Generische unserer massenmedialen Bildwelt ad absurdum führen (persönliches Lieblingsbeispiel: Charlie Engman).


Seit die sozialen Medien das publik machten, was einmal das Familienalbum war, sind Bilder eng mit unserem sozialen Auftreten verschränkt. Dabei hat die Epidemie der verschönernden Foto-Filter dazu geführt, dass virtuelle Influencerinnen inzwischen online mitmischen können, ohne im Geringsten künstlich zu wirken. 

Eine der ersten ihrer Art war Miquela Sousa, die als "@lilmiquela" heute zweieinhalb Millionen Follower und Modelverträge mit Prada und Calvin Klein hat. Der Shopping-Tag im Bild ist Realismus genug. Miquela, die es seit 2016 gibt, musste damals noch aufwändig mit 3D-Modeling und Motion Capture produziert werden. 

Während "Vogue" 2022 von der Agentur Photogenics berichtete, die 3D-Scans ihrer menschlichen Models einführte, kürzt Generative KI diese Umwege fortan erheblich ab. Agenturen für rein virtuelle Models schießen seit einiger Zeit wie Pilze aus dem Boden. Dabei sind gerade die Avatare am interessantesten, die so gemacht sind, dass sie irgendwo zwischen lebensecht und künstlich changieren. Im Zweifel liegt die Faszination.  


Diese animistische Anziehungskraft ist alt (wie vielleicht jede, die ganze Gesellschaften bannt) und funktioniert im Medium Fotografie besonders gut. In den 1930ern schaffte es eine Schaufensterpuppe auf das Cover des "Life Magazine". Cynthia (alias "Grace the Dummy") war eine der ersten Schaufensterpuppen mit Gesicht und sah für damalige Augen überraschend lebensecht aus – und auf Fotos erst recht, wie ihr Schöpfer Lester Gaba in Fotoserien unter Beweis stellte (Lester und Cynthia beim Candlelight Dinner, Lester und Cynthia in einer Jazz-Bar). 

Puppen-Liebhaber wie ihn gibt es auch heute, aber so lange man nur digital interagiert, sieht unsere Gesellschaft keinen Kink darin, der einem peinlich sein müsste. Auf Kundenservice-Hotlines werden wir wahrscheinlich nur noch mit Chatbots korrespondieren. 

Eine menschliche Komponente wird es trotzdem noch geben – den human touch, das Ei, das die Fertigbackmischung saftig macht. Doch so wie Face-Filter in den letzten zehn Jahren zu bestimmten Schönheits-OP-Trends geführt haben, werden auch KI-generierte Personas den einen oder anderen Effekt auf uns haben. Das haben unsere sozialen Umgebungen so an sich. 

Die Kunst liebt delegierte Autorschaft

Bald wird man nicht mehr sagen können, wer da eigentlich schreibt, spricht – oder singt: Holly Herndon nahm 2022 ihr eigenes Deepfake vorweg und stellte ihre Stimme als KI-Modell "Holly+" zur Verfügung. Was zunächst wie eine Kapitulation aussehen mag, zeigt eigentlich, dass wir uns – trotz alldem, was die KI kann – um die Kreativität keine Sorgen machen müssen. 

Denn delegierte Autorschaft liebt die Kunst schon seit über hundert Jahren. So war es eigentlich nicht notwendig, dass Ai Weiwei eine Lanze für menschliches Schöpfertum brach. Vergangenen Januar stellte er "81 Questions" an Chat-GTP und sich selbst. Fragen und Antworten wurden prominent auf elektronischen Werbetafeln in acht Metropolen von New York bis Tokyo ausgestrahlt (Jenny Holzer lässt grüßen). "Mensch-Maschine-Kollaboration" ist das Buzzword, mit dem uns Werke wie dieses derzeit ihren Einsatz von KI schmackhaft machen. 

2021, als man noch erklären musste, was Chat-GTP ist, experimentierte die Schriftstellerin Vauhini Vara mit dem Textgenerator. Er sollte ihr dabei helfen, den tragischen Tod ihrer Schwester literarisch zu verarbeiten. Es bedurfte mehrerer Anläufe, bis GTP-3 aus Varas-Vorlage keine Happy Ends, Hymnen aufs Joggen, oder Boy-meets-Girl-Romanzen mehr strickte. Ihre Sprachlosigkeit überwand die Autorin letztlich durch immer länger werdende Prompts, die GTP auf die richtige Fährte führen sollten und sich so allmählich zu einem Text akkumulierten. GTP überließ sie nur noch das letzte Wort (und das saß!).

Kultur im Feedbackloop

Doch im inzwischen weit fortgeschrittenen Zeitalter der generativen KI sind nicht mehr nur wir es, die die Maschine für den kreativen Prozess in den Dienst nehmen. Künftig wird alles, was das Internet zu einem kulturellen und sozialen Raum macht, in dem sich Menschen präsentieren und ausdrücken, von KI-Trainingsdatenbanken abgeschöpft werden. Kultur im Feedbackloop. 

Aktuell diskutieren seriöse Nachrichtenmedien über Selbstverpflichtungen gegen die Nutzung KI-generierter Bilder. Jene tummeln sich bereits in Stockfoto-Archiven und sind zwar irgendwo als KI gekennzeichnet, doch gehen diese Information beim Download leicht verloren, wie Jürgen Scriba auf der Tagung "KI und das digitale Bild" warnte. Im Januar wurde bekannt, dass Nikon, Sony und Canon an der Einführung von fälschungssicheren digitalen Signaturen arbeiten, die in die Foto-Metadaten eingebettet werden sollen. Und hier wird die Blockchain-Technologie – nach dem großen NFT-Hype – wieder interessant. Canon will sie zur Authentifizierung der Herkunft von Bilden einsetzen.

Den visuellen Schall und Rauch der sozialen Medien wird das kaum betreffen. Jene sind zu einem einflussreichen, ja vielleicht dem vitalsten Ort unserer Bildkultur geworden. Hier genießen wir Bilder (mehr oder weniger bewusst) als Medien der Beeinflussung, folgen den Reality Shows menschlicher Influencer oder sympathischer Bots. Hier teilen wir uns mit, kommen zusammen, und werden dabei zur Zielscheibe von Targeted Advertising. Irgendwo in diesem double bind zwischen freiem sozialem Spiel und "Enshittification" scheint das zu liegen, was unsere digitale Kultur so fesselnd macht.