Deepfake-Stimmen

Wenn die Philosophen plötzlich "Barbie Girl" rezitieren

Dass Algorithmen inzwischen täuschend echte Bilder erschaffen können, sickert langsam ins Bewusstsein. Das gleiche geht jedoch auch mit Stimmen, und wieder ist die Kulturindustrie in ihrem Verständnis von Kreativität überfordert

Als kleines Kind haben mich im Fernsehen Stimmen-Imitatoren immer unfassbar beeindruckt. Michael Winslow aus dem Film "Police Academy". Aber auch Jörg Knör, wenn er bei Rudi Carrell seine Darstellungen von Politikern wie Genscher, Vogel und Kohl zum besten gab. Wie nah ich an die brummende Bildröhre ging, die statische Ladung und den metallenen Duft der gewölbten Glasscheibe spürte und roch, und mich naiv fragte, wie das überhaupt geht. Im vergangenen Jahr berichtete ich über Deepfake-Fotos und -Videos. Auch da gibt es das oft zitierte "Uncanny Valley", das einen schaurig überkommt, wenn man jemanden zu sehen glaubt, dann aber feststellt, dass sämtliche visuelle Informationen aus Algorithmen und Deep-Learning-Maschinen stammen und viele Fragen bezüglich Implikationen über Authentizität gerade im Zeitalter von Fake News offen ließen.

Was mit Bildern, Fotos und Videos geht, funktioniert aber auch mit Audio. Die Prinzipien sind ähnlich. KIs können mit Sprachaufnahmen bekannter Menschen gefüttert und trainiert werden und dank Text-to-Speech, was nun wirklich keine Raketenwissenschaft mehr ist, lassen sich heute auch ohne Einserabschluss am MIT Stimmen faken und imitieren. So kann man sprichwörtlich Menschen Wörter in den Mund legen, die in realitas wohl nie über deren Lippen gingen. Fangen wir mit ein paar Beispielen an. Beim ersten interpretieren und rezitieren Slavoj Žižek und Ayn Rand im Duett den 90er-Eurotrash-Hit "Barbie Girl" der dänischen Formation Aqua.



Der mutmaßlich absurde Kontext offenbart schnell, dass hier irgendwas nicht stimmt. Dass dennoch der schlabbrig slowenische Akzent von Žižek so gut getroffen ist, lässt das Lachen nicht verkneifen. Not amused dürfte auch Queen Elizabeth II sein, die in dem nächsten Clip den Hit der Sex Pistols "God Save The Queen" vorträgt. Durchaus meta …



Was mit handelsüblichen Computern heute auch ohne milliardenschwere CIA-Budgets nicht alles möglich ist, will man meinen, und natürlich ist die Qualität defizitär und dürfte für eine Rede zur Lage der Nation nicht reichen. Aber, wie würden Sie reagieren, wenn Jay-Z Ihnen am Telefon den Anfang des Alten Testaments wie in einer Cypher vorrappte?



Dem Ehemann von Beyoncé, Rapper und Popstar lagen diese Deepfakes fast wie zu erwarten ziemlich quer. Sein Label Roc Nation forderte das Löschen der Inhalte auf YouTube. Bislang ohne großen Erfolg. Natürlich reklamierte man verletzte Urheberrechte und Diebstahl von kreativem Material. Aber was wurde überhaupt geklaut? Kann man den Style und das Timbre einer Stimme patentieren? Versuchen in der Musik nicht seit Jahrzehnten beispielsweise Gitarrist*innen den Sound von Jimi Hendrix, Eric Clapton oder Mark Knopfler zu imitieren und für die eigene Band zu nutzen?

Hier wurde letztendlich ja nichts im konventionellen Sinne kopiert oder plagiiert. Und hat die Kunstgeschichte nicht gelehrt, dass es durchaus legitim ist, eine alte Soul-Platte zu samplen, um daraus etwas Neues zu schaffen? Die Möglichkeiten und raschen Entwicklungen der Digitalisierung überfordern auch hier mal wieder rechtliche Frameworks und Verständnisse von Kreation in der Kulturindustrie. Und man könnte nun denken: So lange es sich nur um Stimmen handelt, sei ja alles gut.

Aber auch Musik kann durch Deepfake generiert werden. Die in San Francisco ansässige Firma OpenAI widmet sich seit einiger Zeit der Komposition von Musik, die ausschließlich durch Deeplearning-Algorithmen entsteht. Ja, es klingt auf dem ersten Blick surreal, aber hier stammen Songtexte, Stile, Stimmen, Instrumentierung und Arrangements allesamt aus Computern. Ob damit nun etwas im Stile von Katy Perry, Ella Fitzgerald, Elvis Presley oder Beatles vorgetragen wird – Die Versatilität ist massiv und auch wenn man keine High-Fidelity-Produktionen erwarten darf: So ein "Songwriting"-Talent gilt es erstmal zu haben.


Zugleich bringt diese molekulariserte Anmutung – man beachte das Kauderwelsch im letzten Klangbeispiel –, dieses Dekonstruierte, das Krisselige in den Frequenzen, eine eigene Ästhetik mit sich und erinnert an LoFi-Disziplinen wie Vaporwave und Noise-Folk. Maschinen können natürlich noch nicht so gut Lieder schreiben wie Menschen und werden es wohl auch niemals tun. Und ohne zum Ende in einen Kulturpessimismus zu verfallen, gilt es festzustellen, dass durch solche Technologien auch Musiker*innen und Komponist*innen interessante Werkzeuge zur Verfügung gestellt werden könnten.

Denn Inspirationen oder Hilfen bei Arrangements sind oft gefragte Elemente. Als Smartphone-App könnten unmusikalische Menschen gar ihre Liebesgedichte vertonen lassen, kommt beim Tinder-Date ganz bestimmt gut an. Und ebenfalls gut möglich, dass in wenigen Jahren Hooklines immer wieder von Deepfake-KIs erfunden werden. Der große amerikanische Autor Philip K. Dick soll seine Handlungsstränge ja auch mit Hilfe von zufälligen Würfelwürfen erarbeitet haben. Wer hat dann aber die Urheberschaft, wenn eine Tonfolge, die zum Hit führt von einem Rechner stammt? Das können Jay-Z, Gema und Unterhaltungsindustrie dann gerne am runden Tisch diskutieren.