Der „Hashtag des Monats“ ist das Audioformat im OSS-Blog. Im monatlich erscheinenden Podcast erklären wir Begriffe rund um die Themen Medien und Digitalisierung.
Folge 10: Deep Fakes (Dauer: 10:51)
Was ist ein Deep Fake?
Gefälschte Bilder und Fälschungen anderer Medien gibt es eigentlich schon seit es diese Medien gibt. Musste man bis vor kurzem aber noch richtige Photoshop-Skills haben, um ein Foto glaubhaft manipulieren zu können oder ein ganzes Team an 3D- und Special Effects-Artists, um ein Video zu faken, macht es jetzt die Künstliche Intelligenz viel einfacher, Texte, Bilder, Tonaufnahmen und Videos zu manipulieren oder sogar komplett neu zu erstellen, ohne dass man merkt, dass das Bild gar nicht echt, die Aussage gefälscht und das Video manipuliert ist. Jedes halbwegs aktuelle Handy ist in der Lage mit bestimmten, teilweise sogar kostenlosen Apps Deepfakes zu generieren.
Das Wort Deep Fake kommt aus dem Englischen und ist ein Kofferwort aus Deep Learning und Fake. Deep Learning bezeichnet eine Form des Maschinenlernens, bei der – vereinfacht gesagt – künstliche Intelligenz stetig dazulernt.
Das Wort Fake kennt man spätestens seit dem Begriff Fakenews und bedeutet so viel wie „falsch“ oder „nicht echt“ – Deepfakes sind also Medienprodukte, die mithilfe Künstlicher Intelligenz verfälscht, abgeändert oder komplett neu erschaffen wurden. Einfach ausgedrückt: Deepfakes sind Fälschungen von Medien, die mithilfe von KI erzeugt wurden.
Diese Podcast-Folge beschäftigt sich damit, was Deep Fakes überhaupt sind, welche Medien gefälscht werden, welche Probleme dadurch entstehen und wie man sich davor schützen kann.
Folge 8: Deep Fakes
Was ist das?
Gefälschte Bilder und Fälschungen anderer Medien gibt es eigentlich schon seit es diese Medien gibt. Musste man bis vor kurzem aber noch richtige Photoshop-Skills haben, um ein Foto glaubhaft manipulieren zu können oder ein ganzes Team an 3D- und Special Effects-Artists, um ein Video zu faken, macht es jetzt die Künstliche Intelligenz viel einfacher, Texte, Bilder, Tonaufnahmen und Videos zu manipulieren oder sogar komplett neu zu erstellen, ohne dass man merkt, dass das Bild gar nicht echt, die Aussage gefälscht und das Video manipuliert ist. Jedes halbwegs aktuelle Handy ist in der Lage mit bestimmten, teilweise sogar kostenlosen Apps Deepfakes zu generieren.
Das Wort Deep Fake kommt aus dem Englischen und ist ein Kofferwort aus Deep Learning und Fake. Deep Learning bezeichnet eine Form des Maschinenlernens, bei der – vereinfacht gesagt – künstliche Intelligenz stetig dazulernt.
Das Wort Fake kennt man spätestens seit dem Begriff Fakenews und bedeutet so viel wie „falsch“ oder „nicht echt“ – Deepfakes sind also Medienprodukte, die mithilfe Künstlicher Intelligenz verfälscht, abgeändert oder komplett neu erschaffen wurden. Einfach ausgedrückt: Deepfakes sind Fälschungen von Medien, die mithilfe von KI erzeugt wurden.
Medientypen
Text
Nicht zuletzt wegen der Möglichkeit, Texte im Stil eines berühmten Autors oder einer berühmten Autorin von einer KI erstellen zu lassen, hat dazu geführt, dass in Hollywood gestreikt wurde. Denn wenn die KI auch den Stil von berühmten Drehbuch-Autor:innen imitieren kann, dann beinhaltet das zwei große Probleme: erstens: die KI wurde mit deren urheberrechtlich geschützten Material trainiert und zweitens: die Autorenschaft kann damit gefaked werden und die Original-Autor:innen haben im schlimmsten Fall keinen Job mehr. Text zu faken ist vergleichsweise einfach – schließlich geht es nur um Vokabeln und Grammatik, keine Betonung, keine Stimme, aber auch kein Bild.
Bild
Gefakete Bilder gibt es aber auch schon sehr lange – kaum ein Werbefoto schafft es in eine Anzeige ohne vorher retuschiert zu werden. Was aber, wenn es nicht mehr viel Arbeit benötigt, um Gesichter zu tauschen, Objekte aus dem Bild zu entfernen oder hinzuzufügen? Auch hier macht die KI das möglich, ohne großen Aufwand, fast ohne Vorkenntnisse und ohne riesige Rechenpower.
Video
Eines der ersten bekannten Deepfake-Videos war von der Internetplattform Buzzfeed erstellt und zeigte den ehemaligen US-Präsidenten Barack Obama, der Dinge sagte, die ein amerikanischer Präsident eher nicht in der Öffentlichkeit sagen würde. Solche Dinge sind heute viel leichter und schneller umsetzbar als noch in der Vergangenheit – teilweise funktioniert das sogar fast in Echtzeit.
Hier unterscheidet man verschiedene Arten der Manipulation:
Face Swapping & Body puppetry
Face swapping bezeichnet das Austauschen des Gesichts im Deepfake. Austauschen bedeutet nicht unbedingt, dass jemand anderes in das Video hineinmontiert wird, sondern eher, dass die Person, die gefilmt wurde, im Video Dinge sagt und tut, die sich in Wahrheit eben nicht gesagt oder getan hat. Ein berühmtes Beispiel dafür ist das „Stinkefinger-Video“ des ehemaligen griechischen Finanzministers Yanis Varoufakis. Der zeigte Deutschland in einem Video den Mittelfinger – oder eben nicht. Der Moderator der ZDF Satireshow Magazin Royale behauptete, das Video sei fake und zeigte sogar, wie es seine Redaktion produziert haben will – bis heute ist aber immer noch unklar, ob das Video oder der Fake gefaked waren.
So etwas wird dann als Body puppetry bezeichnet – das ist die Möglichkeit, Bewegungsabläufe einer Person auf eine andere im Video zu übertragen.
Audio
Schnitt vs KI
An Tonaufnahmen, die so nicht von einem Menschen gesprochen wurden, haben wir uns im Alltag eigentlich schon gewöhnt. Denn sowohl die Ansagen in Bus und Bahn als auch die Stimme aus dem Navi greifen oft nicht auf ganze Sätze oder sogar Texte zurück, sondern auf einzelne Wörter, die ein Sprecher oder eine Sprecherin eingesprochen haben. Diese liegen dann in einer Datenbank und werden dann je nach Verwendung neu zusammengesetzt. Nicht für jedes Mal, dass irgendwo jemand z. B. rechts in die Goethestraße abbiegen muss, wurde der Satz „an der nächsten Kreuzung rechts in die Goethestraße abbiegen“ neu aufgenommen. Die Wörter „Straße“, „rechts“ und „Goethe“ wurden wahrscheinlich genau einmal in der Datenbank abgelegt. Deswegen klingen solche Ansagen manchmal unnatürlich, weil man diese Wörter ja nicht in jedem Zusammenhang gleich ausspricht.
Das Gleiche passiert, wenn man aus verschiedenen Aufnahmen etwas neues zusammenschneidet.
Audio ist übrigens gar nicht so einfach umzusetzen, weil uns Menschen ziemlich schnell auffällt, wenn etwas mit der Stimme, die wir hören, nicht stimmt, z. B. wenn die Stimme uns zwar bekannt vorkommt, aber die Betonung oder Sprachmelodie anders ist, oder bei komplett KI generierten Stimmen, wenn es eben nicht „menschlich“ klingt.
Text to Speech vs. Voice Conversion
Bei den Verfahren, Deepfakes im Audiobereich zu generieren unterscheidet man grundsätzlich zwei Methoden, denen aber die gleiche „Trainingsmethode“ zugrunde liegt: Die KI analysiert Aufnahmen der Stimme, die sie klonen soll.
Danach unterscheiden sich die beiden Verfahren aber. Bei dem einen schreibt man seinen Text und die KI spricht dann mit der vorher aufgenommenen Stimme. Anbieter wie Elevenlabs machen es so möglich, mit der eigenen Stimme in einer Sprache zu sprechen, die man gar nicht sprechen kann. Man nimmt fünf Minuten lang die eigene Stimme in der Muttersprache auf, lässt das analysieren, kopiert den Text einfach in ein Textfeld und schon spricht man akzentfrei Italienisch, Schwedisch, Hindi oder Chinesisch.
Die zweite Variante nennt sich Voice Conversion – also Stimmenverwandlung. Die KI spricht genau das nach, was man hineinspricht – allerdings mit einer anderen Stimme.
Was ist das Problem?
Überwindung biometrischer Systeme
Vor nicht allzu langer Zeit konnte man überall lesen und hören, dass man bei irgendwelchen Anrufen vom vermeintlichen Microsoft Support oder irgendwelchen Telefon-Umfragen nicht „ja“ sagen soll. Der Hintergrund ist ganz einfach: Man hätte dieses „Ja“ einfach in ein Gespräch hineinschneiden und behaupten können, man habe irgendeinen Vertrag abgeschlossen. So nach dem Motto: „Wollen Sie das Auto kaufen?“ „Ja“. Diese Warnung war lange Zeit berechtigt, war die gesetzliche Regelung in Deutschland so, dass auch mündliche Zusagen rechtlich bindend waren.
Werden jedoch Deepfakes eingesetzt, brauchen die Betrüger das „Ja“ gar nicht – sie brauchen nur eine ausreichend lange Aufnahme der Stimme und können daraus dann einfach irgend einen Text sprechen lassen. So hat eine berühmte deutsche Tageszeitung übrigens eine Werbung geschaltet, in der sie Bundeskanzler Olaf Scholz Dinge über sie sagen lässt, die er so nie gesagt hat. Selbst vermeintlich sicherere Systeme, die sich auf Videos zur Identifikation stützen, können so überlistet werden.
Social Engineering
Selbst beim Dating kann man durch Deepfakes in die Irre geführt werden: Statt mit einem gleichaltrigen Mädchen, das man im Videochat sieht und hört, chattet man eigentlich mit einem alten Mann. Genauso ist es möglich, dass man gezielt nach Daten gefragt wird, die man vielleicht seiner Chefin oder dem Bankberater geben würde, aber keiner fremden Person. Durch Deepfakes wird aber die Stimme eines vertrauenswürdigen Menschen imitiert und man glaubt, dem Angreifer vertrauen zu können – das bringt auch die verschiedenen Enkeltricks aufs nächste Level.
Desinformation
Fake news und Deepfakes passen leider ziemlich gut zusammen, weil Menschen eher Bildern und Videos vertrauen als reinen Texten. Deshalb können per KI generierte oder gefälschte Fotos und Videos dazu beitragen, dass gezielter Desinformation eher geglaubt wird. So kam es vor kurzem zu einer Situation, in der Bundeskanzler Scholz ein Verbot der AfD ankündigte. Allerdings war das Video nicht echt. Denn obwohl es sehr realistisch wirkte, war es ein Deepfake. Auch wenn das Video bei einigen Menschen für Empörung gesorgt hat, war das noch ein relativ harmloses Beispiel – was, wenn ein Staatsoberhaupt in einem Deepfake einem anderen Land den Krieg erklärt?
Pornografie
Im Jahr 2020 waren 93% aller Deepfakes im Internet – nein, keine Katzenvideos – das andere große Internet-Phänomen: Pornografie. Und das ist für die Betroffenen ein Riesenproblem. Wer möchte schon in einem Schmuddelfilm mitspielen – und eigentlich hat man weder zugestimmt und erst recht nicht mitgemacht. Trotzdem sieht einen das ganze Internet nackt und in intimen Situationen – ob man wirklich so aussieht, ist dabei eigentlich völlig egal.
Verleumdung
Das Beispiel mit dem Bundeskanzler, der Werbung macht – dort dann aber auch tatsächlich sagt, dass der Werbespot mit KI produziert wurde, zeigt ja schon, was möglich ist. Schlimmer wird es aber, wenn man Politiker:innen und anderen Menschen, die in der Öffentlichkeit stehen, schlimme Dinge in den Mund legt, die für sie selbst rufschädigend sind – wie z. B. Beleidigungen oder einfach sehr dumme Sachen. Für sie wird es schwer zu beweisen, dass das gar nicht von ihnen kommt – aber selbst dann ist vielleicht schon großer Schaden angerichtet.
Rechtliches
Sind Deepfakes illegal? In den allermeisten Fällen sind sie das. Denn es wird zum Beispiel das Recht am eigenen Bild, das allgemeine Persönlichkeitsrecht oder auch das Urheberrecht verletzt. Wenn dann der KI-generierte Klon im Video auch noch übel schimpft oder Unwahrheiten verbreitet, kommt möglicherweise auch noch der Straftatbestand der Beleidigung, der Verleumdung oder der üblen Nachrede dazu. Allerdings gibt es bislang kaum Gesetze oder Urteile, die sich gezielt mit diesem Thema auseinandersetzen. Es gibt aber auch spezielle Fälle, in denen Deep Fakes legal sind, weil – sozusagen das Ausgangsmaterial der Nutzung zugestimmt hat und sich vielleicht dafür sogar bezahlen lässt. Vor Kurzem wurde bekannt, dass James Earl Jones, die Original Stimme von Star Wars Oberfiesling Darth Vader nicht mehr als Synchronsprecher arbeiten will. Er hat aber einen Vertrag unterzeichnet, der es erlaubt, seine Stimme weiterhin zu nutzen, die Technologie dafür liefert das ukrainische Unternehmen Respeecher.
Was kann man dagegen tun?
Im Moment ist es oft noch möglich, Deepfakes zu erkennen. Man sieht z. B. Artefakte oder die Hautfarbe stimmt beim Faceswapping Verfahren nicht mit der „richtigen“ Hautfarbe überein und deshalb gibt es sichtbare Übergänge. Manchmal passt die Belichtung nicht so richtig oder die Mimik ist sehr eingeschränkt. Künstlich erzeugte oder nachgebildete Stimmen klingen oft monoton, betonen falsch oder zumindest anders als das Original. Manchmal gibt es auch Geräusche, die die Stimme als Fälschung entlarven. Aber alleine die Tatsache, dass bei dieser Beschreibung Wörter wie „oft“ und „manchmal“ benutzt werden, zeigt, dass man eben jetzt schon Deepfakes nicht immer erkennt – und sie werden immer besser.
Als Gegenmaßnahme könnte man eine Art digitale Signatur einführen oder beim Empfänger Systeme installieren, die erkennen können, ob das Gegenüber echt ist – oder eben nicht. Auch gesetzliche Regeln könnten helfen – allerdings werden sie kaum Menschen abhalten, die ohnehin betrügerische Absichten haben.
Die technischen Gegenmaßnahmen scheitern meist daran, dass sie nur dann zuverlässig funktionieren, wenn beim Deepfake andere Verfahren angewandt werden als beim Training des Abwehrmechanismus, denn auch die Methoden basieren auf KI und sind extrem abhängig davon, wie sie trainiert wurden. Es ist sogar für die Angreifer:innen möglich, die Deepfakes so zu gestalten, dass Erkennungs-Software gezielt in die Irre geführt wird, etwa durch speziell eingerechnetes Rauschen.
Auf jeden Fall wird es in der Zukunft wichtig werden, Deepfakes erkennen zu können.
Quellen
https://de.wikipedia.org/wiki/Deepfake
https://www.youtube.com/watch?v=cQ54GDm1eL0
Deepfakes erkennen:
https://deepfake-demo.aisec.fraunhofer.de/