Wir sollten sehr viel skeptischer werden, was die Authentizität des gesprochenen Wortes im Netz angeht. Vor kurzem stieß die Berichterstattung von Motherboard eine Debatte um Deepfakes an, von einer KI verfremdete Videoaufnahmen – meist dazu benutzt, um die Gesichter bekannter Schauspielerinnen in Pornos zu montieren.
Jetzt demonstriert der chinesische Tech-Gigant Baidu eine neue Software, die ebenfalls für Fakes genutzt werden könnte. Der KI-Algorithmus Deep Voice kann Stimmen extrem realistisch klonen – die Software braucht nur einen 3,7 Sekunden langen Audio-Clip. Danach kann Deep Voice die Beispielstimmen beliebige Sätze sagen lassen, ihr Geschlecht ändern oder ihr einen anderen Akzent in den Mund legen.
Videos by VICE
Folgt Motherboard auf Facebook, Instagram, Snapchat und Twitter
Mitte Februar stellten die Forscher von Baidu die neuesten Fortschritte von Deep Voice in einem Paper vor. Noch vor einem Jahr brauchte das Programm rund 30 Minuten Audiomaterial einer Stimme, um auf dieser Grundlage einen neuen Audioclip generieren zu können. Heute kann Deep Voice ein wesentlich besseres Ergebnis erzielen – und das in Sekundenschnelle.
Je mehr Proben Deep Voice zum Lernen zur Verfügung stehen, desto höher wird auch die Qualität: Klone, die nur auf einer Audioprobe basieren, wirken noch etwas blechern und verzerrt. Trotzdem klingen sie nicht viel schlechter, als eine authentische Audiodatei mit niedriger Qualität.
Wir haben Beispiele der beeindruckenden Fähigkeiten der KI gesammelt. Hier ist zum Beispiel ein Audio-Clip eines männlichen, britischen Sprechers:
Anhand dieser Audiodatei erstellt Deep Voice eine männliche Stimme mit US-amerikanischem Akzent:
Hier ist die Originalaufnahme einer Frauenstimme:
Anhand dieses Beispiels hat Deep Voice folgende Aufnahme erstellt:
Mit 100 Beispieldateien klingt der geklonte Clip von Deep Voice fast so gut wie das Original:
Alle Beispieldateien und die geklonten Ergebnisse von Deep Voice könnt ihr euch auf Github anhören.
Deep Voice kann eine weibliche Stimme in eine männliche verwandeln oder einen britischen in einen US-amerikanischen Akzent. Damit hebt Deep Voice die Umwandlung von Text zu Sprache auf ein neues Level, denn es beweist, dass Künstliche Intelligenzen verschiedene Sprachstile imitieren können. Vor allem für persönliche Assistenten wie Siri oder Alexa könnte die neue Technologie in Zukunft eingesetzt werden, schreiben die Forscher in einem Blogeintrag. Die KI könnte aber auch stummen Menschen eine Stimme verleihen.
Die Weiterentwicklung von Deep Voice markiert einen weiteren Meilenstein für künstlich generierte Sprache. 2016 präsentierte Adobe seine VoCo Software, die etwa 20 Minuten lang einer menschlichen Stimme lauschen muss – danach können Nutzer diese Stimme beliebige Worte sagen lassen, die sie in ein Textfeld eintippen. Das Start-up Lyrebird wirbt damit, dass ihre KI nur eine Minute braucht, um jede beliebige Stimme zu imitieren.
Doch dieser immense technische Fortschritt bringt auch Risiken mit sich. Experten fürchten, dass KI-generierte Stimmen ähnliche Implikationen wie KI-generierte Videos haben. Denn wenn man nur wenige Sekunden einer menschlichen Stimme und ein paar Fotos braucht, um gesamte Interviews oder Pressekonferenzen zu faken, wird es noch schwieriger, zwischen Wahrheit und Fälschung zu unterscheiden.