Stimmen-Imitations-KI Vall-E: Sprichst Du noch oder lässt Du quasseln?

Erst waren es Deepfake-Bilder, die perfekt, aber von einer Künstlichen Intelligez (KI) namens Dall-E erstellt wurden. Dann versetzte ChatGPT aus dem Hause OpenAI mit seinen KI-generierten Texten die Welt in Aufregung. Es ist von einem Gamechange und Google-Suche-Killer die Rede, in den Microsoft woh in großem Umfang investieren will, um die eigene Suchmaschine zu boosten. Nun folgt ein Microsoft-Streich mit Vall-E, einer auf Meta-Technologien basierenden KI, die Stimmen nahezu perfekt imitieren können soll. Auf Basis eines nur drei Sekunden langen Audio-Beispiels. Das ist toll. Aber gerade aus Sicht von Faktencheckern auch brandgefährlich. Dem Missbrauch durch Deepfake-Audios scheinen Tür und Tor geöffnet.

Stimmen-Generator Vall-E liefert nahezu perfekte Imitation

Vall-E soll vorgegebenen Text mit menschlicher Stimmen zu Gehör bringen und kommt ersten Berichten zufolge teilweise sehr, sehr nahe an das Original heran.

Vall-E basiert auf einer Technologie namens Encodec, die die Facebook-Mutter Meta im Oktober 2022 vorgestellt hat. Bei bisherigen Ansätzen, Stimmen zu generieren wurde versucht, diese über die Wellenlänge zu generieren. Vall-E hingegen lernt tatsächlich, wie eine Person spricht, und ordnet diese Information in unterschiedliche Komponenten, Tokens genannt, ein.

Das Microsoft-Modell von Vall-E, der Stimmengenerator-KI. Bild: Microsoft — Das Microsoft-Modell von Vall-E, der Stimmengenerator-KI. Grafik: Microsoft

Vall-E klingt wie Du und ich – in allen Lebenslagen

Hat Vall-E erst einmal eine Stimme erlernt, kann sie auf Basis von Texten die Originalstimme überraschend gut nachahmen. So bleibt die Vielseitigkeit des Ausdrucks, wie emotionale Untertöne oder individuelle Tonfälle des menschlichen Sprechers erhalten. Auch spezielle Umgebungen können generiert werden, wie z.B. der Klang, wenn über ein Handy gesprochen wird.

Bei Microsoft kann man sich sehr viele Einsatzmöglichkeiten vorstellen. Ursprünglich für Text-to-Speech-Anwendungen entwickelt, könnte z.B. in Messengerdiensten eine geschriebene Nachricht mit der Stimme des Verfassers vorgelesen werden. Aber auch Korrekturen von bereits gesprochenen Audios scheinen möglich.

Lesen Sie auch > Kamala Harris und das Kokosnuss-Emoji: Ein Social Media Trend

Ein interessanter Ansatz ist auch die Möglichkeit, ganze Hörbücher oder Podcasts über Vall-E einsprechen zu lassen, ohne dass die Originalsprecher tatsächlich vor Ort sein müssen.

Noch nicht öffentlich verfügbar

Vall-E steht für die Öffentlichkeit noch nicht zur Verfügung, allerdings wurde eine Demo-Seite eingerichtet, um einen ersten Eindruck von der Leistungsfähigkeit der KI zu erhalten. Hier wird auch klar, dass Vall-E schon sehr viel kann, aber auch an Grenzen stößt. Zumindest jetzt noch. Derzeit basiert die KI auf ca. 60.000 Stunden Audiomaterial von ca. 7.000 englischsprachigen Sprechern.

Wenn die drei Sekunden Audio-Sample einer dieser Stimmen ähneln, wird Vall-E ein sehr gutes Ergebnis liefern. Andernfalls generiert die KI die Stimme selbst und das klingt dann tatsächlich noch deutlich nach Computer. Es lässt sich aber leicht ausrechnen, dass jede Extra-Stunde Beispielmaterial von immer mehr Trainingssprechern die KI weiter nach vorne bringen und perfektionieren wird. Auch in anderen Sprachen als Englisch.

Wer den Faden der aktuellen Entwicklungen weiterspinnt und sich eine Kombination von KI wie beispielsweise dem Chatbot ChatGPT mit Vall-E vorstellt, befindet sich wohl nicht mehr länger im Bereich der Science Fiction, wie Ars Technica berichtet. Kommen dazu noch visuelle Darstellungen auf KI-Basis, wird es richtig spannend.

Vall-E: Die Blaupause für Stimmen-Deepfake?

Wenn es keinen Menschen mehr braucht, der absichtsvoll Inhalte spricht, sondern belanglose Tonbeispiele ausreichen, eine KI beliebige Texte täuschend ähnlich sprechen zu lassen, müssten bei allen Kriminellen die Ohren ganz weit aufgehen. Man stelle sich vor, dass demnächst Menschen echte Schockanrufe erhalten, in denen vermeintlich die eigenen Kinder in einer angeblichen Notlage ihre Eltern anrufen und um Geld bitten. Mimikama ist voll von Beispielen solcher Schockanrufe, die bereits ohne Stimm-KI immer noch zu oft funktionieren und zu erheblichen Vermögensschäden bei den Opfern führen.

Lesen Sie auch > Drosten hat Erkenntnisse veröffentlicht: Eine Richtigstellung

Aber nicht nur hier lassen sich Missbrauchsbeispiele finden. Es lässt sich leicht vorstellen, was damit alles möglich ist. Politikern können Worte in den Mund gelegt werden, die sie nie gesagt haben und auch nie sagen würden. Was ist mit der Aussagekraft, bzw. Gerichtsverwertbarkeit von Tonaufnahmen? Im Journalismus so wichtige O-Töne könnten von negativen Vertretern ihrer Zunft missbräuchlich eingesetzt werden oder aber zur Täuschung der Presse verwendet werden. Im Rahmen der Cyberkriegsführung, wie wir es derzeit gerade im Umfeld des Ukraine-Kriegs täglich erleben, sind solche Stimmen-Deepfakes geeignet, Stimmung zu machen und damit den Verlauf der Konflikte negativ beeinflussen.

Die Sozialen Medien sind wie geschaffen dafür, Fakes zu verteilen, egal ob Bilder, Texte oder eben auch Stimmen. Mit den bekannten Folgen. Wenn alles gefaked werden kann, auf das wir uns mit unseren fünf Sinnen verlassen, was passiert dann mit unserem Urteilsvermögen? Hier wäre enorme Medienkompetenz notwendig.

Microsoft baut vor – hoffentlich

Enorme Risiken zur Manipulation von Sprache stecken also in den Möglichkeiten von Vall-E. Das sieht auch Microsoft und weist proaktiv auf mögliche Lösungen hin:

„Da VALL-E Sprache synthetisieren kann, die die Identität des Sprechers beibehält, besteht die Gefahr, dass das Modell missbraucht wird, beispielsweise um die Stimmerkennung zu fälschen oder sich als ein bestimmter Sprecher auszugeben. Um solche Risiken zu minimieren, kann ein Erkennungsmodell erstellt werden, mit dem unterschieden werden kann, ob ein Audioclip von VALL-E synthetisiert wurde. Bei der Weiterentwicklung der Modelle werden wir auch die AI-Prinzipien von Microsoft in die Praxis umsetzen.
Microsoft

Kleiner Fun Fact zum Schluss: Woher stammt der Name?

Ein kleiner Scherz. Wir kennen alle den kleinen einsamen Roboter aus dem Pixar-Film „Wall E – Der Letzte räumt die Erde auf“, der unerwarteterweise der Liebe angesichtig wird. Der Name der Bilder-KI Dall-E wurde aus dem Namen dieses kleinen Aufräum-Roboters und dem Namen des surrealistischen Künstlers Salvador Dali gebildet. Vall-E ist die Weiterentwicklung. V steht hier für Voice, also Stimme.

Lesen Sie auch > Postbank modernisiert Filialen für Senioren: Online-Banking leicht gemacht

Quelle:

Microsoft

Schon gelesen? Ein Mimikama-Faktencheck: Ausgestopftes Rind „Anton“ in Supermarkt: inzwischen entfernt

Zur Startseite

Anmeldung zum Mimikama-Newsletter

Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)