Stimmen-Imitations-KI Vall-E: Sprichst Du noch oder lässt Du quasseln?

Künstliche Intelligenzen (KI) werden immer leistungsfähiger. Erst Bilder, dann Texte, nun steht mit dem neuen Tool Vall-E ein extrem leistungsstarker Stimmengenerator zur Verfügung. Ein Spiel mit Licht und Schatten.

Ein Moment Ihrer Zeit für die Wahrheit.

In einer Welt voller Fehlinformationen und Fake News ist es unser Auftrag bei Mimikama.org, Ihnen zuverlässige und geprüfte Informationen zu liefern. Tag für Tag arbeiten wir daran, die Flut an Desinformation einzudämmen und Aufklärung zu betreiben. Doch dieser Einsatz für die Wahrheit benötigt nicht nur Hingabe, sondern auch Ressourcen. Heute wenden wir uns an Sie: Wenn Sie die Arbeit schätzen, die wir leisten, und glauben, dass eine gut informierte Gesellschaft für die Demokratie essentiell ist, bitten wir Sie, über eine kleine Unterstützung nachzudenken. Schon mit wenigen Euro können Sie einen Unterschied machen.

Stellen Sie sich vor, jeder, der diese Zeilen liest, würde sich mit einem kleinen Beitrag beteiligen – gemeinsam könnten wir unsere Unabhängigkeit sichern und weiterhin gegen Fehlinformationen ankämpfen.

So kannst Du unterstützen:

PayPal: Für schnelle und einfache Online-Zahlungen.
Steady oder Patreon: für regelmäßige Unterstützung.

Autor: Susanne Breuer

Erst waren es Deepfake-Bilder, die perfekt, aber von einer Künstlichen Intelligez (KI) namens Dall-E erstellt wurden. Dann versetzte ChatGPT aus dem Hause OpenAI mit seinen KI-generierten Texten die Welt in Aufregung. Es ist von einem Gamechange und Google-Suche-Killer die Rede, in den Microsoft woh in großem Umfang investieren will, um die eigene Suchmaschine zu boosten. Nun folgt ein Microsoft-Streich mit Vall-E, einer auf Meta-Technologien basierenden KI, die Stimmen nahezu perfekt imitieren können soll. Auf Basis eines nur drei Sekunden langen Audio-Beispiels. Das ist toll. Aber gerade aus Sicht von Faktencheckern auch brandgefährlich. Dem Missbrauch durch Deepfake-Audios scheinen Tür und Tor geöffnet.

Stimmen-Generator Vall-E liefert nahezu perfekte Imitation

Vall-E soll vorgegebenen Text mit menschlicher Stimmen zu Gehör bringen und kommt ersten Berichten zufolge teilweise sehr, sehr nahe an das Original heran.

Vall-E basiert auf einer Technologie namens Encodec, die die Facebook-Mutter Meta im Oktober 2022 vorgestellt hat. Bei bisherigen Ansätzen, Stimmen zu generieren wurde versucht, diese über die Wellenlänge zu generieren. Vall-E hingegen lernt tatsächlich, wie eine Person spricht, und ordnet diese Information in unterschiedliche Komponenten, Tokens genannt, ein.

Das Microsoft-Modell von Vall-E, der Stimmengenerator-KI. Bild: Microsoft
Das Microsoft-Modell von Vall-E, der Stimmengenerator-KI. Grafik: Microsoft

Vall-E klingt wie Du und ich – in allen Lebenslagen

Hat Vall-E erst einmal eine Stimme erlernt, kann sie auf Basis von Texten die Originalstimme überraschend gut nachahmen. So bleibt die Vielseitigkeit des Ausdrucks, wie emotionale Untertöne oder individuelle Tonfälle des menschlichen Sprechers erhalten. Auch spezielle Umgebungen können generiert werden, wie z.B. der Klang, wenn über ein Handy gesprochen wird.

Bei Microsoft kann man sich sehr viele Einsatzmöglichkeiten vorstellen. Ursprünglich für Text-to-Speech-Anwendungen entwickelt, könnte z.B. in Messengerdiensten eine geschriebene Nachricht mit der Stimme des Verfassers vorgelesen werden. Aber auch Korrekturen von bereits gesprochenen Audios scheinen möglich.

Ein interessanter Ansatz ist auch die Möglichkeit, ganze Hörbücher oder Podcasts über Vall-E einsprechen zu lassen, ohne dass die Originalsprecher tatsächlich vor Ort sein müssen.

Noch nicht öffentlich verfügbar

Vall-E steht für die Öffentlichkeit noch nicht zur Verfügung, allerdings wurde eine Demo-Seite eingerichtet, um einen ersten Eindruck von der Leistungsfähigkeit der KI zu erhalten. Hier wird auch klar, dass Vall-E schon sehr viel kann, aber auch an Grenzen stößt. Zumindest jetzt noch. Derzeit basiert die KI auf ca. 60.000 Stunden Audiomaterial von ca. 7.000 englischsprachigen Sprechern.

Wenn die drei Sekunden Audio-Sample einer dieser Stimmen ähneln, wird Vall-E ein sehr gutes Ergebnis liefern. Andernfalls generiert die KI die Stimme selbst und das klingt dann tatsächlich noch deutlich nach Computer. Es lässt sich aber leicht ausrechnen, dass jede Extra-Stunde Beispielmaterial von immer mehr Trainingssprechern die KI weiter nach vorne bringen und perfektionieren wird. Auch in anderen Sprachen als Englisch.

Wer den Faden der aktuellen Entwicklungen weiterspinnt und sich eine Kombination von KI wie beispielsweise dem Chatbot ChatGPT mit Vall-E vorstellt, befindet sich wohl nicht mehr länger im Bereich der Science Fiction, wie Ars Technica berichtet. Kommen dazu noch visuelle Darstellungen auf KI-Basis, wird es richtig spannend.

Vall-E: Die Blaupause für Stimmen-Deepfake?

Wenn es keinen Menschen mehr braucht, der absichtsvoll Inhalte spricht, sondern belanglose Tonbeispiele ausreichen, eine KI beliebige Texte täuschend ähnlich sprechen zu lassen, müssten bei allen Kriminellen die Ohren ganz weit aufgehen. Man stelle sich vor, dass demnächst Menschen echte Schockanrufe erhalten, in denen vermeintlich die eigenen Kinder in einer angeblichen Notlage ihre Eltern anrufen und um Geld bitten. Mimikama ist voll von Beispielen solcher Schockanrufe, die bereits ohne Stimm-KI immer noch zu oft funktionieren und zu erheblichen Vermögensschäden bei den Opfern führen.

Aber nicht nur hier lassen sich Missbrauchsbeispiele finden. Es lässt sich leicht vorstellen, was damit alles möglich ist. Politikern können Worte in den Mund gelegt werden, die sie nie gesagt haben und auch nie sagen würden. Was ist mit der Aussagekraft, bzw. Gerichtsverwertbarkeit von Tonaufnahmen? Im Journalismus so wichtige O-Töne könnten von negativen Vertretern ihrer Zunft missbräuchlich eingesetzt werden oder aber zur Täuschung der Presse verwendet werden. Im Rahmen der Cyberkriegsführung, wie wir es derzeit gerade im Umfeld des Ukraine-Kriegs täglich erleben, sind solche Stimmen-Deepfakes geeignet, Stimmung zu machen und damit den Verlauf der Konflikte negativ beeinflussen.

Die Sozialen Medien sind wie geschaffen dafür, Fakes zu verteilen, egal ob Bilder, Texte oder eben auch Stimmen. Mit den bekannten Folgen. Wenn alles gefaked werden kann, auf das wir uns mit unseren fünf Sinnen verlassen, was passiert dann mit unserem Urteilsvermögen? Hier wäre enorme Medienkompetenz notwendig.

Microsoft baut vor – hoffentlich

Enorme Risiken zur Manipulation von Sprache stecken also in den Möglichkeiten von Vall-E. Das sieht auch Microsoft und weist proaktiv auf mögliche Lösungen hin:

„Da VALL-E Sprache synthetisieren kann, die die Identität des Sprechers beibehält, besteht die Gefahr, dass das Modell missbraucht wird, beispielsweise um die Stimmerkennung zu fälschen oder sich als ein bestimmter Sprecher auszugeben. Um solche Risiken zu minimieren, kann ein Erkennungsmodell erstellt werden, mit dem unterschieden werden kann, ob ein Audioclip von VALL-E synthetisiert wurde. Bei der Weiterentwicklung der Modelle werden wir auch die AI-Prinzipien von Microsoft in die Praxis umsetzen.

Microsoft

Kleiner Fun Fact zum Schluss: Woher stammt der Name?

Ein kleiner Scherz. Wir kennen alle den kleinen einsamen Roboter aus dem Pixar-Film „Wall E – Der Letzte räumt die Erde auf“, der unerwarteterweise der Liebe angesichtig wird. Der Name der Bilder-KI Dall-E wurde aus dem Namen dieses kleinen Aufräum-Roboters und dem Namen des surrealistischen Künstlers Salvador Dali gebildet. Vall-E ist die Weiterentwicklung. V steht hier für Voice, also Stimme.


Quelle:

Microsoft

Schon gelesen? Ein Mimikama-Faktencheck: Ausgestopftes Rind „Anton“ in Supermarkt: inzwischen entfernt
Unterstützen 🤍

FAKE NEWS BEKÄMPFEN

Unterstützen Sie Mimikama, um gemeinsam gegen Fake News vorzugehen und die Demokratie zu stärken. Helfen Sie mit, Fake News zu stoppen!

Mit Deiner Unterstützung via PayPal, Banküberweisung, Steady oder Patreon ermöglichst Du es uns, Falschmeldungen zu entlarven und klare Fakten zu präsentieren. Jeder Beitrag, groß oder klein, macht einen Unterschied. Vielen Dank für Deine Hilfe! ❤️

Mimikama-Webshop

Unser Ziel bei Mimikama ist einfach: Wir kämpfen mit Humor und Scharfsinn gegen Desinformation und Verschwörungstheorien.

Abonniere unseren WhatsApp-Kanal per Link- oder QR-Scan! Aktiviere die kleine 🔔 und erhalte eine aktuelle News-Übersicht sowie spannende Faktenchecks.

Link: Mimikamas WhatsApp-Kanal

Mimikama WhatsApp-Kanal

Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell
war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur
Auseinandersetzung der Sache mit dem Thema.


2) Einzelne Beiträge (keine Faktenchecks) entstanden durch den Einsatz von maschineller Hilfe und
wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)


Mit deiner Hilfe unterstützt du eine der wichtigsten unabhängigen Informationsquellen zum Thema Fake News und Verbraucherschutz im deutschsprachigen Raum

INSERT_STEADY_CHECKOUT_HERE

Kämpfe mit uns für ein echtes, faktenbasiertes Internet! Besorgt über Falschmeldungen? Unterstütze Mimikama und hilf uns, Qualität und Vertrauen im digitalen Raum zu fördern. Dein Beitrag, egal in welcher Höhe, hilft uns, weiterhin für eine wahrheitsgetreue Online-Welt zu arbeiten. Unterstütze jetzt und mach einen echten Unterschied! Werde auch Du ein jetzt ein Botschafter von Mimikama

Mehr von Mimikama

Mimikama Workshops & Vorträge: Stark gegen Fake News!

Mit unseren Workshops erleben Sie ein Feuerwerk an Impulsen mit echtem Mehrwert in Medienkompetenz, lernen Fake News und deren Manipulation zu erkennen, schützen sich vor Falschmeldungen und deren Auswirkungen und fördern dabei einen informierten, kritischen und transparenten Umgang mit Informationen.