Video: Startup stellt erste KI-erzeugte Stimmen mit „emotionaler Tiefe“ vor

Bild von ChrisL
ChrisL 190827 EXP - Unendliches Abo,R10,S10,C10,A10,J10
Alter Haudegen: Ist seit mindestens 10 Jahren bei GG.de registriertNews-Redaktion: Hat von der Redaktion weitere Rechte für das News-Redigieren erhaltenPro-Gamer: Hat den ultimativen GamersGlobal-Rang 30 erreichtGG-Gründungsfan: Hat in 2009 einmalig 25 Euro gespendetExtrem-Schreiber: Hat mindestens 1000 News geschriebenDieser User hat am GamersGlobal Grillfest 2019 teilgenommenDieser User hat an der Weihnachtsfeier 2016 teilgenommenTop-News-Meister: Hat mindestens 500 Top-News geschriebenPlatin-Gamer: Hat den sehr hohen GamersGlobal-Rang 25 erreichtAlter Haudegen: Ist seit mindestens 5 Jahren bei GG.de registriertGold-Jäger: Hat 75 Erfolge erreicht -- Wahnsinn!Gold-Gamer: Hat den GamersGlobal-Rang 20 erreicht

14. Mai 2020 - 23:23 — vor 1 Jahr zuletzt aktualisiert
Dieser Inhalt wäre ohne die Premium-User nicht finanzierbar. Doch wir brauchen dringend mehr Unterstützer: Hilf auch du mit!

Der Screenshot stammt aus A Plague Tale - Innocence.

Mit Sicherheit kennen die meisten von euch den Begriff „Deepfake“, bei dem es sich laut Wikipedia um „realistisch wirkende Medieninhalte [handelt], welche durch Techniken der künstlichen Intelligenz abgeändert und verfälscht worden sind“. Vor allem das sogenannte „face swapping“ – das Gesicht einer Person wird mit einem Gesicht einer anderen Person getauscht – dürfte in diesem Zusammenhang bekannt sein.

Ebenfalls bereits möglich ist das „voice swapping“, das sich folglich auf Audio-Inhalte bezieht. In Bezug auf das Deep Learning beziehungsweise die dahinterstehende KI könnten künstlich erzeugte Stimmen in Zukunft (noch) realistischer wirken: Das britische Startup Sonantic stellte kürzlich einen „Durchbruch“ bei der Erforschung/Generierung von synthetischen Stimmen vor, die über „tiefe emotionale Gefühle“ verfügen. Anders formuliert: Die mittels Text-to-Speech-System erzeugten Stimmen sollen Verlust, Freude, Angst, Wut und so weiter glaubhaft vermitteln.

„Die erste weinende KI“
Ein vom Unternehmen veröffentlichtes, etwas viereinhalb Minuten langes Video soll diese Aussagen untermauern. Unter dem Titel „Faith: First AI That Can Cry“ wird euch – im wahrsten Sinne des Wortes – eine kurze Geschichte erzählt, die die Zusammenführung von Mutter und Tochter thematisiert, nachdem diese zuvor getrennt waren. Sonantic weist darauf hin, dass beide Stimmen „vollständig durch unsere KI-Text-to-Speech-Technologie generiert“ worden sind. Im weiteren Verlauf der Aufnahme kommen zudem mehrere der Projekt-Verantwortlichen zu Wort.

Auf der Website des Startups könnt ihr euch darüber hinaus einige Stimmen-Beispiele anhören. Außerdem erhaltet ihr in Form von Screenshots Eindrücke von Sonantics Sound-Editor, über den zum Beispiel ein Stimmen-Model ausgewählt, bestehende Skripte importiert sowie die gewünschte Emotion, das Pacing und dergleichen gewählt werden können.

Technologie für Spiele- und Film-Studios
Laut Techcrunch wird die Software bereits mit Spiele-Entwicklern getestet. Sonantic-Mitgründer John Flynn erläutert sinngemäß, dass Entwicklerstudios einen naheliegenden Ausgangspunkt darstellen, da sie oft zehntausende Dialogzeilen aufnehmen. Mit der Sonantic-Technologie sollen Stimmen für unterschiedliche Situationen schneller angepasst werden können. Als Beispiel wird ein rennender Charakter genannt, dem sein schnelleres Atmen auch anzuhören sein soll.

Auch die Film-Branche soll von der KI-Text-to-Speech-Technologie profitieren. Das Ziel sei hierbei nicht, Schauspieler zu ersetzen, sondern neue Arten des Geschichtenerzählens zu entdecken. In diesem Zusammenhang verweist Flynn auf die CGI-Technologie und wie sehr diese inzwischen Live-Action-Filme unterstützt:

Es ist kein Entweder-oder. Eine neue Technologie ermöglicht es, neue Geschichten auf fantastische Weise zu erzählen.

Auf der erwähnten Website existiert übrigens auch ein Abschnitt „Ethische KI“, in dem es unter anderem heißt, dass „unsere Algorithmen niemals mit öffentlich zugänglichen Daten trainiert werden, bei denen sich der Eigentümer der Stimme möglicherweise nicht über deren Zweck im Klaren ist“.

Video:

Labrador Nelson 30 Pro-Gamer - - 197571 - 14. Mai 2020 - 23:49 #

Das ist echt cool stuff.

The Real Maulwurfn 16 Übertalent - P - 5114 - 14. Mai 2020 - 23:54 #

KI, faszinierend und wie gefährlich, dies wird sich noch zeigen.

Q-Bert 21 Motivator - - 27387 - 15. Mai 2020 - 0:52 #

Sehr, sehr coole News!

Da gibt es viele positive Anwendungsmöglichkeiten, z.B. könnten in Spielen/Filmen die Protagonisten in allen Sprachen mit derselben Stimme sprechen. Selbst nach dem Tod des Sprechers könnte eine Computerfigur ihre Stimme behalten. Und durchgängige Sprachausgabe wird auch für kleine Studios erschwinglich.

Negative Aspekte gibt es natürlich noch mehr. Wir können unseren Sinnen bald nicht mehr trauen, Bilder, Stimmen - die Fakes werden immer perfekter. Ich warte auf den ersten Werbeanruf der Telekom mit der Stimme meiner Mutter... oder so. Naja, und natürlich wird es Sextalk mit den Stimmen aller möglichen Promis geben. Die Synchro-Branche ist schon jetzt ziemlich kaputt, so eine KI könnte das Aus für viele Tonstudios bedeuten. Und wir werden mit "neuen Songs" von Freddy Mercury oder Elvis konfrontiert werden.

Naja, noch ist bis dahin etwas Zeit. Bisher klingt Text-to-Speech meist so "unnatural":
https://www.naturalreaders.com

The Real Maulwurfn 16 Übertalent - P - 5114 - 15. Mai 2020 - 1:10 #

Ich finde die positiven wie negativen Ideen überwiegend recht gruselig.

euph 28 Endgamer - P - 105157 - 15. Mai 2020 - 6:35 #

Ich glaube, wir sind gar nicht mehr soweit davon entfernt, dass vermeintlich echte Filmaufnahmen nur noch Deepfake sind. Und was man damit alles machen kann, ist in der Tat schon gruselig.

Vollmeise 20 Gold-Gamer - 24428 - 15. Mai 2020 - 11:46 #

Leider werden solche Möglichkeiten aufgrund der menschlichen Eigenschaften nicht nur zum Guten genutzt. Ich sehe schon düster in die nähere Zukunft. Die aktuelle Situation ist ebenfalls kein Stimmungsaufheller.

Ganon 24 Trolljäger - P - 64193 - 15. Mai 2020 - 9:41 #

Ich musste gleich an die Meldung vom letzten Jahr denken, dass ein neuer Film mit einem digitalen James Dean geplant ist: http://www.filmstarts.de/nachrichten/18528245.html
Jetzt bräuchte man nicht mal mehr einen Sprecher für die Rolle zu engagieren, sondern kann gleich eine KI auf seine "echte" Stimme programmieren.
Und im nächsten Film tanzt er dann mit Marilyn Monroe, die dazu eine emotionale Ballade schmettert...

Despair 17 Shapeshifter - 7236 - 15. Mai 2020 - 10:22 #

Man kann nur hoffen, dass die Menschheit spätestens dann erkennt, dass man auf echte Schauspieler nicht verzichten kann. Okay, für Krachbumm-Klamauk à la Michael Bay reichen wohl auch die Digital-Statisten...

Ganon 24 Trolljäger - P - 64193 - 15. Mai 2020 - 10:28 #

Ja, aber die Frage ist: Wie lange ist das noch der Fall?

Despair 17 Shapeshifter - 7236 - 15. Mai 2020 - 10:47 #

Ein optisch täuschend echt wirkendes Abbild einen echten Schauspielers bleibt immer nur ein Abziehbild, das Vorgegebenes imitiert. Da kommt nichts Neues mehr hinzu. Ein echter Schauspieler hat Eigenheiten, Ecken und Kanten und einzigartige Erkennungsmerkmale. Er kann zudem sein Schauspiel weiterentwickeln bzw. nuanciert der Rolle anpassen, die er spielt. Bis eine KI das alles hinbekommt, dürfte hoffentlich noch einige Zeit ins Land gehen. Wenn's soweit ist, wird's aber richtig gruselig...

sigug (unregistriert) 15. Mai 2020 - 6:06 #

Technisch gesehen natürlich faszinierend. Ansonsten wie bei allem, was mit AI zu tun hat. Holy shit, das ist alles schon so weit, die Zeit, das nahezu jeder arbeitslos wird, ist viel näher als gedacht.
Wie bei jedem Fortschritt immer die zwei Gedanken gleichzeitig: "Geil, das macht alles so viel einfacher" "Fuck, was soll ich in Zukunft machen".
Ähnliches bei der Medienbranche allgemein. Bei vielen Sachen, die man als Editor oder Motion Designer gemacht hat, inzwischen schon automatisiert. Sprich es geht darum, Kunden zu finden, die noch Geld ausgeben für etwas, was eine AI schon lange machen könnte (Gut, zumindest wenn der Kunde es selbst bedienen könnte). Z.b. auch Übersetzungen. Wer the fuck braucht noch einen Dolmetscher. Oder in der Medienwelt. Früher hat der Editor halt Untertitel selbst geschrieben und gesetzt und konnte viel dafür verlangen. Heute braucht man nen Plugin und es wird wie bei Youtube automatisch übersetzt - und 98% sind perfekt.

In diesem Fall hier: Mein Beileid an professionelle Sprecher.

Hyperlord 18 Doppel-Voter - - 10418 - 15. Mai 2020 - 9:44 #

Ziemlich beeindruckend

akoehn 17 Shapeshifter - - 7492 - 15. Mai 2020 - 10:41 #

Bezüglich aller Kommentare oben: Das ist jetzt nicht komplett neu, siehe z.B. wavenet, tacotron2 (beide google) und andere NN-basierte TTS-Systeme. Die Intonation etc. wird auch manuell annotiert werden müssen, und Nachbearbeitung ist für ein finales Produkt ebenso notwendig -- siehe das Problem, dass Google-TTS zum Beispiel nicht Fooweg ("Weeeg") von "ich bin weg" ("weck") unterscheiden kann.

Zur Referenz hat google hier einige Beispiele von tacotron2 (2017) veröffentlicht: https://google.github.io/tacotron/publications/tacotron2/index.html

Man beachte insbesondere die falsche Aussprache von AllHipHop um die Grenzen des ganzen etwas besser zu verstehen.

Suzume 14 Komm-Experte - 1973 - 15. Mai 2020 - 17:49 #

Die ersten Deepfake Nervenzusammenbrüche von Politikern... Kriegserklärungen... oder vermeintlich echte QAnon-Bestätigungen prominenter Personen werden kommen. Und das wird die Gesellschaft ordentlich durchrütteln. Ist eine Lüge erstmal verbreitet, lässt sie sich auch mit Dementis nicht mehr einfangen. Aluhutträger werden dann die Dementis als Deepfake bezeichnen. Ach nee, was wird das herrlich werden. Solange das alles nur in Cyberpunkromanen zu lesen war, war es noch spannend. Jetzt würd ich gern die Uhr ein paar Jahre zurückdrehen, ich brauch das nicht in der Realität :D

Jac 18 Doppel-Voter - P - 12865 - 15. Mai 2020 - 22:03 #

Die Technologie ist schon klasse und beweist, was inzwischen möglich ist. Diesen Fortschritt kann man kritisieren, verhindern werden wir ihn nicht.
Am Ende wird es immer wichtiger, dass gerade unser Kinder lernen, richtig zu recherchieren und Zusammenhänge zu finden. Oder auch eine fehlende Schlüssigkeit festzustellen. Das geht natürlich nur, wenn man bereit ist Zeit dafür zu investieren und das wird tendenziell noch mehr werden.
Das Problem sind ja auch schon heute die Leute, die sich oberflächlich oder nur in ihrer Informationsblase eine Meinung bilden.

Q-Bert 21 Motivator - - 27387 - 16. Mai 2020 - 1:29 #

The Q is real!

Unregistrierbar 18 Doppel-Voter - 9825 - 16. Mai 2020 - 10:11 #

Da sind aber noch ziemlich viele Menschen dran beteiligt an dieser angeblichen KI.

Harry67 19 Megatalent - - 19467 - 16. Mai 2020 - 16:10 #

Wirklich Faszinierend.

Mitarbeit