Der Screenshot stammt aus A Plague Tale - Innocence.

Mit Sicherheit kennen die meisten von euch den Begriff „Deepfake“, bei dem es sich laut Wikipedia um „realistisch wirkende Medieninhalte [handelt], welche durch Techniken der künstlichen Intelligenz abgeändert und verfälscht worden sind“. Vor allem das sogenannte „face swapping“ – das Gesicht einer Person wird mit einem Gesicht einer anderen Person getauscht – dürfte in diesem Zusammenhang bekannt sein.

Ebenfalls bereits möglich ist das „voice swapping“, das sich folglich auf Audio-Inhalte bezieht. In Bezug auf das Deep Learning beziehungsweise die dahinterstehende KI könnten künstlich erzeugte Stimmen in Zukunft (noch) realistischer wirken: Das britische Startup Sonantic stellte kürzlich einen „Durchbruch“ bei der Erforschung/Generierung von synthetischen Stimmen vor, die über „tiefe emotionale Gefühle“ verfügen. Anders formuliert: Die mittels Text-to-Speech-System erzeugten Stimmen sollen Verlust, Freude, Angst, Wut und so weiter glaubhaft vermitteln.

„Die erste weinende KI“

Ein vom Unternehmen veröffentlichtes, etwas viereinhalb Minuten langes Video soll diese Aussagen untermauern. Unter dem Titel „Faith: First AI That Can Cry“ wird euch – im wahrsten Sinne des Wortes – eine kurze Geschichte erzählt, die die Zusammenführung von Mutter und Tochter thematisiert, nachdem diese zuvor getrennt waren. Sonantic weist darauf hin, dass beide Stimmen „vollständig durch unsere KI-Text-to-Speech-Technologie generiert“ worden sind. Im weiteren Verlauf der Aufnahme kommen zudem mehrere der Projekt-Verantwortlichen zu Wort.

Auf der Website des Startups könnt ihr euch darüber hinaus einige Stimmen-Beispiele anhören. Außerdem erhaltet ihr in Form von Screenshots Eindrücke von Sonantics Sound-Editor, über den zum Beispiel ein Stimmen-Model ausgewählt, bestehende Skripte importiert sowie die gewünschte Emotion, das Pacing und dergleichen gewählt werden können.

Technologie für Spiele- und Film-Studios

Laut Techcrunch wird die Software bereits mit Spiele-Entwicklern getestet. Sonantic-Mitgründer John Flynn erläutert sinngemäß, dass Entwicklerstudios einen naheliegenden Ausgangspunkt darstellen, da sie oft zehntausende Dialogzeilen aufnehmen. Mit der Sonantic-Technologie sollen Stimmen für unterschiedliche Situationen schneller angepasst werden können. Als Beispiel wird ein rennender Charakter genannt, dem sein schnelleres Atmen auch anzuhören sein soll.

Auch die Film-Branche soll von der KI-Text-to-Speech-Technologie profitieren. Das Ziel sei hierbei nicht, Schauspieler zu ersetzen, sondern neue Arten des Geschichtenerzählens zu entdecken. In diesem Zusammenhang verweist Flynn auf die CGI-Technologie und wie sehr diese inzwischen Live-Action-Filme unterstützt:

Es ist kein Entweder-oder. Eine neue Technologie ermöglicht es, neue Geschichten auf fantastische Weise zu erzählen.

Auf der erwähnten Website existiert übrigens auch ein Abschnitt „Ethische KI“, in dem es unter anderem heißt, dass „unsere Algorithmen niemals mit öffentlich zugänglichen Daten trainiert werden, bei denen sich der Eigentümer der Stimme möglicherweise nicht über deren Zweck im Klaren ist“.