Nico Westerbeck, Technical Lead | T-Systems MMS

Welche Auswirkungen hat künstliche Intelligenz (KI) für unser menschliches, soziales und kreatives Sein? Diese Frage steht im Mittelpunkt des Opernprojekts „chasing waterfalls“ des Berliner Künstlerkollektivs phase7 performing.arts und kommt im September in der Semperoper Dresden zur Aufführung. Es verbindet KI mit darstellender Kunst und schafft damit einen Interaktionsraum für modernste Hochtechnologie und klassische Opernelemente. T-Systems MMS unterstützt das Projekt als Kooperationspartner bei der Entwicklung einer Gesangsstimme auf Basis von künstlicher Intelligenz gemeinsam mit dem Studio for Sonic Experiences kling klang klong.

„chasing waterfalls“ handelt von der Interaktion und Zusammenwirkung zwischen KI und realer Person. Als sich das Ich in seinen Computer einloggt, wird es mit seinen digitalen Abspaltungen konfrontiert und begegnet seinen „digital twins“, die in der virtuellen Welt als selbstständige Persönlichkeiten agieren und sich sogar gegen das Ich verbünden. Die KI träumt von einer selbstbestimmten Identität, sodass Digitalität und Wirklichkeit immer mehr verschwimmen. Im finalen Bild greift die Virtualität auch räumlich die Wirklichkeit an. Wird es dem Ich gelingen, sich als reale Person gegen die auflösenden Grenzen zu behaupten? Dieses Projekt versteht sich als Denkanstoß und soll einen ethischen und philosophischen Diskurs in der Beziehung zwischen Mensch und Maschine und den eigenen digitalen Zwillingen anregen.

Sowohl Teile der Komposition als auch des Librettos und der Szenografie (Bühnen- und Kostümbild) werden von einer künstlichen Intelligenz erschaffen. Die Unvorhersehbarkeit dieses Eingriffs bestimmt die Dramaturgie und löst klassische Erzählstrukturen auf. Die Oper ist für sechs menschliche Sänger*innen sowie eine virtuelle Stimme ausgelegt und wird durch eine Kammerorchesterbesetzung begleitet. Die T-Systems MMS ist einer der technischen Enabler in diesem Projekt und zusammen mit kling klang klong für die Umsetzung der KI-Stimme zuständig. Die Hauptaufgabe ist es, die Singstimme der KI zu synthetisieren, denn die Opernstimme der KI-Protagonistin soll nicht von einer Sängerin gesungen werden, sondern von einem abgewandeltem Text-to-Speech-System.

Auftakt: Wie lernt die KI und wie bringen wir ihr Stimme bei?

1. Das stimmige Briefing: Datensatz aus Noten und Texte als Quelle

Wie die virtuelle Stimme klingeln soll, weiß das Team gar nicht explizit, denn es ist gar nicht so einfach, eine Stimme präzise zu beschreiben. Statt also allerhand Regeln aufzustellen, wie eine Stimme klingen soll, hat das Team zunächst einen Datensatz angefertigt. Dazu wurde eine Opernsängerin ins Studio gebeten, die diverse Lieder eingesungen hat und diese Songs dienen als Quelle, wie Gesang funktioniert. Um die KI anzulernen, sind große Datenmengen nötig.

2. Alles dem Zufall überlassen: Wie der Algorithmus den Sound generiert

Das Team definiert zunächst eine Architektur des neuronalen Netzes, welches so gebaut ist, dass es die Noten und Texte als Input aufnimmt und als Output einen Sound erzeugt. Genauer gesagt gibt es nicht nur ein neuronales Netz, sondern verschiedene kleinere Netze, die verschiedene Aufgaben in der Pipeline übernehmen. Das Team kann zwar sagen, welche Teilaufgabe welches Netzwerk übernimmt, aber wie diese Teilaufgabe später erfüllt wird, ist dem neuronalen Netz komplett selbst überlassen und auch nicht mehr vom Team nachvollziehbar – es sind Black-Boxen. Nun werden alle neuronalen Netze komplett zufällig befüllt, sprich das Netz hat noch überhaupt keine Ahnung, wie Gesang funktioniert. Trotzdem lässt das Team dieses neuronale Netz einfach schon etwas generieren, das Resultat klingt ein wenig wie ein Radio, was nicht auf einen Sender eingestellt ist.

3. Fail fast and fail often: Fehlerkultur im Lernprozess

Das neuronale Netz fängt also an, Fehler zu machen, am Anfang produziert es statt Gesang ein unangenehmes Rauschen. Dieses wird automatisch korrigiert. Das neuronale Netz bekommt einen Input (Noten und Text), singt (oder rauscht) dann etwas und der Gesang wird mit dem verglichen, wie es klingen soll. Am Anfang des Trainings macht das neuronale Netz große Fehler, die durch genaue Anweisungen, wie das Gesungene näher an das Beispiel aus dem Datensatz kommt, verringert werden. So wird der Fehler über die Trainingszeit reduziert. Um die Fehler zu erkennen, wird der Unterschied zwischen der Ausgabe des neuronalen Netztes und der Ausgabe des Datensatzes errechnet, in dem die Opernsängerin dasselbe Stück gesungen hat. Durch den Vergleich weiß das Team, ob das neuronale Netz beispielsweise zu laut oder zu hoch gesungen hat. Das Team passt das neuronale Netz dann so an, dass es beim nächsten Mal an der Stelle etwas leiser oder etwas höher singt. Das Ziel ist es am Ende nicht nur ein neuronales Netz zu haben, das wenige Fehler macht, sondern ein allgemeines Verständnis fürs Singen hat und jeden beliebigen Song für Menschen ansprechend singen kann. Wenn das Team, das geschafft hat, dann hat es ein „Generalisierung“ erreicht, ein Ergebnis, welches jeden Data Scientist glücklich macht.

Showtime: Wie wird das Ganze auf der Bühne stattfinden?

Auf der Bühne wird es zwei Phasen geben. In der ersten Phase gibt es einen vier Minuten langen Teil, in dem die KI etwas singt, das während der Oper in Echtzeit erst komponiert wird. Unser Team bekommt somit einen ungeplanten Text und Noten, die live auf der Bühne gesungen werden sollen. Dabei handelt es sich um einen zufälligen Input und während der Inferenz soll das neuronale Netz Lieder singen, die nicht im Datensatz vorkommen, da der Datensatz nur während der Trainingszeit gebraucht wird. Es gibt außerdem geplante Passagen, wo der Text und die Noten schon vorher bekannt sind und von der KI gesungen werden sollen. In diesem Teil kann das Team eingreifen und etwas vorbereiten.

Es ist schwierig, ein Text-to-Speech-System auf Singstimmen umzubauen, wodurch es wahrscheinlich hörbar sein wird, dass es sich um eine KI-Stimme handelt. Das könnte dadurch auffallen, dass einzelne Phoneme nicht richtig ausgesprochen werden, das genuschelt oder etwas undeutlich ausgesprochen wird. Auch die Klangfarbe ist eventuell erkennbar.

Eine KI, die singt, gab es bereits, jedoch handelt es sich dabei noch um ein Forschungsthema, das noch nicht so etabliert ist. Es gab bereits einige Experimente, jedoch ist die Qualität des Gesangs erst in den letzten zwei bis drei Jahren besser geworden. Die Besonderheit an diesem Projekt ist es, den Qualitätsstandard zu erreichen, der an eine Oper gesetzt wird und eine Opernstimme zu synthetisieren. Eine weitere Besonderheit ist, dass der Text und die Noten live generiert werden, wodurch niemand weiß, was gesungen wird.

Mit Uraufführung des Werks am 3. September verlässt die Semperoper tradierte Wege des klassischen Musiktheaters und öffnet sich neuen Horizonten der Opernproduktion. Wir freuen uns, dass wir dem KI-Standort Sachsen mit diesem innovativen Projekt einen weiteren, kulturellen Zugang zu der Schlüsseltechnologie und einen Impuls für die weitere Auseinandersetzung mit dem Thema bieten können.

> Premiere „chasing waterfalls“ am 3. September 2022 | Semperoper Dresden

> Termine & Tickets „chasing waterfalls“ | Semperoper Dresden

Künstliche Intelligenz oder: Wo und wer spielt in Zukunft die Musik?

> Symposium am 11. September in der Semperoper Dresden


Nico Westerbeck, Technical Lead | T-Systems MMS


Nico Westerbeck ist Informatiker und Data Scientist mit Leidenschaft. Sein Studium hat er an der TU Dresden absolviert und ist seit 2018 bei der T-Systems MMS beschäftigt. Seine Themenschwerpunkte sind Deep Learning für Sprache und Text, Reinforcement Learning und Security. Aufgrund seiner Affinität zu Forschungsthemen übernimmt er bei »chasing waterfalls« die Rolle als Technical Lead.