Block 2
Das Pariser Forschungsinstitut für Akustik und Musik IRCAM (Institut de recherche et coordination acoustique/ musique) gilt seit je her als Wiege technologischkünstlerischer Innovationen. Dies trifft auch beim Thema des künstlerischen Einsatzes von künstlicher Intelligenz in der Musikkomposition und -Produktion zu. Der folgende Langbeitrag des Teams der Artificial Creative Intelligence and Data Science (ACIDS) Group eröffnet einen vielschichtigen Einblick in ein Forschungsfeld, welches sich ganz der Unterstützung kreativer Musikproduktion verschrieben hat. Dabei werden verschiedene Tools vorgestellt, von denen jedes Einzelne bereits hochinteressante Möglichkeiten bietet. Gleichzeitig wird die Auswirkung von KI in der Musikproduktion unter verschiedenen Aspekten, unter anderem auch dem ökologischen Footprint, beleuchtet. Nicht der Ersatz menschlicher Kreativität, sondern ihre Stärkung sowie die Ermöglichung neuer Klänge, Texturen und Musikstile steht hier im Vordergrund. Dieser Beitrag ist inhaltlich und sprachlich so spannend, dass wir ihn im Print-Magazin in ungekürzter Länge in Englisch abdrucken. Die Kapitel über die einzelnen Forschungsprojekte haben wir hier zum besseren Verständnis übersetzt auf unsere Magazinwebsite gesetzt.
Spotlight-Projekte
Die Entwicklung von Werkzeugen zur Unterstützung der Musikproduktion ist eine komplexe Aufgabe, die sowohl künstlerische als auch technische Kenntnisse erfordert. Aus diesem Grund arbeiten wir ständig mit professionellen Künstlern zusammen, um unsere Forschungen im Hinblick auf die Entwicklung produktionsreifer Modelle und Werkzeuge zu vertiefen und zu verfeinern.
RAVE
Die Möglichkeiten mit generativen Modellen sind beeindruckend. Gleichwohl besteht aktuell einer ihrer größten Schwachpunkte darin, dass RAW-Wellenformmodelle entweder rechenintensiv, auf niedrige Abtastraten angewiesen, kompliziert zu steuern sind oder die Art der möglichen Signale einschränken. Kürzlich haben wir den Realtime Audio Variational AutoEncoder (RAVE) vorgeschlagen, der sowohl eine schnelle als auch qualitativ hochwertige Synthese von Audiowellenformen ermöglicht. Man kann sich dies als eine gelernte Audiokompressions-Pipeline auf sehr hohem Niveau vorstellen, die eine direkte Kontrolle zwischen der Wiederherstellungstreue und der Kompaktheit der Darstellung ermöglicht. Unser Modell ist das erste, das in der Lage ist, 48-kHz-Audiosignale zu erzeugen und gleichzeitig zwanzig Mal schneller als in Echtzeit auf einer Standard-Laptop-CPU zu laufen. Dieses Modell ermöglicht die Ausführung einer völlig neuartigen Form der KI-gesteuerten Synthese, sowohl durch Steuersignale als auch durch Timbre-Transfer, bei dem ein Audiosignal in einen beliebigen Zielklang umgewandelt wird, den wir trainiert haben. So ist es möglich, eine menschliche Stimme in Echtzeit in eine Geige, eine Trommel oder ein anderes Instrument zu verwandeln. Wir stellen unseren gesamten Quellcode, ein Echtzeit-VST-Plugin und Max/MSP-Objekte öffentlich und frei zur Verfügung, um diesen neuartigen Ansatz für die Musikproduktion zu nutzen. Diese Arbeit hat zu zwei bemerkenswerten musikalischen Kollaborationen geführt: mit Alexander Schubert für das Stück Convergence(s), das 2021 mit dem Preis der Goldenen Nica der Ars Electronica ausgezeichnet wurde, und mit Maxime Mantovani (siehe Foto) während einer musikalischen Residency, dessen neuartiger Ansatz zu mehreren Aufführungen in improvisierten Formen geführt hat.
FlowSynth – Synthesizer control
Klang-Synthesizer sind in der Musik allgegenwärtig und definieren sogar ganz neue Musikgenres. Aufgrund ihrer Komplexität und der Vielzahl ihrer Parameter sind sie jedoch schwer zu beherrschen. Daher werden Synthesizer meist durch die Komplexität ihrer Interaktionen vernebelt, was den wahren Umfang ihres klanglichen Potenzials verschleiert. Kürzlich haben wir ein innovatives Lernmodell (FlowSynth) genannt) entwickelt, das den latenten Klangraum eines Synthesizers erlernen und kontinuierlich seine Parameter abbilden kann. So können wir eine Wave-Datei in unser Plugin speisen und daraus den Parametersatz eines bestimmten Synthesizers finden, der der erhofften Audioausgabe am nächsten kommt. Mit diesem neuen Lernmodell können auch die wichtigsten Makro-Bedienelemente eines Synthesizers erlernt werden. Dies ermöglicht zum Beispiel auf organisierte Weise durch Presets zu hoppen, oder Parameter aus dem Audio ableiten zu können, um den Synthesizer mit unserer Stimme zu steuern. Sogar semantische Dimensionen können so erlernt werden, bei denen wir herausfinden, wie die Bedienelemente zu bestimmten semantischen Konzepten passen – und das alles mit einem einzigen Modell. So können wir den Synthesizer auf direktere und fortgeschrittenere Weise erkunden. Es kann als ein Mechanismus zur Ideenfindung angesehen werden, der uns Parametereinstellungen bietet, die wir ohne ihn vielleicht nie erforscht hätten.
Tonbeugung und Extrapolation
Die Standard-Trainingsaufbauten von Machine Learning (Annäherung an einen mittleren Fehler) hindern das System daran, neue Inhalte zu generieren, die von der ursprünglichen Grundwahrheit abweichen. Sie sind auf sich wiederholende Maschinen (Interpolation) statt auf kreative Maschinen (Extrapolation) reduziert. Es ist nicht einfach, Methoden zu finden, mit denen ein trainiertes Modell von seiner ursprünglichen Verwendung abweicht. Dazu müssen entweder die Gewichte des Modells geändert (Ansatz 1) oder andere Trainingseinstellungen entworfen werden, bei denen Typisches zugunsten von Neuem verworfen wird (Ansatz 2).
Der erste Ansatz, der manchmal unter dem Namen „aktive Divergenz“ zusammengefasst wird, besteht darin, ein bereits trainiertes Modell zu verändern. Dies kann man erreichen, indem man die Gewichte und Aktivierungen des Modells direkt anpasst, oder indem man die Fehlermodi durch zusätzliche Trainingsschritte stimuliert. Wir haben eine spezielle Toolbox für Audio und Bild veröffentlicht, um solche Praktiken mit den in der experimentellen Musik üblichen Bending-Operationen vergleichbar zu machen. Sie erlauben, vortrainierte Modelle zu spielen und zu verzerren (siehe die Arbeit aletheia, die solche Techniken auf neuronale Audiosynthesemodelle anwendet). Allerdings kann die Anzahl der Parameter eines Modells erschreckend hoch sein.
Der zweite Ansatz ist schwieriger, da die Entwicklung theoretischer Rahmen für die Extrapolation schwierig zu formalisieren sein kann. Wir haben das Konzept der divergenten Feinabstimmung vorgeschlagen, mit dem ein vortrainiertes Modell durch externe Zwänge von seinen ursprünglichen Daten abweichen kann; diese Arbeit wird noch untersucht.
Integration in musikalische Umgebungen
Im Bereich der elektronischen Musik gibt es seit langem eine Debatte über die Überlegenheit von Hardware-Instrumenten gegenüber ihren auf der so genannten Virtual Studio Technology (VST) aufsetzenden, softwarebasierten virtuellen Gegenstücken. Obwohl VSTs außergewöhnlich bequem und erschwinglich sind, erreichen sie oft nicht das haptische Erlebnis, die praktische Kontrolle und die unverwechselbaren Klangeigenschaften ihrer Hardware-Pendants. Wir beschlossen, in beiden Bereichen Fortschritte zu machen, indem wir sowohl die ersten KI-basierten VSTs als auch Eurorack-Synthesizer entwickelten. Ein wesentlicher Aspekt unserer Arbeit ist daher die Einbindung von Modellen des Machine Learnings (ML) in die musikalische Praxis.
Die Vielfalt des musikalischen Hardware-/Software-Ökosystems ist jedoch recht komplex und reicht von kleinen (modularen/eingebetteten) bis hin zu hochkomplexen (Computer) Rechnerarchitekturen mit unterschiedlichen Arbeitsabläufen (Ausgabe, Synthesizersteuerung, Live-Coding usw.). Im Zusammenhang mit einem Computer erfordert die Integration von ML-Modellen in Digital Audio Workstations (DAWs) die Entwicklung spezifischer Plug-ins (wie Audio Units oder VST), die als externe Plug-ins integriert werden können. Es gibt zwar keine technischen Einschränkungen, aber die aktuellen Markttrends tendieren dazu, die Benutzerfreundlichkeit und Ergonomie in den Vordergrund zu stellen, wobei der Schwerpunkt auf Einfachheit und Zugänglichkeit liegt.
Wir haben ein spezielles VST für den RAVE-Algorithmus entwickelt, das derzeit für MacOS und Linux verfügbar ist. Obwohl die Integration in DAWs der einfachste Weg ist, solche Systeme zu nutzen, bringt sie einige Einschränkungen mit sich, die das Potenzial dieser Modelle schmälern können, wie z. B. die Trennung zwischen Effekt und Erzeugung und die MIDI-basierte Steuerung. Visuelle Programmier-und Live-Coding-Umgebungen stellen eine Alternative zu DAWs dar und bieten eine viel umfassendere Kontrolle über Synthese und Interaktion. Andererseits erfordern sie einige Programmierkenntnisse. Für diesen Anwendungsbereich haben wir external nn~ entwickelt, ein Backend, das als Schnittstelle für Streaming neuronaler Audiosynthesemodelle in Max und Pure Data konzipiert ist. Dieses externe System ermöglicht die erweiterte Anpassung und Manipulation jedes streaming-fähigen maschinellen Lernmodells mit einem modularen Ansatz, der den Weg für eine tatsächliche Echtzeitanwendung von generativer KI in Musik und Improvisation öffnet.
Darüber hinaus haben wir uns der Aufgabe gewidmet, die Grenzen von Software-Lösungen zu überwinden, indem wir die Hardware-Seite der ML-Integration erforscht haben. Der Neurorack, der erste Deep-Learning-basierte Synthesizer im Eurorack-Format, zielt darauf ab, das Beste aus beiden Welten zu vereinen, indem er unsere fortschrittliche ML-basierte Synthese in einer greifbaren, modularen Umgebung implementiert. Das Eurorack-Format erleichtert die nahtlose Integration unseres Neurorack-Moduls in aktuelle modulare Synthesizer-Setups. Von Anfang an basierte das Design unseres Moduls auf dem Jetson Nano, einer kompakten und energieeffizienten GPU-Computing-Plattform. Er ist für die Ausführung der Deep-Learning-Algorithmen verantwortlich und ermöglicht Audio-Inferenz in Echtzeit. Die Rechenleistung dieses Prozessors sorgt dafür, dass das Neurorack eine hochwertige Audioausgabe mit minimaler Latenzzeit liefert.
Wir beabsichtigen, diese Plattform zu verkleinern und uns auf den Raspberry Pi zu stützen, um einen geringeren Verbrauch und einen leichteren Zugang für Künstler zu unserem Modul zu ermöglichen. Das Neurorack-Projekt stellt einen wichtigen Meilenstein in der Verschmelzung von maschinellem Lernen und Musikproduktion dar. Es gibt jedoch noch viel zu tun, um das Potenzial dieser Technologie voll auszuschöpfen. Zukünftige Entwicklungen werden sich auf die Verfeinerung der Deep-Audio-Synthese des Moduls konzentrieren und neue Wege zur Steuerung von Modellen für CV-Eingaben erforschen.
Steuerung durch Bewegung
Die Steuerung von computergenerierten Klängen durch Gesten ist zu einem zentralen Thema sowohl für Forscher als auch für Künstler geworden. Die gleichzeitigen Fortschritte bei den Sensortechnologien und den Klangsynthese-Techniken haben zur Entstehung interaktiver, gestenbasierter Systeme für Kompositionen und Echtzeit-Performances geführt. Wir arbeiten derzeit an multimodalen Ansätzen zur Erzeugung von Bewegung und Klang, um diese tiefgreifenden Audiosynthesemodelle als neue Musikinstrumente voll auszuschöpfen. Die Steuerung mit Gesten könnte Künstlern und Interpreten in ihrem kreativen Erkundungsprozess relevante Einblicke und intuitive Steuerungsmöglichkeiten bieten und eine personalisierte menschliche Interaktion mit diesen neuen Werkzeugen ermöglichen.
Da es für die Nutzer wichtig ist, die Bewegung-Klang-Beziehung auf ihren Nutzungskontext und ihre individuellen Bedürfnisse abzustimmen, arbeiten wir bei der Entwicklung dieser Methoden mit Künstlern zusammen. Eine erste Kreation mit Hugo Scurto, ægo, zeigte 2019 die Echtzeit-Erkundung eines generativen latenten Raums mit verstärkten Agenten, die durch Gesten beeinflusst werden. In jüngster Zeit arbeiten wir mit der Tänzerin und Choreografin Marie Bruand an der Sonifizierung zeitgenössischer Tanzbewegungen mit dem RAVE-Modell, das zu einer Live-Performance für die Nuit Blanche in Paris am 3. Juni 2023 führen wird.
Workshops im Cirque Electrique
Der letzte Schritt der musikalischen Integration solcher Werkzeuge ist schließlich die Kreation. Wir veröffentlichen alle Instrumente als Open-Source. Zusätzlich ist die Zusammenarbeit mit Komponisten und Interpreten von entscheidender Bedeutung, nicht nur um diese Modelle für den musikalischen Einsatz bereit zu machen, sondern auch um die Entwicklung neuer Ideen, Interaktionen und Ansätze anzuregen. Wir haben damit begonnen, eine Reihe von Live-Performances zu organisieren, die wir ACIDS Workshop nennen. Sie sind die als Carte Blanche, als Spielwiese für Musiker*innen gedacht, die daran interessiert sind, mit KI-gestützter Musikgestaltung in Berührung zu kommen – vom Anfänger bis zum Experten. Dabei wecken diese Konzerte nicht nur Ideen und Intuitionen für die musikalische Nutzung der neuen Werkzeuge, sondern zeigen dem Publikum auch einen anderen, künstlerischen Aspekt dieser Technologien. Die Videos sind auf dem YouTube-Kanal des Teams verfügbar.
Das Autorenteam
Block 11
Axel Chemla--Romeu-Santos is a researcher and composer. After a PhD between IRCAM (France) and LIM (Italy), he is post- doctorate in the ACIDS- IRCAM research group where he works on creative ML, neural audio synthesis, and research & creation.
Antoine Caillon obtained his PhD in the STMS- IRCAM laboratory on the subject of hierarchical temporal representations and neural audio synthesis, and is now a postdoctorate in the ACIDS research group.
Sarah Nabi is a 1rst year PhD student in the ACIDS research group. Her research focuses on control customization and gestural interaction with deep audio generative models.
Giovanni Bindi is a 2nd year PhD student in the ACIDS research group, with a background in physics and computer science. His research revolves around the development of novel techniques to ameliorate the extrapolation capabilities of deep audio generative models.
David Genova is a 1rst year PhD student in the ACIDS research group. His work revolves around finding computationally efficient neural networks for audio synthesis in order to embed them within Eurorack modules.
Nils Demerlé began his PhD in the ACIDS research group in 2022. His work focuses on improving the generalization capabilities of deep neural networks for audio generation, aiming at allowing artists and end-users to use such models on small datasets.
Constance Douwes obtained her PhD in 2023 where she worked on energy and environmental considerations for neural audio synthesis, in order to find a balance between audio quality and energy efficiency.
Ninon Devis pursues her final- year PhD at IRCAM within the ACIDS group. Her research focuses on enhancing deep learning models for low- resource environments in order to provide novel types of musical instruments. She also teaches Pure Data and Ableton in the IRCAM master‘s program.
Philippe Esling is an associate professor and researcher in machine learning and artificial intelligence applied to music at IRCAM, and head of the ACIDS research group. He teaches computer science at Sorbonne Université and machine learning at the ATIAM Masters and Tokyo University.