Copyright: Paul Sailer (dieses Bild wurde mit der Unterstützung von DALL-E 2 erstellt)
Künstliche Intelligenz öffnet Kunstschaffenden die Türen zu neuen, noch nie dagewesenen Produktionsprozessen. Ohne technischem Know-How ist es Musiker*innen jedoch nur schwer möglich, diese neuen Technologien in ihrem vollen Umfang zu nutzen.
von Paul Sailer
„Exploring the intersection between music, art and science.” So lautet der Slogan des Musik Labels Mesh, das in den vergangenen Monaten durch experimentelle KI- und Machine Learning Projekte aufgefallen ist. Im Fokus liegt dabei die Visualisierung der elektronischen Tracks sowie die Einbindung der Fans mittels interaktiven Websites. Die neu entstandenen Möglichkeiten sowie die technischen Hintergründe sollen in diesem Artikel ausgeleuchtet werden, um anschließend einen Ausblick auf die Bedeutung für die Medienszene geben zu können.
KI-Tools und Content Creation
Ende vorletzten Jahres griffen Populärmedien wie Der Standard bereits die voranschreitende Technologie auf, die es ermöglicht Text mittels einer Software in fotorealistische Bilder zu konvertieren. Das in dem Artikel erwähnte System GLIDE (Guided Language to Image Diffusion for Generation and Editing) der Forscher des Open-AI-Projekts wurde seitdem modifiziert. Durch Berücksichtigung semantischer Informationen in Bild und Text ermöglicht das neue System DALL·E 2 eine exaktere grafische Wiedergabe der eingegebenen Beschreibung. Automatische Videoerstellung dient aktuell primär zur Anwendung animierter Moderator*innen und Text-Overlays für Stock-Videos. Das im September 2022 von META angekündigte Make-A-Video System soll weit darüber hinausgehen und das DALL·E der Videos werden. Welche Möglichkeiten haben Musiker*innen nun in Hinblick auf Musikvideoproduktion? Bereits jetzt können Programme wie das von Rotor Videos Tracks analysieren und passend zum Tempo ausgewählte Stock-Videos schneiden. Somit können Musikschaffende ohne großen Aufwand ein Musikvideo kreieren, allerdings wirken die Ergebnisse ohne Verwendung eigenen Videomaterials sehr generisch. Max Cooper und Xander Steenbrugge setzten in ihrem KI-Projekt Exotic Contents für Mesh auf ein eigens geschriebenes Machine Learning System, um passende Einstellungen für die KI auswählen zu können. Steenbrugge ist außerdem Mitgründer von WZRD, einem Programm, das ausgewählte Bilder passend zur Musik ineinanderfließen lässt. Die Ergebnisse sind für jede*n Nutzende*n individuell, bald soll auch der Upload eigener Bilder möglich sein.
Aktuelle Perspektiven
Ein Paper der AI4Media betrachtet die aktuellen KI-Entwicklungen im europäischen Medienbereich. Dabei werden automatische Videozusammenfassungen, Warnungen für Fake News und Bearbeitungsprozesse als Chancen gesehen. Die Autor*innen warnen jedoch auch vor synthetischen Medien wie Deepfakes, deren Erkennung mit voranschreitender Technologie immer schwieriger wird. Eine Studie zur Auswirkung von KI auf Kreativität von Videos konnte keine Verbesserung durch KI-Transformation nachweisen und betont daher die Wichtigkeit menschlichen Inputs beim Verwenden dieser Systeme. In Hinblick auf Förderungen künstlerischer KI-Projekte gab es in Österreich Ende letzten Jahres positive Neuigkeiten. Der Wissenschaftsfonds (FWF) hat im November letzten Jahres für vier KI-Programme Fördergelder von 1,9 Millionen angekündigt. Unter diesen findet sich auch das Programm zur Entwicklung und Erschließung der Künste (PEEK), das künstlerisch-wissenschaftliche KI-Projekte finanziell unterstützt. Auch rechtliche Aspekte sind ein oft diskutiertes Thema. Paul Fischer von der AKM sieht im Leistungsschutzrecht einen Kompromiss, der sowohl KI-Entwickler*innen Einkünfte sichert als auch den Kunstschaffenden kommerzielle Rechte einräumt.
Verwandter Use Case „Live Visuals“
Auch in der Live-Musik gibt es bereits Anwendungen für künstliche Intelligenz. So können beispielsweise mithilfe eines Algorithmus Tonfolgen eines Orchesters prognostiziert werden. Dies hat zum Ziel, das Konzerterlebnis für die Zuhörenden durch die Übertragung synchronisierter visueller Inhalte zu bereichern. Wie viel Zeit dürfen audioreaktive Visualisierer nach Eingang des Audiosignals benötigen, um den Rezipierenden ein flüssiges Seherlebnis bieten zu können? Die dafür verwendeten VJ-Softwaren streben eine Reaktionszeit von 16 Millisekunden und eine Bildrate von 60fps an. Auch Max Cooper nimmt in Echtzeit Einfluss auf projizierte Videos. Gemeinsam mit seinem Label Mesh bietet er Fans auf dieser interaktiven Website die Möglichkeit, ein in Text kodiertes Selfie aufzunehmen. Somit kann jeder von zuhause aus Teil der Live Visuals seiner Shows werden.
Profitieren Kunstschaffende von den Entwicklungen?
Wenn das Ergebnis hochwertig und einzigartig sein soll, muss immer noch viel Arbeitszeit in das Projekt investiert werden. Es ergibt sich daher kein zwingend ökonomischer Vorteil für Kunstschaffende. Allerdings senkt künstliche Intelligenz die Einstiegsschwelle für neue Künstler*innen, da simple Musikvideos ohne großes Budget erstellt werden können. Das Thema KI wird oft kontrovers diskutiert, im kreativen Bereich jedoch primär als Chance gesehen. Vor allem die von META und WZRD angekündigten Projekte lassen gespannt auf die Zukunft warten.
Über den Autor
Paul Sailer ist 22 Jahre alt und studiert Medienmanagement an der FH St. Pölten. Nebenbei arbeitet er als Grafiker, Videoeditor und selbstständiger DJ.
Kontakt: mm201015@fhstp.ac.at