Aus Sound werden Noten

Besuch beim Notations-App-Anbieter Klangio

Anzeige
(Bild: © 2022 Sebastian Weindel, all rights reserved.)

Das Karlsruher Start-up Klangio bietet Apps, mit denen sich Audiomaterial in Noten verwandeln lässt – darunter Klavierpartituren. Als Schlüssel zur Erkennung dienen neuartige »Deep Learning«-KI-Software-Routinen. Ein Gespräch mit Sebastian Murgul, einem der beiden Gründer, über die Herausforderungen beim Umwandeln von Tönen in Noten – und was das für die Musikerwelt bedeutet.

Was tun, wenn sich keine Noten zum gewünschten Stück finden – etwa zu einer Song-Melodie auf YouTube – oder wenn eigene Stücke nicht aus MIDI-Daten »mal eben« als Noten ausgegeben werden können?

Anzeige

Sebastian Murgul und Alexander Lüngen gründeten 2018 ihr Start-up-Unternehmen Klangio. »Das Thema lässt mich einfach nicht los«, erklärt Murgul schmunzelnd die Nerd-Faszination der automatischen Transkription von Audiomaterial. Es war das Thema seiner Bachelor-, Master-Arbeit und aktuell der Dreh- und Angelpunkt seiner Promotion, im Rahmen des Elektrotechnik-Studiums.

Zu der Idee inspirierte ihn seine jüngere Schwester, so Murgul. »Sie hatte ein E-Piano, auf dem eine Melodie eingespeichert war. Diese wollte sie gerne nachspielen, allerdings waren keine Noten vorhanden.« Sie fragte den Bruder. »Ich setzte mich mit einer Oszilloskop-App hin, maß die Frequenzen, berechnete die Noten und notierte das Ergebnis. Das funktioniert nur bei einfachen Melodien – in dem Fall hat es gerade so geklappt.« Sein Ehrgeiz war geweckt, die Aufgabe müsse sich auch einfacher bewerkstelligen lassen. Er schaute nach passenden Apps, fand jedoch keine zufriedenstellenden Lösungen.

»Im Durchschnitt liegen wir bei einer Klavier-Transkription bei 90 Prozent Genauigkeit.«

Gängige DAWs bieten die Möglichkeit, Audio in MIDI umzuwandeln – und damit Transkription zu ermöglichen. »Mit monofonem Material in Studioqualität lässt sich das noch recht gut umsetzen, aber bei einem Handy-Mitschnitt mit Hintergrundgeräuschen gehen die Programme in die Knie.« Eine große Hürde: Die Programme erfassten die MIDI-Daten lediglich unquantisiert, sprich, ohne die Einordnung in Takte und passende Notenwerte. »Das auf einem Notenblatt darzustellen, ist die nächste Herausforderung.«

Klangio
Die beiden Klangio-Gründer Alexander Lüngen und Sebastian Murgul (Bild: © 2022 Sebastian Weindel, all rights reserved.)

Von »klassischer« Programmierung zum KI-Gedanken

Wie er das Problem behob, eine Melodie in schwierigen Kontexten herauszuhören? In seinem Elektrotechnik-Studium stellte Signalverarbeitung einen Schwerpunkt dar. »Angefangen habe ich mit ›klassischen‹ Algorithmen, die sogenannte Fast-Fourier-Transformation oder andere Methoden, die sich an der menschlichen Frequenzwahrnehmung orientieren. Dabei wird eine Zeit-Frequenz-Darstellung im Spektrogramm berechnet.« Der Ton wird aus den stark aktiven Frequenzbereichen heraus analysiert. Das spiegelt praktisch seinen Ansatz mit der Oszilloskop-App am E-Piano wider, nur automatisiert. »Da wird ›stupide‹ entschieden, ohne den Kontext – also das Stück – zu betrachten.« Er gelangte recht schnell an die Grenzen herkömmlicher Signalverarbeitung, wie er sagt, die nötige Rechenleistung wuchs stark, und die Ergebnisse waren alles andere als optimal.

Auf der Suche nach einem neuen Ansatz entstand das Thema seiner Bachelor-Arbeit. »2017 startete die sogenannte Deep-Learning-Welle im IT-Bereich, sodass plötzlich passende KI-Technologie und Wissen verfügbar waren und auch Privatanwender ein neuronales Netz trainieren konnten. Paper erschienen, viel Forschung fand in dem Bereich statt, auch von großen Konzernen wie Google, Spotify und Adobe. Für die Konzerne ist der Markt der Notation nicht groß genug. Andere Firmen haben den Startschuss nicht gehört. Bei uns bestand der Zufall und das Glück, dass wir gerade mit dem Technologiewechsel anfingen«, erzählt er. »Meine Idee bestand darin, beide Ansätze zu kombinieren, um das Problem der optimalen Notenerkennung zu lösen.

Die Auswertung des Spektrogramms findet nicht mehr mit einfachen Algorithmen statt, sondern per KI. Das heißt, wir haben die Gesamtaufgabe in viele kleinere Probleme unterteilt. Jedes dieser neuronalen Netze bekommt die einzelnen Informationen und schätzt beispielsweise, welche Noten gerade klingen könnten oder wann ein Takt beginnt.« Durch die Rückmeldungen der Netze lassen sich die anderen Ergebnisse besser einschätzen, je nach Songtempo ergeben bestimmte Notenwerte Sinn. »Am Schluss wird alles in ein Notenblatt umgewandelt. Das heißt, wir hören nicht mit der MIDI-Darstellung unquantisierter Noten auf, sondern quantisieren das Ergebnis, unter Berücksichtigung der Musiktheorie.«

Mensch vs. Maschine

Bei den Software-Routinen handelt es sich, wie bei KI üblich, nicht um eine »selbstdenkende Maschine«, sondern um ein Programm, das mit Wahrscheinlichkeiten aufgrund bisherigen Trainings arbeitet. Der Unterschied zwischen einer KI zu einem von Hand transkribierten Ergebnis sei klar definierbar: »Hätte ein Mensch beim Transkribieren unendlich viel Zeit, könnte er das Ergebnis endlos verbessern, da er während dem Prozess dazulernt. Unsere KI geht aktuell bei uns in die ›Schule‹, wir bringen ihr die Theorie bei. Sie wendet das in der Praxis an, lernt aber währenddessen nicht weiter dazu. In die Richtung soll es gehen – sodass die KI durch das Transkribieren selbst weiter dazulernt.« Dabei gelte für die Firma der Grundgedanke, den Menschen nicht ersetzen zu wollen: »Es soll niemand eingespart werden, stattdessen sollen neue Möglichkeiten entstehen.« Die Möglichkeit, dass professionelle Transkribierer – etwa klassische Musikwissenschaftler – Aufträge im großen Stil verlieren würden, sieht er nicht gegeben. »Wir sind eher das Werkzeug, das Profis hilft, schneller zu arbeiten: Wenn jemand eine klassische Partitur in bester Qualität sucht, möchte er, dass am Ende ein Mensch über das Ergebnis schaut. Das ist der Unterschied zwischen KI und menschlicher Transkription. Wir liefern einen guten Vorschlag, der sich manuell zu Ende führen lässt, aber das perfekte Notenblatt liefern wir noch nicht.«

»Eins-zu-eins«-Piano-Transkription mit »Piano2Notes«

Klangio bietet derzeit drei Programme, für unterschiedliche Anwendungsgebiete: »Melody Scanner« war der Einstieg ins Thema, noch ohne KI-Algorithmen. Es dient dazu, einfache Melodien und Akkorde zu erkennen und ein Arrangement für das gewünschte Instrument – etwa Geige, Flöte, Gitarre, Saxofon, Bass, Piano und Gesang – zu erstellen. »Die App soll später nochmal ›rebootet‹ werden, mit KI, sodass fantastische Cover erstellt werden können.« Aus den KI-Algorithmen entstand das Programm »Piano2Notes«. »Dabei geht es um Eins-zu-eins-Transkription der hörbaren Noten – der Fokus liegt auf der bestmöglichen Transkription für Klavier. Wenn wir unseren Nutzern glauben dürfen, sind wir damit auf dem richtigen Weg.« Klaviermaterial werde recht zuverlässig erkannt – es muss allerdings eine Solo-Aufnahme sein. »Es funktioniert aktuell nur zu einem gewissen Grad, Klavier aus einem musikalischen Kontext zu isolieren.«

Blick auf die Benutzeroberfläche von »Piano2Notes«, hier als App auf dem Tablet (Bild: © 2022 Sebastian Weindel, all rights reserved.)

Generell können bei dem Instrument zehn gespielte Töne gleichzeitig erklingen, dazu potenziell viele weitere, vom Pedal gehaltene Noten. »Das Ergebnis kann unsere Software in zwei Stimmen einteilen – die linke und die rechte Hand.« Wie hoch ist dabei die »Fehlerrate«, wie der Prozess die Noten der linken und rechten Hand zuschreibt? »Wenn sich die Hände überkreuzen würden, wird es interessant. Das wird vom Prozess ignoriert, die Hände gehen wieder logisch auseinander.« Es sei oft nicht eindeutig, was notiert stattfinden soll, betont Murgul. »Im Durchschnitt liegen wir bei 90 Prozent Genauigkeit beim Klavier. Wir bewegen uns in den Grenzen, dass es nie falsch klingt, das ursprüngliche Stück bleibt erkennbar. Je besser die Qualität und je einfacher das Stück, desto näher kommen wir dem hundertprozentigen Ergebnis. Die Genauigkeit hängt auch davon ab, wie komplex das Stück ist: Liegen viele Überschneidungen vor oder erklingen besonders viele Töne auf einmal, wird es schwieriger, alle Werte perfekt zu erkennen.«

Gleichzeitig spielt die Qualität der Aufnahme eine Rolle: »Wenn jemand Klavier neben einer Straßenbahn spielt, mit Hintergrundgeräuschen und Echos, wird es schwierig. Auch Orgel in einer Kirche ist kompliziert, aufgrund des Nachhalls: In dem ›Klangteppich‹ ist es eine Herausforderung, Anfang und Ende einer Note zu erkennen, oder Noten werden doppelt erkannt.« Harmonische Störgeräusche seien besonders schwierig, etwa das Läuten einer Kirchenglocke im Hintergrund. »Kurze, perkussive Geräusche werden in der Regel herausgefiltert.« Unter »idealen« Bedingungen, etwa eine MIDI-Datei, die mit Klavier-Samples abgespielt wird und dann »zurückverwandelt« werden soll, wären 100 Prozent Genauigkeit praktisch greifbar, meint Sebastian Murgul.

Gitarren-App »Guitar2tabs«

Das dritte Programm im Bunde ist die Gitarren-App »Guitar2Tabs«, die gezielt Gitarren-Tabulaturen auf hohem Niveau realisieren soll. Das Thema sei deutlich schwieriger als Klavier-Transkription, weil das Ergebnis passend auf die unterschiedlichen Saiten verteilt werden muss, so Murgul. Hier wird mit Blick auf den Kontext eine logisch spielbare Abfolge entschieden. Eine weitere Hürde besteht in den Spieltechniken: Bendings und Vibrato-Einsätze werden aktuell noch ignoriert und als normale Töne transkribiert, erklärt er. »Unsere bisherige Lösung liefert in den meisten Fällen bereits gut spielbare Tabulaturen, die bei Bedarf in GuitarPro [separate Anwendung; Anm. d.Aut.] editierbar sind. Auf dem Guitar Summit im September haben wir den aktuellen Stand präsentiert und jede Menge nützliches Feedback von Experten erhalten. Mit diesen neuen Erkenntnissen arbeiten wir schon an der nächsten Version des Algorithmus, die noch robuster wird und mehr Spezialfälle abdeckt.«

Abb3 - Melody Scanner
Browser-Oberfläche der Software »Melody Scanner«

In je zwei Varianten sind die Programme nutzbar, als Handy-App (Android und iOS) oder als Browser-Anwendung im Netz. »Dort lässt sich eine Audiodatei hochladen.« Das Geschäftsmodell basiert auf der Verarbeitung in der Cloud des Unternehmens. »Der Prozess benötigt viel Rechenleistung, die ist beispielsweise im Handy nicht gegeben.« Generell bieten sie ein »Pay per Use«-Modell: Der Nutzer kann die ersten 30 Sekunden seines Materials kostenlos transkribieren lassen, um einen Eindruck vom Ergebnis zu erlangen. Für ein gesamtes Stück fallen 3 Euro an, dazu bietet Klangio Pakete mit Mengenrabatten an. »Wer auf die Seite geht, kann direkt loslegen – muss sich nicht einloggen, sondern lädt die Datei hoch und bekommt das Ergebnis. Nach ein paar Minuten bekommt der Nutzer eine MIDI-Datei, das Format MusicXML sowie ein PDF mit den Noten. Unser Rezept: Es soll möglichst einfach zu bedienen sein, sodass es sowohl von Laien als auch Profis benutzt werden kann: Ein, zwei Clicks, vielleicht noch nicht mal einen Parameter einstellen, nur eine Datei hochladen.«

Laut Murgul eignen sich die Produkte für zwei Anwendungsfälle. »Zum einen für Komponisten oder Songwriter, die ihr Material zu Papier bringen möchten.« Die zweite Anwendung erinnert an den Ursprungsgedanken seiner Schwester am Klavier: »Jemand möchte einen Song nachspielen, kann aber keine Noten dazu finden. Damit erreichen wir viele Hobbymusiker.«

Weltweite Kundschaft

Bislang werden ihre Programme  in den Sprachen Deutsch, Englisch, Französisch, Spanisch und Japanisch angeboten. Der größte Markt für die Firma befindet sich in den USA. »Dort existieren rund 20 Millionen Klavierspieler – rund zehn Mal so viel wie in Deutschland.« Nach dem englischsprachigen Markt folgt Japan, dann Südamerika. Deutschland liegt, gemessen an der Anzahl der Kunden, auf dem fünften Platz.

Ein Auftrag blieb Murgul besonders in Erinnerung: Für einen Musikproduzenten aus der Nähe von Los Angeles sollten 3.500 Songs erfasst werden. Bei den angelieferten Songs habe es sich um Audioskizzen gehandelt, die der Produzent als Memos aufgenommen hatte. Die Ideen aus den letzten 20 Jahren wurden schlicht am Klavier, nicht an einem MIDI-Keyboard improvisiert – wo er die MIDI-Daten zur Verfügung gehabt hätte. »Es ist natürlich auch praktischer, nur kurz eine Aufnahme mit dem Handy zu starten, wenn eine Idee kommt, statt ein komplexes Setup anzuschließen «, meint Murgul. »Wir haben ihm die Songs transkribiert und die MIDI-Dateien zurückgespielt. Das dauerte insgesamt eine Woche. Anschließend hat er die Musik in seiner DAW weiter ausproduziert und nimmt aktuell eine Platte mit dem Material auf.«

www.klangio.com

Kommentar zu diesem Artikel

  1. welche App kann man verwenden um z.B. noten für eine Tuba, aus einem Stück raus zu filtern

    Auf diesen Kommentar antworten

Schreibe einen Kommentar zu Bucher Christian Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.