Separiert und neu sortiert

Audionamix Xtrax Stems 2 Audio-Separations-Software im Test

von Dr. Andreas Hau, 18. November 2019

Welcher Remixer träumt nicht davon, bestehende Songs in ihre Bestandteile zu zerlegen, um diese neu arrangieren und bearbeiten zu können. Die Software Xtrax Stems 2 verspricht genau das: Mit auf künstlicher Intelligenz basierenden Algorithmen lassen sich Stereomixes in ihre drei Grundelemente Vocals, Drums und Instrumente separieren. Aber funktioniert das wirklich? Schauen wir mal, was geht!

Die Firma Audionamix besteht aus einem internationalen Team mit Sitz in Paris und Los Angeles und bezeichnet sich selbstbewusst als »Global Leader in Audio Source Separation«. Neben Software-Produkten bietet Audionamix auch professionelle Dienstleistungen in diesem Bereich an, beispielsweise das Herauslösen der Dialoge aus dem Filmton. Aber auch die Isolation von Gesangsspuren aus alten Musikaufnahmen, von denen keine Multitrack-Bänder (mehr) existieren, gehört zum Portfolio. Damit auch Privatanwender in den Genuss dieses Know-hows kommen, bietet Audionamix die Software Xtrax Stems 2 an, die mit einem Preis von 99 Euro für jedermann erschwinglich ist.

Frag die Wolke

Xtrax Stems wird für Mac und Windows angeboten; die Systemvoraussetzungen sind bescheiden: Unterstützt wird macOS ab 10.12 und Windows ab Version 7 mit Service Pack 1. Für optimale Performance werden 8 GB Arbeitsspeicher empfohlen. Mindestanforderungen an die CPU werden nicht genannt, denn die Separation findet nicht auf dem eigenen Rechner statt, sondern in der Cloud, d. h. auf den Audionamix-Rechnern. Insofern ist eine schnelle Internetverbindung für ein zügiges Arbeiten wichtiger als ein Hochleistungsprozessor.

Das GUI von Xtrax Stems 2 ist recht übersichtlich und weitgehend selbsterklärend. Auf der rechten Seite befindet sich ein Feld, das dazu auffordert, ein Audio-File per Drag& Drop abzulegen. Sobald man dies tut, wird dessen Wellenform angezeigt, und die Software beginnt, das File zum Audionamix-Server hochzuladen. Ein Balken unten links zeigt den Fortschritt an. Über drei Buttons lassen sich verschiedene Separationsoptionen auswählen; als Default ist »Advanced« voreingestellt. Dieser mit Version 2 eingeführte Algorithmus liefert in den meisten Fällen die besten Ergebnisse; zudem ist er etwas schneller als die beiden anderen. »Automatic HQ« wird insbesondere für A-Cappella-Versionen empfohlen. Hier wird nur der Lead-Vocal in den Vocal-Stem separiert, die Harmony-Vocals landen im Music-Stem. Bei der dritten Option »Generic HQ« wird die Hauptmelodie separiert, d. h. hier wird neben dem Lead-Vocal auch ein instrumentales Solo in den Vocal-Stem separiert. Da die Berechnung auf den Audionamix-Rechnern stattfindet, kann man nicht »einfach so« zwischen den Algorithmen wechseln, sondern muss warten, bis die (Neu-)Berechung in der Cloud abgeschlossen ist und die entsprechenden Stems heruntergeladen wurden. Es verbleiben aber auch die Files des zuvor verwendeten Algorithmus auf dem eigenen Rechner, sodass man anschließend die Ergebnisse aller berechneten Optionen verzögerungsfrei vergleichen kann.

Nach der Berechnung der Stems vergrößert sich das Programmfenster, denn nun gibt es drei Spuren mit den Stems Vocals, Drums und Music (d. h. alles außer Drums und Vocals). Man kann diese nun direkt in Xtrax Stems anhören und im Pegel regeln bzw. muten oder solo abhören. Auch Pan-Regler sind vorhanden. Als Presets werden angeboten: Drum Track, Backing Track und A Cappella Track. In gewissem Rahmen lässt sich die Separation über das daneben angezeigte Dreieck optimieren. Dieses ist in drei Felder unterteilt, die Vocals, Music und Drums repräsentieren. Durch Verschieben des Mittelpunkts lässt sich nun die Separation manipulieren. Meist ist die Default-Einstellung schon nah am Optimum.

Natürlich lassen sich die Spuren nicht nur in Xtrax Stems 2 abhören, sondern auch in anderen Programmen verarbeiten. Dazu exportiert man die Spuren als Wave-Files oder in Native Instruments’ Stem-Format.

Um den Prozess zu starten, zieht man einfach eine Audiodatei per Drag&Drop in das Programmfenster.

Praxis

Getestet habe ich Xtrax Stems in Version 2.2 auf einem Mac-Book Pro mit macOS 10.12 und auf einem Windows-10-PC. Allerdings nicht gleichzeitig, denn die Lizenz ist rechnergebunden und muss beim Wechsel auf einen Zweitrechner übertragen werden. Die Bedienung ist ansonsten kinderleicht; ein bisschen Geduld muss man jedoch mitbringen. Mit einer schnellen DSL-Verbindung sollte man für Upload, Berechnung und Download der Stems etwas mehr als die Spielzeit des Songs einplanen. Das ist eigentlich recht flott, aber wenn man eine größere Anzahl Songs separieren und eventuell je Song mehrere Algorithmen ausprobieren möchte, sollte man sich mit einer Familienpackung Snickers bevorraten … weil’s mal wieder länger dauert.

Interessant ist, dass nur zwei separierte Files heruntergeladen werden, nämlich »Vocal« und »Drumless«. Das Drum-Stem wird offenbar im eigenen Rechner durch Sub-traktion dieser beiden vom Original-File generiert. Tatsächlich geht nämlich keine Information verloren: Die drei Stems Vocal, Music und Drums ergeben zusammen exakt das Ausgangs-File. Das lässt sich per Phasentest leicht nachprüfen, indem man die drei Stems in der DAW auf drei Stereospuren legt und auf eine vierte das Original-File. Invertiert man die Polarität des Originalfiles, herrscht beim Abspielen aller vier Spuren völlige Stille!

Der wichtigste Punkt ist aber natürlich die Qualität der algorithmischen Separation. Grundsätzlich ist diese sehr gut, wenn man bedenkt, wie komplex die Aufgabe ist. Schließlich können Gesangsstimmen ja individuell ganz unterschiedlich klingen − wie bringt man einem Computer bei, sie vom restlichen Content zu separieren? Und wie trennt man Sprachkonsonanten oder Attacks von Instrumenten und Schlaginstrumenten − zumal diese Signale sich ja auf den Zählzeiten des Beats häufig überlagern? Gemessen an der enormen Schwierigkeit der Aufgabe ist das Ergebnis sehr, sehr gut, teilweise sensationell. Es ist jedoch nicht artefaktfrei: Hört man die Stems solo, klingt es häufig nach MP3 mit niedriger Bitrate. Wie oben ausgeführt, wurde hier aber keine Information weggerechnet oder geglättet, sondern die Einzelinformationen ließen sich nicht immer korrekt zuordnen. So könnte ein Transient im Original-File von einer geschlossenen Hi-Hat, dem Anschlagsgeräusch einer Akustikgitarre oder einem Sprachkonsonanten (z. B. »t«) stammen − vielleicht gar von mehreren Quellen gleichzeitig. Insofern kann ein solcher Transient falsch zugeordnet werden. Zumindest aber geht er nicht verloren, denn die Addition der drei Stems ergibt ja exakt das Original.

Wie gut die Separation funktioniert, hängt natürlich auch vom Ausgangsmaterial ab. Starker Halleinsatz kann die Unterscheidung zwischen Signalen erschweren. Auch Modulations-Effekte machen es dem Algorithmus nicht unbedingt leichter. Aber Audionamix’ KI-Algorithmen sind wirklich clever, kein Vergleich zu einfachen Karaoke-Effekten, wo einfach nur die Stereomitte herausgefiltert wird. Xtrax Stems 2 liefert auch bei Beatles-Mixes mit seitlich platzierter Stimme überzeugende Ergebnisse.

Ob man aus den Stems eine überzeugende Instrumental-oder A-Cappella-Version basteln kann, hängt letztlich vom Ausgangsmaterial ab. Einzelstimmen erkennt Xtrax Stems 2 deutlich besser als mehrstimmigen Gesang. Gerade wenn die Stimmen so perfekt miteinander verschmelzen wie seinerzeit bei Simon & Garfunkel, tut sich der Algorithmus schwer, was er mit deutlich hörbaren Artefakten quittiert. Weitaus besser gelingt die Separation bei Paul Simons Graceland. Noch besser funktionieren Arrangements mit stark kontrastierenden Elementen wie Let It Go von James Bay, wo sich die Stimme, der weiche Gitarrensound und die wuchtigen Drums auch fürs Ohr stark voneinander abheben. Die besten Ergebnisse liefern klare Mixes mit geringem Effekteinsatz wie etwa Never Gonna von Jonathan Jeremiah, das von Xtrax Stems 2 nahezu perfekt separiert wurde.

Der Drum-Groove wird fast immer gut isoliert; den etwas verwaschenen Sound kann man ggf. durch Unterlegen mit eigenen Sounds kompensieren. Was immer funktioniert, ist das Rejustieren der Mix-Balance; den Lead Vocallauter zu machen gelingt praktisch artefaktfrei. Auch Hall- und Delay-Effekte hinzuzufügen bereitet normalerweise keine Probleme. Zum Test habe ich Dreams von Fleetwood Mac ein 80s-Treatment verpasst. Die 70er-Jahre-Aufnahme klingt sehr trocken, was für Xtrax 2 ideal ist. Stevie Nicks’ Lead-Vocal wurde ausgezeichnet herausgelöst; leichte Artefakte gab es jedoch im Chorus, wo Lindsey Buckingham und Christine McVie Harmoniestimmen singen. Der Vocal-Stem ließ sich ohne Probleme lauter abmischen und mit einem geschmeidigen 80er-Jahre-Lexicon-Hall versehen. Den Music-Stem konnte ich ohne unerwünschte Nebenwirkungen mittels Chorus verbreitern. Ob den Künstlern und ihren Produzenten derartige Eingriffe so gut gefallen wie dem Remixer, ist natürlich eine andere Frage.

Mit EQ und Kompression sollte man vorsichtig umgehen. Da die Spuren nicht gänzlich unkorreliert sind, können EQ-Bearbeitungen einzelner Stems zu (teilweisen) Phasenauslöschungen führen. Um Artefakte zu vermeiden, greift man daher am besten zu einem phasenlinearen EQ. Auch Kompression kann Artefakte verursachen, besonders bei sehr schnellen Regelbewegungen. Es empfehlen sich etwas längere Zeitkonstanten, welche die Transienten durchlassen: Attack im zweistelligen Millisekundenbereich und Release nicht unter ca. 300 ms.

Zum Separieren wird die Datei auf den Audionamix-Server hochgeladen; den Fortschritt zeigt der Balken unten links an.

Fazit

Xtrax Stems 2 ist eine hoch interessante Software, die uns vor Augen bzw. Ohren führt, wozu künstliche Intelligenz heute schon in der Lage ist. Nein, die Separation von Mixes in ihre Hauptbestandteile Vocals, Drums und Music ist nicht perfekt. Zwar ist die Trennung fast immer sehr gut, aber je nach Ausgangsmaterial muss man mit Artefakten rechnen. Trotzdem sind die Ergebnisse erstaunlich und meist gut genug, um einen der drei Bestandteile zu muten, um ihn durch eigene Spuren zu ersetzen. Auch ein Rejustieren der Mix-Balance bzw. Aufpolieren mit Effekten ist in den meist möglich, ohne dass Artefakte allzu hörbar werden. Denn, das ist das Interessante: Keine Klanginformation geht verloren! Die drei Stems entsprechen zusammengemischt 1:1 dem Original-File.

Natürlich wirft eine solche Software auch rechtliche Fragen auf, spätestens, wenn man eigene Remixes veröffentlichen möchte. Xtrax Stems 2 lohnt sich aber auch ohne solche Absichten, um die eigenen Mix-Fähigkeiten zu schulen und bekannte Aufnahmen zu analysieren. So manchen Arrangement-Kniff erkennt man erst richtig, wenn man den Gesang mutet. Auch für Singende bietet die Software großartige Möglichkeiten, zu den Lieblingssongs zu üben. 99 Euro erscheinen für das Gebotene sehr günstig!

+++
innovative Technologie, die völlig neue Möglichkeiten eröffnet
+++
keine Klangverluste: Addition der Stems entspricht 1:1 dem Original-File
++
kinderleichte Bedienung
++
je nach Quellmaterial sehr gute Ergebnisse
–
Klang der Einzel-Stems meist nicht artefaktfrei

Audionamix Xtrax Stems 2 Audio-Separations-Software im Test

Frag die Wolke

Praxis

Fazit

Schreibe einen Kommentar Antworten abbrechen

Das könnte dich auch interessieren

GForce Software präsentiert Halogen FM

Handcrafted Piano – Felt Piano mit integriertem Sound Design

TuneDyne – Classic Snare Collection

Studioszene startet in den Ticketverkauf

Software-Komplettpaket-Guide

Fostex Produktneuheit: Fostex T60RPmk2