Zwischen Film, Funk und Internet

Besuch beim Post-Production-Dienstleister Harvest Digital Agriculture, Hamburg

Blick ins Kompositions- und Sounddesign-Studio in der sechsten Etage – hier im »aufgeräumt-minimalistischen« Zustand ohne Avid-Controller-Pult, das für den Mix genutzt wird. (Bild: Harvest Digital Agriculture)

Was unterscheidet Werbeton von einer Musikproduktion? Ein Besuch bei dem Hamburger Post-Production-Dienstleister Harvest Digital Agriculture – und ein Gespräch über Mix-Workflows, Lautheits-Standards, Sprecheraufnahmen übers Netz, Sounddesign und Restauration.

Die Hamburger Post-Production-Firma Harvest Digital Agriculture produziert Werbekampagnen für Fernsehen, Kino, Internet, Rundfunk und Printmedien. Auf der Webseite sind Hochglanz-Videos von Fahrzeugen zu sehen – aufwendige Kamerafahrten durch wechselnde Landschaften, teils am Computer generiert, in schnellem Rhythmus geschnitten. Die Botschaft: Das Unternehmen zeigt sich weltläufig, am Puls der Industrie, bietet mittlerweile eine sogenannte »Full-Service-Produktion« samt kompletter Umsetzung. Zu den Kunden zählen Audi, VW, Porsche, Kia, Lindt, Fielmann, Montblanc, Aktion Mensch, Vodafone, Red Bull oder Siemens. Die Firma existiert seit 2012 und residiert in der Hamburger Speicherstadt in einem alten Backsteinspeicher auf drei Etagen.

Anzeige

Im Haus befinden sich neben Administration und Büros unter anderem eine Videoschnitt- und 3D-Abteilung, in einem eigenen Kinosaal werden die Farben für Filme feinjustiert. Zum Sound-Team zählen Enrico Horn und sein Kollege Tom Puschmann. In der sechsten Etage findet sich das größere der beiden Produktionsstudios, mit Aufnahmekabine und Regieraum samt 5.1-Surround-Bestückung aus Focal SM9- und Neumann KH120A-Monitoren, dazu ein Neumann Sub. 5.1-Produktionen stellten bislang die Ausnahmen dar. Der Hauptbereich bleibt Werbung, allerdings in vielen Facetten, wie Horn feststellt: »Manchmal machen wir auch Ton für Fotografen, die eine Insta-Story oder Bilderstrecke mit Sound unterlegen wollen.« Grob arbeiten sie an rund 30 Werbekampagnen im Jahr, mit etwa 150 Einzelfilmen.

Im Seitenbereich des größeren Studios, das neben Mischungen auch für Komposition benutzt wird, befindet sich eine Sprecherkabine. Die Teac-Bandmaschine hingegen dient als Deko. (Bild: Harvest Digital Agriculture)

Wie die Tonproduktion für Werbespots aussieht? Tom Puschmann spielt einen Floraplant-Margarine-Werbespot vor, mit Voice-Over, Hintergrund-Geräuschen und Musik. Er demonstriert die einzelnen Sounds: Butter, die gebraten in der Pfanne zerläuft, dazu Geräusche von Menschen, angelieferte Musik, ein Erzähler. »Der Sprecher war in einem Berliner Studio, ich konnte ihn live übers Internet aufnehmen – die Kunden waren ebenfalls zugeschaltet, und wir konnten uns alle übers Netz unterhalten.« Sie arbeiteten oft per Remote, wirft sein Kollege Enrico Horn ein, das sei speziell in Corona-Zeiten ein Vorteil.

Knapp die Hälfte der Sprecher nehmen sie im eigenen Studio auf. In der Sprecherkabine des größeren Studios dient dazu ein Neumann TLM103, im kleinen Studio ein Neumann TLM49. Ob vor Ort aufgenommen wird, hängt laut Enrico Horn von der Kampagne ab: »Wohnt der Sprecher in Berlin, ist es für alle Beteiligten sinnvoller, wenn er für eine Stunde aus einem Berliner Studio zugeschaltet wird, statt einen halben Tag unterwegs zu sein, mit entsprechenden Reisekosten. Das wird sich künftig noch mehr durchsetzen. Früher lief das über die sogenannte Mayah-Box, ein externes Gerät, das drei ISDN-Leitungen bündelte. Das hat für Sprache ausgereicht.«

Inzwischen funktionieren die Aufnahme Browserbasiert übers Netz. Puschmann: »Wir nutzen die Anbieter Source-Connect now und SessionLink Pro. Sie verbinden sich mit dem Sequencer – in unserem Fall Pro Tools. Über das Send- und Receive-Plug-in Source Nexus Pro können wir die Aufnahme einspeisen und gleichzeitig entscheiden, was wir dem Sprecher vom Mix auf den Kopfhörer senden.« Für die Aufnahme kann das jeweils andere Studio über die Source-Connect-Webseite »eingeladen« werden.

Verlustbehaftete Sprachaufnahme habe sich etabliert, weil es nicht anders in Echtzeit möglich sei. Horn: »Aktuell sind wir bei 320 kbit pro Sekunde als Monosignal, was ohne Dropouts oder Glitches funktioniert. Das stellt eine gut brauchbare Auflösung dar – die Tiefen nehmen wir später ohnehin raus, die Höhen über 16 Kilohertz brauche ich auch nicht unbedingt. « Puschmann: »Wir lassen das jeweilige Studio vor Ort mit aufnehmen, sodass wir im Zweifel die unkomprimierte Aufnahme bekommen können. Das Echtzeit-Signal dient vor allem dazu, dass alle Teilnehmer gleich hören, was passiert, und Feedback geben können. Die Sprecher sehen dabei manchmal einen ›schwarzen‹ Bildschirm, weil es latenzfrei sehr schwierig ist, Bild und Ton gleichzeitig zu schicken. Oft wird das Bild bereits vorher verschickt und vom Aufnahmestudio manuell gestartet, oder wir schicken MTC [MIDI-Timecode; Anm.d.Red.] und synchronisieren Pro Tools als Slave.«

Das kompaktere Post-Production-Studio in der zweiten Etage dient primär zur Sprachaufnahme und für »kleinere« Mischungen. (Bild: Harvest Digital Agriculture)

Spezialisierter Workflow

Während bei einer herkömmlichen Musikproduktion ein Mix-Arrangement in unterschiedlichen Varianten ausgespielt wird, herrscht für die Werbeton-Produktion bei Harvest ein anderer Workflow: Für alternative Versionen wird das gesamte Arrangement kopiert, sodass jeweils eine eindeutige Variante erhalten bleibt. Horn: »Wenn der Kunde nachträglich die Sprache leiser oder lauter haben möchte, muss ich im Studio direkt wissen, um welche Version es sich handelt. Deshalb hat jede Version eine Ausspielnummer. Wir bekommen manchmal bis zu 20 Feedbacks am Tag zu einem Projekt. Da muss ich zuordnen, welche Version gemeint ist. Außerdem müssen wir immer in der Lage sein, schnell zur Version XY zurückgehen zu können. So haben wir teilweise 100 Ausspielungen nacheinander im Sequenzer-Arrangement angeordnet. Vereinzelt werden für die Hintergrundmusik Stems angefragt, um den Musikmix zu ändern – oder einzelne Elemente herauszuschneiden.

Eine weitere Herausforderung: »Bei uns findet alles im Fluss statt«, so Horn. »Aufnahme und Mix sind keine getrennten Vorgänge. Es kann gut sein, dass beim Sounddesign ein Anruf kommt, weil der Sprecher gerade Zeit für die Aufnahme hat. Dann müssen wir sofort reagieren.«

Die hohe Zahl an Ausspielungen ist neben Mix-Änderungen auch unterschiedlichen Zielformaten geschuldet. »Für fünf verschiedene Spots einer Kampagne – ein 30-Sekünder sowie Cutdowns mit 20, 15 und zehn Sekunden, dazu noch ein Sechs-Sekünder im Hoch- und Querformat für Instagram, YouTube, Facebook und die eigene Homepage – haben wir bis zu 60, 70 verschiedene Ausspielungen, vom grundsätzlich gleichen Inhalt.« Dazu kämen bei weltweiten Kampagnen noch unterschiedliche Länderversionen.

Die Aufnahmekabine im kompakten Studio, samt …
… »Geräuschemacher-Utensilien« wie Kies und Sand

Werbung und Lautheit

Je nach Zielformat seien unterschiedliche Lautstärken notwendig, erklärt Tom. »Fürs Internet spielen wir mit –13 LUFS aus, –23 LUFS bei Fernsehwerbung.« Die frühere Problematik, dass beim Fernsehen starke Pegelsprünge zwischen normalem Content und Werbeblöcken entstanden, wurde durch die R-128-Norm weitgehend behoben, erklärt Horn. »Das gesamte Fernsehprogramm ist auf –23 LUFS gepegelt. Der Werbeanbieter ist verpflichtet, den Pegel einzuhalten. Ein Spielfilm oder eine Doku darf um plus/minus 1 Dezibel schwanken, während bei Werbung unter 30 Sekunden plus/minus 0,5 Dezibel als LUFS-Wert eingehalten werden müssen; ansonsten kommt der Clip wieder zurück. Dazu kommen sogenannte Momentary-Loudness-Bestimmungen: Kein Peak darf zum Beispiel –18 LUFS überschreiten. Das finde ich richtig, denn so muss niemand mehr während der Werbepause zur Fernbedienung greifen.« Rundfunk-Spots würden hingegen recht stark limitiert, meint Horn, und mit –9 LUFS ausgespielt.«

Im Netz entwickle sich ein Trend zu generellen Standards: »Wir spielen die erwähnten –13 LUFS aus. YouTube und Instagram liegen bereits bei –14 LUFS. Man muss den Mix nicht unbedingt so abgeben, der Anbieter pegelt entsprechend. « Ein einheitlicher Standard existiert im Netz noch nicht, »deshalb existieren bei YouTube noch Schwankungen – aber es geht in die richtige Richtung. Eigentlich kann sich keiner mehr große Pegelsprünge erlauben, gerade weil viele Nutzer über Kopfhörer hören.«

Wird ein Spot in unterschiedlichen Medien genutzt, ist eine Angleichung nötig: »Für Kinowerbung arbeiten wir auf LEQ 82 [82 Dezibel als zeitbezogener Mittelwert; Anm.d.Red.], die Kinonorm für Trailer schreibt maximal LEQ 85 vor. Die Filme liegen meist bei LEQ 80, das entspricht knapp –19 LUFS, zwischen TV- und Web-Pegel. Ohne Angleichung ist der Spot im Netz deutlich leiser. Damit haben wir manchmal zu kämpfen: Für jede Plattform müsste theoretisch eine separate Mischung erfolgen, was sich allerdings keiner leisten möchte oder wofür schlicht die Zeit fehlt.« Die Ton-Abteilung werde im Produktionsprozess oft als Letztes berücksichtigt. »Mittwochs muss die fertige Sendekopie ausgeliefert werden, häufig finden aber erst Montag abends die Sprachaufnahmen statt. Großer Zeitdruck ist bei vielen Produktionen normal.«

Eine Automatisierung der Ziellautstärken wäre laut Horn möglich, aber kaum sinnvoll: »Durch unterschiedliche Short-Term-Voraussetzungen wäre eigentlich ein neuer Mix nötig. Ich automatisiere dann lieber den Mix mit dem Limiter selbst, indem ich leise Stellen verstärke und laute stärker rausnehme, sodass die ursprünglich gewünschte Dynamik und Story erhalten bleiben. Grundsätzlich mische ich erstmal leiser, in Richtung R-128-Standard. Das Ergebnis lässt sich später immer noch laut machen. Aus einem lauten Webmix ist umgekehrt nur schwer ein R-128-kompatibler Mix machbar, weil einzelne Elemente zu laut sind. Trotzdem möchten Kunden häufig zuerst einen Webmix hören, um das Ergebnis am Notebook zu vergleichen.«

Für die Sound-Abteilung zuständig: Audio Engineer Enrico Horn … (Bild: Enrico Horn)

Klangliche Unterschiede

Was unterscheidet Werbeton von einer Musikproduktion? Das Voice-Over sei der »König« und stehe über allem, meint Tom Puschmann. »Das muss immer hörbar sein, denn die Sprache verkauft das Produkt.« Im Mix nehme er vielleicht mehr Low-End-Anteile heraus, weil ein Fernseher das ohnehin nicht wiedergibt, so Horn. »Viel Bass beansprucht auch viel Lautheitsreserven. Als Hausnummer dienen mir die Neumann 120A-Monitore – wenn es darüber für mich gut klingt, funktioniert es meiner Erfahrung nach überall.« Bei Bedarf lassen sie einen Werbespot über die Speaker des großen Fernsehers laufen oder im Post-Production-Studio über einen kleinen Avantone Mixcube.

www.harvest-technology.de

… und sein Kollege Tom Puschmann (Bild: Tom Puschmann)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.