Schlagwortarchiv für: Ultraschall

tl;dr: Presonus hat den Software-Support der VSL-Soundinterfacereihe für OSX El Capitan eingestellt. Kein Beinbruch: mit Ultraschall/Reaper lassen sich bessere Ergebnisse erzielen.

Ausgangslage: immer Ärger mit Presonus

Über die schwierige Hassliebe von PodcasterInnen zu den VSL-Audiointerface-Produkten der Firma Presonus habe ich mich schon einmal länger ausgelassen. Zum einen bieten sie guten Klang, viele Eingänge und Echtzeit-Effekte zu ca. 50% des Preises, den andere Firmen für vergleichbare Features aufrufen. Zum anderen hatte man aber nie den Eindruck, dass die Treiber und Mixeroberflächen wirklich 100% robust waren. Jedes Apple-Update brachte Probleme mit sich. Die Informations- und Supportkultur von Presonus ist und bleibt eine Katastrophe.

Nun zu OSX El Capitan der Paukenschlag: jegliche Weiterentwicklung der VSL-Linie wird eingestellt. Der Gerechtigkeit halber für die Windows-Welt gleich mit. Äh – what? Nur weil Apple sonderbare (wenn wohl auch sinnvolle) Updates im Core-Audio-Bereich herausgibt, müssen die ca. 9/10tel Windows-KäuferInnen gleich mit leiden?

So tickt Presonus.

Wenn man die VSL-Politik wie ich seit Jahren verfolgt, ergibt sich hier ein klares Bild: Sie haben eigentlich von Tag 1 an die technischen Probleme dieser Modellreihe (Aussetzer, Knacksen) nie wirklich in den Griff bekommen und sehen das Update jetzt als willkommene Gelegenheit für einen Exit.

Etwas lapidar heißt es in ihrer Ankündigung (paraphrasiert): „Nun, Eure Interfaces funktionieren ja weiter als Class-Audio Geräte, ihr müsst nur unsere Treiber- und Mixersoftware komplett entfernen.“

Hier entsteht zunächst ein mehr als schaler Beigeschmack: Die VSL-Reihe war deshalb besonders, weil sie in ihrer Mixer-Software nicht nur ein brauchbares Routing zwischen den 8 Eingängen und 8 Ausgängen (!) ermöglichte, sondern vor allem auch für Podcasting hochinteressante Echtzeiteffekte mitbrachte: EQ, Kompressor, Limiter, Noisegate. Diese entfallen nun komplett ohne die Mixer-Software; übrig bleibt ein relativ schlichtes Stück Audio-Hardware, das lediglich Ein- und Ausgänge im OS bereitstellt. Da kann das mobile Zoom H6 mehr (von der Anzahl der Eingänge abgesehen).

Der Grund für all diese Probleme liegt in der sehr speziellen Treiberarchitektur der VSL-Geräte. Der niedrige Preis konnte nur realisiert werden, da in den Geräten schlicht nichts IST als simple Audio-Hardware – und eben keine teuren DSP-Effektbausteine wie bei der teuren Konkurrenz. Das Audio der VSL-Geräte wurde IMMER durch den USB-Stack des Rechners geroutet, softwareseitig durch die Mixer-Software mit Effekten angereichert und dann in die Hardware zurückgeschickt. Das erklärt auch, warum in den VSL-Geräten nie etwas zu hören ist, wenn sie nicht gleichzeitig an einem Rechner hängen – es gibt schlicht kein direktes, in Hardware gegossenes Monitoring im Gerät selbst.

Um nun diesen aufwändigen Weg durch den Rechner ohne allzu große Latenz gehen zu können, wurden etliche Tricks angewandt und Spezifikationen ausgereizt. Apple hat wiederum im Audio- und USB-Bereich – vor allem beim Wechsel von USB 2 nach 3 – sehr viel und wohl nicht immer glücklich an den Spezifikationen gedreht. Presonus – bzw. deren Programmier-Auftragsschmiede – kam da nur extrem schleppend hinterher (etlichen anderen Audio-Buden erging es jedoch ähnlich).

Die Situation ist also offiziell die: keine Effekte mehr, vermutlich kein Monitoring. Für nicht wenige PodcasterInnen eine mittlere Katastrophe.

@gglnx und @rstockm gehen in Klausur

@gglnx und ich wollten das so nicht hinnehmen. Mit viel Liebe hatten wir uns fesche Audio-Racks gebaut, bestehend aus 1818VSL und 8-Kanal Kopfhörerverstärker. Zumindest wollten wir sicher gehen, dass es wirklich keinen Ausweg gibt außer das Update auf El Capitan auszusetzen.

Praktisch im Rack mit einem 8-fach Kopfhörerverstärker

Praktisch im Rack mit einem 8-fach Kopfhörerverstärker

Unser grundsätzlicher Ansatz: Solange das Interface sauber gebaut ist, könnte es möglich sein zumindest die Monitoring-Funktionen über das Betriebssystem zu realisieren – oder noch besser über die DAW Aufnahmesoftware (Ultraschall/Reaper).

Im Ergebnis wäre so die Presonus-Software komplett überflüssig, man könnte dieselben Features direkt in Reaper/Ultraschall abbilden. Die Grundlegenden Mechanismen des Audio-Routings und Monitorings habe ich hier schon einmal erläutert.

Entscheidend für die Alltagstauglichkeit einer solchen Lösung ist dabei die Latenz, also die Verzögerung, mit der das Audiosignal die Wegstrecke vom eigenen Mund über das Mikrofon, A-D Wandler, USB-Stack, DAW-Software, USB-Stack, D-A Wandler und zurück zum Kopfhörer zurücklegt. Gemessen wird die Latenz in Millisekunden (ms) – je kleiner, desto weniger Latenz und desto besser.

Wie misst man diese Latenz von Mikro zu Kopfhörer? Dazu habe ich eine eigene Ultraschall-Folge aufgenommen: Das verwendete Tool „Acoustic Ruler Pro“ hat – egal ob auf iPhone oder iPad eingesetzt – absolut nichts an seiner Nützlichkeit eingebüßt und wird nach wie vor jedem empfohlen, der mal Grund in sein Setup bringen möchte. Es gibt schlicht keinen einfacheren, zuverlässigeren und günstigeren Weg, um wirklich zu messen was im eigenen Headset vor sich geht.

CQp9sm_WoAAkWeH.jpg-large

Auf Kopfhörer ganz zu verzichten ist für versierte PodcasterInnen keine Option, denn:

  • Immersion: man fühlt und spricht anders mit der eigenen Stimme im Kopf
  • Skype und Mumble: wenn auch nur ein Gesprächspartner nicht im selben Raum sitzt, ist ein Kopfhörer unumgänglich
  • Einspieler: Intro, Jingles, andere Soundquellen – all das will man live hören und nicht erst im Schnitt hinzuarbeiten.

Grundlagen: Was Latenz mit Körper-, Direkt- und Reflektionsschall zu tun hat

Kritisch ist nur die Latenz der eigenen Stimme. Hält man sich die Ohren fest zu oder versiegelt sie komplett und spricht, hört man sich immer noch selber. Der Schall der eigenen Stimme wird vom Knochengerüst des Körpers ins Ohr geleitet. Zwar dumpf und nicht allzu laut, aber dennoch gut genug. Dieses Phänomen ist als „Körperschall“ bekannt und der Grund dafür, dass wir unsere eigene Stimme auf Aufnahmen nicht ausstehen können – sie klingt immer eindimensional und ohne Bass. Dies sind genau die Anteile im Frequenzspektrum und die Laufzeitverschiebungen, die der Körperschall unserer eigenen Stimme hinzufügt. In diesem Fraunhofer-Beitrag ist das schön zusammengefasst: es gibt nur exakt einen Menschen, der unsere Stimme scheinbar „normal“ hört. Und das sind wir selbst.

Aus diesem Grund setze ich, gerade für Podcast-EinsteigerInnen – gerne EQ-Filter schon bei der Aufnahme im Monitoring ein: dreht man den Bass einfach etwas hoch um 110KHz, so hört sich die Stimme für die SprecherIn viel „normaler“ an, nicht so fremd.

Warum ist nun Latenz bei der eigenen Stimme so ein großes Problem? Der Körperschall kommt praktisch unmittelbar in unserem Ohr an – er muss sich nicht durch Luft arbeiten und reflektieren, sondern geht direkt durch Knochen und Zähne. Alles was wir sprechen, kommt also mit 0ms Verzögerung im eigenen Ohr an. Unser Gehirn ist es gewohnt, eine weitere Quelle mit einzurechnen: den reflektierten Schall unserer Stimme wie er von Wänden, Möbeln etc. an unser Ohr zurück kommt. Dieser Klang der eigenen Stimme überlagert sich zwar mit dem Körperschall und kommt – je nach Raum – einige Millisekunden verzögert an. Aber das ist das Gehirn ein Leben lang gewohnt. Bedingt durch die Schallgeschwindigkeit von 343 Metern pro Sekunde ergibt sich eine gerundete Latenz von ca. 3ms pro Meter. Sitzt man 3 Meter von einer reflektierenden Wand entfernt, ergibt das hin und zurück 6 Meter, also 6×3 = 18ms Latenz. Ziemlich viel. Im Audio-Bereich für Sprache eigentlich komplett inakzeptabel, warum ergibt das im Alltag dennoch kein Problem? Das liegt an der neben Körperschall und Reflektionsschall bisher unterschlagenen, dritten Klangquelle unserer Stimme: dem Direktschall von Mund zu Ohr. Der ist zwar minimal langsamer als der Körperschall, die wenigen Zentimeter Entfernung werden aber dennoch in weniger als 1ms zurückgelegt. Dieser Direktschall ist auch dafür verantwortlich, dass wir beim Sprechen im Freien etwas von unserer Stimme hören, außer dem Körperschall – denn Reflektionen fehlen ja etwa auf einer grünen Wiese (wir bleiben mal bei einem einfachen Modell ohne Wind).

Dieser Direktschall von Mund zu Ohr ist relativ laut. Ich habe leider keine wissenschaftlichen Quellen dazu gefunden, würde aber vermuten, dass sich die Komponenten unserer Stimme, in einem normalen Raum gesprochen, in etwa so zusammensetzen: 30% Körperschall, 50% Direktschall, 20% Echo/Reflektionsschall (wenn jemand eine Messung hat: gern her damit).

Was passiert nun in einer Podcast-Situation? Man hat ein Mikrofon direkt vor dem Mund, dazu mehr oder weniger gut abschirmende Kopfhörer auf. Der Körperschall bleibt immer gleich laut. Durch den Kopfhörer werden jedoch die anderen beiden Anteile stark gedämpft – je nach Kopfhörer unterschiedlich stark. Dafür wird jedoch der Monitor-Klang des Soundinterfaces eingespielt, quasi als Ersatz für Direktschall und Reflektionsschall. Wird nun der latenzfreie, sonst dominante Direktschall ersetzt durch latenzbehafteten Monitoring-Schall, gerät unser Gehirn ins Trudeln, die Laufzeiten sind nicht die erwarteten.

Die Toleranz für Latenz ist bei jedem Menschen unterschiedlich. Alles unter 4ms ist unkritisch. Der Bereich von 4ms bis 6ms wird mal mehr, mal weniger als etwas irritierend empfunden. Von 6ms bis 10ms hören alle Menschen den Effekt, manche können ihn noch so eben tolerieren. Ab 10ms ist das vorbei: die Latenz ist so groß, dass man beginnt langsamer zu sprechen um die Laufzeiten auszugleichen, ein entspanntes Sprechen ist nicht mehr möglich.

Zurück zu unserem Presonus-Problem. Ausgestattet mit Acoustic Ruler, einem Zoom H6 als Referenzinterface, meinem Presonus VSL 1818, Beyerdynamics Headsets, einem Early 2015 MacBook Pro, OSX 10.11 El Capitan, Ultraschall und 5 Stunden Zeit haben @gglnx und ich alles durchgemessen was uns sinnvoll erschien.

Erster Test: Das Zoom H6 als Referenz

Ein Monitoring im Hardware-Soundinterface kommt – ordentliche A/D-D/A Wandler vorausgesetzt – praktisch immer latenzfrei daher. Eine Überraschung erlebt man hier beim Zoom H6: die Grundlatenz des Monitorings liegt schon bei 3,9ms ohne jegliche aktivierte Effekte. Für die Praxis absolut brauchbar,  aber doch erstaunlich hoch. Nimmt man Effekte wie Limiter oder Kompressor hinzu, steigt die Latenz auf grenzwertige 5,2ms. Da sich aber bisher noch niemand lautstark über diese Latenz beschwert hat, bestätigt sich obige Regel: alles unterhalb von 6ms ist in Ordnung.

Zweiter Test: Presonus ohne Effekte

Der wichtigste Test kam zuerst: welche Latenz wird erzielt, wenn man über die Routing-Matrix von Reaper/Ultraschall das eigene Mikrofonsignal unbearbeitet wieder an das VSL1818 zurückschickt? Wäre dieser Wer zu hoch (> 6ms) stünde ein Verkauf des Gerätes an – man würde schlicht die eigene Stimme nicht hören können.

Die gute Nachricht: die erzielte Latenz lag mit 4,4ms im grünen Bereich – nur knapp über dem H6 ohne Effekte. Dies ist insofern beachtlich, als dass in dem oben verlinkten Grundlagenartikel von Presonus als maximal erzielbare Latenz 5ms angegeben wurde. Wir sind also mit dem neuen Setup sogar schneller als wir es mit dem alten jemals waren.

Einen deutlichen Einfluss hat hierbei die in Reaper/Ultraschall einstellbare Block-Size für den Audio-Buffer. Generell gilt: je kleiner, desto niedriger kann man die Latenz drücken, unterhalb von 16 ergibt sich jedoch keine Verbesserung mehr. Unsere Messwerte:

  • Buffer bei 512: nicht mehr messbar hoch
  • Buffer bei 128: 9,1ms
  • Buffer bei 64: 6,5ms
  • Buffer bei 32: 5,1ms
  • Buffer bei 16: 4,4ms
  • Buffer bei 8: 4,4ms
  • Buffer bei 4: 4,4ms

Generell gibt es hier einen Trade-Off zwischen Stabilität und Performance. Buffer unter 16 sind für Aussetzer und Knackser definitiv anfällig. Je älter der Rechner, desto höher muss man den Buffer setzen. Wir liefern Ultraschall mit einem sehr konservativen Wert von 512 aus. Bisher wurde ja die eigene Stimme nicht durch Reaper für das Monitoring geführt, und bei allen anderen Stimmen ist die Latenz schlicht egal dank fehlendem Körperschall.

Will man diesen neuen Monitoring-Weg beschreiten, sollte man daher sorgfältig probieren, wo die Performance des eigenen Rechners liegt und wann Störungen hinzukommen.

Dritter Test – Effekte

Generell ermutigt haben wir als nächstes getestet, welchen Einfluss Effekte in Reaper/Ultraschall auf die Latenz haben. Das VSL1818 hatte – wie oben erwähnt – Effekte, und auf diese möchte man eigentlich nicht verzichten.

Der erste Versuch war wenig ermutigend: der von uns geliebte „Dynamic Processor“ Effekt – Limiter, Kompressor und Expander kombinierend – ließ die Latenz auf nicht akzeptable 15ms hochschnellen.

Sehr viel besser sah es aber bei den mit Reaper mitgelieferten, von Cockos handgeschmiedeten Rea* Effekten aus. EQ, Limiter, Noisegate und Kompressor bringen keine nennenswerte zusätzliche Latenz in die Kette. Selbst wenn alle gleichzeitig aktiviert sind, werden 5,1 ms nicht überschritten. Das ist knapp besser als das H6. Und im Ergebnis schlicht der Durchbruch: alle im VSL bisher angebotenen Effekte können im neuen Setup ebenfalls genutzt werden, ohne dass die Latenz steigt. Dazu kann man sie wesentlich flexibler parametrisieren als das in der doch eher kargen VSL-Mixersoftware je der Fall war.

Selbst wenn es die Mixersoftware für El Capitan gäbe, würden wir diese neue, rein Reaper-interne Behandlung empfehlen – je weniger Komponenten in der Kette, desto besser.

Möglicherweise ist dieses Verfahren auch für andere Soundinterfaces geeignet: hier wären wir sehr an Vergleichsmessungen interessiert. Auch ist noch unklar, welchen Einfluss die CoreAudio Überarbeitungen von El Capitan auf die Latenz haben, und welche Werte unter Yosemite erzielt würden.

Vierter Test – Aggregate Device und Skype N-1

Eine Teststrecke war noch wichtig: wie verhält sich das Setup, wenn zusätzliche Komplexität in Form eines Aggregate Device und Skype N-1 Schaltung hinzukommt? Erste, wenig überraschende Erkenntnis: die Tage von Soundflower unter El Capitan sind beendet. Unser letzter, angepasster USH-Treiber – im Kern immer noch auf Soundflower basierend – läuft zwar, allerdings immer mit extremem Knacksen und Störungen. Auch bei hoch eingestelltem Buffer von 128.

Abhilfe bringt hier der von Daniel gerade neu entwickelte Ultraschall Hub Treiber: El Capitan only, und direkt entlang der neuen Core-Audio-API entwickelt. Skype wurde nutzbar, wenn auch zu einem Preis. Bei einem Buffer von 16 stieg die Latenz von 4,4ms auf 5,2ms und es kam relativ regelmäßig zu Knacksern. Bei 32 verschwanden diese fast vollständig, die Latenz lag ebenfalls um 0,7ms höher: 5,8 statt 5,1. Keinerlei Störungen gab es mehr bei einem Buffer von 64: die 7,2ms Latenz haben uns dann jedoch schon ziemlich gestört.

Generell ist hier noch Grundlagenforschung notwendig, auch die Arbeiten am Hub sind noch nicht abgeschlossen. Wir sind aber zuversichtlich, hier mit unserer Ultraschall 2.0 Release zum #ppw15b Klarheit zu haben.

Fazit

Im Ergebnis ist der eingestellte Presonus-Support für die VSL-Geräte wohl nicht die gefürchtete Katastrophe. Der Device „Scheitern als Chance“ folgend haben wir – zumindest auf aktuellen Macs – gute Chancen, mit größerer Kontrolle ein besseres Setup zu fahren als bisher – solange man keine Aggregate Devices benötigt. Für diese Ferngesprächs-Setups ist noch weitere Forschung notwendig – Messwerte gerne im Sendegate einbringen!

 

Seit ich die Ultraschall Screencast-Reihe vor einem Jahr gestartet habe, habe ich mich recht wenig um die Windows NutzerInnen gekümmert. hauptsächlich aus praktischen Erwägungen: ich habe keinen Windows-Rechner mehr in meinem Privatumfeld. Reaper sowie die Ultraschall-Erweiterungen laufen zwar auf Windows, Soundflower und damit zentrale Bausteine wie die Routine-Matrix jedoch nicht so ohne weiteres. Daher war ich hocherfreut, als sich Ron Bühler bereit erklärt hat, einen Erfahrungsbericht unter Windows abzugeben. Auf das, was er dann aber geliefert hat, war ich so dann doch nicht ganz vorbereitet – um es einmal im Heftig-Sprech zu formulieren. Aber lest selbst:

Erfahrungsbericht unter Windows

Ich produziere nun schon seit einigen Jahren verschiedene Podcast-Formate unter Windows. Angefangen habe ich, so wie wahrscheinlich der Großteil unter uns, mit Audacity und Skype (Wenn ich mal den Windows-Recorder vergesse, den ich im letzten Jahrhundert verwendet habe, da man mit ihm nur aufnehmen, aber nicht bearbeiten kann). Der größte Nachteil an Audacity, ich denke das sind wir uns alle einig, ist die Usability, sowie die Tatsache, dass sämtliche Effekte und Bearbeitungen destruktiv sind. Aber was sollten wir tun? Wir hatten ja nüscht!

In mir keimte aber über die Jahre immer wieder die Frage, ob es nicht irgendwie ginge, die Sprecher auf unterschiedlichen Spuren zu haben und somit die Nachbearbeitung zu vereinfachen. Schön wäre es außerdem, direkt in Audacity aufnehmen zu können, ohne immer mit dem Skype Recorder arbeiten zu müssen. Wenn man nur zwei Gesprächsteilnehmer hatte, ging es ja auch so ganz gut, jeweils Mono links der Teilnehmer und rechts meine Aufnahme. Das Ganze splitten und man hatte schön von jedem eine eigene Spur. Aber trotzdem nicht direkt in Audacity und bei mehr als zwei Sprechern schon wieder nicht machbar und das Schneiden eine Tortur.

Als ich mich dann irgendwann zusätzlich zum Podcasten, auch noch mit dem Thema Hörspiele beschäftigte, stieg ich relativ schnell auf die DAW Magix Samplitude 10 SE um. Diese gab es irgendwann mal kostenlos bei einer Zeitschrift mit und sämtliche Nachteile von Audacity waren hier nicht vorhanden. Mit Samplitude konnte man natürlich sehr viel schöner schneiden und mit den Soundfiles und Effekten arbeiten, aber fürs Podcasten nicht wirklich zu gebrauchen. Viel zu überladen und wirklich nur ausgelegt auf die Nachbearbeitung.

Der Workßow war für Hörspiele ja eigentlich immer der Gleiche: In die Sprecherkabine gehen, aufnehmen und die Files nachträglich im Samplitude bearbeiten. Dafür war es auch perfekt. Also wurde auch beim Podcasten weiterhin feißig Skype genutzt und das mit dem Skype-Recorder aufgenommene nachträglich im Samplitude bearbeitet. Zu diesem Zeitpunkt war die Aufnahmequalität für mich noch nicht so von Belang, denn es gab weder Opus, noch Auphonic, noch war jemand meiner Gäste bereit mehr als sein Gaming-Headset an den PC anzuschließen. Also nutzte ich mein teures Mikrofon auch nur für Hörspielaufnahmen und setzte mir zum podcasten auch nur eins der günstigeren Logitech Headsets auf. Dafür reichte dann die Qualität von Skype auch völlig und es war am einfachsten zu benutzen. Das bisschen Nachbearbeitung mit Effekten konnte man ja, dank Samplitude, nicht-destruktiv durchführen, was für Pre-Auphonic Zeiten echt wichtig war und einem ständiges probieren und Rückgängig-klicken sparte.

Ich hatte mir damals für meine Sprecherrollen in Hörspielen neben einem gute Mikrofon, ein Focusrite Scarlett 2i2 zugelegt, ein Audiointerface mit tollem Klang und zwei Eingängen (für Hörspielaufnahmen allein sind 2 Eingänge völlig ausreichend). Doch dann kam ich immer wieder an den Punkt, dass ich gerne mit zwei Leuten direkt über das Audiointerface aufnehmen und zusätzlich auch noch weitere Gäste per Skype/TS/Mumble dabei haben wollte. Aber wie stelle ich das Ganze an ohne mehrere hundert Euro zusätzlich für ein Mischpult auszugeben und auch wenn ich eins habe, wie mache ich das dann unter Windows mit Skype?

Da mir nicht wirklich eine Lösung einfiel und mittlerweile Mumble den Opus-Codec benutzte, baute ich mir damit ein Setup zusammen. Aufgenommen wurde in Mumble (da hier Mehrspuraufnahmen möglich waren), wobei mein Gesprächspartner vor Ort sich mit mir eine Spur teilte, die anderen Teilnehmer per Mumble zugeschaltet sein könnten. Damit hätte ich schonmal fast alle schön getrennt auf mehreren Spuren. Aber was ist, wenn nicht alle Mumble haben, sondern Skype oder TS oder im Worst-Case nur Telefon?

Auf der Suche nach Möglichkeiten, stieß ich dann auf die Ultraschall-Screencasts von Ralf Stockmann. Nachdem ich mir die Videoreihe angesehen hatte, war Reaper sehr schnell gekauft. Ich hatte mich zwar an Samplitude gewöhnt, aber man gewöhnt sich auch genauso schnell wieder um.

Die ersten Aufnahmen zu zweit mit Reaper waren auch sehr schnell umgesetzt und klappten wunderbar. Da Ralf aber sein Setup auf einem Mac betrieb und ich unter Windows arbeitete, musste ich mir noch etwas einfallen lassen um mehr als eine Audioquelle aufnehmen zu können (Soundflower gibt es leider nur für Mac). Bei meiner Suche stieß ich auf VBAudio-Cable (http://vb-audio.pagesperso-orange.fr/Cable/) welches virtuelle Kabel zur Verfügung stellte um zwei Applikationen miteinander zu verbinden.
Als Donationware auch echt klasse, zumal ein Kabel auch als Freeware nutzbar ist, lediglich zwei bekommt man erst nach einer kleinen Spende. Damit war mein Problem dennoch nicht gelöst, da ich ja nach wie vor in Reaper nur eine Aufnahmequelle definieren kann.

Also beschränkte ich mich wieder auf mein Mumble-Setup und erweiterte es, in dem ich auf einem zweiten Rechner mit VBAudio-Cable eine Skype->Mumble Brücke baute. Diese Brücke konnte ich dann auch schnell umstellen zu einer Telefon-Mumble-Brücke, damit ich auch jemanden verknüpfen konnte, der nur Telefon hatte.

Aber dennoch wollt ich gerne am PC mehrere Aufnahmequellen direkt in Reaper haben. ASIO4ALL (http://www.asio4all.com) versprach da Abhilfe. Erste Tests verliefen problemlos und so wagte ich mich an die erste Podcast Aufnahme mit dem neuen Setup.

Scarlett 2i2 mit zwei Mikrofonen auf der einen Seite und Teamspeak mit 3 Gästen auf der anderen Seite. Eine wahre Katastrophe… Nach ca. 30 Minuten fing es an, dass alle 15 Minuten ca. 5 Minuten lang nur noch ein verzerrtes, verrauschtes Kauderwelsch im Reaper ankam und ich nur noch erahnen konnte, was meine Gäste sagten. Mehrere Tests mit ASIO4ALL ergaben immer wieder das Gleiche: Eine Zeit lang geht’s gut und dann kommt nur Mist, dann geht’s wieder und dann kommt wieder nur Mist an. Also suchte ich weiter, denn ich wollte unbedingt Reaper mit seinen ganzen Ultraschall-Vorzügen nutzen.

Wenn ich alleine aufnahm, half ich mir damit, dass ich den zweiten Kanal vom Scarlett 2i2 nutzte um über einen zweiten Rechner Skype/TS/Mumble per Klinken-Kabel einzuschleusen. War natürlich ziemlich aufwendig immer einen zweiten Rechner am Start zu haben, also stieg ich dann aufs iPhone um und habe es mit einem Adapterkabel angeschlossen um Mikrofon/Lautsprecher vom iPhone trennen zu können. Darauf lief ja problemlos Skype/TS/Mumble, aber auch das konnte ja keine dauerhafte Lösung sein.

Es muss doch möglich sein, das Ultraschall-Setup, wie es so praktisch einfach auf dem Mac läuft, genauso auf einem Windows-System ans Laufen zu bekommen… Also begab sich Indiana Ron wieder auf die Suche nach dem heiligen Gral…

Meine Recherchen führten mich erst einmal wieder zu VBAudio-Cable (http://vb-audio.pagesperso-orange.fr/Cable). Dort wurde auf der Webseite ASIOBridge (Donationware) vorgestellt, womit man Anwendungen direkt in das ASIO-Device schleusen konnte.
Das funktionierte auch ganz gut, aber da das Scarlett 2i2 ja nur zwei Kanäle hatte, konnte ich mir nur die Verkabelung mit dem iPhone sparen, aber leider nicht mit zwei Mikrofonen und weiteren Gästen per Skype/TS/Mumble aufnehmen. Ok, schon mal einen lästigen Teil des Setups entfernt.

Um mich abzulenken, wollte ich mich der Sache mit der Wiimote als Räuspertaste einmal widmen, die Ralf so schön in seinen Screencasts vorgeführt hatte. Hierzu las ich mich wieder etwas ein, denn den OSCulator gibt es nun mal leider auch nur für Mac.
Ein Ersatzprogramm war schnell gefunden: GlovePie sollte unter Windows die gewünschten Funktionen zur Verfügung stellen.
Wer bis hier hin gekommen ist, wird wahrscheinlich schon kopfschüttelnd vor dem Bildschirm sitzen und wissen was nun kommt.
Genau! Unter Windows ist auch das, was Ralf in seinem 12 Minuten Screencast zeigt eine mehrstündige Aufgabe.
Das fängt schon bei der Kopplung der Wiimote und Windows 8 an: Man öffnet die Bluetooth-Einstellungen. Während die Suche läuft, drückt man auf dem Controller die 1 + 2 schnell hintereinander. Sobald die Wiimote in der Liste auftaucht, klickt man sie an und anschließend auf „Koppeln“. Sobald die Passwortabfrage kommt (wtf?) einfach nur „Weiter“ klicken. Währenddessen aufpassen, dass die Wiimote nicht aufhört zu blinken, sonst muss man nochmal von vorne beginnen, also am besten die ganze Zeit 1 + 2 drücken.
Dann kommt ein Dialog, denn man einfach überspringt, im nächsten Fenster wieder die Wiimote auswählen, das Häkchen setzen und mit „FERTIG“ bestätigen. Wenn nun alles geklappt hat, (schön brav 1 + 2 gedrückt?) dann sollte die Wiimote nun funktionieren. Bei mir hat dies sogar auf Anhieb geklappt! Nun Glovepie starten und testen ob die Wiimote erkannt wird. Wenn nicht, dann alles nochmal von Anfang, ansonsten kann man nun damit anfangen ein Script zu schreiben, bei welcher Taste, welche Aktion ausgeführt werden. Es gibt hier keine Auswahlliste, sondern man hat einen kleinen Texteditor, in dem man sein Script schreiben kann.
Wie die Befehle für das Script lauten, kann man sich im Internet zusammensuchen.

Nach mehreren Stunden Recherche und Ausprobieren, hatte ich nun endlich die Räuspertaste am Laufen und mit einem freudigen Lächeln, fuhr ich den PC herunter. Leider hatte mich kein Tutorial darauf hingewiesen, dass die Kopplung nur bis zum nächsten Reboot wirkt. Eine permanente Kopplung erreicht man nicht mit den Tasten 1 + 2, sondern nur durch die „Sync“-Taste. Nachdem ich also am nächsten Tag eine Podcast-Folge aufnehmen wollte, aber meine Wiimote nicht funktionierte, versuchte ich es also nochmal mit der Kopplung. Leider konnte ich so oft die „Sync“-Taste drücken wie ich wollte, in den Bluetooth-Einstellungen tauchte die Wiimote nicht auf. Als langsam die Zeit knapp wurde, gab ich es auf und koppelte wieder durch die Tasten 1 + 2. Die Podcastaufnahme lief auch an sich ganz gut, die Räuspertaste tat ihren Dienst. Nachdem ich sie aber eine Zeit lang nicht brauchte verlor der PC wieder die Kopplung mit der Wiimote und so gab sie mitten in der Aufnahme ihren Geist auf. Es war mir an dieser Stelle dann aber auch echt egal, ein weiteres Mal wurde die Wiimote nicht mehr gekoppelt.

Nach einiger Zeit, in der ich mich mit dem derzeitigen Setup abgefunden hatte, kribbelte es mir wieder in den Fingern und ich wollte doch nochmal das Skype-Thema angehen. Und so führte mich meine Suche schon wieder zu VBAudio-Cable (Mensch der Junge ist produktiv) und seinem Voicemeter (http://vb-audio.pagesperso-orange.fr/Voicemeeter/index.htm), der verspricht zwei Mikrofone, sowie Skype zusammen nutzbar zu machen. GENAU DAS was ich die ganze Zeit suche! Nein, leider doch nicht, denn es funktioniert zwar prima mit den zwei Mikrofonen und Skype, allerdings fällt hinten nur ein Stereomix raus (dazu noch kein Mix-Minus möglich).
[Anm.: Während ich diesen Text schreibe und Links zusammentrage, sehe ich, dass es mittlerweile wohl eine Version gibt, die mehrere Channels über ASIO unterstützt. Somit wäre dies vielleicht wieder ein Ansatzpunkt!]

Zwischenzeitlich habe ich mit dem Gedanken gespielt, mir ein Focusrite Saffire Pro 24 DSP zu holen, da es zwei interne Loopback Devices besitzt, worüber ich Skype/TS/Mumble einbinden könnte. Aber wieso muss ich 299 € ausgeben, um unter Windows etwas zu erreichen, was ich unter Mac mit Soundflower kostenlos haben kann? Das kann doch nicht sein, oder?

Nachdem ich das Internet komplett durchgelesen hatte (ja, so fühlte es sich an) blieb mir nur noch eine Hoffnung: Obi Jack Kenobi (http://jackaudio.org), denn ähnlich wie ASIO4ALL, sollte hier die Möglichkeit bestehen mehrere Audioquellen miteinander zu vereinen. Also gut, wo ist die 64bit Version? Ach, es gibt nicht wirklich eine, aber eine 32/64bit Version, in der der Jack Server auf 64bit laufen soll. Installiert, gestartet, gefrustet… Unter Windows 8.1 funktioniert das natürlich nicht out-of-the-box reibungslos, also Rechte geprüft, geändert und schon geht’s. Jack Server Commandline gestartet, Jack Connector gestartet um die Soundkarten zu verwalten und siehe da? Nur meine Systemsoundkarte wird angezeigt? Wo sind die ganzen VBAudioCables? Wo ist mein Audio Interface? Wo kann ich weitere Soundkarten anlegen? Kurz auf der Jack-Homepage nach einer Anleitung gesucht und gefunden… für OS X und Linux. Na Klasse. Das war nun der Punkt, an dem ich aufgegeben habe. Ich stand am Ende meiner Reise und musste feststellen: Unter Windows kann man einfach nicht gescheit Podcasts produzieren. Alles das, was Ralf mit seinem Ultraschall-Projekt so wunderschön einfach für alle aufbereitet, funktioniert unter Windows nur zur Hälfte.

Was habe ich getan? Nein, ich habe das Podcasten nicht aufgegeben, sondern mir den 27″ iMac im Büro geschnappt und das Ultraschall-Setup dort installiert. 15 Minuten später war alles eingerichtet und funktioniert wunderbar, mit allem was ich mir die letzten Jahre gewünscht und verbissen versucht habe, aber unter Windows nicht erreicht konnte. Nun kann ich im schicken Ultraschall-Reaper mein Audiointerface nutzen und zusätzlich Skype, Mumble, Teamspeak und wenn ich wollte auch noch eine weitere Quelle ansteuern, Einspieler laufen lassen und das Ganze auch noch direkt live streamen. Alles aus einer Software und GLEICHZEITIG! Die Kombination von Ultraschall-Reaper und Ultraschall-Soundflower ist einfach unschlagbar, wenn man auf Kabelsalat und Mischpult verzichten möchte.

Und weil ich gerade einen Lauf hatte, habe ich in weniger als 5 Minuten dank OSCulator auch die Wiimote als Räuspertaste in Betrieb genommen. Im OSCulator auf „Suche starten“ klicken, auf der Wiimote einmal kurz auf den „Sync“-Button und fertig. Verbindung hergestellt. Zwei Klicks, nur zwei Klicks! Jetzt noch in der Dropdown-Liste auswählen, welche Taste welches Signal übermitteln soll. Ganz einfach! Und hey, auch nach einem Reboot ist die Wiimote wieder da.

Ich hoffe mit meinem Erfahrungsbericht kann ich den ganzen Windows-Usern Mut machen, die sich gerade mit dem Thema beschäftigen wollen. Seid tapfer, seid mutig und probiert es einfach aus. Aber falls ihr euch viel Zeit und therapeutische Sitzungen sparen wollt, dann vergesst es. Kauft euch einfach einen Mac und euer Herz wird erfüllt sein von nie versiegender Freude!

Ron Bühler (ronair.fm, Twitter: @ronairfm, ADN: @ronairfm@ronbuehler)

Ich weiß nicht, wie es Euch geht, geneigte LeserInnen: aber nicht hat dieser Erfahrungsbericht ziemlich deprimiert. Sein Drang, ständig andere Varianten auszuprobieren, zu recherchieren und zu basteln ist  ja genau das, was mich bei Ultraschall auch angetrieben hat. Mit dem dezenten Unterschied, dass es bei mir immer nur besser wurde – immer mehr Möglichkeiten ergeben sich, Dinge funktionieren immer einfacher und besser, jede Stunde Beschäftigung mit dem Thema manifestiert sich in Ultraschall-Features.

Bei Ron läuft es genau anders herum, und das geht mir schon etwas zu Herzen. Um so wichtiger, dass dieses Martyrium nicht umsonst gewesen ist: ich würde mich sehr, sehr freuen wenn seine losen Enden (Voicemeter, Jack) noch mal aufgegriffen würden und sich hier vielleicht doch noch Möglichkeiten ergeben.  Diese dann gern hier in die Kommentare, oder unseren ADN-Patter Chat – Updates können wir dann auch gern hier im Blog veröffentlichen.

Ich nehme es Ron aber bestimmt nicht übel wenn er den Stab jetzt anderen überreicht und einfach mal – Spaß hat beim Podcast-Produzieren.