Ich verstehe leider von Informatik überhaupt nichts
Da ich mit diesen komischen Nullen und Einsen meine Brötchen verdiene, kann ich an der Stelle vielleicht ein bisschen zum grundsätzlichen Verständnis beitragen.
Hinter dem analogen Anschluss und dem Vorverstärker kommt dann früher oder später ein Analog-Digital-Wandler, kurz A/D-Wandler. Der wirft in regelmäßigen Abständen einen Blick auf das grade anliegende Signal und speichert quasi eine Art Schnappschuss zu einem bestimmten Zeitpunkt. Das Signal kennen wir ja als Wellenform, sprich es wird die "Höhe" der Welle an einem bestimmten Punkt festgehalten.
Hierbei sind zwei Begriffe interessant: Die
Wortbreite und die
Abtastrate.
Die Wortbreite gibt das Raster vor, in welches die Wellenform unterteilt werden kann - also wie grob oder fein das "Bild" wird. Stellt euch vor, es gäbe eine Unterteilung in 3 Raster. Man könnte damit nur den maximalen Wert einer Welle darstellen, den Nullwert und den maximal negativen Wert. So betrachtet wird klar: Es gehen Informationen verloren. Aber viel hilft viel, und wenn man sich ganz viele Raster baut, ist die Darstellung natürlich deutlich besser.
Die kleinste digitale Speichereinheit ist das Bit. Standard sind heute 24 Bit Wortbreite, sprich wir haben einen Speicherort mit 2
24 = 16.777.216 Rastern. Das wird zum momentanen Stand der Technik als hinreichend genau erachtet. Wir haben aber trotzdem noch Sprünge zwischen den Werten! Zwar viiieeel kleiner als mit nur 3, aber Sprung ist Sprung. Im Gegensatz zum analogen Signal, dessen "Höhe" der Welle quasi "flüssig" verläuft - das Fachwort ist
wertkontinuierlich - ist das digitale Signal
wertdiskret.
Im englischen heißt das Ding übrigens Wortlänge, also word length, wobei word witdth auch verstanden wird.
Wer das so weit verstanden hat darf sich mal darüber Gedanken machen, wie sich die Wortbreite - also die Feinheit des Rasters - auf den Signal-Rausch-Abstand auswirkt. Und warum eine größere Wortbreite eine größere Dynamik bedeutet. Dann wird auch klar dass es zur Verbesserung des Rauschverhaltens des A/D-Wandlers bei einem gut ausgesteuerten Signal durchaus Sinn macht, die Raster nichtlinear zu setzen - soll heißen, nicht überall hat ein Rasterfeld die gleiche Größe.
Die Abtastrate gibt an, wie oft der A/D-Wandler den Wert des Audiosignals speichert. Dieses Bildchen vom aktuellen Wert heißt auf englisch sample, entsprechend geht es um die sample rate, oder eingedeutscht Samplerate bzw. Samplingrate. Oder einfach Auflösung. Gemessen wird natürlich mehrmals pro Sekunde, also sprechen wir von Hertz und von einer Frequenz. (Deshalb ist auch der Begriff Abtastfrequenz / sampling frequency gängig.) Auch bei der Abtastrate kommt man von einem kontinuierlichen zu einem diskreten Signal, hier allerdings von
zeitkontinuierlich zu
zeitdiskret.
Frequenz kennen wir als Tonhöhe... ob es da einen Zusammenhang gibt?
Schau'n wir mal... Wenn wir einen Sinus mit z.B. 18 kHz haben, sollten wir den natürlich auch "mindestens so oft +1" abtasten damit feststellbar ist, dass die Schwingung 18.000 mal pro Sekunde stattfindet. Das menschliche Ohr kann in jungen Jahren bis an die 20 kHz, vielleicht sogar 21 kHz herankommen. Mit "etwas öfter" abtasten wäre also 22,5 kHz ein ganz guter Wert. Reicht das?
Machen wir einen kleinen Ausflug in die visuelle Wahrnehmung. Warum scheinen sich im Film Räder oder Rotoren manchmal in die falsche Richtung zu drehen? Schon mal was vom Alias-Effekt gehört? Falls nicht, ist der hier gut erklärt:
http://www.michaelbach.de/ot/mot_wagonWheel/index-de.html
Ob das auch bei den Tönen zutrifft?
Schau'n wir mal... Was passiert, wenn ein hochfrequentes Signal nicht oft genug abgetastet wird? Man könnte es anhand der gespeicherten Samples falsch auslegen als langsamere Schwingung --> tiefere Frequenz. Also ja, es gibt auch akustisches Aliasing, deshalb wird das Signal doppelt so oft abgetastet. 21,5 kHz mal 2 macht 44,1 kHz. Kommt bekannt vor? Sicher... das hat man zu dem Zeitpunkt, an dem die Audio-CD "erfunden" wurde, als ausreichend erachtet. Die damalige Technik gab allerdings nur 16 Bit Wortbreite her, also sind 44,1 kHz und 16 Bit die Spezifikation für Audio-CDs.
Übrigens, um regelmäßig ein Sample aufnehmen zu können, braucht die Technik irgendwo natürlich einen Taktgeber. Den kann man sich so vorstellen wie Baba (der Dunkelhäutige von den Piraten) aus Asterix und Obelix, der die Trommel schlägt und den Rudertakt vorgibt. Wenn der Taktgeber ungenau ist, kommt es zu Abweichungen und der Samplewert wird nicht an der Stelle genommen, wo es technisch erwartet wird. Diese Ungenauigkeit nennt man
Jitter. Technisch bzw. mathematisch / stochastisch gesehen ist Jitter nichts anderes als die Varianz der Samples.
Hörtests haben gezeigt, dass Jitter, also winzige Ungenauigkeiten im Wordclock-Takt, die Audioqualität bereits hörbar negativ beeinflusst, bevor es zu Klickgeräuschen oder gar Aussetzern kommt. Daher schwören manche Toningenieure auf besonders hochwertige (und teuere) Wordclock-Generatoren, die besonders präzise Clocksignale erzeugen, z. B. einen Rubidium-Oszillator.
http://de.wikipedia.org/wiki/Wordclock
Der Taktgeber ist also schon in einem einzigen digitalen Gerät eine sehr qualitätskritische Komponente. Richtig interessant wird's, wenn man mehrere digitale Geräte zusammenschaltet! Wer ist jetzt der Chef (Master) der den Takt vorgibt und wer der Untergebene (Slave) der sich an diesen Takt hält? Wie ist das zwischen zwei Geräten, wie zwischen vielen? Kann man das Signal des Taktgebers durchschleifen, macht das Sinn? Tonstudios die es sich leisten können oder wollen verwenden sackteure Geräte, die nur als Taktgeber dienen und an denen die Slaves sternförmig mit möglichst ähnlicher Kabellänge (--> Laufzeit!) hängen. Als physikalischer Leiter dafür haben sich Coax-Kabel mit BNC-Anschlüssen durchgesetzt; an den Geräten sind die BNC-Gegenstücke mit "Wordclock" beschriftet.
Aber da wollen wir mal nicht zu sehr ins Detail gehen... ebenso wenig bei der Frage, warum manche mit 48, 88,2 96 oder gar 196 kHz aufnehmen!
Am Ende des A/D-Wandlers steht also ein zeit- und wertdiskretes
PCM-Signal.
Nun noch zu ein paar praktischen Auswirkungen der ganzen Geschichte.
- Warum clippt mein Digitalpult schon bei hart 0 dB Aussteuerung? Am Analogtisch fahre ich doch auch auf 0 dB und habe dann noch je nach Pult mehr oder weniger Overhead?!
Wenn die Wortbreite voll ausgeschöpft ist, spricht man von 0 dB FS. Der
Wiki-Artikel dazu sollte etwas Aufschluss geben; dort gibt's auch eine Grafik. (Man beachte die allererste Feststellung in dem Artikel und dann die Überschrift
) In kurzen Worten: Mehr als 0 geht nicht, da ist Schluss. Und jetzt stell dir vor, zwei aufeinanderfolgende Samples haben beide den Maximalwert der Wortbreite gespeichert, oder bei einem feinen Raster irgendwas nahe am Maximalwert. Da hier nur zeitdiskrete Werte abgelegt sind kann es also sein, dass diese Werte kurz vor und kurz nach der Amplitude des Signals genommen wurden. Obwohl die 0 dB FS noch nicht mal erreicht sind, kann es sein dass die Amplitude höher war als der A/D-Wandler verarbeiten kann - und schon haben wir Clipping. (Genaueres dazu noch beim nächsten Punkt.)
Das ist jetzt einfach eine Frage der Interpretation der Werte und der entsprechenden Anzeige. Ein Digipult-Hersteller kann sich dazu entschließen, seine Anzeige entsprechend zu skalieren so dass er auch positive dB-Werte auf der Skala hat. Intern macht es keinen Unterschied, aber der Faderschubser vor der Kiste kann pegeln wie er es vom Analogpult gewohnt ist. Ich meine, mir sei schon so ein Pult übern Weg gelaufen, kann mich aber grade nicht mehr konkret daran erinnern. In letzter Zeit hab ich nur mit Digipulten gearbeitet, bei denen bei 0 dB Schluss ist.
Hier muss man natürlich noch den Crestfaktor der Mugge einbeziehen, die über das Pult läuft. Pi mal Daumen sagt man, bei Digipulten auf -12 dB aussteuern. Für dynamische Geschichten (Jazz, Klassik, talentlose Möchtegern-Stimmkünstler) darf's ruhig ein bisschen mehr Overhead sein, bei bestimmten Veranstaltungen reicht auch deutlich weniger. (
Fragt mal RaumKlang...)
- Warum clippt das Signal am Ausgang, obwohl die 0 dB noch nicht erreicht sind?
Hier müssen wir uns kurz und grob die Funktionsweise eines D/A-Wandlers anschauen. Ich muss zugeben, ich hab lange Zeit gedacht, die Samples werden einfach nacheinander rausgefeuert und das Ohr bzw. Hirn macht den Rest. Sind ja immerhin über 40.000 Samples pro Sekunde, oder?
Dem ist aber nicht so. Ein D/A-Wandler konstruiert aus aufeinanderfolgenden Samples wieder komplette "Wellensignale", d.h. am analogen Ausgang kommen auch wirklich wieder zeit- und wert
kontinuierliche Signale raus! Wie im vorigen Punkt schon erwähnt: Es ist durchaus möglich, dass ein A/D-Wandler übersteuert, obwohl die zu dieser Zeit gespeicherten Samples alle nicht "full scale" sind, nicht die volle Wortbreite nutzen. Dasselbe in umgedreht kann am D/A-Wandler passieren - dass Samples nicht full scale sind (und damit die Clip LED nicht anspringt*), das konstruierte Signal aber über den verfügbaren analogen Wertebereich hinausgeht - und schon haben wir ein clippendes Signal ohne Clip-LED.
Soweit die Theorie; inwiefern Pulthersteller das praktisch umsetzen - vor allem welche Messmethoden* sie verwenden - und ob sie da Overhead einbauen, weiß ich nicht.
Leider leider fehlen mir hier die Quellen: T.C. Electronic hat hierzu mal ausführliche Tests gemacht. Die Empfehlung war, grundsätzlich mindestens 0,3 dB Luft bis full scale zu lassen. (Schon mal in Audacity auf Effekte --> Normalisieren geklickt?) Im Extremfall konnten das aus Samples konstruierte Analogsignal sogar knapp 3 dB über der "Schwelle" liegen.
*Buchempfehlung: "Mastering Audio: The Art and the Science" von Bob Katz.
- Wenn das jetzt alles so empfindlich ist: Sollte ich dann nicht noch mehr Headroom lassen? Bei der Audioverarbeitung mit dem EQ und anderen Tools verändere ich ja die Signalstärke und beim analogen Pult kann es dadurch zu Clipping kommen. Wie ist das beim Digipult?
Die kurze Antwort: Nein.
Die etwas ausführlichere: Moderne DAWs und Digitalpulte arbeiten intern durchgehend mit Fließkommazahlen, aktuell sind 40 Bit Standard. Ich will an dieser Stelle nicht in die Tiefe gehen; der
Wiki-Artikel dazu ist ein halbwegs verständlicher Einstieg in diese Thematik. Hier kommt es de facto nicht zu Übersteuerungen. Erst wenn das Signal wieder ausgegeben wird (am D/A-Wandler oder um es wieder in PCM-Form - als wave-Datei z.B. - zu speichern), muss das Signal wieder mit etwas Qualitätsverlust auf die Darstellung in Ganzzahlen gerundet werden.
- Und wie sieht es jetzt eigentlich aus mit DMX durch Digitalpulte oder über digitale Stageboxen?
Aus dieser Frage heraus hat sich ja der ganze Beitrag entwickelt... ich muss an der Stelle sagen, dass ich keine praktische Erfahrung damit vorweisen kann; ich vermute, basierend auf den oben erklärten Techniken der digitalen Audioverarbeitung.
Das DMX-Signal ist an sich schon digital kodiert. Sprich, irgendwelche Nullen und Einsen, die nacheinander durch die Leitung flitzen. Das DMX-Protokoll gibt vor, wie groß die jeweiligen Datenpakete sind und wie sie am Anfang zu verpacken und am Ende zu interpretieren sind. Also eine Art besserer Morse-Code. Schickt man so ein Signal in einen A/D-Wandler, kommt am Ende nur gequirlte K*cke raus.
Wie gesagt, das ist nur meine Vermutung und ich lasse mich gerne eines besseren belehren. Aber bis mir das nicht einer praktisch zeigt, glaube ich nicht wirklich, dass es funktioniert. Sicher wäre es cool, DMX mit über die schon liegende Leitung zu schicken. Aber da müssten die Hersteller was spezielles implementieren. Man darf hierbei nicht vergessen, dass die Übertragung auf digitalen Cores auch wieder ein bestimmtes Protokoll verwendet, was in den meisten oder gar allen Fällen PCM-Daten in irgend einer Form verpackt sein dürften.
Eine kleine Anmerkung am Ende: Wir haben bei der Abtastrate über x pro Sekunde und bei der Wortbreite über Bit gesprochen. Nur damit keine Missverständnisse entstehen: Der Wert kbp/s hat nichts damit zu tun! Der kommt aus der Informationstechnik, nicht aus dem Audiobereich, und gibt einfach einen Datendurchsatz pro Sekunde an. Jetzt kann man natürlich überlegen, wie viele Informationen in so einen "Datenstrom" reinpassen... da kommen wir zum Thema Komprimierung von Audioformaten (hat also nichts mit dem Kompressor auf der Gesangsstimme zu tun). Man kann anfangen und statt "000000" auch "6x0" schreiben und anstatt einzelne Samples zu speichern mathematische Funktionen drüber legen, die für ein paar bestimmte Samples genau die gleichen Werte ergeben und so weiter. Das ist die verlustlose Komprimierung, wie z.B. bei
FLAC angewandt. Dann kann man psychoakustische Tricks anwenden und Informationen herausschneiden, die das Hirn sowieso nicht wahrnimmt oder die keine große Relevanz haben. Und man kann z.B. definieren, dass alles über (frei gewählt) 12 kHz sowieso kein Mensch hört und braucht, auch den Dynamikumfang könnte man etwas eingrenzen und das SNR muss ja auch nicht sooo gut sein... das sind dann die verlustbehafteten Komprimierungen.
Ich kommentiere das mal nicht weiter und verweise nur auf eine Grafik:
https://www.musiker-board.de/plauderecke-rec/386831-recording-stammtisch-35.html#post6265489
Gut, ich hoffe es war für den einen oder andern hilfreich und ich konnte etwas zum Verständnis für die Arbeit mit digitalen Audiosignalen beitragen.
MfG, livebox