Digitale Musik – Wie funktioniert das? Wandlung nach dem DSD-Verfahren

Nachdem wir uns in einem vorherigen Artikel bereits mit dem PCM-Verfahren (Pulse-Code-Modulation) beschäftigt und relativ akribisch einige fundamentale Aspekte des Digitalisierungsprozesses aufgearbeitet haben, wollen wir uns nun der viel diskutierten Alternative namens DSD (Direct Stream Digital) widmen. Wir konzentrieren uns dabei wieder vor allem auf die technische Umsetzung und die daraus entstehenden Konsequenzen für unser digitales Signal. In die Debatte über das Für und Wider des einen oder anderen Formats wollen wir uns nur bedingt einklinken. Hier muss jeder seine eigene Wahrheit finden.

Hintergrund

Zunächst ist es hilfreich einige Hintergrundinformationen zusammenzutragen. Bei „Direct Stream Digital“ handelt es sich um eine von Philips und Sony erdachte Bezeichnung, die im Rahmen der Einführung der Super Audio CD (SACD) 1999 lanciert wurde. Die SACD ist einer herkömmlichen CD hinsichtlich Soundqualität, Speicherplatz und Mehrkanalfähigkeit überlegen und wurde ursprünglich als ihr Nachfolger für den breiten Markt konzipiert. Während die Kodierung für die CD nach dem uns bereits bekannten PCM-Verfahren erfolgt, basiert das der SACD zugrunde liegende Speicherprinzip auf der sogenannten „Delta-Sigma-Modulation“. Die entsprechende Abkürzung konnte sich im Gegensatz zu PCM niemals wirklich durchsetzen, stattdessen ist in der Regel einfach von DSD die Rede und wir wollen es hier genauso handhaben, obwohl wir uns das Speicherverfahren auf Basis der „Delta-Sigma-Modulation“ natürlich genauer anschauen werden. Letztendlich besetzten DSD und die SACD nur eine kleine Nische des HiFi- und Tonträgermarktes. Trotzdem steht die Technologie im Raum und wird immer wieder als alternatives Speicherformat zu PCM in Betracht gezogen. So wundert es nicht, dass der aktuelle Trend zu hochauflösenden Musikdateien für den Endkunden auch die Verfechter der DSD-Kodierung wieder auf den Plan ruft.

Abtastung und Speicherung

Obwohl es sich also bei PCM und DSD um unterschiedliche Verfahren und Formate zur digitalen Speicherung von Musikinformationen handelt, gibt es doch einen – oder besser zwei – gemeinsame Nenner. Darauf soll unsere Betrachtung aufbauen, denn wir können gleichzeitig das PCM-Verfahren in aller Kürze rekapitulieren und durch den direkten Vergleich DSD besser verstehen. Nach wie vor ist es unser Ziel ein analoges Signal, das in Frequenzspektrum und Amplitude über die Zeit variiert, zu analysieren und einen digitalen Repräsentanten zu speichern. Dazu definierten wir im vorangegangenen Artikel zum PCM-Verfahren einen gleichmäßigen Takt sowie ein Werteraster mit dessen Hilfe wir Veränderungen in der Amplitude unseres Signals zu jedem Abtastzeitpunkt in einer bestimmten Anzahl möglicher Zustände ausdrücken konnten. Auch bei der DSD-Kodierung dreht sich alles um diese beiden Begriffe. Eigentlich passiert fast genau dasselbe, aber eben nur fast.

Dieses Mal wählen wir eine extrem hohe Samplingrate von 2,8224 MHz, das sind 2.8224.000 Analysen unseres Signals pro Sekunde. Zur Erinnerung: Bei unserer PCM-basierten Digitalisierung in „CD-Qualität“ waren es nur 44.100 Abtastungen pro Sekunde, das entspricht gerade einmal 0.0441 MHz. Diesen nicht gerade kleinen Unterschied lassen wir erst einmal so stehen und schauen uns stattdessen die Bittiefe an. Im Gegensatz zum PCM-Verfahren, bei dem Veränderungen des Signals in 65.536 möglichen Zuständen (16 Bit) beziehungsweise in 16.777.216 möglichen Zuständen (24 Bit) dargestellt werden konnten, gibt es bei DSD plötzlich nur zwei Zustände (1 Bit), weshalb auch gerne auf die „1-Bit Technologie“ verwiesen wird. Während man bei einer hohen Abtastrate vielleicht noch nicht einmal skeptisch würde, muss man sich mit unseren Vorkenntnissen und in Anbetracht der geringen Bittiefe unweigerlich fragen: Wie sollen zwei Zustände ausreichen um den komplexen dynamischen Verlauf eines Musiksignals abzubilden?

Der Schlüssel zu dieser Frage liegt in der Aufgabe, die dem einen Bit in diesem Fall zukommt. So wird der Amplitudenverlauf nicht etwa wie beim PCM-Verfahren näherungsweise in den möglichen Zuständen abgebildet, deren Anzahl entsprechend der gewählten Wortbreite variiert, sondern durch die Häufigkeit mit der das eine uns zur Verfügung stehende Bit seinen Zustand wechselt. Dabei verändert sich diese Häufigkeit nach folgender Regel: Eine hohe Amplitude korrespondiert mit wenigen Zustandsänderungen, während eine niedrige Amplitude häufige Zustandsänderungen zur Folge hat. Für die beiden Extremfälle einer dauerhaft maximalen beziehungsweise einer dauerhaft nicht vorhandenen Amplitude würde das dementsprechend überhaupt keine beziehungsweise ständige Wechsel unserer zwei Zustände im Takt unserer Samplingrate bedeuten. Anhand dieses Stroms von Zustandsänderungen, der aufgrund der hohen Taktrate selbst kleinste Veränderungen des Signals beinhaltet, lässt sich so ebenfalls ein digitales Abbild unseres ursprünglichen Signals erstellen und speichern.

Konsequenzen – Dynamik, Fehler, Filter

Alle Aspekte des kommenden Abschnitts sind uns ebenfalls im Artikel zur PCM-Kodierung begegnet. Dank der dort geleisteten Vorarbeit, können wir die folgenden Aussagen über DSD relativ einfach nachvollziehen. Eingangsseitig benötigen wir kein Aliasing-Filter, da die Abtastfrequenz so hoch ist, dass selbst nach Halbierung (Nyquist-Shannon-Abtasttheorem) kein Audiosignal die obere Grenzfrequenz von 1.4112 MHz überschreiten wird. Eine mögliche Beeinflussung des Signals durch ein Filter ist an dieser Stelle also ausgeschlossen, das ist definitiv ein Vorteil. Bei der Rückwandlung sieht die Sache anders aus, hier ist auch bei DSD-Daten ein Filter notwendig um hochfrequente Signalanteile zu entfernen. Wir kommen noch darauf zurück, wenden uns aber zuvor weiteren Eigenschaften unseres Signals zu. Da wäre zum Beispiel der für DSD übliche und – im Vergleich zu einem PCM-Signal mit 16 oder 24 Bit – sehr hohe Rauschpegel. Maßgeblich auf Quantisierungsfehler zurückzuführen, die sich aus der geringen Bittiefe ergeben, wirkt sich dieser natürlich negativ auf den Signal-Rausch-Abstand, also den Dynamikumfang unseres Signals aus. Abhilfe schaffen hier Noise-Shaping Algorithmen, die das Problem über die menschliche Hörschwelle hinaus in den Ultraschallbereich verbannen. Auch dieses Verfahren ist uns bereits bekannt und es ist im Falle von DSD unabdingbar. Erst so ergibt sich ein Dynamikumfang von etwa 120 dB über einen Bereich von 20 Hz bis 20 KHz. Oberhalb steigt der Rauschpegel dann schnell an und der Dynamikumfang für Frequenzen im Bereich der Psychoakustik, die aufgrund der hohen Abtastrate ja theoretisch durchaus im digitalen Signal vorhanden sein können, ist deutlich geringer als 120 dB. Bei 35 KHz entspricht der Dynamikumfang noch etwa 96 dB, befindet sich also auf CD-Niveau. Frequenzen darüber müssten schon sehr prominent tönen um noch ihren – wohlgemerkt psychoakustischen – Einfluss geltend machen zu können. Die gerne ins Feld geführte darstellbare Obergrenze von DSD von beeindruckend klingenden 100 KHz vergessen wir in Anbetracht dieser Tatsache ganz einfach mal.

PCM vs. DSD

Nachdem wir die wichtigsten Daten und Fakten zum DSD-Verfahren zusammengestellt haben, können wir uns nun an eine Gegenüberstellung wagen. Beginnen wir mit den physischen Datenträgern, einer CD (PCM, 44.1 KHz und 16 Bit) sowie einer SACD (DSD, 2.8224 MHz, 1 Bit). Ohne großes Überlegen stellen wir fest, dass die SACD sowohl hinsichtlich des Dynamikumfangs, als auch in Bezug auf die Frequenzdarstellung überlegen ist.

Frequenzdarstellung:

35 KHz und mehr // DSD
22,05 KHz // PCM

Dynamikumfang:

120 dB (oberhalb von 20 KHz geringer, siehe oben) // DSD
96 dB // PCM

Wechseln wir nun in den nicht-physischen Bereich und schauen uns eine DSD-Datei im Vergleich zu einer PCM-Datei mit 88,2 KHz und 24 Bit an. Nun sieht die Sache anders aus:

Frequenzdarstellung:

35 KHz und mehr // DSD
44,1 KHz // PCM

Dynamikumfang:

120 dB (oberhalb von 20 KHz geringer, siehe oben) // DSD
144 dB // PCM

Selbstverständlich gibt es auch bei DSD die Möglichkeit die Samplingfrequenz zu verdoppeln oder sogar zu vervierfachen. Das problematische Quantisierungsrauschen kann dann in noch höhere Frequenzbereiche verschoben werden und Dynamikumfang sowie Frequenzdarstellung profitieren. Dieses Spiel lässt sich prinzipiell mit beiden Formaten bis ins Absurde fortführen, denn die technichen Möglichkeiten gibt es inzwischen. Anstatt aber ein weiteres Beispiel zu bemühen wollen wir uns lieber daran erinnern, dass wir irgendwann einmal in unserem Leben bestenfalls Frequenzen bis 20 KHz hören konnten. Und selbst die unendlichen Weiten der Psychoakustik finden ein jähes Ende, wenn hochwertigste Mikrofone schon während der Aufnahme spätestens zwischen 30 und 40 KHz an ihre Grenzen stoßen. Physikalisch nachvollziehbar ergeben hohe Auflösungen also nur bis zu einem gewissen Grad und insbesondere während der Produktion Sinn. Ihr Nutzen, das soll hier noch einmal betont werden, besteht zu einem nicht unwesentlichen Teil darin, dass dem Digitalisierungsprozess immanente Probleme – seien es nun Aliasing-Effekte, Beeinflussungen durch ein Filter oder Quantisierungsrauschen – im Rahmen des Möglichen vermieden werden und entstehende Fehler möglichst nicht den musikalisch relevanten Frequenzbereich beeinflussen, sondern im Zweifelsfall in höhere Frequenzbereiche verschoben werden können. Das gilt für DSD und PCM gleichermaßen und so ist das bereits erwähnte ausgangsseitige Filter in beiden Fällen nur die logische Konsequenz, da die hochfrequenten Störanteile im Signal bei der Verstärkung beziehungsweise bei der Abbildung durch die Lautsprecher unerwünscht sind.

Schlussgedanken

Neben dem Vergleich der nackten Zahlen, den letztendlich immer das Format gewinnt, das gerade in der Auflösung verdoppelt wurde, gibt es noch einen weiteren Aspekt, den wir nicht außer Acht lassen wollen. Damit sind in diesem Fall nicht etwa subjektive Hörvergleiche gemeint, hier muss sich wie gesagt jeder Interessierte seine eigene Meinung bilden. Viel mehr geht es um die technische Realität und da besetzt DSD eben faktisch eine Nische. Es gibt zwar Wandler die exakt gemäß des DSD-Standard arbeiten und konsequent in das entsprechende Format konvertieren, diese sind allerdings rar gesät. Dementsprechend ist „reines“ DSD von der A/D- bis zur D/A-Wandlung extrem selten. Denkbar wäre ein altes Mastertape einer vollständig analogen Aufnahme, die mit einem solchen Wandler digitalisiert, gespeichert und anschließend entsprechend zurück gewandelt und wiedergegeben wird. In der Regel kann jedoch man davon ausgehen, dass zu irgendeinem Zeitpunkt zwischen Aufnahme, Produktion und Wiedergabe eine oder mehrere Konvertierungen ins PCM-Format stattgefunden haben, auch wenn am Ende eine SACD oder eine DSD-Datei vorliegt. Inwiefern das wichtig ist, ob eine abschließende DSD-Konvertierung den entscheidenden Unterschied macht oder ob am Ende vielleicht doch nicht das Format, sondern die Wahl der Komponenten und deren technische Finesse wirklich zählt, wird wohl weiterhin eifrig diskutiert werden.

Dieser Post ist auch verfügbar auf: Englisch

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.