Digitale Musik – Wie funktioniert das? Wandlung nach dem PCM-Verfahren

Im Rahmen unserer Reihe zu den „Quellen guter Musik“ sind wir bereits mehrfach in den Themenbereich „Digitale Musik“ vorgedrungen. Verschiedene Speicherformate für Musikinformationen wurden vorgestellt und verglichen, dabei fielen zur Beurteilung der Qualität dieser Daten vor allem zwei Begriffe immer wieder: Abtastrate und Wortbreite. Aber was genau bedeuten sie eigentlich? Und was passiert bei der Übersetzung analoger Signale in die digitale Welt? Auch auf die Gefahr hin sich hier buchstäblich in ein Fass ohne Boden zu begeben, wollen wir versuchen einige grundlegende Antworten zu liefern und konzentrieren uns dabei auf das weit verbreitete PCM-Verfahren (Pulse-Code-Modulation).

Die A/D-Wandlung

Als Ausgangspunkt unserer Betrachtungen soll folgendes Szenario herhalten: Wir stellen uns einen Song vor, der sich auf einer frisch gepressten (hm, lecker) Schallplatte befindet. Dieses Musikstück wollen wir digitalisieren, sodass es in CD-Qualität, also mit einer Abtastrate von 44,1 kHz beziehungsweise 44100 Hz und einer Wortbreite von 16 Bit vorliegt. Bevor wir dieses Vorhaben in die Tat umsetzen seien noch schnell ein paar alternative Begriffe vorgestellt. Die Abtastrate wird auch als Samplingfrequenz, Samplingrate oder Takt, die Wortbreite als Bittiefe oder Samplingtiefe bezeichnet. Wir werden sie alle brauchen …

Zum jetzigen Zeitpunkt sind die musikalischen Informationen unseres Stücks analog in der Rille der Schallplatte codiert, man spricht auch von einem zeit- und wertekontinuierlichen Signal. Es gibt also für die gesamte Dauer der Schallplatte, auch wenn man nur Milli-, Mikro- oder Nanosekunden betrachtet, immer einen Abschnitt der Rille, der den Klang dieses gerade betrachteten musikalischen Momentes repräsentiert. Das gleiche Prinzip gilt zum Beispiel auch für Schallwellen, die sich durch die Luft bewegen oder die elektrische Spannung die eine Lautsprechermembran in Schwingung versetzt. Es handelt sich ebenfalls um zeit- und wertekontinuierliche Signale. Diese Tatsache erscheint vermutlich einigermaßen einleuchtend, wie sollte es auch anders sein? Unterbrechungen in der Rille haben unangenehme Störgeräuschen und Aussetzer zur Folge, die Musikinformation wäre dann quasi nur unvollständig vorhanden. Ebenso wenig würde man davon ausgehen, dass in einer Schallwelle auf einmal ein Stück fehlt. Genau dieses selbstverständliche Verhältnis wird nun aber bei der Analog-Digital-Wandlung aufgebrochen.

Übertragen wir also nun unsere (natürlich unbeschädigte) Schallplatte in die digitale Dimension. Folgendes passiert bei der A/D-Wandlung: Vordefiniert wird ein gleichbleibender Takt, in dem das analoge Signal von unserer Schallplatte wieder und wieder analysiert wird. Wir entscheiden uns dafür, dass das genau 44100 Mal pro Sekunde passieren soll und so ergibt sich unsere Samplingfrequenz von 44,1 kHz. Vervollständigt wird die Information über jeden einzelnen Analysezeitpunkt, indem zusätzlich die Veränderung der Dynamik, die sich in der Amplitude unseres analogen Signals widerspiegelt, gespeichert wird. Dieser Prozess nennt sich Quantisierung und um ihn zu realisieren, definieren wir einen an das Signal angepassten Wertebereich (dazu später mehr), der eine begrenzte Anzahl an eindeutigen Zuständen umfasst. Die Notwendigkeit der Eindeutigkeit ergibt sich aus der Binärcodierung (0 oder 1), die wiederum zur Folge hat, dass die Anzahl der möglichen Zustände in Bit (binary digit) quantifiziert wird. Die allgemeine Formel zur Errechnung der möglichen Zustände lautet:

Anzahl möglicher Werte/Zustände = 2^ n (n ist die Anzahl der Bits)

Wir wählen eine Wortbreite von 16 Bit und erhalten der Formel nach 2^16 = 65.536 unterschiedliche Zustände um die Dynamik unseres Musikstücks abzubilden. Der etwas künstlich klingende Begriff Wortbreite stammt übrigens aus dem Englischen. Dort wird eine Datengröße von 16 Bit als „word“ bezeichnet.

Während jedes Analyseschrittes wird nun das tatsächliche spektrale und dynamische Geschehen näherungsweise in unser Raster aus Takt und Bittiefe überführt. Im Ergebnis erhalten wir schließlich einen digitalen Repräsentanten unseres ursprünglichen Signals, das nun nicht mehr zeit- und wertekontinuierliches, sondern zeit- und wertediskretes Signal vorliegt. Dabei ist es in der Theorie durch eine unendlich hohe Abstastrate und eine unendlich große Wortbreite möglich ein quasi perfektes Abbild zu generieren. In der Praxis ergeben sich aufgrund technologischer Grenzen während der Analog-Digital-Wandlung allerdings sowohl im Hinblick auf die zeitliche Ebene, als auch bei der Quantisierung immer Ungenauigkeiten und Fehler. Auf einige dieser Phänomene werden wir weiter unten eingehen und halten hier vorerst fest, dass das digitale Signal im Grunde genommen nur noch aus Ausschnitten des analogen Signals besteht, die dessen ursprünglichen Zustand nur ungefähr darstellen, während der Rest unwiederbringlich verloren ist.

Samplingrate und Grenzfrequenz

In Anbetracht des letzten Satzes drängen sich folgende Fragen geradezu auf: Kann beziehungsweise will man sich das digitale Signal überhaupt noch anhören und wozu betreibt man den Aufwand, wenn das Ergebnis doch ein fehlerhaftes und unvollständiges Signal ist? Der letzte Aspekt soll hier etwas salopp mit dem Hinweis darauf beantwortet werden, dass ohne die Digitalisierung von Audiomaterial statt des iPods die ganze Plattensammlung mit in den Bus müsste. Speichereffizienz ist hier ein wichtiges Stichwort. Und während unsere Schallplatte in 100 Jahren vermutlich den Zahn der Zeit zu spüren bekommen hat, klingt unsere digitalisierte Aufnahme immer noch frisch wie am ersten Tag. Ganz im Ernst: Digitale Speicherung ist ein ganzer Themenkomplex für sich und soll an dieser Stelle keine weitere Beachtung finden.

Stattdessen wenden wir uns also der Qualität unseres digitalen Signals zu. Wie bereits angemerkt wurde, handelt es sich in der Realität um alles andere als ein perfektes Abbild. Und trotzdem lässt sich offenbar auch mit begrenzten Möglichkeiten der Eindruck erwecken, man habe es vermeintlich mit demselben Signal zu tun. Dabei nutzt man die Tatsache aus, dass der menschliche Wahrnehmungsapparat gewissen Einschränkungen unterliegt und sich darüber hinaus wunderbar täuschen lässt. Bei ausreichend schneller Abtastung und entsprechend großer Wortbreite hören wir dann nicht etwa ein verstümmeltes Etwas, sondern unser Musikstück von der analogen Schallplatte, in unserem Fall immerhin in CD-Qualität.

Dabei haben sich die Taktung von 44,1 kHz sowie die Samplingtiefe von 16 Bit, die sich mit Einführung der CD als Quasi-Standard durchsetzen konnten, nicht etwa zufällig ergeben. Im Kontext der damaligen technologischen Entwicklung betrachtet, handelt es sich dabei um einen Kompromiss zwischen Qualität und einer vertretbaren Datenmenge, die während der Digitalisierung anfällt. Wieder interessiert uns vor allem der qualitative Aspekt: Das sogenannte Nyquist-Shannon-Abtasttheorem (auch WKS-Abtasttheorem) besagt, dass für eine (theoretisch) exakte digitale Abbildung sowie die spätere vollständige Rückübersetzung unseres (theoretisch) perfekten digitalen Signals, die Samplingrate mindestens doppelt so hoch sein muss, wie die höchste im Signal vorkommende Frequenz. Wir teilen unsere 44,1 kHz also einfach mal durch zwei und erhalten eine obere Grenzfrequenz von 22,05 kHz. Sie beschreibt die höchste Frequenz, die während der A/D-Wandlung, unter Berücksichtigung der von uns gewählten Abtastrate, in unserem Musikstück vorkommen darf. Es schließt sich die Frage an, was mit Frequenzen oberhalb dieser Grenze passiert, die in der Realität und möglicherweise auch auf unserer Schallplatte ja durchaus vorkommen können?

Fehler und Filter

Die Antwort ist einfach: Sie werden mithilfe von Filtern vor der Wandlung so gut es geht herausgefiltert. Das Problem ist, dass die Taktung zu langsam für Informationen oberhalb der Grenzfrequenz ist. Folglich werden zwar beim Auftreten solch schneller Frequenzen weiterhin Daten erfasst, diese entsprechen aber nicht dem tatsächlich vorhandenen Musikmaterial. Die Konsequenz sind irreparable Aliasing-Fehler, die sich in Form von Störgeräuschen bemerkbar machen und die Qualität unserer digitalen Version beeinträchtigen. Optimal wären natürlich solche Anti-Aliasing Filter, die bei der Grenzfrequenz einen sauberen Schnitt setzen, sodass gar kein Aliasing mehr auftritt. Das ist leider in der Realität nicht möglich, sodass die Bedämpfung der hohen Frequenzen schon deutlich unterhalb der Grenzfrequenz von 22,05 kHz ansetzt, über einen breiteren Frequenzbereich stattfindet und sich trotzdem nicht immer alle Aliasing-Fehler vermeiden lassen. Der Puffer, der sich zwischen der bewusst wahrnehmbaren Hörschwelle des Menschen (in jungen Jahren bestenfalls bis 20 kHz) und der Grenzfrequenz bei einer Digitalisierung in CD-Qualität befindet, kommt also nicht von Ungefähr. Einer Beeinträchtigung des hörbaren Frequenzspektrums durch den Anti-Aliasing Filter soll so möglichst vorgebeugt werden.

Dass nicht bereits bei der Einführung digitaler Formate – konkret der CD – auf eine höhere Auflösung gesetzt wurde, ist wie schon gesagt den damaligen Begrenzungen der digitalen Speicherkapazitäten sowie der technischen Machbarkeit hinsichtlich der Wandlerarchitektur geschuldet. Inzwischen sind deutlich präzisere Wandler realisierbar und größere Datenmengen speicherbar, sodass sich das Problem nach wie vor nicht vermeiden, aber immerhin weit aus dem hörbaren Bereich herausschieben lässt. Ein Beispiel: Eine verdoppelte Abtastrate (88,2 kHz), führt zu einer oberen Grenzfrequenz von 44,1 kHz. Die Anforderungen an das Anti-Aliasing Filter sind unter diesen Umständen natürlich wesentlich geringer. Sofern solche hohen Frequenzen in unserem zu wandelnden Signal überhaupt noch vorkommen, arbeitet das Filter allerhöchstens noch im Bereich der psychoakustischen Wahrnehmung. Die menschliche Hörschwelle wird also durch das Anti-Aliasing Filter nicht mehr beeinflusst.

Das Problem des Aliasing und der Einsatz von Anti-Aliasing Filtern ist ein Paradebeispiel für potenziellen Fehlerquellen, die sich währen der Wandlungsvorgänge ereignen und gegen die es entsprechende Maßnahmen zu ergreifen gilt. Wir wollen uns der Vollständigkeit halber noch einige weitere kritische Punkte ansehen, ohne allzu sehr in die Tiefe zu gehen. Da wäre zunächst der Jitter-Effekt, der ebenfalls mit der zeitlichen Dimension zusammenhängt. Für eine korrekte Wandlung ist es notwendig, dass jedem Abtastzeitpunkt ein eindeutig bestimmbarer Quantisierungszustand zugeordnet werden kann. Kommt es zu kleinen Schwankungen unseres Taktes, ist plötzlich nicht mehr ganz klar zu welchem Zeitpunkt welche Signalinformation nun gehört. Fehlerhafte Frequenzanteile sind auch hier die unschöne Folge. Um einen möglichst gleichbleibenden Takt zu gewährleisten, werden Wandler mit sogenannten Anti-Jitter-Schaltungen ausgestattet.

Ein weiteres Problem hängt neben der Taktung auch mit der Quantisierung zusammen. Wie wir bereits weiter oben festgestellt haben, wird bei jedem Abtastschritt die Amplitude und somit die Information über die Dynamik unseres Signals lediglich näherungsweise in unser Bit-Raster hineingeschrieben. Die unvermeidlichen Rundungsfehler manifestieren sich als Quantisierungsrauschen, dessen akustischer Eindruck dem des weißen Rauschens ähnelt. Während es bei hohen Pegeln des Musiksignals in der Regel nicht als störend empfunden wird, kann das Quantisierungsrauschen bei leisen Passagen durchaus hörbar den Klangeindruck trüben. Der gängige Lösungsansatz besteht darin, dass durch ein Verfahren namens Dithering zunächst die spektrale Zusammensetzung des Rauschens verändert wird. Anschließend sorgen sogenannte Noise-Shaping Algorithmen dafür, dass das Rauschen in einen höheren Frequenzbereich verschoben wird, für den das menschliche Ohr weniger empfindlich ist.

Dynamik

Wir bleiben abschließend noch einen Moment beim Thema Quantisierung. Neben dem Quantisierungsrauschen hat die Tatsache, dass wir entsprechend der Samplingtiefe nur eine begrenzte Anzahl an möglichen Zuständen abbilden können natürlich zur Folge, dass auch der insgesamt darstellbare Dynamikumfang unseres digitalen Signals begrenzt ist. Theoretisch liegt dieser bei etwa 6 dB pro Bit. Unsere 16 Bit entsprechen demnach einem Dynamikumfang oder auch Signal-Rausch-Abstand von ungefähr 96 dB. Das untere Ende wird dabei durch das Grundrauschen bestimmt, dass sich unter anderem aus dem Quantisierungsrauschen zusammensetzt. Fällt der Pegel des Musiksignals unter den Rauschpegel wird dieses vollständig vom Rauschen maskiert. Die obere Grenze wird durch die maximal mögliche Aussteuerung ohne Verzerrungen bestimmt. Der tatsächlich nutzbare Dynamikbereich kann zum Beispiel durch einen hohen Rauschpegel beeinträchtigt werden.

Die Pegelobergrenze betreffend gilt es zu beachten, dass das analoge Signal diese bei der Wandlung niemals überschreitet. Andernfalls kommt es zu Übersteuerungen, die auch als Verzerrungen oder Clipping bezeichnet werden. Während das analoge Pendant zum Beispiel durch den Einsatz von Röhrenschaltungen oder Bandmaschinen in Maßen zur gezielten Klangfärbung beitragen kann, klingt digitales Clipping leider sofort extrem harsch und sollte daher in jedem Fall vermieden werden. Neben einer umsichtigen Aussteuerung des zu wandelnden Signals oder dem Einsatz eines Limiters, der das Signal vor der Wandlung dynmaisch begrenzt, besteht selbstverständlich die Möglichkeit mehr Bits zur Verfügung zu stellen. Wir erinnern uns an die Formel und stellen fest, dass bei einer Auflösung von 24 Bit bereits 16.777.216 Zustände beziehungsweise 144 dB theoretischer Dynamikumfang nutzbar sind. Diese Maßnahme reduziert außerdem die Rundungsfehler und wirkt sich somit auch positiv auf das Auftreten von Quantisierungsrauschen aus. In Verbindung mit der doppelten Abtastrate von 88,2 kHz ergäbe sich so ein digitales Signal, das unserer Datei mit 44,1 kHz und 16 Bit deutlich überlegen ist.

Fazit

Wir sind am Ende unseres Ausfluges in die Welt der Analog-Digital-Wandlung angekommen. Obwohl wir eine ganze Reihe wichtiger Aspekte abgedeckt haben, besteht durchaus die Möglichkeit noch wesentlich breiter und tiefer in die Materie einzutauchen. Für einen grundlegenden Überblick wollen wir uns mit dem Gesagten aber zunächst begnügen. Wie eingangs bereits angedeutet wurde, gibt es neben dem PCM-Verfahren noch andere Wege Musik zu digitalisieren. Da wäre zum Beispiel eine Methode namens Direct-Stream-Digital (DSD), deren Vor- und Nachteile gerade in der jüngeren Vergangenheit immer wieder intensiv diskutiert werden. Wir widmen dem Thema einen separaten Artikel und werden dort sicherlich Inhalte aus diesem Artikel wieder aufgreifen.

Dieser Post ist auch verfügbar auf: Englisch

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.