- Verlustbehaftete Audiodatenkompression
-
Audiodatenkompression (oft auch kurz uneindeutig als Audiokompression bezeichnet) ist eine Datenreduktion („verlustbehafteter“ Algorithmus) oder Datenkompression („verlustfreier“ Algorithmus).
Audiodatenkompression bezeichnet spezialisierte Arten der Datenkomprimierung, um digitale Audiodaten effektiv in ihrer Größe zu reduzieren. Wie bei anderen spezialisierten Arten der Datenkomprimierung (v. a. Video- und Bildkompression) werden spezifische Eigenschaften der entsprechenden Signale mit verschiedenen Möglichkeiten ausgenutzt, um einen Verkleinerungseffekt zu erzielen.
Nicht zu verwechseln ist diese Art der Kompression mit dem Verfahren einer Dynamikeinengung, die im Normalfall zum Anheben von leiseren bzw. Absenken lauterer Passagen in einem Audiosignal verwendet wird und keine Daten einspart. Siehe Kompressor.
Im weiteren Verlauf wird der Begriff Kompression im Sinne von Datenkompression verwendet.
Inhaltsverzeichnis
Verlustfreie Audiodatenkompression
Als verlustfreie Audiodatenkompression, auch weniger präzise, kürzer verlustfreie Audiokompression bzw. in entsprechendem Kontext verlustfreie Kompression oder englisch lossless audio (LA), bezeichnet man Verfahren, die aus Eingangs-Signaldaten Daten erzeugen, die eine bitidentische Rekonstruktion des Ausgangssignales erlauben (siehe Datenkompression).
Die verlustfreien Audiocodecs unterscheiden sich von allgemeinen Algorithmen zur Datenreduktion dadurch, dass sie speziell an die typische Datenstruktur von Audiodateien angepasst sind und daher in fast allen Fällen Audiodateien besser komprimieren als nicht spezialisierte Verfahren wie zum Beispiel die ZIP- oder RAR-Algorithmen. Die mit heutigen Verfahren erreichbare Kompressionsrate liegt bei Audio-CD-typischen Inhalten (Musik, 16 Bit/44100 Hz) üblicherweise zwischen 25 und 70 Prozent.
Verwendung
Die Verfahren finden Anwendung in Tonstudios, auf neueren Tonträgern wie der SACD oder der DVD-Audio oder auch zunehmend in privaten Musikarchiven qualitätsbewusster Musikhörer, die z. B. Generationsverluste vermeiden wollen. Daneben sind viele Datenkompressionsverfahren aus dem Audiobereich auch für andere Signale wie z. B. biologische Daten, medizinische Kurven oder seismische Daten interessant.
Problemstellung
Die Mehrzahl der Tonaufnahmen sind natürliche Töne, aufgenommen aus der realen Welt; solche Daten sind schwer zu komprimieren. Ähnlich wie sich Fotos nicht so gut komprimieren lassen wie computergenerierte Bilder, obwohl auch computergenerierte Tonabfolgen sehr komplizierte Wellenformen enthalten können, die sich mit vielen Kompressionsalgorithmen nur schlecht verkleinern lassen.
Außerdem ändern sich die Werte der Audiosamples sehr schnell und es gibt selten Folgen von gleichen Bytes, weswegen allgemeine Datenkompressionsalgorithmen nicht gut funktionieren.
Sparsamere Repräsentationen finden
Schallwellen lassen sich ihrer Natur nach im Allgemeinen schwer vereinfachen ohne eine zwangsweise verlustbehaftete Konvertierung in Frequenzfolgen, wie sie im menschlichen Ohr stattfinden.
Im Falle von Audiodaten können
- Ähnlichkeiten zwischen den (Stereo-)Kanälen und
- Abhängigkeiten zwischen aufeinanderfolgenden Abtastwerten (durch Dekorrelation) sowie danach
- Entropie der Abtastwerte des Restsignales
ausgenutzt werden.
Technik
Kanalkopplung
Durch Kopplung von Kanälen können Abhängigkeiten zwischen Kanälen ausgebeutet werden. Indem ein Kanal über den Unterschied zu einem vorhandenen oder einem neuen Mittenkanal beschrieben wird, kann die wiederholte Beschreibung gemeinsamer Inhalte vermieden werden.
Vorhersage
Zur Ausbeute von Abhängigkeiten zwischen aufeinanderfolgenden Abtastwerten wird eine Dekorrelation vorgenommen, indem versucht wird, den Verlauf der Klangkurve vorherzusagen. Dadurch kann ein Restsignal errechnet werden, das möglichst nur noch aus möglichst schwachem weißem Rauschen besteht und mit einer Entropiekodierungsmethode effizient komprimiert werden kann. Dazu werden in den meisten Fällen Abtastwerte mit ausgefeilten, sich anpassenden (adaptiven) Vorhersageverfahren aus anderen extrapoliert.
Entropiekodierung
Die Entropiekodierung des dekorrelierten Restsignales nutzt dessen Abtastwerte unterschiedliche Auftrittswahrscheinlichkeiten und Ähnlichkeiten aus. Hierfür werden oft z. B. Rice-Codes verwendet.
Ein Verfahren ist symmetrisch, wenn zum Dekodieren das Signal die gleichen Schritte wie bei der Kodierung umgekehrt durchläuft und der Rechenaufwand für das Kodieren von dem für das Dekodieren nötigen Rechenaufwand abhängt.
Verfahrensmerkmale
Bei verlustfreien Codecs sollten per Definition Qualitätsunterschiede des Audiosignals ausgeschlossen sein, Verfahrensunterschiede liegen hier in folgenden Merkmalen:
- Kompressionsrate
- direktes Abspielen der komprimierten Daten
- Anspringen beliebiger Positionen in einem Audiostrom
- Ressourcenbedarf der Kompression sowie der Dekompression
- Soft- und Hardwareunterstützung
- Flexibilität im Umgang mit Metadaten
- Art der Lizenz
- Plattformübergreifende Verfügbarkeit
- Unterstützung von Mehrkanal-Signalen
- Unterstützung unterschiedlicher Auflösungen – zeitlich (Abtastfrequenz) bzw. der Klangtiefe (Abtasttiefe)
- eventuell zusätzliche verlustbehaftete, oder sogar Hybrid-Modi (verlustbehaftete + Korrekturdatei)
- Streaming-Unterstützung
- Fehlertoleranz/-korrekturmechanismen
- Eingebettete Prüfsummen zur schnellen Überprüfung einer Datei auf Vollständigkeit
- Symmetrische und asymmetrische Kodiermöglichkeiten (Un-/Abhängigkeit der Dekodier- von der Kodiergeschwindigkeit)
- Unterstützt die Erstellung selbstentpackender Dateien
- Kompatibilität zum Replay Gain-Standard
- Unterstützung eingebetteter Cuesheets
- eventuelle Speicherung von Kopfdaten des Originalformates
Verlustfreie Audioformate
- Apple Lossless (auch: Apple Lossless Encoding oder Apple Lossless Audio Codec (ALAC))
- Adaptive Transform Acoustic Coding - Advanced Lossless (ATRAC)
- Free Lossless Audio Codec (FLAC)
- LA Lossless Audio
- Meridian Lossless Packing (MLP)
- Monkey's Audio (APE)
- MPEG-4 Audio Lossless Coding (ALS)
- OptimFROG
- Shorten
- TAK Toms verlustfreier Audiokompressor
- The True Audio (TTA)
- WavPack (WV/WVC)
- Windows Media Audio Lossless (WMA Lossless)
Verlustbehaftete Audiodatenkompression
Als verlustbehaftete Audiodatenkompression, auch weniger präzise, kürzer Verlustbehaftete Audiokompression bzw. in entsprechendem Kontext Verlustbehaftete Kompression oder neudeutsch lossy (verlustbehaftet), bezeichnet man Verfahren, die eine Datenreduktion durchführen und gezielt unwiederbringlich weniger relevante Signalanteile verwerfen.
Die meisten verlustbehafteten Kompressionsalgorithmen basieren auf simplen Transformationen, wie der „modifizierten diskreten Kosinustransformation“ (MDCT), welche die aufgenommene Wellenform in ihre Frequenzabfolgen umwandeln. Einige moderne Algorithmen benutzen Wavelets, aber es ist noch nicht sicher, ob solche Algorithmen besser funktionieren als die auf MDCT basierenden.
Die meisten Algorithmen versuchen nicht den mathematischen Fehler zu reduzieren, sondern die subjektive menschliche Wahrnehmung der Tonfolgen zu verbessern. Da das menschliche Ohr nicht alle Informationen eines ankommenden Tones analysieren kann, ist es möglich, eine Sounddatei stark zu verändern, ohne dass die subjektive Wahrnehmung des Hörers beeinträchtigt wird. So kann ein Codec zum Beispiel einen Teil der sehr hohen und sehr tiefen Frequenzen weglassen, die für Menschen fast unhörbar sind. Auf ähnliche Weise werden Frequenzen, die durch andere Frequenzen überlagert sind, mit geringerer Genauigkeit wiedergegeben. Eine andere Art der Überlagerung ist, dass ein leiser Ton nicht erkennbar ist, wenn er unmittelbar vor oder nach einem lauten Ton kommt. Ein solches Modell der Ohr-Gehirn Verbindung, das für diese Effekte verantwortlich ist, wird häufig psychoakustisches Modell genannt (auch: „Psychoaccoustic Model“, „Psycho-model“ oder „Psy-model“). Ausgenutzt werden hierbei Eigenschaften des menschlichen Gehörs wie Frequenzgruppenbildung, Hörbereichsgrenzen, Maskierungseffekte und Signalverarbeitung des Innenohrs.
Aufgrund der Natur der verlustbehafteten Algorithmen verschlechtert sich die Qualität, wenn eine solche Datei dekomprimiert und anschließend wieder komprimiert wird (Generationsverluste, auch transkodieren genannt). Das passiert in der Praxis vor allem, wenn eine Audio-CD aus verlustbehafteten Audiodateien gebrannt wird (Audio-CDs sind unkomprimiert) und diese später wieder komprimiert wird. Dieses macht verlustbehaftete Dateien ungeeignet für Anwendungen in professionellen Tonbearbeitungsbereichen („Data reduction is Audio destruction“). Allerdings sind solche Dateien sehr beliebt bei Endbenutzern, da ein Megabyte je nach Komplexität des Tonmaterials ungefähr für eine Minute Musik bei annehmbarer Qualität reicht, was einer Kompressionsrate von etwa 1:11 entspricht.
Verlustbehaftete Audioformate
Bei den Beispielen werden, soweit bekannt, auch die Bitraten angegeben, bei denen eine komprimierte Datei von den meisten Personen nicht mehr vom Original unterscheidbar ist, d. h. transparent klingt – bei konzentriertem Zuhören mit gutem Zubehör und einem ausgereiften Codec des jeweiligen Kompressionsschemas; abhängig von der Art der Musik. Es muss jedoch beachtet werden, dass Transparenz nicht von jedem bei der gleichen Bitrate empfunden wird, daher sind die Angaben nur ungefähre Werte. Die Bitrate von CDs ist 1411,2 kbit/s (Kilobit pro Sekunde).
Für Vergleiche diverser Audiocodecs siehe Weblinks.
- AC-3, auch Dolby Digital oder ähnlich genannt
- AAC (MPEG-2, MPEG-4): 96–320 kbit/s
- ATRAC (bei MiniDisc und manchen Sony-CD-Spielern): 200-250 kbit/s
- DTS
- MP2: MPEG-1 Layer 2 Audio Codec (MPEG-1, MPEG-2): 280–400 kbit/s
- MP3: MPEG-1 Layer 3 Audio Codec (MPEG-1, MPEG-2, LAME): 180–250 kbit/s
- mp3PRO
- Musepack: 160–200 kbit/s (Open-Source)
- Ogg Vorbis: 160–220 kbit/s (Open-Source)
- WMA
- LPEC
Qualitätseinschätzung
Die folgenden Einschätzungen basieren auf verschiedenen Hörtests von hydrogenaudio.org. Dieses Forum stellt eine Plattform dar, die von interessierten und versierten Benutzern sowie von den Entwicklern verschiedener Audiokompressionsverfahren wie Lame, Vorbis oder Nero-AAC besucht wird. Durch die hohe Anzahl an teilnehmenden Testpersonen ergeben sich statistisch abgesicherte Qualitätsaussagen.
Seit der Entwicklung von MP3 (ca. 1987) über die anfängliche Nutzung des Codecs (um 1997 - 2000) bis zum weltweit meistgenutzten Audio-Format (seit ca. 2003) wurde die Ausgabequalität stetig verbessert. Ebenso wurden weitere Formate wie Vorbis, WMA oder AAC entwickelt, um eine Alternative zu MP3 darzustellen oder dieses langfristig abzulösen. Auch diese Formate wurden stetig weiterentwickelt.
Eine MP3-Datei mit einer Bitrate von 128 kbit klang 1997 noch sehr bescheiden. Die versprochene CD-ähnliche Qualität wurde damals noch nicht erreicht. Im Jahre 2005, so belegen aktuelle Hörtests (http://www.listening-tests.info/mf-128-1/results.htm), bietet dasselbe Format bei 128 kbit für die deutliche Mehrheit der Hörer bereits eine transparente, d.h. von der CD nicht zu unterscheidende Qualität.
Eine vergleichbare Qualität ist mit dem AAC-Format laut einem Hörtest von August 2007 (http://www.listening-tests.info/mf-48-1/results.htm) bereits mit 96 Kbit zu erreichen.
Die neuesten Hörtests mit Bitraten von 48 Kbit und 64 Kbit zeigen, dass bei diesen niedrigen Bitraten bereits eine Qualität erzielt werden kann, die für den Einsatz in portablen Geräten oder für Webradio geeignet ist. (http://www.listening-tests.info/mf-48-1/results.htm) (http://www.listening-tests.info/mf-64-1/results.htm)
Aktuell (August 2007) lässt sich also festhalten, dass mit einem qualitativ guten Encoder und dem richtigen Format eine sehr gute Qualität bereits bei 96-128 Kbit erreicht werden kann, die für die deutliche Mehrheit der Benutzer nicht von der CD zu unterscheiden ist.
Literatur
- Roland Enders: Das Homerecording Handbuch. 3. Auflage, Carstensen Verlag, München, 2003, ISBN 3-910098-25-8
- Thomas Görne: Tontechnik. 1. Auflage, Carl Hanser Verlag, Leipzig, 2006, ISBN 3-446-40198-9
- R. Beckmann: Handbuch der PA-Technik, Grundlagen-Komponenten-Praxis. 2. Auflage, Elektor-Verlag, Aachen, 1990, ISBN 3-921608-66-X
- A. Lerch: Bitratenreduktion. In: Stefan Weinzierl (Hrsg.): Handbuch der Audiotechnik. 1. Auflage, Springer-Verlag, Berlin, 2008, S. 849-884, ISBN 978-3540343004
Siehe auch
- Audioformat, eine Übersicht
- MPEG-1 Audio Layer 3 MP3
- Gapless Playback
- Mean Opinion Score (Beurteilung der Klangqualität von Kompressionsverfahren)
- Spektralband-Replikation (Spectral Band Replication - SBR)
- Teilbandkodierung
- Videokompression
Weblinks
- AudioHQ – Forum zum Thema Audiokompression
- Beschreibung einiger Codecs auf AudioHQ
- Vergleichstests von verlustbehafteten Audiocodecs
- Audiokompression und planbare Kompromisse
- hydrogenaudio (Webcommunity zum Thema Audiokompression – engl.)
Vergleiche verlustfreier Audio-Codecs:
Wikimedia Foundation.