Range-Code

Range-Code

Die Bereichskodierung (engl. Range encoding) ist ein Datenkompressionsverfahren zur Entropiekodierung, das eine Art des arithmetischen Kodierens realisiert.

Die Bereichskodierung wird oft als alternative Beschreibung des Arithmetischen Kodierens und als im Grunde identisch mit diesem angesehen. Sie basiert auf dem 1979 veröffentlichten Dokument "Range encoding: an algorithm for removing redundancy from a digitised message" (engl., zu deutsch etwa Bereichskodierung, ein Algorithmus um Redundanz aus digitalisierten Nachrichten zu entfernen), von G. N. N. Martin[1]. Aufgrund des Alters des Dokumentes wird angenommen, dass Implementationen des darin beschriebene Verfahren zur arithmetischen Kodierung nicht von den Patenten auf die arithmetische Kodierung betroffen sind. Dies hat besonders in der freie Software-Gemeinde Interesse an der Technik geweckt.

Inhaltsverzeichnis

Funktionsweise

Die Bereichskodierung kodiert im Prinzip alle Symbole einer Nachricht in eine Nummer – im Unterschied zur Huffman-Kodierung, die jedem Symbol ein Bitmuster zuweist und die Bitmuster wieder hintereinanderreiht. Daher hat die Bereichskodierung nicht wie diese die Obergrenze jeweils mindestens ein Bit für ein Symbol verwenden zu müssen und leidet auch nicht wie diese an der Ineffizienz im Umgang mit Auftrittswahrscheinlichkeiten, die nicht exakt ein Mehrfaches von zwei sind. So können damit bessere Kompressionsraten erzielt werden.

Das zentrale Konzept hinter der Bereichskodierung ist vereinfacht folgendes: Hat man einen ausreichenden Bereich (engl. range) von Ganzzahlwerten als Symbole und eine Wertung der Auftrittswahrscheinlichkeiten der Symbole, so kann der ursprüngliche Bereich leicht in Unterbereiche zerteilt werden, deren Größen proportional zu den Auftrittswahrscheinlichkeiten der Symbole sind, die sie repräsentieren. Damit kann jedes Symbol der Nachricht kodiert werden, indem der Wertebereich auf den Unterbereich reduziert wird, der dem nächsten zu kodierenden Symbol entspricht. Dem Dekodierer muss dabei die gleiche Wahrscheinlichkeitsannahme wie dem Kodierer zur Verfügung stehen, die entweder vorher übertragen, aus bereits übertragenen Daten gewonnen oder Teil der Kodierer und Dekodierer sein kann.

Wenn alle Symbole kodiert sind, reicht es zur Übertragung der Nachricht aus, den Unterbereich anzuzeigen, natürlich vorausgesetzt, dass der Dekodierer erfährt, wann die Nachricht wieder vollständig ist. Eine einzige Ganzzahl reicht aus, um den Unterbereich anzuzeigen, und es muss nicht einmal nötig sein, die gesamte Ganzzahl zu übertragen, sondern es reichen vielleicht schon die ersten der n Stellen aus, um die ursprüngliche Nachricht eindeutig zu beschreiben.

Beispiel

Es soll die Nachricht "AABA<EOM>" kodiert werden, wobei <EOM> das Ende der Nachricht (end-of-message) kennzeichnet. Für dieses Beispiel wird angenommen, dass dem Dekodierer bekannt ist, dass ein Dezimalsystem, einen Bereich von [0, 100000) sowie die Häufigkeitswertung {A: ,60; B: ,20; <EOM>: ,20} verwendet wird. Das erste Symbol zerlegt den Bereich [0, 100000) in drei Unterbereiche:

A:     [     0,  60000)
B:     [ 60000,  80000)
<EOM>: [ 80000, 100000)

Da das erste Symbol ein A ist, reduziert dieses den ursprünglichen Bereich auf [0, 60000). Die zweite Symbol-Entscheidung zerteilt diesen Unterbereich wiederum in drei Unterbereiche, im Folgenden nach dem schon kodierten 'A' dargestellt:

AA:     [     0,  36000)
AB:     [ 36000,  48000)
A<EOM>: [ 48000,  60000)

Nachdem schon zwei Symbole kodiert sind, bleibt der Bereich [000000, 036000) und das dritte Symbol entscheidet zwischen den folgenden Bereichen:

AAA:     [     0,  21600)
AAB:     [ 21600,  28800)
AA<EOM>: [ 28800,  36000)

Diesmal ist es die zweite der drei Möglichkeiten, die die gewünschte Nachricht beschreibt, und der Bereich wird auf [21600, 28800) beschränkt. Es mag nun für diesen Fall schwieriger erscheinen die Unterbereiche auszumachen, doch sie ergeben sich recht einfach: Durch Abziehen des unteren Grenzwertes vom oberen ergibt sich, dass der Bereich 7200 Nummern umfasst, die sich nach dem Wahrscheinlichkeitsmuster aufteilen in 4320 für den ersten ,60-Anteil und jeweils 1400 für die nächsten zwei ,20-Anteile des Gesamt(teil)bereiches. Auf den Unteren Grenzwert des Gesamt(teil)bereiches zurückaddiert ergeben sich die Unterbereiche:

AABA:     [21600, 25920)
AABB:     [25920, 27360)
AAB<EOM>: [27360, 28800)

Um das letzte Symbol zu kodieren ist der Bereich nun schon bis auf [21600, 25920) eingeschränkt. Dieser zerteilt sich dafür nun wieder nach eben beschriebener Methode zwischen den Grenzwerten in folgende Unterbereiche:

AABAA:     [21600, 24192)
AABAB:     [24192, 25056)
AABA<EOM>: [25056, 25920)

Das letzte Symbol <EOM> legt den letztendlichen Bereich fest auf [25056, 25920). Da alle Nummern, die mit "251" beginnen, in diesen Bereich fallen, wird die Nachricht schon dadurch eindeutig beschrieben. (Da acht solcher eindeutiger Nummern tatsächlich existieren, ist die Kodierung immer noch nicht optimal; dadurch, dass das Dezimalsystem anstatt beispielsweise des Binärsystems verwendet wurde.)

Es mag nun als das Hauptproblem erscheinen zu Beginn einen ausreichend großen Bereich zu wählen, um alle Symbole zu kodieren, ohne beim Aufteilen die Ganzzahlen zu verlassen oder Null zu erhalten. Praktisch ergibt sich dieses Problem jedoch nicht, da der Kodierer die Zahl nach und nach vergrößern kann und ersten Stellen, die bereits feststehen, schon ausgeben kann und nicht mehr für die Berechnungen braucht. So wird zu jeder Zeit mit einem kleinen Nummernbereich gearbeitet, indem feststehende Nummern ausgegeben und dafür an der anderen Seite welche hinzugenommen werden. Im Beispiel stand schon nach der Verarbeitung der ersten drei Symbole die "2" als erste Stelle des Ergebnisses fest und hätte nicht mehr mitberechnet werden müssen.

Siehe auch

Referenzen

  1. http://www.compressconsult.com/rangecoder/#download

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Range code — Die Bereichskodierung (engl. Range encoding) ist ein Datenkompressionsverfahren zur Entropiekodierung, das eine Art des arithmetischen Kodierens realisiert. Die Bereichskodierung wird oft als alternative Beschreibung des Arithmetischen Kodierens… …   Deutsch Wikipedia

  • Code page 437 — Code page 437, as rendered by the IBM PC using a VGA adapter. IBM PC or MS DOS code page 437, often abbreviated CP437 and also known as DOS US, OEM US or sometimes misleadingly referred to as the OEM font, High ASCII or Extended ASCII,[1][2] is… …   Wikipedia

  • Code: Selfish — Студийный альбом The Fall …   Википедия

  • Code: Selfish — Studio album by The Fall Released 23 March 1992 …   Wikipedia

  • Code page — is another term for character encoding. It consists of a table of values that describes the character set for a particular language. The term code page originated from IBM s EBCDIC based mainframe systems,[1] but many vendors use this term… …   Wikipedia

  • Code Geass — コードギアス (Kōdo Giasu) Género Mecha, historia alternativa, Ucronía, Drama, Universo de ficción, Ciencia ficción fantástica Anime Code Geass Lelouch of the Rebellion …   Wikipedia Español

  • Code Geass — コードギアス 反逆のルルーシュ (Kōdo Giasu: Hangyaku no Rurūshu) Genre fantasy, mecha, science fiction, drame Anime japonais : Code Geass: Lelouch of the Rebellion Réalisateur(s) Gorō Taniguchi Scénariste(s) …   Wikipédia en Français

  • Code Geass : Lelouch of the rebellion — Code Geass Code Geass コードギアス 反逆のルルーシュ (Kōdo Giasu: Hangyaku no Rurūshu) Genre fantasy, mecha, science fiction Anime : Code Geass: Lelouch of the Rebellion Réalisateur(s) Gorō Taniguchi Scénariste Ichirō Ōkouchi …   Wikipédia en Français

  • Code geass — コードギアス 反逆のルルーシュ (Kōdo Giasu: Hangyaku no Rurūshu) Genre fantasy, mecha, science fiction Anime : Code Geass: Lelouch of the Rebellion Réalisateur(s) Gorō Taniguchi Scénariste Ichirō Ōkouchi …   Wikipédia en Français

  • Code of the Outlaw — Directed by John English Produced by Louis Gray …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”