Prediction by Partial Matching

Prediction by Partial Matching

Prediction by Partial Matching (PPM, englisch) ist eine Familie anpassender statistischer Datenkompressionsalgorithmen, die auf Kontextmodellen und Prognose aufbaut. PPM-Modelle benutzen einen Satz von Symbolen aus dem vorangegangenen Symbolstrom, um das nächste Symbol des Stromes vorherzusagen.

Voraussagen werden üblicherweise auf Wertungen der Symbole beschränkt. Die Zahl vorhergehender Symbole, n, legt die Ordnung des PPM-Modelles fest, das als PPM(n) festgehalten wird. Unbegrenzte Varianten ohne Beschränkungen der Länge des Kontextes existieren auch und werden mit PPM* bezeichnet. Wenn aufgrund aller n Kontextsymbole keine Vorhersage gemacht werden kann, so wird eine Prognose aufgrund von n − 1 versucht. Dieses Vorgehen wird wiederholt, bis ein Treffer gefunden wird oder keine Symbole im Kontext verbleiben. Zu diesem Zeitpunkt wird eine Vorhersage festgelegt. Dieser Prozess ist die Umkehrung dessen, gefolgt von dynamischen Markow-Vorhersagen, die von einem Modell der Ordnung 0 aufbauen.

Ein großer Teil der Arbeit an der Optimierung eines PPM-Modells betrifft den Umgang mit Eingaben, die im Eingabestrom noch nicht auftraten. Der offensichtliche Weg damit umzugehen besteht darin, ein „Unbekannt-Symbol“ zu erzeugen, das die Escape-Sequenz auslöst. Doch welche Wahrscheinlichkeit soll einem Symbol zugeordnet werden, das noch nie aufgetreten ist? Dies wird das Problem der 0-Häufigkeit genannt. Eine Vorgehensweise teilt dem „Unbekannt-Symbol“ einen festgelegten Pseudowert von 1 zu. Eine PPM-D genannte Variante erhöht den Pseudowert bei jedem Auftritt des „Unbekannt-Symbols“. (Anders ausgedrückt schätzt PPM-D also die Wahrscheinlichkeit eines neuen Symbols als das Verhältnis der Anzahl einzigartiger Symbole zur Anzahl aller Symbole insgesamt.)

Umsetzungen von Kompression mittels PPM sind in anderen Details sehr unterschiedlich. Die eigentliche Symbolauswahl wird üblicherweise arithmetisch kodiert, obwohl auch Huffman-Kodierung oder auch eine Art Wörterbuchkodierung möglich sind. Das zugrunde liegende Modell der meisten PPM-Algorithmen kann auch erweitert werden, um mehrere Symbole vorherzusagen. Es ist auch möglich, andere als die Markow-Modellerstellung zu verwenden, um diese entweder ganz zu ersetzen oder zu ergänzen. Die Symbolgröße ist für gewöhnlich statisch, typischerweise ein einzelnes Byte, was die generische Unterstützung jeglicher Dateiformate leicht macht.

Veröffentlichungen über Forschungen an dieser Algorithmusfamilie finden sich bis zurück in die Mitte der 1980er Jahre. Softwareumsetzungen erfreuten sich bis zu den frühen 1990er Jahren keiner Beliebtheit, da PPM-Algorithmen eine beachtliche Menge an Arbeitsspeicher benötigen. Neuere Umsetzungen von PPM finden sich unter den leistungsfähigsten verlustfreien Datenkompressionsverfahren für Text in natürlichen Sprachen.

Der Versuch, PPM-Algorithmen zu verbessern, führte zu den PAQ-Kompressionsalgorithmen.

Literatur

  • J. Cleary, I. Witten: Data Compression Using Adaptive Coding and Partial String Matching. In: Communications, IEEE Transactions on. 32, Nr. 4, 1984, S. 396–402, doi:10.1109/TCOM.1984.1096090.
  • A. Moffat: Implementing the PPM data compression scheme. In: Communications, IEEE Transactions on. 38, Nr. 11, 1990, S. 1917–1921, doi:10.1109/26.61469.
  • J. G. Cleary, W. J. Teahan, I. H. Witten: Unbounded length contexts for PPM. In: Proceedings DCC-95. IEEE Computer Society Press, 1995 (PDF). Alternativ: J. G. Cleary, W. J. Teahan: Unbounded Length Contexts for PPM. In: The Computer Journal. 40, Nr. 2–3, 1997, S. 67–75, doi:10.1093/comjnl/40.2_and_3.67.
  • C. Bloom, Solving the problems of context modeling.
  • W. J Teahan: Probability estimation for PPM. In: Proceedings NZCSRSC'95. 1995 (HTML, abgerufen am 28. Februar 2011).
  • Thomas Schürmann, Peter Grassberger: Entropy estimation of symbol sequences. In: Chaos: An Interdisciplinary Journal of Nonlinear Science. 6, Nr. 3, 1996, S. 414, arXiv:cond-mat/0203436v1, doi:10.1063/1.166191.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Prediction by Partial Matching — (PPM) is an adaptive statistical data compression technique based on context modeling and prediction. PPM models use a set of previous symbols in the uncompressed symbol stream to predict the next symbol in the stream.Predictions are usually… …   Wikipedia

  • Prediction by Partial Matching — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs …   Wikipédia en Français

  • Prediction by Partial Matching (Algoritmo de compresión) — Saltar a navegación, búsqueda El algoritmo Prediction by Partial Matching (en español Predicción por Coincidencia Parcial) o PPM es una técnica adaptativa estadística de compresión de datos basada en el modelo de contexto y predicción. Los… …   Wikipedia Español

  • Prediction par reconnaissance partielle — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs …   Wikipédia en Français

  • Prédiction par reconnaissance partielle — Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs inventée par John Cleary et Ian Witten… …   Wikipédia en Français

  • Memory-prediction framework — The memory prediction framework is a theory of brain function that was created by Jeff Hawkins and described in his 2004 book On Intelligence. This theory concerns the role of the mammalian neocortex and its associations with the hippocampus and… …   Wikipedia

  • PPMII — Prédiction par reconnaissance partielle Les algorithmes de prédiction par reconnaissance partielle (ou PPM pour Prediction by Partial Matching) constituent une famille d algorithmes de compression de données sans perte, statistiques et adaptatifs …   Wikipédia en Français

  • PPMD — Prediction by Partial Matching (PPM) ist eine Familie anpassender statistischer Datenkompressionsalgorithmen, die auf Kontextmodellen und Prognose aufbaut. PPM Modelle benutzen einen Satz von Symbolen aus dem vorangegangenen Symbolstrom, um das… …   Deutsch Wikipedia

  • PPMdH — Prediction by Partial Matching (PPM) ist eine Familie anpassender statistischer Datenkompressionsalgorithmen, die auf Kontextmodellen und Prognose aufbaut. PPM Modelle benutzen einen Satz von Symbolen aus dem vorangegangenen Symbolstrom, um das… …   Deutsch Wikipedia

  • Data compression — Source coding redirects here. For the term in computer programming, see Source code. In computer science and information theory, data compression, source coding or bit rate reduction is the process of encoding information using fewer bits than… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”