Datendeduplizierung

Datendeduplizierung

Deduplizierung, auch Data-Deduplication, Datendeduplizierung (engl. Deduplication), ist in der Informationstechnologie ein Prozess, der redundante Daten identifiziert und eliminiert. Der Prozess komprimiert wie andere Verfahren auch die Datenmenge, die von einem Sender an einen Empfänger geschickt werden. Hierbei werden nach Herstellerangaben in Abhängigkeit von der Datenstruktur und dem wiederholten Transport ähnlicher Daten Kompressionsfaktoren von 1:500 erreicht.

Vorrangiges Einsatzgebiet der Deduplizierung ist vorerst die Datensicherung (Backup), bei der sich in der Praxis realistische Datenverdichtungen von 1:12 erzielen lassen. Das Verfahren eignet sich jedoch grundsätzlich für jeden Einsatzfall, bei dem Daten wiederholt kopiert werden.

Inhaltsverzeichnis

Funktionsweise

Deduplication-Systeme arbeiten anders als klassische Kompressionsverfahren, die nur wenige Vergleichsmuster benutzen, auf dem Blocklevel. Hierin liegt auch die Abgrenzung zum Single Instance Storage (SIS), das identische Dateien eliminieren soll (siehe auch inhaltsadressierte Speichersysteme, CAS). Eine wichtige Funktion der Deduplizierung ist das Fingerprinting. Hier werden Dateien in Segmente unterschiedlichster Größe (Chunks) zerlegt. Auf Byte-Ebene wird dann analysiert, welche Segmente die höchste Wiederholrate bieten, um durch Referenzierung (Pointer) auf das Ursprungselement größtmögliche Datenreduzierungen zu bieten.

Ein Beispiel: Bei der Datensicherung von Festplatte auf Bandmedien, ändern sich die Daten von einer Woche zur nächsten, von einer Vollsicherung bis zur nächsten Vollsicherung relativ gering. Zwei Vollsicherungen benötigen deshalb bei der klassischen Datensicherung mindestens die doppelte Speicherkapazität auf Band verglichen mit den Originaldaten. Die Deduplizierung erkennt die identischen Datenbestandteile. In einer Liste werden dazu eindeutige Segmente festgehalten, und beim erneuten Auftreten dieses Datenteils werden Zeitpunkt und Ort im Datenstrom notiert, so dass letztlich die Originaldaten wiederhergestellt werden können.

Diese Zeiger beanspruchen wesentlich weniger Platz als die referenzierte Bitfolge. Wird die Datei wieder aufgerufen, so wird sie sowohl aus ihren einzigartigen Bestandteilen als auch aus den Teilen, die sie mit anderen Dateien gemein hat, zusammengefügt. Der Index besagt, welche Teile das sind und wie sie mit den einzigartigen Bestandteilen verbunden werden müssen, um wieder die Ursprungsdatei zu ergeben.

Methoden

Es gibt zwei Methoden, einen Datei-Bauplan zu erzeugen. Beim Reverse-Referencing wird das erste gemeinsame Element gespeichert, alle weiteren identischen erhalten einen Verweis auf das erste. Forward-Referencing legt immer den zuletzt aufgetretenen, gemeinsamen Datenblock ab und referenziert die vorher aufgetretenen Elemente. Bei diesem Methodenstreit geht es darum, ob Daten schneller verarbeitet respektive schneller wiederhergestellt werden können. Weitere Vorgehensweisen, wie Inband und Outband, konkurrieren darum, ob der Datenstrom „on the fly“, also im laufenden Betrieb, analysiert wird oder erst nachdem dieser am Zielort gespeichert wurde. Im ersten Fall darf nur ein Datenstrom existieren, im zweiten können die Daten mittels mehrerer Datenströme parallel untersucht werden.

Chunking (Fingerprinting)

Das Fingerprinting versucht auch festzustellen, wie der eingehende Datenstrom am besten in Stücke zerlegt werden kann, sodass möglichst viele identische Bauteile entstehen. Dieser Vorgang heißt Chunking (engl. Chunk = Stück, Block).

Identifikation von Blöcken

Je genauer die Änderungen einer Datei bestimmt werden können, desto weniger muss redundant gesichert werden. Allerdings vergrößert sich dadurch der Index, also der Bauplan, wie und aus welchen Bestandteilen die Datei beim Aufruf wieder zusammengesetzt wird. Daher ist auch die Methode der Identifikation von gemeinsamen Blöcken entscheidend.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР
Synonyme:

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Datendeduplizierung — Deduplizierung; Data Deduplication (engl.) …   Universal-Lexikon

  • Deduplizierung — Datendeduplizierung; Data Deduplication (engl.) …   Universal-Lexikon

  • Deduplizierung — Deduplizierung, auch Data Deduplication, Datendeduplizierung (engl. Deduplication), ist in der Informationstechnologie ein Prozess, der redundante Daten identifiziert und eliminiert, bevor diese auf einen nicht flüchtigen Datenträger geschrieben… …   Deutsch Wikipedia

  • BackupPC — Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf… …   Deutsch Wikipedia

  • Data-Deduplication — Deduplizierung; Datendeduplizierung …   Universal-Lexikon

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”