Web-Archivierung

Web-Archivierung

Web-Archivierung ist das Sammeln und dauerhafte Ablegen von Netzpublikationen mit dem Zweck, in der Zukunft Öffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu können.

Die größte internationale Einrichtung zur Web-Archivierung ist das Internet Archive in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen Ländern unternehmen Anstrengungen zur Sicherung der Netzüberlieferung in ihrem Bereich.

Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags blieb aber zunächst mangelhaft. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibiliothek) verabschiedet, das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundesländer planen, ihre Pflichtexemplar-Gesetze in diesem Sinne zu ändern oder haben die Änderung bereits vollzogen.

Inhaltsverzeichnis

Archivierungsziele

Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Präsenzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die Häufigkeit der Archivierung vorab zu klären.

Eine archivierte Website sollte mit allen multimedialen Funktionen (HTML-Code, Stylesheets, JavaScript, Bilder und Video) auf Dauer erhalten werden. Der späteren Beschreibung, Nutzung und Erhaltung dienen Metadaten wie Provenienz, Übernahmezeitpunkt, MIME-Type und Umfang der Daten. Die Metadaten sichern Authentizität und Integrität der digitalen Archivalien.

Nach der Übernahme sind technische und juristische Vorkehrungen zu treffen, um eine ständige öffentliche Zugänglichkeit zu garantieren.

Auswahlverfahren

Unspezifisch

Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des großen Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).

Auswahlliste

Eine Liste von Institutionen wird vorab festgelegt. Die Stabilität der mit den Institutionen verbundenen URLs ist regelmäßig zu prüfen.

Nutzung von Zugriffsstatistiken

In Zukunft ist ein „intelligentes“ Harvesting denkbar, das aufgrund von Zugriffszählungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

Übernahmemethoden

Remote harvesting

Die üblichste Archivierungsmethode ist die Nutzung eines Web-Crawlers. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt.

Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenmäßiger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschränkungen hinsichtlich Tiefe und der zu archivierenden Dateiarten möglich.

Bei größeren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges können sich unter Umständen sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem FIFO-Verfahren oder als Prioritätswarteschlange abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorität durch neue Einträge ersetzt werden.

Die Ausgangsstruktur auf dem Server lässt sich allerdings im Archiv nur selten exakt nachbauen.

Beispiele sind:

  • Heritrix
  • HTTrack
  • Offline Explorer

Archivierung des „Hidden Web“

Das Hidden Web oder Deep Web bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repräsentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ändert sich das Web ständig und es erscheint als würde dieses eine unendliche Größe besitzen. Zur Übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf XML beruht. Für einen solchen Zugang sind die Tools DeepArc (Bibliothèque nationale de France) und Xinq (National Library of Australia) entwickelt worden.

Transactional archiving

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist für Einrichtungen von Bedeutung, die aus rechtlichen Gründen einen Nachweis über ihre Nutzung zu führen haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Web-Content-Lifecycle — Der Content Lifecycle bzw. Inhaltslebenszyklus beschreibt die Lebensphasen des Inhaltes eines Dokumentes. Diese bauen sich wie folgt auf: Schema Web Content Lifecycle Inhaltsverzeichnis 1 Inhalte erstellen …   Deutsch Wikipedia

  • Web Content Lifecycle — Der Content Lifecycle bzw. Inhaltslebenszyklus beschreibt die Lebensphasen des Inhaltes eines Dokumentes. Diese bauen sich wie folgt auf: Schema Web Content Lifecycle Inhaltsverzeichnis 1 …   Deutsch Wikipedia

  • Archivierung — Eingang zu den Archivkammern im Palast des Assurbanipals Zeichnung eines A …   Deutsch Wikipedia

  • Web-Publikation — Als Netzpublikationen oder Online Publikationen bezeichnet man elektronische Publikationen, die nicht auf einem physikalischen Datenträger, sondern über das Internet angeboten werden. Inhaltsverzeichnis 1 Erscheinungsformen 2 Archivierung 3… …   Deutsch Wikipedia

  • Web-Publishing — Als Netzpublikationen oder Online Publikationen bezeichnet man elektronische Publikationen, die nicht auf einem physikalischen Datenträger, sondern über das Internet angeboten werden. Inhaltsverzeichnis 1 Erscheinungsformen 2 Archivierung 3… …   Deutsch Wikipedia

  • Web-Veröffentlichung — Als Netzpublikationen oder Online Publikationen bezeichnet man elektronische Publikationen, die nicht auf einem physikalischen Datenträger, sondern über das Internet angeboten werden. Inhaltsverzeichnis 1 Erscheinungsformen 2 Archivierung 3… …   Deutsch Wikipedia

  • Web-Radio — Dieser Artikel oder Absatz stellt die Situation in Deutschland dar. Hilf mit, die Situation in anderen Ländern zu schildern. Als Internetradio (auch Webradio) bezeichnet man ein Internet basiertes Angebot an Hörfunksendungen. Die Übertragung… …   Deutsch Wikipedia

  • Elektronische Archivierung — steht für die unveränderbare, langzeitige Aufbewahrung elektronischer Information im Sinne des Enterprise Content Management. Für die elektronische Archivierung werden in der Regel spezielle Archivsysteme eingesetzt. Der Begriff Elektronische… …   Deutsch Wikipedia

  • VR-Web — Fiducia IT AG Unternehmensform Aktiengesellschaft (AG) Gründung 1924 Unternehmenssitz …   Deutsch Wikipedia

  • SAP Web Application Server — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. SAP Web Application Server Entwickler …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”