Verstecktes Web

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des World Wide Webs, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indiziert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen und ihre Webcrawler werden jedoch ständig weiterentwickelt, daher können Webseiten, die gestern noch zum Deep Web gehörten, heute schon Teil des Oberflächenwebs sein.

Inhaltsverzeichnis

1 Eigenschaften
2 Arten des Deep Web
3 Datenbanken
- 3.1 Dynamisch erstellte Webseiten
- 3.2 Hosts und Fachdatenbanken
4 Ausblick
5 Siehe auch
6 Einzelnachweise
7 Literatur
8 Weblinks

Eigenschaften

Nach einer Studie (Bergmann 2001) der Firma BrightPlanet ergeben sich für das Deep Web folgende Eigenschaften:

Die Datenmenge des Deep Web sei etwa 400 bis 550 mal größer als die des Surface Web. Allein 60 der größten Deep Web Seiten enthalten etwa 750 Terabyte an Informationen, was die Menge des Surface Web um den Faktor 40 übersteigt. Es existieren angeblich mehr als 200.000 Deep-Websites. So haben laut der Studie Webseiten aus dem Deep Web durchschnittlich 50 % mehr Zugriffe pro Monat und seien öfter verlinkt als Webseiten aus dem Surface Web. Das Deep Web sei auch die am schnellsten wachsende Kategorie von neuen Informationen im Web. Trotzdem sei der im Internet suchenden Öffentlichkeit das Deep Web kaum bekannt. Mehr als die Hälfte des Deep Web sei in themenspezifischen Datenbanken angesiedelt. Mehr als 95 % des Deep Web seien gebührenfrei zugänglich.

Da BrightPlanet mit DQM2 eine kommerzielle Suchhilfe anbietet, ist die (möglicherweise stark überschätzte) Größenangabe mit großer Vorsicht zu genießen. Die von BrightPlanet geschätzte Datenmenge des Deep Web^[1] muss um einige Daten bereinigt werden:

Dubletten aus Bibliothekskatalogen, die sich überschneiden
Datensammlung des National Climatic Data Center (361 Terabyte)
Daten der NASA (215 Terabyte)
weitere Datensammlungen (National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa, ...)

Anhand der Anzahl der Datensätze zeigt sich, dass die Studie die Größe des Deep Web um das Zehnfache überschätzt. Allerdings hat allein der Informationsanbieter LexisNexis mit 4,6 Milliarden Datensätzen mehr als die Hälfte der Anzahl der Datensätze des Suchmaschinenprimus Google. Das Deep Web ist daher sicher weitaus größer als das Oberflächenweb.

In einer Untersuchung der University of California, Berkeley aus dem Jahr 2003 wurden folgende Werte als Umfang des Internets ermittelt: Surface Web – 167 Terabyte, Deep Web – 91.850 Terabyte.^[2] Die gedruckten Bestände der Library of Congress in Washington, einer der größten Bibliotheken der Welt, umfassen 10 Terabyte.

Arten des Deep Web

Nach Sherman & Price (2001) werden fünf Typen des Invisible Web unterschieden: „Opaque Web“, „Private Web“, „Proprietary Web“, „Invisible Web“ und „Truly invisible Web“.

Opaque Web

Das Opaque Web (engl. undurchsichtig) sind Webseiten, die indiziert werden könnten, zurzeit aber aus Gründen der technischen Leistungsfähigkeit oder Aufwand-Nutzen-Relation nicht indiziert werden (Suchtiefe, Besuchsfrequenz).

Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden.

Dazu kommen Dateiformate, die nur teilweise erfasst werden können (zum Beispiel PDF-Dateien, Google indiziert nur einen Teil einer PDF-Datei und stellt den Inhalt als HTML zur Verfügung).

Es besteht eine Abhängigkeit von der Häufigkeit der Indizierung einer Webseite (täglich, monatlich). Außerdem sind ständig aktualisierte Datenbestände, Messdaten, Echtzeit-Daten betroffen. Webseiten ohne Hyperlinks oder Navigationssystem, unverlinkte Webseiten, Einsiedler-URLs oder Orphan-Seiten (engl. Waise) fallen ebenfalls darunter.

Private Web

Das Private Web beschreibt Webseiten, die indiziert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indiziert werden.

Dies können Webseiten im Intranet (interne Webseiten) sein, aber auch passwortgeschützte Daten (Registrierung und evtl. Kennwort und Login), Zugang nur für bestimmte IP-Adressen, Schutz vor einer Indizierung durch den Robots Exclusion Standard oder Schutz vor einer Indizierung durch die Meta-Tag-Werte noindex, nofollow und noimageindex im Quelltext der Webseite.

Proprietary Web

Mit Proprietary Web sind Webseiten gemeint, die indiziert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung zugänglich sind (kostenlos oder kostenpflichtig).

Derartige Webseiten sind üblicherweise erst nach einer Identifizierung (webbasierte Fachdatenbanken) abrufbar.

Invisible Web

Unter das Invisible Web fallen Webseiten, die rein technisch gesehen indiziert werden könnten, jedoch aus kaufmännischen oder strategischen Gründen nicht indiziert werden – wie zum Beispiel Datenbanken mit einem Webformular.

Truly Invisible Web

Mit Truly Invisible Web werden Webseiten bezeichnet, die aus technischen Gründen (noch) nicht indiziert werden können. Das können Datenbankformate sein, die vor dem WWW entstanden sind (einige Hosts), Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate (zum Beispiel Flash) genauso wie Dateiformate, die aufgrund ihrer Komplexität nicht erfasst werden können (Grafikformate). Dazu kommen komprimierte Daten, oder Webseiten, die nur über eine Benutzernavigation, die Grafiken (Image Maps) oder Scripte (Frames) benutzt, zu bedienen sind.

Datenbanken

Dynamisch erstellte Webseiten

Webcrawler bearbeiten fast ausschließlich statische Webseiten und können viele dynamische Webseiten nicht erreichen, da sie andere Seiten nur durch Hyperlinks erreichen können, jene dynamischen Seiten aber oft erst durch Ausfüllen eines HTML-Formulars, was ein Crawler momentan noch nicht bewerkstelligen kann.

Kooperative Datenbankanbieter erlauben Suchmaschinen über Mechanismen wie JDBC einen Zugriff auf den Inhalt ihrer Datenbank, gegenüber den (normalen) nicht-kooperativen Datenbanken, die den Datenbankzugriff nur über ein Such-Formular bieten.

Hosts und Fachdatenbanken

Hosts sind kommerzielle Informationsanbieter, die Fachdatenbanken unterschiedlicher Informationsproduzenten innerhalb einer Oberfläche bündeln. Manche Datenbankanbieter (Hosts) oder Datenbankproduzenten selbst betreiben relationale Datenbanken, deren Daten nicht ohne eine spezielle Zugriffsmöglichkeit (Retrieval-Sprache, Retrieval-Tool) abgerufen werden können. Webcrawler verstehen weder die Struktur noch die Sprache, die benötigt wird, um Informationen aus diesen Datenbanken auszulesen. Viele Hosts sind seit den 1970er Jahren als Online-Dienst tätig und betreiben in ihren Datenbanken teilweise Datenbanksysteme, die lange vor dem WWW entstanden sind.

Beispiele für Datenbanken: Bibliothekskataloge (OPAC), Börsenkurse, Fahrpläne, Gesetzestexte, Jobbörsen, Nachrichten, Patente, Telefonbücher, Webshops, Wörterbücher.

Ausblick

Dieser Artikel oder Abschnitt ist nicht hinreichend mit Belegen (Literatur, Webseiten oder Einzelnachweisen) versehen. Die fraglichen Angaben werden daher möglicherweise demnächst gelöscht. Hilf Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Bitte entferne erst danach diese Warnmarkierung.

Suchmaschinen machen zunehmend die Inhalte des Deep Web zugänglich und recherchierbar (Produktsuche, Routenplaner, Patente, Wetter). Zudem entwickeln sie sich weg vom bisher maßgeblichen Page-Rank hin zu einer Orientierung an den personalisierten Bedürfnissen des Nutzers. Bei einer Recherche nach aktuellen Fachinformationen ist eine Suche mit Suchmaschinen zurzeit noch unzulänglich. Gute Informationen benötigen die Kenntnis über entsprechende kostenlose Fachdatenbanken und deren Einstiegsadressen – oder kosten Geld (Host). Das Wissen über geeignete Gateways zu Informationsressourcen ist jedoch unter Nutzern wenig verbreitet. Es entwickelt sich zunehmend eine Zahlungsbereitschaft für qualitativ hochwertige Daten.

Siehe auch

Nachschlagewerke im Internet
Information Retrieval
semantisches Web

Einzelnachweise

Literatur

Bergman, Michael K.: The Deep Web: Surfacing Hidden Value, The Journal of Electronic Publishing, Jahrgang 7, Nr.1, 2001 [1]
Warnick, W. L. et al.: Searching the Deep Web, D-Lib Magazine, January 2001, Volume 7 Number 1, ISSN 1082-9873 [2]
Sherman, Chris; Price, Gary; The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See, Cyberage Books 2001, ISBN 0-910965-51-X, Webseite zum Buch, Stand 2001
Lewandowski, Dirk; Mayr, Philipp: Exploring the Academic Invisible Web, Library Hi Tech 24(2006)4, 529-539
Alex Wright: Exploring a ‘Deep Web’ That Google Can’t Grasp, New York Times, 22. Februar 2009

Weblinks

Was die Suchmaschine nicht findet, Deutschlandradio, 30. August 2006
The invisible web: uncovering sources search engines can't see. Chris Sherman; Gary Price. Full Text: COPYRIGHT 2003 University of Illinois at Urbana-Champaign (aus dem Internet Archive, da Original-Seite nicht mehr vorhanden)
The Deep Web, Universitätsbibliothek Albany, New York (aus dem Internet Archive, da Original-Seite nicht mehr vorhanden)
Those Dark Hiding Places: The Invisible Web Revealed
Uni Konstanz, Von der Kommerzialisierung bis zum Deep Web, Problemfelder der Internetsuche, und andere Texte (PDF-Dokument)
Was Google nicht findet, Universitätsbibliothek Bielefeld
The Ultimate Guide to the Invisible Web, The Online Education Database

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

Deep-web — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes… … Deutsch Wikipedia
Deep Web — Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des World Wide Webs, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen… … Deutsch Wikipedia
Hidden Web — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes… … Deutsch Wikipedia
Invisible Web — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes… … Deutsch Wikipedia
Deep Internet — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes… … Deutsch Wikipedia
Str8ts — Offizielles Logo Str8ts ist ein Logikrätsel, das an Sudoku erinnert. Auch bei Str8ts wird ein 9 x 9 Gitter so mit den Ziffern 1 bis 9 gefüllt, dass jede Ziffer in jeder Spalte und in jeder Zeile nur einmal vorkommt. Anders als bei… … Deutsch Wikipedia
ARIS Toolset — Das ARIS Toolset ist ein Software Werkzeug der Darmstädter Software AG zum Entwerfen, Pflegen und Optimieren von Geschäftsprozessen, das auf dem ARIS Konzept basiert. Inhaltsverzeichnis 1 Nutzung 2 Funktionen 3 Technik … Deutsch Wikipedia
Deuteroanomalie — Klassifikation nach ICD 10 H53.5 Farbsinnstörungen Rot Grün Schwäche … Deutsch Wikipedia
Dischromatopsie — Klassifikation nach ICD 10 H53.5 Farbsinnstörungen Rot Grün Schwäche … Deutsch Wikipedia
Rot-Grün-Blindheit — Klassifikation nach ICD 10 H53.5 Farbsinnstörungen Rot Grün Schwäche … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Verstecktes Web

Inhaltsverzeichnis

Eigenschaften

Arten des Deep Web

Opaque Web

Private Web

Proprietary Web

Invisible Web

Truly Invisible Web

Datenbanken

Dynamisch erstellte Webseiten

Hosts und Fachdatenbanken

Ausblick

Siehe auch

Einzelnachweise

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Verstecktes Web

Inhaltsverzeichnis

Eigenschaften

Arten des Deep Web

Opaque Web

Private Web

Proprietary Web

Invisible Web

Truly Invisible Web

Datenbanken

Dynamisch erstellte Webseiten

Hosts und Fachdatenbanken

Ausblick

Siehe auch

Einzelnachweise

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link