- Web Mining
-
Unter Web-Mining (web mining) auch Webmining versteht man die Übertragung von Techniken des Data-Mining zur (teil)automatischen Extraktion von Informationen aus dem Internet, speziell dem World Wide Web. Webmining übernimmt Verfahren und Methoden aus den Bereichen Information-Retrieval, maschinelles Lernen, Statistik, Mustererkennung und Data-Mining. Dabei können drei Untersuchungsgegenstände unterschieden werden:
- Die Inhalte (Web-Content-Mining) – beispielsweise mit Verfahren des Information Retrieval.
- Die Struktur der Verlinkung (Web-Structure-Mining) - beispielsweise mit Verfahren der Webometrie. Beim Web-Structure-Mining kommen so genannte Hubs zum Einsatz. Es gibt gute Hubs, die auf viele wertvolle Seiten verweisen, und wertvolle Seiten, auf die viele Hubs verweisen.
- Das Benutzerverhalten (Web-Usage-Mining) - beispielsweise durch die Analyse von Logdateien.
Inhaltsverzeichnis
Arten des Webmining
Web-Usage-Mining versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert.
Web-Structure-Mining versucht, die einer Webseite bzw. Domäne zugrunde liegende Verweisstruktur zu erkennen. Basierend auf der Topologie der Verweise (Hyperlinks) der Webseite, mit optionaler Beschreibung derselben, wird ein Modell erstellt. Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten (sog. Authorities) und überblicksartige Webseiten (sogenannte Hubs) für ein bestimmtes Thema ausfindig gemacht werden (vgl. HITS Algorithmus).
Web-Content-Mining befasst sich mit der Erkennung von Regularitäten in den Inhalten einer Webressource. Web Content-Mining ist ein Anwendungsgebiet für das Textmining. Die Inhalte der Daten im Web bestehen aus unstrukturierten Daten wie Text Dokumenten, semi-strukturierten Daten wie HTML-Dokumenten und stärker strukturierten Daten wie Tabellen oder dynamisch generierten HTML-Seiten. Grundsätzlich bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie Texten, Bildern, Audio-, Video-, Metadaten und Hyperlinks. Web-Content-Mining von multiplen Datentypen wird als „Multimedia-Data-Mining“ bezeichnet und kann als Instanz von Web-Content-Mining verstanden werden. Hauptsächlich bestehen die Inhalte des Webs jedoch aus unstrukturiertem Text. Textmining kann als Instanz und übergeordnetes Forschungsgebiet von Web-Content-Mining verstanden werden. Die verwendeten Methoden sind allgemeine Data-Mining-Methoden, wobei statistische und computerlinguistische Verfahren die Transformation der Texte in eine (für das Data-Mining) adäquate Form realisieren.
Siehe auch
Literatur
- Kosala, Raymond und Blockeel, Hendrik (2000), Web Mining Research: A Survey, SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, ACM, Volume 2, Issue 1, o.O., Seite 1-10, Online: http://www.acm.org/sigs/sigkdd/explorations/issues/2-1-2000-06/kosala.pdf [1. November 2006]
- Ehrig, Marc; Hartmann, Jens und Schmitz, Christoph (2004), Ontologiebasiertes Web Mining, in: Informatik 2004: Informatik verbindet, Beiträge der 34. Jahrestagung der Gesellschaft für Informatik e.V., Köllen Druck+Verlag GmbH, Bonn, Deutschland, Seite 187 – 193, Online: http://www.uni-karlsruhe.de/WBS/meh/publications/ehrig04metis.pdf [1. November 2006]
- Bensberg, F.; Web Log Mining als Instrument der Marketingforschung; Wiesbaden 2001.
- Leibold, M.; Web Log Mining im PR-Controlling; München 2006.
Weblinks
- http://www.cs.umbc.edu/~kolari1/Mining/webmining.html – Linksammlung wissenschaftlicher Artikel
- http://www.mindup.de/html/web-mining.html - Review-Artikel
- YALE (Yet Another Learning Environment): freie Open-Source-Software für Knowledge Discovery, Data Mining inklusive Web Mining und Text Mining, Maschinelles Lernen, etc. (heute: RapidMiner): YALE bietet zusammen mit dem ebenfalls freien WordVectorTool eine kostenlose komplette Software-Umgebung für zahlreiche Web Mining und Text Mining Aufgaben
- Idea Web Miner – freies Tool für Web Content Mining einschließlich Web Log Mining, Web Patent Mining und Web News Mining
Wikimedia Foundation.