Web-Mining

Unter Web-Mining versteht man die Übertragung von Techniken des Data-Mining zur (teil)automatischen Extraktion von Informationen aus dem Internet, speziell dem World Wide Web. Web Mining übernimmt Verfahren und Methoden aus den Bereichen Information-Retrieval, Maschinelles Lernen, Statistik, Mustererkennung und Data Mining. Dabei können drei Untersuchungsgegenstände unterschieden werden:

Die Inhalte (Web-Content-Mining) – beispielsweise mit Verfahren des Information Retrieval.
Die Struktur der Verlinkung (Web-Structure-Mining) - beispielsweise mit Verfahren der Webometrie. Beim Web Structure Mining kommen so genannte Hubs zum Einsatz. Es gibt gute Hubs, die auf viele wertvolle Seiten verweisen, und wertvolle Seiten, auf die viele Hubs verweisen.
Das Benutzerverhalten (Web-Usage-Mining) - beispielsweise durch die Analyse von Logdateien.

Arten des Web-Mining

Web Usage Mining versucht Regularitäten in der Benutzung von Webseiten bzw. Webressourcen zu erkennen. Dabei werden alle sekundären Daten, die durch Interaktion des Benutzers mit einer Webressource entstehen, verarbeitet und analysiert.

Web Structure Mining versucht, die einer Webseite bzw. Domäne zugrunde liegende Verweisstruktur zu erkennen. Basierend auf der Topologie der Verweise (Hyperlinks) der Webseite, mit optionaler Beschreibung derselben, wird ein Modell erstellt. Dieses kann für die Kategorisierung und das Ranking einer Webseite nützlich sein und lässt Rückschlüsse auf Ähnlichkeiten zwischen Webseiten und deren Beziehungen zueinander zu. Zum Beispiel könnten inhaltsreiche Webseiten (sog. Authorities) und überblicksartige Webseiten (sogenannte Hubs) für ein bestimmtes Thema ausfindig gemacht werden (vgl. HITS Algorithmus).

Web Content Mining befasst sich mit der Erkennung von Regularitäten in den Inhalten einer Webressource. Web Content Mining ist ein Anwendungsgebiet für das Textmining. Die Inhalte der Daten im Web bestehen aus unstrukturierten Daten wie Text Dokumenten, semi-strukturierten Daten wie HTML-Dokumenten und stärker strukturierten Daten wie Tabellen oder dynamisch generierten HTML-Seiten. Grundsätzlich bestehen die Inhalte einer Webseite aus verschiedenen Datentypen, wie Texten, Bildern, Audio-, Video-, Metadaten und Hyperlinks. Web Content Mining von multiplen Datentypen wird als „Multimedia Data Mining“ bezeichnet und kann als Instanz von Web Content Mining verstanden werden. Hauptsächlich bestehen die Inhalte des Webs jedoch aus unstrukturiertem Text. Text Mining kann als Instanz und übergeordnetes Forschungsgebiet von Web Content Mining verstanden werden. Die verwendeten Methoden sind allgemeine Data-Mining-Methoden, wobei statistische und computerlinguistische Verfahren die Transformation der Texte in eine (für das Data Mining) adäquate Form realisieren.

Siehe auch

Literatur

Kosala, Raymond und Blockeel, Hendrik (2000), Web Mining Research: A Survey, SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, ACM, Volume 2, Issue 1, o.O., Seite 1-10, Online: http://www.acm.org/sigs/sigkdd/explorations/issues/2-1-2000-06/kosala.pdf [01.11.06]
Ehrig, Marc; Hartmann, Jens und Schmitz, Christoph (2004), Ontologiebasiertes Web Mining, in: Informatik 2004: Informatik verbindet, Beiträge der 34. Jahrestagung der Gesellschaft für Informatik e.V., Köllen Druck+Verlag GmbH, Bonn, Deutschland, Seite 187 – 193, Online: http://www.uni-karlsruhe.de/WBS/meh/publications/ehrig04metis.pdf [01.11.2006]
Bensberg, F.; Web Log Mining als Instrument der Marketingforschung; Wiesbaden 2001.
Leibold, M.; Web Log Mining im PR-Controlling; München 2006.
Mehler, Alexander und Wolff, Christian (2005), Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland.

Weblinks

http://www.cs.umbc.edu/~kolari1/Mining/webmining.html – Linksammlung
http://www.mindup.de/html/web-mining.html - Review-Artikel
YALE (Yet Another Learning Environment): freie Open-Source-Software für Knowledge Discovery, Data Mining inklusive Web Mining und Text Mining, Maschinelles Lernen, etc.: YALE bietet zusammen mit dem ebenfalls freien WordVectorTool eine kostenlose komplette Software-Umgebung für zahlreiche Web Mining und Text Mining Aufgaben

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

Web mining — is the application of data mining techniques to discover patterns from the Web. According to analysis targets, web mining can be divided into three different types, which are Web usage mining, Web content mining and Web structure mining.Web usage … Wikipedia
Web Mining — Unter Web Mining (web mining) auch Webmining versteht man die Übertragung von Techniken des Data Mining zur (teil)automatischen Extraktion von Informationen aus dem Internet, speziell dem World Wide Web. Webmining übernimmt Verfahren und Methoden … Deutsch Wikipedia
Web mining — El Web mining o Webmining es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información tanto del contenido de las páginas, de su estructura de relaciones (enlaces) y de los registro de… … Wikipedia Español
Web-Forschung — bezeichnet die empirische und methodische Forschung über oder mit Hilfe des Internets. Sie weist dabei drei Hauptbezüge auf: Internet als Gegenstand Internet als Medium Internet als Methode Inhaltsverzeichnis 1 Begriffliche Abgrenzung 2… … Deutsch Wikipedia
Web Scraping — Der Begriff Screen Scraping (engl., etwa: „Bildschirm auskratzen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet… … Deutsch Wikipedia
Mining in South Africa — has been the main driving force behind the history and development of Africa s most advanced and richest economy. Large scale and profitable mining started with the discovery of a diamond on the banks of the Orange River in 1867 by Erasmus Jacobs … Wikipedia
Mining in Egypt — has had a long history that goes back to predynastic times. Egypt has substantial mineral resources, including 48 million tons of tantalite (fourth largest in the world), 50 million tons of coal, and an estimated 6.7 million ounces of gold in the … Wikipedia
Mining in Cornwall — first began in the early Bronze Age approximately 2,150 BC and ended with the South Crofty tin mine closing in 1998.HistoryMining in Cornwall has existed from the early Bronze Age around 2,150 B.C. Cornwall is thought to have been visited by… … Wikipedia
Web 3.0 — is one of the terms used to describe the evolutionary stage of the Web that follows Web 2.0. Given that technical and social possibilities identified in this latter term are yet to be fully realised the nature of defining Web 3.0 is highly… … Wikipedia
Mining industry of Ghana — accounts for 5% of the country s GDP and minerals make up 37% of total exports, of which gold contributes over 90% of the total mineral exports. Thus, the main focus of Ghana s mining and minerals development industry remains focused on gold.… … Wikipedia

Academic dictionaries and encyclopedias

Web-Mining

Inhaltsverzeichnis

Arten des Web-Mining

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Web-Mining

Inhaltsverzeichnis

Arten des Web-Mining

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link