Wrapper (Informationsextraktion)

Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)

Als Wrapper bezeichnet man im Informatik-Teilbereich der Informationsextraktion eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von (semi-)strukturierten Daten aus einer bestimmten Datenquelle (Text). Dabei werden je nach Art der zu extrahierenden Datensätze unterschiedliche Wrapper benötigt. Im Zusammenhang mit Feature Subset Selection existieren zudem unterschiedliche Ansätze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensätzen.

Allgemeines

LR-Wrapper

Ein LR Wrapper besteht aus n abgrenzenden Paaren $< l i, r i >$

foreach $<l_i,r_i> \in \{ <l_1,r_1>, \ldots, <l_n,r_n> \}$

finde das nächste

l i

finde das nächste

r i

extrahiere den Text dazwischen und speichere ihn als i-ten Wert des Tupels

Einschränkungen:

Jedes $l i$ muss ein "echtes" Suffix des Textes vor jeder Instanz des Zielobjekts sein. Echt heißt, es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen. Ansonsten werden falsche Tupel extrahiert.
Jedes $r i$ muss ein Präfix des Textes nach jeder Instanz des Zielobjekts sein. Ansonsten wird die Extraktion vorzeitig abgebrochen.

Quelle: ^[1]

Weitere Wrapper

HLRT-Wrapper (Head-Left-Right-Tail-Wrappers): Lerne einen eigenen Begrenzer für den Kopf und das Ende eines Dokumentes. Vor dem Head und nach dem Tail werden alle Vorkommnisse von $< l i, r i >$ ignoriert.

OCLR- und HOCLRT-Wrapper: Lerne für jedes Tupel ein eigenenes Begrenzungspaar.

N-LR- und N-HLRT-Wrapper: Erlaube mehrwertige und optionale Attribute

Quelle: ^[1]

Wrapper und FSS

Folgende einfache Möglichkeiten der Auswahl bestehen:

Forward selection: Starte mit einer leeren Menge von Features und füge immer das Feature hinzu, dass die Accuracy am meisten erhöht bis die Accuracy nicht mehr deutlich zunimmt.
Backward elimination: Starte mit allen Features und versuche ungeeignete zu entfernen
Simple heuristic search: Füge ein Feature nach dem anderen hinzu, bis die Accuracy nicht mehr deutlich zunimmt

Einschränkungen

Keine Permutationen von Attributen möglich
Die Begrenzungspaare sind evtl. nicht ausreichend zur Identifizierung von Texten

Um diese Probleme zu lösen, müssen andere Algorithmen zur Informationsextraktion verwendet werden. Etwa ein nicht-deterministischer, adaptiven Mealy-Automaten (z.B. SoftMealy^[2]), der diese Einschränkungen nicht besitzt.

Einzelnachweise

↑ ^a ^b Kushmerick Nicholas: "Wrapper Induction: Efficiency and Expressiveness", Artificial Intelligence 118 (2000), S. 15-68
↑ C.-N. Hsu, M.-T. Dung: Wrapping semistructured web pages with finite-state transducers. In: Proc. Conference on Automatic Learning and Discovery (CONALD-98), 1998.

Literatur

Chidlovskii, B.; Borghoff, U.; Chevalier, P.: Towards sophisticated wrapping of web-based information repositories. In: Proceedings of the Conference on Computer-Assisted Information Retrieval, 1997, S. 123-155
Roth, M., and Schwartz, P.: Don’t scrap it, wrap it! In: Proceedings of the 22nd VLDB Conference, 1997, S. 266–275,

Kategorie:

Maschinelles Lernen

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

Wrapper — bezeichnet: ein Entwurfsmuster aus der objektorientierten Programmierung, siehe Adapter Wrapper (Software), ein Programm, das als Schnittstelle zwischen zwei Programmcodes agiert Wrapper (Informationsextraktion), in der Informationsextraktion… … Deutsch Wikipedia
Crawler — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
Suchroboter — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
Web-Crawler — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
Web Crawler — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
Webspider — Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS Newsfeeds, E… … Deutsch Wikipedia
Screen-Scraping — Der Begriff Screen Scraping (engl., etwa: „Bildschirm auskratzen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet… … Deutsch Wikipedia
Web Scraping — Der Begriff Screen Scraping (engl., etwa: „Bildschirm auskratzen“) umfasst generell alle Verfahren zum Auslesen von Texten aus Computerbildschirmen. Gegenwärtig wird der Ausdruck jedoch beinahe ausschließlich in Bezug auf Webseiten verwendet… … Deutsch Wikipedia
Klassifizierer — Die Artikel Klassifikator (Informatik) und Klassifikationsverfahren überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte… … Deutsch Wikipedia
Webcrawler — Ein Webcrawler (auch Spider oder Searchbot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Wrapper (Informationsextraktion)

Inhaltsverzeichnis

Allgemeines

LR-Wrapper

Weitere Wrapper

Wrapper und FSS

Einschränkungen

Einzelnachweise

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Wrapper (Informationsextraktion)

Inhaltsverzeichnis

Allgemeines

LR-Wrapper

Weitere Wrapper

Wrapper und FSS

Einschränkungen

Einzelnachweise

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link