- RoadRunner
-
Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)
Begründung: Vollprogramm oder löschen. Das Programm wird schon lange nicht mehr aktuallisiert.--Boshomi 13:30, 29. Okt. 2011 (CEST)RoadRunner Aktuelle Version 0.02.11
(2004)Betriebssystem plattformunabhängig Programmiersprache Java Kategorie Wrapper, Parsergenerator Lizenz GNU General Public License Deutschsprachig nein RoadRunner RoadRunner ist ein Java Programm zur Beobachtung von Informationen von HTML-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) regulärer Ausdruck berechnet, der die Unterschiede der Dateien beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch Grammatik basierte Wrapper erzeugt.
Beispiel
Eine Buch-Katalog Homepage bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z.B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine Tabelle von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel, usw.) automatisch aus den Seiten zu extrahieren.
Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die Labels A, B und C enthält und eine XML-Datei mit den extrahierten Daten für jedes Label.
Beispiel von extrahierten Daten in Tabellenform:
Label Datum A Max Frisch B Homo Faber C 1965 A Stefan Zweig B Der Amokläufer C 1930 ... ... Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:
Label Bedeutung A Autor B Titel C Jahr Literatur
- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In: Proceedings of the 27th Conference on Very Large Databases (VLDB). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: Automatic Web Information Extraction in the RoadRunner System. In: International Workshop on Data Semantics in Web Information Systems (DASWIS). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca: Automatic information extraction from large websites. In: Journal of the ACM. 51, Nr. 5, 2004, ISSN 0004-5411, S. 731-779, doi:10.1145/1017460.1017462.
Weblinks
Kategorie:- Java-Programm
Wikimedia Foundation.