RoadRunner

RoadRunner
QS-Informatik

Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)
Begründung: Vollprogramm oder löschen. Das Programm wird schon lange nicht mehr aktuallisiert.--Boshomi 13:30, 29. Okt. 2011 (CEST)

RoadRunner
Aktuelle Version 0.02.11
(2004)
Betriebssystem plattformunabhängig
Programmier­sprache Java
Kategorie Wrapper, Parsergenerator
Lizenz GNU General Public License
Deutschsprachig nein
RoadRunner

RoadRunner ist ein Java Programm zur Beobachtung von Informationen von HTML-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) regulärer Ausdruck berechnet, der die Unterschiede der Dateien beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch Grammatik basierte Wrapper erzeugt.

Beispiel

Eine Buch-Katalog Homepage bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z.B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine Tabelle von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel, usw.) automatisch aus den Seiten zu extrahieren.

Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die Labels A, B und C enthält und eine XML-Datei mit den extrahierten Daten für jedes Label.

Beispiel von extrahierten Daten in Tabellenform:

Label Datum
A Max Frisch
B Homo Faber
C 1965
A Stefan Zweig
B Der Amokläufer
C 1930
... ...

Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:

Label Bedeutung
A Autor
B Titel
C Jahr

Literatur

  • Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In: Proceedings of the 27th Conference on Very Large Databases (VLDB). 2001 (PDF).
  • Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: Automatic Web Information Extraction in the RoadRunner System. In: International Workshop on Data Semantics in Web Information Systems (DASWIS). 2001 (PDF).
  • Valter Crescenzi, Giansalvatore Mecca: Automatic information extraction from large websites. In: Journal of the ACM. 51, Nr. 5, 2004, ISSN 0004-5411, S. 731-779, doi:10.1145/1017460.1017462.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Roadrunner — Saltar a navegación, búsqueda Roadrunner puede hacer referencia a: Roadrunner Records, un sello discográfico; IBM Roadrunner, un supercomputador; el Correcaminos, personaje de la serie de dibujos animados El Coyote y el Correcaminos. Obtenido de… …   Wikipedia Español

  • Roadrunner — ist die englische Bezeichnung für den Wegekuckuck ein Informationsextraktion Tool der automatische Wrapper Generator RoadRunner eine Zeichentrickserie: Road Runner und Wile E. Coyote ein Supercomputer von IBM: IBM Roadrunner ein Auto: Plymouth… …   Deutsch Wikipedia

  • Roadrunner — Roadrunner: IBM Roadrunner  суперкомпьютер. Roadrunner Records  звукозаписывающая компания, подразделение Warner Music Group. Roadrunner (песня)  популярная песня …   Википедия

  • roadrunner — ► NOUN ▪ a fast running long tailed bird found chiefly in arid country from the southern US to Central America …   English terms dictionary

  • roadrunner — ☆ roadrunner [rōd′run΄ər ] n. a long tailed, crested, desert cuckoo bird (Geococcyx californianus) of the SW U.S. and N Mexico, that can run swiftly: also road runner …   English World dictionary

  • Roadrunner — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Roadrunner est le nom commun du Geococcyx californianus ou Grand géocoucou, un oiseau du désert américain. Roadrunner, le nom original du personnage de… …   Wikipédia en Français

  • roadrunner — /rohd run euhr/, n. either of two large terrestrial cuckoos of the genus Geococcyx of arid regions of the western U.S., Mexico, and Central America, esp. G. californianus (greater roadrunner). Also called chaparral cock. [1855 60, Amer.; ROAD +… …   Universalium

  • roadrunner — UK [ˈrəʊdˌrʌnə(r)] / US [ˈroʊdˌrʌnər] noun [countable] Word forms roadrunner : singular roadrunner plural roadrunners a small brown and white bird with a long tail that runs very fast and lives in deserts in North America …   English dictionary

  • roadrunner — bėgūnės statusas T sritis zoologija | vardynas atitikmenys: lot. Geococcyx angl. roadrunner rus. кукушка подорожник, f pranc. géocoucou, m ryšiai: platesnis terminas – dirvinės gegutės siauresnis terminas – dirvinė bėgūnė siauresnis terminas –… …   Paukščių pavadinimų žodynas

  • Roadrunner Records — Logo des Labels Mutterunternehmen Warner Music Group Aktive Jahre seit 1979 Gründer Cees Wessels …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”