XML Information Retrieval

XML Information Retrieval

XML-Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1]

Inhaltsverzeichnis

Anfragen

Die meisten Ansätze für das XML-Retrieval basieren auf Techniken aus dem Bereich des Information Retrievals (IR) und berechnen beispielsweise die Ähnlichkeit zwischen einer aus Stichworten bestehenden Anfrage und dem Dokument. In XML-Retrieval kann die Anfrage darüber hinaus auch Strukturhinweise enthalten. Sogenannte content and structure (CAS) Anfragen ermöglichen es dem Benutzer, die XML-Struktur zu spezifizieren, die den gewünschten Suchterm enthalten soll oder kann.

Nutzung von XML-Struktur

Die selbstbeschreibende Struktur von XML-Dokumenten kann dazu genutzt werden, die Suche nach XML-Dokumenten teilweise erheblich zu verbessern. Dies umfasst die Verwendung und Nutzung von CAS-Anfragen, die Zuweisung unterschiedlicher Gewichte zu verschiedenen XML-Elementen (so dass z.B. ein Titel-Element höher gewichtet wird als eine Fussnote), oder das fokussierte Retrieval von Teildokumenten.

Ranking

Das Ranking, also die Relevanzbewertung eines Dokumentes, kann beim XML-Retrieval sowohl Inhalt als auch Struktur-Ähnlichkeit berücksichtigen, also die Ähnlichkeit zwischen der Struktur, die in der CAS-Anfrage angegeben wurde und der Struktur im zu bewertenden Dokument. Darüber hinaus können die Ergebnisse einer strukturierten Anfrage entweder komplette Dokumente sein, oder auch beliebig tief verschachtelte XML-Elemente eines Dokumentes. Das Ziel ist dabei, das kleinste Ergebnis zu finden, das die höchste Relevanz aufweist, wobei Relevanz auch als Spezifität zu verstehen ist, also als das Ausmaß zu dem das Ergebnis auf das gewünschte Ergebnis fokussiert ist.[2]

XML-Suchmaschinen

Die INitiative for the Evaluation of XML-Retrieval (INEX) wurde 2002 gegründet und stellt eine Plattform zur Evaluierung solcher Algorithmen zur Verfügung.[2] Drei Gebiete beeinflussen XML-Retrieval:[3]

  • XML-Anfragesprachen: Anfragesprachen wie der W3C-Standard XQuery ermöglichen komplexe Suchanfragen, jedoch werden nur exakte Treffer ermöglicht, also keine Relevanzberechnung und kein Ranking der Ergebnisse. Sie müssen daher erweitert werden, damit die vage Suche durch Relevanzberechnung möglich ist. Die meisten XML-basierten Ansätze setzen ein genaues Wissen des den Dokumenten zugrundeliegenden Schemas (XML Schema oder DTD) voraus.[4]
  • Datenbanken: Klassische Datenbanksysteme bieten mittlerweile die Möglichkeit, auch semi-strukturierte Daten abzuspeichern,[3] was zur Entwicklung von XML-Datenbanken geführt hat. Oft sind solche Ansätze sehr formal, konzentrieren sich mehr auf die Suche selbst als auf das Ranking, und sind für erfahrene Benutzer gedacht, die komplexe Anfragen formulieren können.
  • Information Retrieval: Klassische Information-Retrieval-Modelle wie das Vector-Space-Modell basieren auf Relevanzberechnungen, sie nutzen jedoch keine Dokumentenstruktur aus, sondern erlauben lediglich einfache Anfragen. Sie setzen des Weiteren auf ein statisches Dokumentenkonzept, so dass die Ergebnisse üblicherweise aus kompletten Dokumenten bestehen.[4] Sie können jedoch erweitert werden, um Strukturinformation und dynamisches Dokumentenretrieval zu ermöglichen. Solche Ansätze benutzen Dokument-Teilbäume (Index-Terme plus Struktur) als Dimensionen des Vektorraums.

Literatur

  • S. Amer-Yahia, Mounia Lalmas: XML Search: Languages, INEX and Scoring. SIGMOD Rec. Vol. 35, No. 4, 2006
  • S. Liu, Q. Zou, W. Chu: Configurable Indexing and Ranking for XML Information Retrieval. In: Proc. of the 27th Annual International ACM SIGIR Conference, ACM Press, 2004
  • Sukomal Pal: XML Retrieval – A Survey. 2007, Technical Report, CVPR (PDF-Version)

Einzelnachweise

  1. Judith Winter, Oswald Drobnik: An Architecture for XML Information Retrieval in a Peer-to-Peer Environment. ACM PIKM2007 at ACM 16th Conference on Information and Knowledge Management (CIKM 2007), Lisbon, Portugal, 2007.
  2. a b Sadia Malik, Andrew Trotman, Mounia Lalmas, Norbert Fuhr: Overview of INEX 2006. In: Proc. of the Fifth Workshop of the INitiative for the Evaluation of XML Retrieval, Germany, 2007.
  3. a b Norbert Fuhr, N. Gövert, Gabriella Kazai, Mounia Lalmas (Hrsg.): INitiative for the Evaluation of XML Retrieval (INEX). In: Proc. of the First INEX Workshop, Dagstuhl, Germany, 2002, ERCIM Workshop Proceedings, France, 2003
  4. a b Torsten Schlieder, H. Meuss: Querying and Ranking XML Documents. Journal of the American Society for Information Science and Technology, Vol. 53, No. 6, 2002

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Information retrieval — This article is about information retrieval in general. For the fictional government department, see Brazil (film). Information retrieval (IR) is the area of study concerned with searching for documents, for information within documents, and for… …   Wikipedia

  • XML-Retrieval — XML Retrieval, or XML Information Retrieval[1], is the content based retrieval of documents structured with XML (eXtensible Markup Language). As such it is used for computing relevance of XML documents.[2] Contents 1 Queries 2 Exploiting XML st …   Wikipedia

  • XML Retrieval — oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • XML-Retrieval — oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking …   Deutsch Wikipedia

  • Inhaltsbasiertes XML-Retrieval — XML Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • Information Systems — Die Wirtschaftsinformatik ist die Wissenschaft von Entwurf, Entwicklung und Anwendung von Informations und Kommunikationssystemen in Unternehmen in Wirtschaft und Öffentlicher Verwaltung (siehe Informationssystem). Durch ihre Interdisziplinarität …   Deutsch Wikipedia

  • Information visualization — Informationsvisualisierung (engl. Information Visualization) ist ein Forschungsgebiet, das sich mit den computer unterstützten Methoden zur graphischen Repräsentation großer Mengen von Daten beschäftigt, die nicht unmittelbar mit physikalischen… …   Deutsch Wikipedia

  • Information extraction — In natural language processing, information extraction (IE) is a type of information retrieval whose goal is to automatically extract structured information, i.e. categorized and contextually and semantically well defined data from a certain… …   Wikipedia

  • Document retrieval — is defined as the matching of some stated user query against a set of free text records. These records could be any type of mainly unstructured text, such as newspaper articles, real estate records or paragraphs in a manual. User queries can… …   Wikipedia

  • Portal:Library and information science — Wikipedia portals: Culture Geography Health History Mathematics Natural sciences People Philosophy Religion Society Technology The Library and Information Science Portal …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”