XML Retrieval

XML Retrieval

XML-Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1]

Inhaltsverzeichnis

Anfragen

Die meisten Ansätze für das XML-Retrieval basieren auf Techniken aus dem Bereich des Information Retrievals (IR) und berechnen beispielsweise die Ähnlichkeit zwischen einer aus Stichworten bestehenden Anfrage und dem Dokument. In XML-Retrieval kann die Anfrage darüber hinaus auch Strukturhinweise enthalten. Sogenannte content and structure (CAS) Anfragen ermöglichen es dem Benutzer, die XML-Struktur zu spezifizieren, die den gewünschten Suchterm enthalten soll oder kann.

Nutzung von XML-Struktur

Die selbstbeschreibende Struktur von XML-Dokumenten kann dazu genutzt werden, die Suche nach XML-Dokumenten teilweise erheblich zu verbessern. Dies umfasst die Verwendung und Nutzung von CAS-Anfragen, die Zuweisung unterschiedlicher Gewichte zu verschiedenen XML-Elementen (so dass z.B. ein Titel-Element höher gewichtet wird als eine Fussnote), oder das fokussierte Retrieval von Teildokumenten.

Ranking

Das Ranking, also die Relevanzbewertung eines Dokumentes, kann beim XML-Retrieval sowohl Inhalt als auch Struktur-Ähnlichkeit berücksichtigen, also die Ähnlichkeit zwischen der Struktur, die in der CAS-Anfrage angegeben wurde und der Struktur im zu bewertenden Dokument. Darüber hinaus können die Ergebnisse einer strukturierten Anfrage entweder komplette Dokumente sein, oder auch beliebig tief verschachtelte XML-Elemente eines Dokumentes. Das Ziel ist dabei, das kleinste Ergebnis zu finden, das die höchste Relevanz aufweist, wobei Relevanz auch als Spezifität zu verstehen ist, also als das Ausmaß zu dem das Ergebnis auf das gewünschte Ergebnis fokussiert ist.[2]

XML-Suchmaschinen

Die INitiative for the Evaluation of XML-Retrieval (INEX) wurde 2002 gegründet und stellt eine Plattform zur Evaluierung solcher Algorithmen zur Verfügung.[2] Drei Gebiete beeinflussen XML-Retrieval:[3]

  • XML-Anfragesprachen: Anfragesprachen wie der W3C-Standard XQuery ermöglichen komplexe Suchanfragen, jedoch werden nur exakte Treffer ermöglicht, also keine Relevanzberechnung und kein Ranking der Ergebnisse. Sie müssen daher erweitert werden, damit die vage Suche durch Relevanzberechnung möglich ist. Die meisten XML-basierten Ansätze setzen ein genaues Wissen des den Dokumenten zugrundeliegenden Schemas (XML Schema oder DTD) voraus.[4]
  • Datenbanken: Klassische Datenbanksysteme bieten mittlerweile die Möglichkeit, auch semi-strukturierte Daten abzuspeichern,[3] was zur Entwicklung von XML-Datenbanken geführt hat. Oft sind solche Ansätze sehr formal, konzentrieren sich mehr auf die Suche selbst als auf das Ranking, und sind für erfahrene Benutzer gedacht, die komplexe Anfragen formulieren können.
  • Information Retrieval: Klassische Information-Retrieval-Modelle wie das Vector-Space-Modell basieren auf Relevanzberechnungen, sie nutzen jedoch keine Dokumentenstruktur aus, sondern erlauben lediglich einfache Anfragen. Sie setzen des Weiteren auf ein statisches Dokumentenkonzept, so dass die Ergebnisse üblicherweise aus kompletten Dokumenten bestehen.[4] Sie können jedoch erweitert werden, um Strukturinformation und dynamisches Dokumentenretrieval zu ermöglichen. Solche Ansätze benutzen Dokument-Teilbäume (Index-Terme plus Struktur) als Dimensionen des Vektorraums.

Literatur

  • S. Amer-Yahia, Mounia Lalmas: XML Search: Languages, INEX and Scoring. SIGMOD Rec. Vol. 35, No. 4, 2006
  • S. Liu, Q. Zou, W. Chu: Configurable Indexing and Ranking for XML Information Retrieval. In: Proc. of the 27th Annual International ACM SIGIR Conference, ACM Press, 2004
  • Sukomal Pal: XML Retrieval – A Survey. 2007, Technical Report, CVPR (PDF-Version)

Einzelnachweise

  1. Judith Winter, Oswald Drobnik: An Architecture for XML Information Retrieval in a Peer-to-Peer Environment. ACM PIKM2007 at ACM 16th Conference on Information and Knowledge Management (CIKM 2007), Lisbon, Portugal, 2007.
  2. a b Sadia Malik, Andrew Trotman, Mounia Lalmas, Norbert Fuhr: Overview of INEX 2006. In: Proc. of the Fifth Workshop of the INitiative for the Evaluation of XML Retrieval, Germany, 2007.
  3. a b Norbert Fuhr, N. Gövert, Gabriella Kazai, Mounia Lalmas (Hrsg.): INitiative for the Evaluation of XML Retrieval (INEX). In: Proc. of the First INEX Workshop, Dagstuhl, Germany, 2002, ERCIM Workshop Proceedings, France, 2003
  4. a b Torsten Schlieder, H. Meuss: Querying and Ranking XML Documents. Journal of the American Society for Information Science and Technology, Vol. 53, No. 6, 2002

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • XML-Retrieval — XML Retrieval, or XML Information Retrieval[1], is the content based retrieval of documents structured with XML (eXtensible Markup Language). As such it is used for computing relevance of XML documents.[2] Contents 1 Queries 2 Exploiting XML st …   Wikipedia

  • XML-Retrieval — oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking …   Deutsch Wikipedia

  • Inhaltsbasiertes XML-Retrieval — XML Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • XML Information Retrieval — XML Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • XML Management System — (shortened as XMLMS) is a system that allows queries and manipulation of XML data (similar to RDBMS querying and manipulating generic data). Current XMLMS can be divided into two categories: XML Enabled databases and Native XML databases.XML… …   Wikipedia

  • Information retrieval — This article is about information retrieval in general. For the fictional government department, see Brazil (film). Information retrieval (IR) is the area of study concerned with searching for documents, for information within documents, and for… …   Wikipedia

  • Document retrieval — is defined as the matching of some stated user query against a set of free text records. These records could be any type of mainly unstructured text, such as newspaper articles, real estate records or paragraphs in a manual. User queries can… …   Wikipedia

  • Concept Search — A concept search (or conceptual search) is an automated information retrieval method that is used to search electronically stored unstructured text (for example, digital archives, email, scientific literature, etc.) for information that is… …   Wikipedia

  • Translation memory — A translation memory, or TM, is a type of database that stores segments that have been previously translated. A translation memory system stores the words, phrases and paragraphs that have already been translated and aid human translators. The… …   Wikipedia

  • ECM-Komponenten — Für Enterprise Content Management Systeme (ECMS) werden die unterschiedlichsten ECM Komponenten und Techniken kombiniert, die zum Teil auch als eigenständige Lösungen sinnvoll nutzbar sind ohne den Anspruch an ein unternehmensweites System[1].… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”