- XPATH
-
Die XML Path Language (XPath) ist eine vom W3-Konsortium entwickelte Abfragesprache, um Teile eines XML-Dokumentes zu adressieren. XPath dient als Grundlage einer Reihe weiterer Standards wie XSLT, XPointer und XQuery. Seit ihrer Verabschiedung am 23. Januar 2007 hat XPath 2.0 die seit 1999 gültige Version XPath 1.0 abgelöst.
Als Weiterentwicklungen betrachten lassen sich auch XPointer, das weitergehende Adressierungsmöglichkeiten bietet, und XLink, das die Einbindung von Verweisen in XML-Dokumente standardisiert, sowie XQuery.
Inhaltsverzeichnis
Prinzipien von XPath 1.0
Ein XPath-Ausdruck adressiert Teile eines XML-Dokuments, das dabei als Baum betrachtet wird, wobei einige Unterschiede zum „klassischen“ Baum der Graphentheorie zu beachten sind:
- Knoten (nodes) des Baumes sind XML-Elemente, -Attribute, -Textknoten, -Kommentare, -Namensräume und -Verarbeitungsanweisungen.
- Nur XML-Elemente gelten als
child
im Sinne einer XPath-Achse. Alle anderen Knoten stehen auf der gleichen Hierarchie-Stufe des Baumes wie der Knoten, der sie enthält. - Die Achsen
preceding
,following
,preceding-sibling
undfollowing-sibling
orientieren sich nicht allein an der Baumstruktur, sondern auch an der Reihenfolge der Deklaration der Elemente im XML-Dokument (Linked-Tree).
Ein XPath-Ausdruck setzt sich zusammen aus:- einem oder mehreren Lokalisierungsschritten (Location Steps). Sie werden mit dem Zeichen
/
getrennt. - optional gefolgt von einem oder mehreren Prädikaten (predicates).
Ein Lokalisierungsschritt besteht aus:
- Achse (axis) und
- Knotentest (node-test),
Beliebig viele XPath-Ausdrücke lassen sich mit dem Zeichen | mengenmäßig vereinigen.Es gibt stets verschiedene Möglichkeiten, eine gesuchte Knotenmenge in XPath auszudrücken.
XPath operiert auf der logischen Dokumentenstruktur. Das bedeutet zum Beispiel, dass man Entitäten schon geparst vorfindet oder dass auch eventuelle Standard-Attribute und -Knoten, die durch ein Schema vorgegeben werden, schon im Baum enthalten sind.
Achsen
Durch Angabe von Achsen wird ausgehend vom aktuellen Kontextknoten in der Baumstruktur des XML-Dokuments navigiert.
Wird dabei von der Wurzel des XML-Dokuments ausgegangen, wird dem XPath-Ausdruck das Zeichen
/
vorangestellt.Achse adressierte Knoten Abkürzung child
direkt untergeordnete Knoten weglassen parent
der direkt übergeordnete Elternknoten ..
self
der Kontextknoten selbst (nützlich für zusätzliche Bedingungen) .
ancestor
übergeordnete Knoten ancestor-or-self
übergeordnete Knoten inklusive des Kontextknotens descendant
untergeordnete Knoten descendant-or-self
untergeordnete Knoten inklusive des Kontextknotens .//
following
nachfolgend im XML-Dokument (ohne untergeordnete Knoten) following-sibling
wie following
, und vom gleichenparent
stammendpreceding
vorhergehend im XML-Dokument ohne übergeordnete Knoten[1] preceding-sibling
wie preceding
, und vom gleichenparent
stammendattribute
Attributknoten @
namespace
Namensraumknoten, die aus dem Attribut xmlns
stammenDie fünf Achsen
self
,ancestor
,descendant
,preceding
undfollowing
bilden von einem beliebigen Knoten den gesamten Dokumentbaum ab.Knotentests
Knotentests (geschrieben
Achse::Knotentest
) schränken die Elementauswahl einer Achse ein:- Angabe eines Elementnamens wählt alle entsprechenden Elemente.
Beispiel:/descendant-or-self::Foo
wählt alle Elemente im Dokument, die den Namen „Foo“ haben. - Mit dem Zeichen
*
wählt man beliebige Elemente.
Beispiel:/descendant-or-self::Foo/child::*
wählt alle Elemente im Dokument, die Kinder von Elementen mit dem Namen „Foo“ sind. - Mit
text()
,comment()
undprocessing-instruction()
lassen sich Knoten bestimmten Typs wählen.
Zu beachten ist, dass Attribute und Namensräume nicht in Knotentests, sondern als eigene Achse gewählt werden.
Prädikate
Durch Angabe von Prädikaten kann das Ergebnis weiter eingeschränkt werden. Prädikate werden in eckige Klammern eingeschlossen und können in beliebiger Zahl hintereinander geschrieben werden, wobei die Reihenfolge wesentlich ist. Prädikate können XPath-Ausdrücke enthalten, außerdem kann eine Vielzahl von Funktionen verwendet werden. Die sind zum Beispiel:
- Relationszeichen:
= != and or < > <= >=
- Zeichenkettenfunktionen:
normalize-space()
– Entfernen von Leerzeichen am Anfang und Ende des Strings und Reduktion aufeinanderfolgender Leerzeichen auf einessubstring()
– Einen Teilstring selektierensubstring-before(source, splitter)
– Einen Teilstring vor dem ersten Vorkommen des Trennzeichens selektierensubstring-after(source, splitter)
– Einen Teilstring nach dem ersten Vorkommen des Trennzeichens selektierenstring-length()
– Länge des Strings
- Numerische Funktionen:
+ - * div mod
- Knotenmengen-Funktionen:
count()
– Anzahl der Knoten in einer Knotenmengeid()
– Selektiert Elemente über die DTD-IDname()
– Name des Knotens
Beispiele:
//child::Buch[count(./Seite)<=100][count(./Seite)>=10]
liefert alle Knoten vom Typ „Buch“, die mindestens 10 aber höchstens 100 Kindelemente vom Typ „Seite“ haben.
(das gleiche leistet
//Buch[count(Seite)<=100 and count(Seite)>=10]
)substring-before('$variable', ':')
Selektiert den Teilstring vor dem ersten Doppelpunkt aus dem Wert der Variable mit dem Namen variable
Beispiel
Gegeben sei folgendes XML-Dokument:
<?xml version="1.0" encoding="utf-8" standalone="yes" ?> <dok> <!-- ein XML-Dokument --> <kap title="Nettes Dokument"> <pa>Ein Absatz</pa> <pa>Noch ein Absatz</pa> <pa>Und noch ein Absatz</pa> <pa>Nett, oder?</pa> </kap> <kap title="Zweites Kapitel"> <pa>Ein Absatz</pa> </kap> </dok>
Beispiele für XPath-Ausdrücke:
/dok
selektiert das Wurzel-Elementdok
/*
selektiert das Wurzel-Element unabhängig vom Namen (jedes wohlgeformte XML-Dokument hat genau ein Wurzel-Element)/dok/kap
selektiert allekap
-Elemente innerhalb einesdok
Elements/dok/kap[1]
selektiert das erstekap
-Element innerhalb einesdok
Elements//pa
selektiert allepa
-Elemente auf allen Ebenen (Vorsicht: langsam)//kap[@title="Nettes Dokument"]/pa
selektiert alle Absätze des Kapitels „Nettes Dokument“.child::*
selektiert alle Kindelemente des gegenwärtigen Knotenschild::pa
selektiert allepa
-Kinder des gegenwärtigen Knotenschild::text()
selektiert alle Textknoten des gegenwärtigen Knotens./*
selektiert alle Unterelemente des gegenwärtigen Knotensattribute::*
selektiert alle Attribute des gegenwärtigen Knotensnamespace::*
selektiert alle Namespaces des gegenwärtigen Knotens
XPath-Visualisierer helfen, die mitunter komplizierten XPath-Abfragen auf konkrete XML-Dateien anzuwenden.
Siehe auch
Einzelnachweise
Literatur
- Michael Kay: XPath 2.0 Programmer's Reference Wrox Press, 2004, ISBN 0-7645-6910-4 (englisch)
Weblinks
- XML Path Language (XPath) Version 1.0 ; sowie deutsche Übersetzung
- XML Path Language (XPath) Version 2.0
- XPath Tutorial von w3schools
- ZVON: XPath Tutorial in deutscher Sprache
- FH Wedel: XLink, XPath, XPointer
- HTMLWorld: XPath
- XPath Achsen Diagramme (Creative-Commons-Lizenz by-nc-sa).
Standards des World Wide Web ConsortiumsEmpfehlungen (recommendations): Canonical XML | CDF | CGI | CSS | DOM | HTML | MathML | OWL | PLS | RDF | RDF-Schema | SISR | SMIL | SOAP | SRGS | SSML | SVG | SPARQL | Timed Text | VoiceXML | WSDL | XForms | XHTML | XML | XML Base | XML Events | XML Information Set | XML Schema | XML Signature | XPath | XPointer | XQuery | XSL Transformation | XSL-FO | XSL | XLink
Anmerkungen (notes): XHTML+SMIL | XAdES
Arbeitsentwürfe (working drafts): CCXML | CURIE | InkML | XFrames | XFDL | WICD | XHTML+MathML+SVG | XBL | XProc | HTML 5
Wikimedia Foundation.