Dokumenttypdefinition (XML)

Dokumenttypdefinition (XML)

Eine Dokumenttypdefinition (englisch Document Type Definition, DTD, auch Schema-Definition oder DOCTYPE) ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher Dokumente, wie beispielsweise Telefonbücher oder Inventurdatensätze. Die Dokumenttypdefinition besteht dabei aus Elementtypen, Attributen von Elementen, Entitäten und Notationen. Konkret heißt das, dass in einer DTD die Reihenfolge, die Verschachtelung der Elemente und die Art des Inhalts von Attributen festgelegt wird – kurz gesagt: die Struktur des Dokuments.

Der Begriff wird auch für konkrete DTD-Implementationen benutzt, denn DTD wird innerhalb der SGML-/XML-Spezifikationen beschrieben. Für XML-Dokumente existieren verschiedene andere Schemasprachen um Dokumenttypdefinitionen auszudrücken, die bekanntesten sind XML Schema und RELAX NG.

Eine DTD spezifiziert als Ausdruck eines Schemas die Syntax einer Anwendung von SGML oder XML, wie beispielsweise die von ihnen abgeleiteten Sprachen HTML oder XHTML. Diese Syntax ist normalerweise in einer weniger generellen Form gehalten als die SGML- oder XML-Syntax.

Inhaltsverzeichnis

DTD in XML

Die Syntax und Semantik einer DTD ist Bestandteil der XML-Spezifikation. Diese Entscheidung wurde später kritisiert, da die DTD-Syntax selbst kein XML ist. Mit Document Schema Definition Languages existiert eine eigene Spezifikation zur Definition von Dokumentstrukturen, Datentypen und Datenbeziehungen in strukturierten Informationsquellen.

Dokumenttypdeklaration

Die DTD wird zu Beginn eines XML-Dokumentes, vor dem Wurzelelement, in der Dokumenttypdeklaration angegeben. Die Grammatikregeln der DTD können dabei sowohl innerhalb des XML-Dokumentes (interne DTD) als auch in einer externen Datei angeben werden (drei Möglichkeiten und die eckigen Klammern können weggelassen werden, falls sie leer sind):

<!DOCTYPE Wurzelelement SYSTEM "datei.dtd" [ ... ]>
<!DOCTYPE Wurzelelement PUBLIC "Public Identifier" "datei.dtd" [ ... ]>
<!DOCTYPE Wurzelelement [ ... ]>

Als Verweis auf eine Datei kann ein beliebiger URI angegeben werden. Für standardisierte DTDs gibt es bekannte Public Identifier (zum Beispiel "-//W3C//DTD XHTML 1.0 Strict//EN" für XHTML), so dass Programme nicht jedes mal die Datei neu laden müssen, falls ihnen der Public Identifier bekannt ist.

Innerhalb einer DTD-Datei bzw. der eckigen Klammern können verschiedene Markup-Deklarationen stehen, die den Dokumenttyp definieren.

Markup-Deklarationen

Innerhalb einer DTD kann die Dokumentstruktur mit Deklarationen von Elementtypen, Attributlisten, Entities und Notationen definiert werden. Dabei können spezielle Parameter-Entities benutzt werden, die DTD-Teile enthalten und nur innerhalb der DTD erlaubt sind.

Elementtyp-Deklarationen

Mit einer Elementtyp-Deklaration wird ein Element und sein möglicher Inhalt definiert. In einem validen XML-Dokument dürfen nur Elemente vorkommen, die in der DTD definiert sind.

Der Inhalt eines Elementes kann durch die Angabe anderer Elementnamen und durch einige Schlüsselwörter und Zeichen angegeben werden.

  • EMPTY für keinen Inhalt
  • ANY für beliebigen Inhalt
  • , für Reihenfolgen
  • | für Alternativen (im Sinne "entweder...oder")
  • () zum Gruppieren
  • * für beliebig oft
  • + für mindestens einmal
  • ? für keinmal oder genau einmal
  • Wird kein Stern, Pluszeichen oder Fragezeichen angegeben, so muss das Element genau einmal vorkommen
<!ELEMENT html (head, body)>
<!ELEMENT hr EMPTY>
<!ELEMENT p (#PCDATA | p | ul | ol | dl | table | pre | hr |
          h1|h2|h3|h4|h5|h6 | blockquote | address | fieldset)*>
<!ELEMENT dl (dt|dd)+>

Attributlisten-Deklarationen

Die Liste der möglichen Attribute eines Elementes wird in einer DTD mit <!ATTLIST Elementname Attributliste> angegeben. Die Attributliste enthält durch Leerzeichen oder Zeilenumbrüche getrennt jeweils den Namen, den Typ und Vorgaben eines Attributes.

Es gibt folgende Attributtypen

  • CDATA
  • ID
  • IDREF und IDREFS
  • NMTOKEN und NMTOKENS
  • ENTITY und ENTITIES
  • NOTATION und NOTATIONS
  • Aufzählungen und NOTATION-Aufzählungen

Mit den Attribut-Vorgaben kann angegeben werden, ob ein Attribut vorkommen muss (#REQUIRED) oder nicht (#IMPLIED) oder einen festen Wert enthält (#FIXED) und welcher Wert als Standardwert benutzt wird, falls das Attribut bei einem XML-Tag nicht angegeben wird.

Vorgabewerte für Attribute
#REQUIRED Das Attribut muss angegeben werden
#IMPLIED Das Attribut ist optional
"..." Standardwert, falls das Attribut weggelassen wird
#FIXED "..." Das Attribut hat immer einen festen Standardwert

Beispiel
<!ATTLIST img 
   id     ID       #IMPLIED
   src    CDATA    #REQUIRED
   alt    CDATA    #IMPLIED
   ismap  (ismap)  #IMPLIED
>

Entity-Deklarationen

Eine Entity ist eine benannte Abkürzung für eine Zeichenkette oder ein externes Dokument, die innerhalb der DTD oder des XML-Dokumentes, das diese DTD benutzt, verwendet werden kann. Eine Entity-Referenz der Form &Name; wird dabei durch den Inhalt der Entity ersetzt. (Zur allgemeinen Verwendung siehe Entitäten in Auszeichnungssprachen.)

Interne Entities bestehen aus Zeichenketten. Diese können selber wieder Entity-Referenzen und wohlgeformtes XML-Markup enthalten:

<!ENTITY name "Benedikt">
<!ENTITY papst "&name;, der XVI.">
<!ENTITY wplink "<a href='http://de.wikipedia.org'>Wikipedia</a>">

Externe Entities bestehen aus dem Inhalt einer Datei, auf die verwiesen wird. Dabei kann wieder ein Public- oder System-Identifier benutzt werden.

<!ENTITY kapitel1 SYSTEM "kapitel1.xml">
<!ENTITY wichtig PUBLIC "-//privat//WICHTIG//" "wichtig.xml">

Bei externen Entities kann zusätzlich angegeben werden, dass es sich um eine nicht analysierte Entity handelt, deren Inhalt aus beliebigen Daten besteht, die durch eine Entity-Referenz nicht ersetzt werden müssen. In diesem Fall muss eine Notation angegeben werden (hier "gif").

<!ENTITY bild SYSTEM "../grafiken/bild.gif" NDATA gif>

Notationsdeklarationen

Notationen sind Hinweise zur Interpretation von externen Daten, die nicht direkt vom XML-Parser verarbeitet werden. Notationen können sich beispielsweise auf ein Dateiformat für Bilder beziehen.

<!NOTATION Datentyp SYSTEM "URL">;
<!NOTATION Datentyp PUBLIC "Identifikator">

NMTOKEN-Deklarationen

NMTOKEN (name token) ist mit einem XML-Namen verwandt, geht jedoch freizügiger mit den Regeln zur Namensgebung um. So sind bei einem NMTOKEN Namen mit führender Ziffer oder führendem Punkt erlaubt, wohingegen bei einem XML-Namen nur Buchstaben, Ideographen und underlines an erster Stelle erlaubt sind. Somit ist jeder XML-Name auch ein NMTOKEN, jedoch nicht umgekehrt.
Beispiele für NMTOKEN:

12alpha
.crc

Deklarations-Beispiel:

<!ATTLIST birthdate
    year NMTOKEN #REQUIRED
>

Parameter-Entities

Parameter-Entitäten enthalten eine benannte Zeichenkette, die mittels %Name; an fast allen Stellen innerhalb einer DTD eingesetzt werden kann. Auf diese Weise lassen sich beispielsweise externe Dateien in eine DTD einbinden und mehrfach vorkommende Bestandteile abkürzen. Parameter-Entitäten werden wie normale Entities deklariert, wobei vor dem Elementnamen ein einzelnes Prozentzeichen steht. Beispiel:

<!ENTITY % datei SYSTEM "andere-datei.ent">
%datei;
 
<!ENTITY % foo.inhalt "(bar|doz)*">
<!ELEMENT foo %foo.inhalt;>

Bedingte Abschnitte

Ein bedingter Abschnitt ist ein Konstrukt, um Deklarationen ein- oder auszuschalten. Beispiel:

<![INCLUDE[
  <!ENTITY hallo "welt">
]]>

Schaltet die Deklaration von hallo ein. Entsprechend gilt:

<![IGNORE[
  <!ENTITY hallo "welt">
]]>

um hallo auszuschalten.

Man verwendet bedingte Abschnitte wie oben jedoch nicht allein, sondern meist im Zusammenspiel mit Parameter-Entities:

<!ENTITY % weiche "INCLUDE">
<![%weiche;[
  <!ENTITY hallo "welt">
]]>

Das Parameter-Entity %weiche; ist durch eine der möglichen Schlüsselwörter INCLUDE oder IGNORE belegt. Je nach Belegung wird das Entity hallo deklariert oder nicht.

Durch diese Art der Schreibweise kann ein bedingter Abschnitt durch Überschreibung von Parameter-Entities angepasst werden.

Sonstiges

externe Entitäten und nicht-validierende Parser

Beispiel

Kurzes XML-Dokument mit Verweis auf eine externe DTD

<?xml version="1.0" standalone="no"?>
<!DOCTYPE hallo SYSTEM "hallo.dtd">
<hallo>Hallo Welt!</hallo>

Der Inhalt von "hallo.dtd"

<!ELEMENT hallo (#PCDATA)>

Kurzes XML-Dokument mit interner DTD

<?xml version="1.0" standalone="yes"?>
<!DOCTYPE hallo [<!ELEMENT hallo (#PCDATA)>]>
<hallo>Hallo Welt!</hallo>

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • XML-Schema — ist eine Empfehlung des W3C zum Definieren von Strukturen für XML Dokumente. Anders als bei den klassischen XML DTDs wird die Struktur in Form eines XML Dokuments beschrieben. Darüber hinaus wird eine große Anzahl von Datentypen unterstützt.… …   Deutsch Wikipedia

  • XML Schema Definition — XML Schema ist eine Empfehlung des W3C zum Definieren von Strukturen für XML Dokumente. Anders als bei den klassischen XML DTDs wird die Struktur in Form eines XML Dokuments beschrieben. Darüber hinaus wird eine große Anzahl von Datentypen… …   Deutsch Wikipedia

  • XML-Parser — Ein XML Prozessor ist eine Software zum Einlesen und Verarbeiten von XML Dokumenten. Häufig wird auch der Begriff XML Parser synonym verwendet, obwohl dieser eher ein Modul im Software Baustein „XML Prozessor“ ist, welches das Einlesen durchführt …   Deutsch Wikipedia

  • XML-Namensraum — XML Namensräume (englisch „XML namespaces“) werden benutzt, um in einem einzelnen Dokument mehrere XML Sprachen zu mischen. Ihre Funktionsweise ist mit Vorwahlen bei Telefonnummern zu vergleichen. Zum Beispiel beschreibt das <p> Element in… …   Deutsch Wikipedia

  • XML-Namespace — XML Namensräume (englisch „XML namespaces“) werden benutzt, um in einem einzelnen Dokument mehrere XML Sprachen zu mischen. Ihre Funktionsweise ist mit Vorwahlen bei Telefonnummern zu vergleichen. Zum Beispiel beschreibt das <p> Element in… …   Deutsch Wikipedia

  • XML Catalog — XML Catalogs ist eine Technik zum Ersetzen von externen Referenzen in XML Dokumenten. Hierbei wird beim Parsen des XML überprüft, ob es für die referenzierte externe Datei im Katalog eine Ersetzungsregel gibt. Wird hier eine zutreffende Regel… …   Deutsch Wikipedia

  • XML Information Retrieval — XML Retrieval oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • XML Retrieval — oder XML Information Retrieval ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.[1] Inhaltsverzeichnis 1 Anfragen 2 Nutzung von XML Struktur 3 Ranking 4 …   Deutsch Wikipedia

  • XML —   [Abk. für Extensible Markup Language, dt. »erweiterbare Beschreibungssprache«], eine Sprache, mit der die Struktur von Dokumenten beschrieben wird (eine sog. Metasprache). XML ist eine eingeschränkte Form (man sagt auch: eine Untermenge) von… …   Universal-Lexikon

  • .xml — Vorlage:Infobox Dateiformat/Wartung/magic fehltVorlage:Infobox Dateiformat/Wartung/website fehlt Extensible Markup Language Dateiendung .xml …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”