Text Encoding Initiative

Text Encoding Initiative

Die Text Encoding Initiative (TEI) ist eine 1987 gegründete Organisation (seit 2000 als TEI-Konsortium organisiert) und ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten, das diese entwickelt hat und weiterentwickelt. In der aktuellen Version P5 basiert das Format auf XML und ist in einer Metasprache definiert, aus der formale Schemata wie DTD, XML Schema und RELAX NG Schema abgeleitet werden können.

TEI hat sich zu einem De-facto-Standard innerhalb der Geisteswissenschaften entwickelt, wo es zum Beispiel zur Kodierung von gedruckten Werken (Editionswissenschaft) oder zur Auszeichnung von sprachlichen Informationen (Linguistik) in Texten verwendet wird.

Inhaltsverzeichnis

Geschichte

TEI wurde seit 1988 auf der Grundlage von SGML entwickelt, der erste Entwurf P1 (P für englisch proposalVorschlag) erschien 1990. Nach einer Zwischenversion P2 (1992), die Erweiterungen und Korrekturen enthielt, wurde 1994 die wiederum erweiterte TEI-Version P3 – die erste stabile Version – verabschiedet. Mit der Entwicklung und Verbreitung von XML musste auch TEI weiterentwickelt werden. Zu diesem Zweck wurde im Jahr 2000 das TEI-Konsortium gegründet. Die erste XML-Version P4 erschien 2002, gleichzeitig entstand die Version TEI Lite mit einem abgespeckten Umfang an Elementen. Seit 2005 wurde die Version P5 erarbeitet, die am 1. November 2007 freigegeben wurde.[1] Sie wurde technisch gründlich überarbeitet und inhaltlich erweitert, unter anderem wurde ein Standard zur Beschreibung von Handschriften (MASTER) integriert.

Technik

TEI ist aus verschiedenen sachbezogenen Modulen aufgebaut, die beispielsweise Elemente für die Dokumentstruktur, zur Auszeichnung von Gedichten und Dramen, zur Markierung einzelner Zeilen und Seiten, für Tabellen, für textkritische Anmerkungen oder für Sprachkorpora, Terminologien und Wörterbücher enthalten. Es gibt einen Kern von Modulen, der allgemeine Elemente wie <p/> für Absätze enthält. Dieser Kern kann je nach Projekt um benötigte Module erweitert werden, die eine sehr differenzierte Auszeichnung von Textmerkmalen ermöglichen. Das TEI-Schema für eine konkrete Anwendung wird selbst als TEI-Dokument in einer Metasprache definiert (genannt ODD-Dokument: One Document Does it all). Aus dem ODD-Dokument können automatisch formale Schemata, etwa DTD, XML Schema und Relax-NG-Schema generiert werden.[2] Sowohl für die Anpassung von TEI als auch für die Erzeugung der Schemata bieten die TEI-Webseiten Werkzeuge.

Beispiele

Hallo Welt!

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
    <teiHeader>
        <fileDesc>
            <titleStmt>
                <title>Hallo Welt!</title>
            </titleStmt>
            <publicationStmt>
                <p>Demo für Wikipedia</p>
            </publicationStmt>
            <sourceDesc>
                <p>Originales Werk, keine Vorlage</p>
            </sourceDesc>
        </fileDesc>
    </teiHeader>
    <text>
        <body>
            <p>Hallo Welt!</p>
        </body>
    </text>
</TEI>

Praxisbeispiel

Das folgende Beispiel kodiert ein Gedicht mit detaillierten bibliografischen Angaben sowie Angaben zur Zeilen- und Seitenzählung (TEI Lite).

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
    <teiHeader>
        <fileDesc>
            <titleStmt>
                <title>Auf dem Brocken</title>
                <author>Heinrich Heine (1797–1856)</author>
                <respStmt>
                    <name>Wiki Autor</name>
                    <resp>Umwandlung in TEI-konformes XML</resp>
                </respStmt>
            </titleStmt>
            <publicationStmt>
                <p>aus Wikisource, der freien Quellensammlung 
                    (<ptr target="http://de.wikisource.org/wiki/Auf_dem_Brocken"/>)</p>
            </publicationStmt>
            <sourceDesc>
                <biblFull>
                    <titleStmt>
                        <title level="a">Auf dem Brocken</title>
                        <title level="m">Buch der Lieder</title>
                        <title level="m" type="sub">Aus der Harzreise</title>
                        <author>Heine, Heinrich</author>
                    </titleStmt>
                    <publicationStmt>
                        <publisher>Hoffmann und Campe</publisher>
                        <pubPlace>Hamburg</pubPlace>
                        <date>1827</date>
                        <availability>
                            <p>Gemeinfrei, keine Nutzungsbeschränkungen</p>
                        </availability>
                    </publicationStmt>
                </biblFull>
            </sourceDesc>
        </fileDesc>
    </teiHeader>
    <text>
        <body>
            <pb n="302"/>
            <head>Auf dem Brocken.</head>
            <lg type="stanza">
                <l>Heller wird es schon im Osten</l>
                <l>Durch der Sonne kleines Glimmen,</l>
                <l>Weit und breit die Bergesgipfel,</l>
                <l>In dem Nebelmeere schwimmen.</l>
            </lg>
            <lg type="stanza">
                <l n="5">Hätt’ ich Siebenmeilenstiefel,</l>
                <l>Lief ich, mit der Hast des Windes,</l>
                <l>Ueber jene Bergesgipfel,</l>
                <l>Nach dem Haus des lieben Kindes.</l>
            </lg>
            <lg type="stanza">
                <l>Von dem Bettchen, wo sie schlummert,</l>
                <l n="10">Zög’ ich leise die Gardinen,</l>
                <l>Leise küßt’ ich ihre Stirne,</l>
                <l>Leise ihres Munds Rubinen.</l>
            </lg>
            <lg type="stanza">
                <l>Und noch leiser wollt’ ich flüstern</l>
                <l>In die kleinen Lilien-Ohren:</l>
                <l n="15">Denk’ im Traum, daß wir uns lieben,</l>
                <l>Und daß wir uns nie verloren.</l>
            </lg>
        </body>
    </text>
</TEI>

Siehe auch

Einzelnachweise

  1. P5: Guidelines for Electronic Text Encoding and Interchange. Historical Background [1]
  2. P5: Guidelines for Electronic Text Encoding and Interchange. The TEI Infrastructure [2]

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Text Encoding Initiative — The Text Encoding Initiative (TEI) is a consortium of institutions and research projects which collectively maintains and develops a standard for the representation of texts in digital form. Originally sponsored by three scholarly societies, the… …   Wikipedia

  • Text Encoding Initiative — La Text Encoding Initiative est un format XML. Le TEI Consortium est un consortium qui regroupe des acteurs de la recherche dans le but de normaliser le codage de toutes sortes de documents sous forme numérique en TEI. Ce projet a initialement… …   Wikipédia en Français

  • ODD (Text Encoding Initiative) — ODD stands for One Document Does it all . Part of the Text Encoding Initiative, it is an XML based format for writing human readable descriptions of XML files.[1][2] ODD allows its users to customize the P5 version of the TEI XML formats by… …   Wikipedia

  • Encoding — is the process of transforming information from one format into another. The opposite operation is called decoding. There are a number of more specific meanings that apply in certain contexts:*Encoding (in cognition) is a basic perceptual process …   Wikipedia

  • Text mining — Fouille de textes La fouille de textes ou l extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l intelligence artificielle. Cette technique est souvent désignée sous l… …   Wikipédia en Français

  • Text Creation Partnership — The Text Creation Partnership (TCP) is a not for profit organization based in the library of the University of Michigan since 2000. Its purpose is to produce large scale full text electronic resources (especially in the humanities) on behalf of… …   Wikipedia

  • New Zealand Electronic Text Centre — The New Zealand Electronic Text Centre (NZETC) is a unit of the library at the Victoria University of Wellington which provides a free online archive of New Zealand and Pacific Islands texts and heritage materials. The NZETC has an ongoing… …   Wikipedia

  • Scholarly electronic text and image service — SETIS, the Scholarly Electronic Text and Image Service [http://setis.library.usyd.edu.au/] , was established by the University of Sydney Library [http://www.library.usyd.edu.au/] in 1996 as a digital library platform to support and facilitate… …   Wikipedia

  • Oxford Text Archive — (OTA) is an archive of electronic texts and other literary and language resources which have been created, collected and distributed for the purpose of research into literary and linguistic topics. The OTA was founded by Lou Burnard of Oxford… …   Wikipedia

  • Medieval Unicode Font Initiative — In digital typography, the Medieval Unicode Font Initiative (MUFI) is a project which aims to coordinate the encoding and display of special characters in medieval texts written in the Latin alphabet, which are not encoded as part of Unicode.… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”