- Linguistische Thesauri
-
Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind. Die Bezeichnung wird gelegentlich auch für linguistische Thesauri oder wissenschaftliche Wortschatz-Sammlungen verwendet.
Inhaltsverzeichnis
Allgemein
Als Thesaurus bezeichnet man ein Modell, das versucht, ein Themengebiet genau zu beschreiben und zu repräsentieren. Es besteht aus einer systematisch geordneten Sammlung von Begriffen, die in thematischer Beziehung zueinander stehen. Der Thesaurus ist ein kontrolliertes Vokabular, auch Attributwertebereich genannt, für das jeweils zu beschreibende Attribut. Es werden in erster Linie Synonyme, aber auch Ober- und Unterbegriffe verwaltet.
Beispiel: Bildnis (Synonym: Abbild, Bild, Spiegelbild), Tischler (Oberbegriff: Handwerker)
Geschichte
Der Begriff Thesaurus lässt sich neuzeitlich erstmals 1736 im Englischen nachweisen[1]. Im allgemeinen Wortsinn bezeichnete es zunächst einen „Wissensspeicher“ wie beispielsweise ein Wörterbuch oder eine Enzyklopädie. Der vor allem im Englischen Sprachraum einflussreiche, 1852 von Peter Mark Roget veröffentlichte Roget's Thesaurus of English Words and Phrases rückte die Bedeutung des Begriffs in die Richtung eines linguistischen Thesaurus. Im Bereich des Information-Retrieval wurde der Begriff erstmals 1957 von Hans Peter Luhn verwendet als in den 1950er Jahren verschiedene Systeme zur Indexierung entwickelt wurden. Zu den ersten Thesauri, die in der Praxis zur Erschließung eingesetzt wurden, gehören das System von Du Punt (1959) und der Thesaurus of ASTIA Descriptors (1960). Ein einheitliches Format für Thesauri wurde 1967 mit dem Thesaurus of Engineering and Scientific Terms (TEST) vorgelegt. Aus den bereits von Anfang an entwickelten Regeln für den Aufbau von Thesauri entwickelten sich mit der Zeit allgemeine Standards, die die Form des klassischen Thesaurus zur Dokumentation festlegen. Dazu gehören die von Derek Austin und Dale entworfenen UNESCO's Guidelines for the Establishment and Development of Monolingual Thesauri deren Inhalte in den ISO-Standard 2788 (1986) einflossen.
Thesaurus zur Dokumentation
In der Dokumentationswissenschaft hat sich der Thesaurus als geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten erwiesen. Dabei dienen Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche. Im Gegensatz zu einem linguistischen Thesaurus enthält ein Thesaurus zur Dokumentation ein kontrolliertes Vokabular, d.h. eindeutige Benennungen (Deskriptoren) für jeden Begriff. Unterschiedliche Schreibweisen (Photo/Foto), Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen, Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt. Begriffe werden außerdem durch Assoziationsrelationen und hierarchische Relationen vernetzt.
Der Thesaurus dient als Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten. Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage durch Synonyme und Unterbegriffe hilfreich sein.
Ein Thesaurus kann damit auch allgemein zur Begriffsklärung dienen und hat im besten Fall die Funktion einer Normdatei inne. Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d.h. ein Unterbegriff kann mehrere Oberbegriffe haben).
Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor:
Kürzel und Bezeichnung DIN 1463-1 ISO 2788 BF Benutzt für UF Used for BS Benutze Synonym USE/SYN Use synonym OB Oberbegriff BT Broader term UB Unterbegriff NT Narrower term VB Verwandter Begriff RT Related term SB Spitzenbegriff TT Top term Die häufigsten Relationen in einem Thesaurus sind Äquivalenz-, Assoziations- und hierarchische Relationen.
In der Regel wird ein Element einer Äquivalenzrelation, also eine Benennung, als Vorzugsbenennung festgelegt. Die Nicht-Vorzugsbenennungen erhalten einen Verweis auf die ihnen äquivalente Vorzugsbenennung.
- Beispiel:
- Fahrzeug verweist auf die Unterbegriffe LKW und PKW.
- Auto verweist auf die Vorzugsbenennung PKW und mit einer Assoziationsbeziehung („siehe auch“) auf LKW.
Siehe auch: semantisches Netz
Thesaurus als Sammelwerk
Verschiedene Formen von Thesauri
Früher verstand man unter einem Thesaurus ein wissenschaftliches Sammelwerk mit dem gesamten Wortschatz einer Sprache. Bekannt sind unter anderem der Thesaurus Linguae Graecae und der Thesaurus Linguae Latinae. Bei diesen Werken handelt es sich genaugenommen um Wörterbücher.
Die ersten in der Elektronischen Textverarbeitung (EDV) verwendeten Thesauri waren ebenfalls einfache Wörterbücher, welche eingegebene Vokabeln mit enthaltenen Einträgen abgleichen und dem Anwender Rückmeldungen geben konnten. Die Rückmeldungen ließen sich zunächst nur für die Erkennung von einfachen Rechtschreibfehlern verwenden und konnten mit Suchläufen, später aber in Echtzeit angeboten werden, was dem heutigen Standard entspricht. Ursprünglich entstanden die dazu benötigten Datenbanken aus manuell in Datenformat konvertierten Wort-Sammlungen, die für kommerzielle Programme zunächst fortlaufend durch den Hersteller ergänzt und mit updates an den Kunden ausgeliefert wurden. Mit dem Aufkommen von individuell durch den Benutzer ergänzbaren Worteinträgen entstand die Möglichkeit, große, quasi-kollaborative nutzerbasierte Plattformen zur Sammlung neuer Einträge zu verwenden, wobei die auf einem Server gelagerte Datenbank durch Rücksendung der individuellen Arbeitskopien von Thesauri verschiedener Benutzer kurzzeitig sehr stark wuchsen. Auch dabei war aber eine Handsichtung notwendig, um den Eintrag häufig falsch geschriebener und deshalb irrtümlich häufig eingesendeter falscher Vokabeln zu verhindern. Aufgrund des begrenzten Vokabulars jeder Sprache sind heute jedoch für die meisten Sprachen nahezu komplette Datensätze verfügbar, die die jeweilige Sprache erschöpfend wieder geben. Der Eintrag neuer Wörter entspricht heute nur noch dem natürlichen Wachstum der jeweiligen Sprachen.
Zeitgleich wurden die elektronischen Thesauri zu immer komplexeren Programmen weiter entwickelt, welche auch grammatikalische Regeln und Stilregeln kontrollieren sowie Synonyme anbieten können. An ihren Grenzbereichen geben moderne Thesauri heute auch Übersetzungshilfen und lassen Texte vollständig automatisch durchsichten, wobei der Anwender zuvor zahlreiche Optionen anwählen kann.
Interkulturelle Thesauri
Eine besondere Form der Thesauri bedient Eingabehilfen für Piktogrammschriften wie beispielsweise die Chinesische Schrift mithilfe der westlichen Computer-Tastatur. Diese Schriftzeichen lassen sich aufgrund ihrer Vielzahl oft nicht auf praktisch handhabbaren Tastaturen abbilden, weshalb die Thesauri dem Anwender Zeichen vorschlagen, die dann von ihm angenommen oder abgelehnt werden können. So gibt es für die Eingabe japanischer oder chinesischer Schriftzeichen zahlreiche Methoden, die Silben oder Abkürzungen nach thesauriden Datenbankeinträgen in Schriftzeichen umwandeln. Von diesen Methoden konnte sich jedoch bislang keine standardisiert durchsetzen, weil die asiatischen Schriftsprachen sehr komplex aufgebaut sind und die Bedeutung der Zeichen oftmals vom Kontext abhängig ist. Der Lernaufwand zur Nutzung dieser Thesauri-basierten Programmlösungen ist für Asiaten extrem hoch und native Sprecher benutzen meist nur jeweils eine Softwarelösung, mit der sie akzeptabel hohe Schreibgeschwindigkeiten erreichen können, welche jedoch hinter der der lateinischen Buchstabenschrift weit zurück bleibt. Lateinische Schreiber schreiben wesentlich schneller als asiatische, obgleich die Lesegeschwindigkeit bei Piktogrammschriften für kundige Leser höher ist als bei lateinischen Schriften. Einem einheitlichen Thesaurus für Piktogrammschriften stehen traditionelle, konzeptionelle und syntaktische Probleme entgegen.
Linguistische Thesauri
In einem linguistischen Thesaurus sind statt Begriffen Wörter ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Diese Art von lexikalisch-semantisch organisiertem Nachschlagewerk kann unter anderem als Formulierungshilfe benutzt werden. Es gibt Nachschlagewerke dieser Art in gedruckter Form (z.B. DUDEN Band 8, Sinn- und sachverwandte Wörter) oder in elektronischer Form, hier zumeist als Hintergrundressource von Textverarbeitungsprogrammen.
Beispiele
- Europäischer Thesaurus Internationale Beziehungen und Länderkunde
- Eurovoc Thesaurus der Europäischen Union
- Getty Thesaurus of Geographic Names
- INFODATA Thesaurus
- Medical Subject Headings (MeSH)
- OpenThesaurus - Projekt zur Erstellung eines deutschsprachigen linguistischen Thesaurus
- Thesaurus Linguae Graecae - Projekt zur digitalen Erfassung der gesamten griechischen Literatur vom Altertum bis in die Neuzeit
- UNESCO Thesaurus
Siehe auch
Quellen
- ↑ Jean Aitchison, Stella Dextre Clarke: The Thesaurus: A Historical Viewpoint, with a Look to the Future. In: Cataloging & Classification Quarterly 37, 3/4, 2004, S. 5-21.
Literatur
- Guidelines for the construction, format, and management of monolingual Controlled Vocabularies (ANSI/NISO Z39.19-2005) [1]
- The Thesaurus: Review, Renaissance, and Revision. Haworth, 2004 ISBN 0-7890-1978-7 / ISBN 0-7890-1979-5 (entspricht der Ausgabe 3/4, Jahrgang 37, 2004 der Fachzeitschrift Cataloging & Classification Quarterly)
- Gernot Wersig: Thesaurus-Leitfaden: eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. 2. erg. Aufl., Saur, 1985, ISBN 3-598-21252-6
- Leonard Will: Publications on thesaurus construction and use. [2]
- Bettina Brühl: Thesauri und Klassifikationen. Naturwissenschaften – Technik – Wirtschaft; 1. Aufl., Verlag für Berlin-Brandenburg, 2005, 354 S.ISBN 3-935035-63-2
Weblinks
- Beispiel:
Wikimedia Foundation.