Linguistische Thesauri

Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind. Die Bezeichnung wird gelegentlich auch für linguistische Thesauri oder wissenschaftliche Wortschatz-Sammlungen verwendet.

Inhaltsverzeichnis

1 Allgemein
2 Geschichte
3 Thesaurus zur Dokumentation
4 Thesaurus als Sammelwerk
- 4.1 Verschiedene Formen von Thesauri
- 4.2 Interkulturelle Thesauri
5 Linguistische Thesauri
6 Beispiele
7 Siehe auch
8 Quellen
9 Literatur
10 Weblinks

Allgemein

Als Thesaurus bezeichnet man ein Modell, das versucht, ein Themengebiet genau zu beschreiben und zu repräsentieren. Es besteht aus einer systematisch geordneten Sammlung von Begriffen, die in thematischer Beziehung zueinander stehen. Der Thesaurus ist ein kontrolliertes Vokabular, auch Attributwertebereich genannt, für das jeweils zu beschreibende Attribut. Es werden in erster Linie Synonyme, aber auch Ober- und Unterbegriffe verwaltet.

Beispiel: Bildnis (Synonym: Abbild, Bild, Spiegelbild), Tischler (Oberbegriff: Handwerker)

Geschichte

Der Begriff Thesaurus lässt sich neuzeitlich erstmals 1736 im Englischen nachweisen^[1]. Im allgemeinen Wortsinn bezeichnete es zunächst einen „Wissensspeicher“ wie beispielsweise ein Wörterbuch oder eine Enzyklopädie. Der vor allem im Englischen Sprachraum einflussreiche, 1852 von Peter Mark Roget veröffentlichte Roget's Thesaurus of English Words and Phrases rückte die Bedeutung des Begriffs in die Richtung eines linguistischen Thesaurus. Im Bereich des Information-Retrieval wurde der Begriff erstmals 1957 von Hans Peter Luhn verwendet als in den 1950er Jahren verschiedene Systeme zur Indexierung entwickelt wurden. Zu den ersten Thesauri, die in der Praxis zur Erschließung eingesetzt wurden, gehören das System von Du Punt (1959) und der Thesaurus of ASTIA Descriptors (1960). Ein einheitliches Format für Thesauri wurde 1967 mit dem Thesaurus of Engineering and Scientific Terms (TEST) vorgelegt. Aus den bereits von Anfang an entwickelten Regeln für den Aufbau von Thesauri entwickelten sich mit der Zeit allgemeine Standards, die die Form des klassischen Thesaurus zur Dokumentation festlegen. Dazu gehören die von Derek Austin und Dale entworfenen UNESCO's Guidelines for the Establishment and Development of Monolingual Thesauri deren Inhalte in den ISO-Standard 2788 (1986) einflossen.

Thesaurus zur Dokumentation

Polyhierarchische Thesaurus-Relationen am Beispiel des Deskriptors Stomach Cancer der Medical Subject Headings 2005 mit allen seinen Oberbegriffen

In der Dokumentationswissenschaft hat sich der Thesaurus als geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten erwiesen. Dabei dienen Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche. Im Gegensatz zu einem linguistischen Thesaurus enthält ein Thesaurus zur Dokumentation ein kontrolliertes Vokabular, d.h. eindeutige Benennungen (Deskriptoren) für jeden Begriff. Unterschiedliche Schreibweisen (Photo/Foto), Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen, Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt. Begriffe werden außerdem durch Assoziationsrelationen und hierarchische Relationen vernetzt.

Der Thesaurus dient als Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten. Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage durch Synonyme und Unterbegriffe hilfreich sein.

Ein Thesaurus kann damit auch allgemein zur Begriffsklärung dienen und hat im besten Fall die Funktion einer Normdatei inne. Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d.h. ein Unterbegriff kann mehrere Oberbegriffe haben).

Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor:

Kürzel und Bezeichnung
DIN 1463-1		ISO 2788
BF	Benutzt für	UF	Used for
BS	Benutze Synonym	USE/SYN	Use synonym
OB	Oberbegriff	BT	Broader term
UB	Unterbegriff	NT	Narrower term
VB	Verwandter Begriff	RT	Related term
SB	Spitzenbegriff	TT	Top term

Die häufigsten Relationen in einem Thesaurus sind Äquivalenz-, Assoziations- und hierarchische Relationen.

In der Regel wird ein Element einer Äquivalenzrelation, also eine Benennung, als Vorzugsbenennung festgelegt. Die Nicht-Vorzugsbenennungen erhalten einen Verweis auf die ihnen äquivalente Vorzugsbenennung.

Beispiel:

Fahrzeug verweist auf die Unterbegriffe LKW und PKW.

Auto verweist auf die Vorzugsbenennung PKW und mit einer Assoziationsbeziehung („siehe auch“) auf LKW.

Siehe auch: semantisches Netz

Thesaurus als Sammelwerk

Verschiedene Formen von Thesauri

Früher verstand man unter einem Thesaurus ein wissenschaftliches Sammelwerk mit dem gesamten Wortschatz einer Sprache. Bekannt sind unter anderem der Thesaurus Linguae Graecae und der Thesaurus Linguae Latinae. Bei diesen Werken handelt es sich genaugenommen um Wörterbücher.

Die ersten in der Elektronischen Textverarbeitung (EDV) verwendeten Thesauri waren ebenfalls einfache Wörterbücher, welche eingegebene Vokabeln mit enthaltenen Einträgen abgleichen und dem Anwender Rückmeldungen geben konnten. Die Rückmeldungen ließen sich zunächst nur für die Erkennung von einfachen Rechtschreibfehlern verwenden und konnten mit Suchläufen, später aber in Echtzeit angeboten werden, was dem heutigen Standard entspricht. Ursprünglich entstanden die dazu benötigten Datenbanken aus manuell in Datenformat konvertierten Wort-Sammlungen, die für kommerzielle Programme zunächst fortlaufend durch den Hersteller ergänzt und mit updates an den Kunden ausgeliefert wurden. Mit dem Aufkommen von individuell durch den Benutzer ergänzbaren Worteinträgen entstand die Möglichkeit, große, quasi-kollaborative nutzerbasierte Plattformen zur Sammlung neuer Einträge zu verwenden, wobei die auf einem Server gelagerte Datenbank durch Rücksendung der individuellen Arbeitskopien von Thesauri verschiedener Benutzer kurzzeitig sehr stark wuchsen. Auch dabei war aber eine Handsichtung notwendig, um den Eintrag häufig falsch geschriebener und deshalb irrtümlich häufig eingesendeter falscher Vokabeln zu verhindern. Aufgrund des begrenzten Vokabulars jeder Sprache sind heute jedoch für die meisten Sprachen nahezu komplette Datensätze verfügbar, die die jeweilige Sprache erschöpfend wieder geben. Der Eintrag neuer Wörter entspricht heute nur noch dem natürlichen Wachstum der jeweiligen Sprachen.

Zeitgleich wurden die elektronischen Thesauri zu immer komplexeren Programmen weiter entwickelt, welche auch grammatikalische Regeln und Stilregeln kontrollieren sowie Synonyme anbieten können. An ihren Grenzbereichen geben moderne Thesauri heute auch Übersetzungshilfen und lassen Texte vollständig automatisch durchsichten, wobei der Anwender zuvor zahlreiche Optionen anwählen kann.

Interkulturelle Thesauri

Eine besondere Form der Thesauri bedient Eingabehilfen für Piktogrammschriften wie beispielsweise die Chinesische Schrift mithilfe der westlichen Computer-Tastatur. Diese Schriftzeichen lassen sich aufgrund ihrer Vielzahl oft nicht auf praktisch handhabbaren Tastaturen abbilden, weshalb die Thesauri dem Anwender Zeichen vorschlagen, die dann von ihm angenommen oder abgelehnt werden können. So gibt es für die Eingabe japanischer oder chinesischer Schriftzeichen zahlreiche Methoden, die Silben oder Abkürzungen nach thesauriden Datenbankeinträgen in Schriftzeichen umwandeln. Von diesen Methoden konnte sich jedoch bislang keine standardisiert durchsetzen, weil die asiatischen Schriftsprachen sehr komplex aufgebaut sind und die Bedeutung der Zeichen oftmals vom Kontext abhängig ist. Der Lernaufwand zur Nutzung dieser Thesauri-basierten Programmlösungen ist für Asiaten extrem hoch und native Sprecher benutzen meist nur jeweils eine Softwarelösung, mit der sie akzeptabel hohe Schreibgeschwindigkeiten erreichen können, welche jedoch hinter der der lateinischen Buchstabenschrift weit zurück bleibt. Lateinische Schreiber schreiben wesentlich schneller als asiatische, obgleich die Lesegeschwindigkeit bei Piktogrammschriften für kundige Leser höher ist als bei lateinischen Schriften. Einem einheitlichen Thesaurus für Piktogrammschriften stehen traditionelle, konzeptionelle und syntaktische Probleme entgegen.