Linguistische Suche

Linguistische Suche

Linguistische Suche ist ein Verfahren, das bei Suchmaschinen zum Einsatz kommt und bedeutet, dass die Suchanfrage durch linguistische Verfahren bearbeitet wird. Hierzu werden aus der ursprünglichen Anfrage weitere Wortvarianten abgeleitet.

Inhaltsverzeichnis

Verfahren

Die eingesetzten linguistischen Verfahren sind: Lemmatisierung, also das Erkennen von Grundformen, die Kompositazerlegung, die Generierung von Wortvarianten, das Erzeugen von Synonymen und die Wortableitungen.

Der Ansatz unterscheidet sich von den Stemming-Verfahren, da bei der linguistischen Suche mit tatsächlich existierenden Wortformen (und nicht mit Wortteilen oder -stämmen) gearbeitet wird. Dies ist besonders für das Deutsche aufgrund der starken Irregularität seiner Wortbildung sinnvoll.

Diese unterschiedlichen linguistischen Verfahren werden nacheinander angewendet, da sie voneinander abhängen. Als Erstes wird eine Lemmatisierung der einzelnen Begriffe durchgeführt, womit zu jedem Begriff dessen Grundform identifiziert wird (Häuser → Haus, Vögel → Vogel, gingen → gehen). Im Deutschen können in dieser Phase Komposita in ihre Bestandteile zerlegt werden (Autobahngebühr → Autobahn + Gebühr, Atomenergiedebatte → Atomenergie + Debatte). Der nächste Schritt besteht in der Generierung aller Wortvarianten aus dieser gefundenen Grundform (Haus → Häuser, Häusern, Hauses, Hause; gehen → gehe, gehst, geht, ging, gingst, gingen, gegangen, etc. ).

Mit den so gewonnenen zusätzlichen Varianten kann die ursprüngliche Suche angereichert werden, weshalb auch von "Expansion" gesprochen wird.

Die Linguistik stellt weitere Verfahren zur Verfügung: Das Erkennen von Synonymen (Haus → Gebäude, Dynastie etc.) oder Wortableitungen (Haus → häuslich, Häuslein etc.) liefert zusätzliche Varianten für die Suche.

Die Suchbegriffe aus den verschiedenen Quellsprachen können in verschiedene Zielsprachen übersetzt (Flugzeug → (engl.) airliner, airplane, plane, aircraft → (franz.) avion) und wie Synonyme in die Suche eingefügt werden. Damit kann eine mehrsprachige Suche durchgeführt werden, im Sinne eines cross lingual information retrieval, was bedeutet, dass die Suchanfrage in einer Sprache eine Suche in einer oder mehreren weiteren Sprachen auslöst.

Zielsetzung

Im Gegensatz zur automatischen Übersetzung, wo eine korrekte Übersetzung eines Begriffs gefunden werden muss, ist das Ziel hier, möglichst viele Übersetzungsäquivalente zu bringen, wobei der Kontext in den gefundenen Resultaten implizit eine Differenzierung der Bedeutungen (Disambiguierung) vornimmt.

Eine wachsende Zahl von linguistischen Systemen wurde bisher entwickelt, mit zum Teil sehr variierenden Zielsetzungen. Die grundsätzlichen Unterschiede betreffen Größe der eingesetzten Wörterbücher (mehrere Millionen Einträge) und linguistischen Ressourcen, Ausstattung der Wörterbücher mit grammatischen Informationen (morphologisch, syntaktisch, semantisch, Verfügbarkeit der Übersetzungswörterbücher hinsichtlich der Sprachpaare.

Systeme

Während einsprachige Systeme relativ zahlreich sind (Beispiel: DWDS als umfangreiches Wörterbuchsystem, FAST als Such- u. Indexierungssystem mit linguistischer Komponente, AUTINDEX [1]), gibt es nur wenige mehrsprachige (cross-linguale) Systeme.

Genannt seien:

  • BASE, die den mehrsprachigen Thesaurus Eurovoc zur Übersetzung nutzt.
  • LEXIQUO [2] und PSYDOK [3] nutzen die 'linguistic engine' EXTRAKT [4][5] mit Übersetzungswörterbüchern und Eurovoc-Daten für Deutsch, Englisch, Französisch (sowie Italienisch und Spanisch).
  • Pertimm [6] ein franco-amerikanisches mehrsprachiges Indexierungs- und Retrievalsystem.

Referenzen

  1. AUTINDEX Automatische-Indexierung-und-Klassifizierung
  2. Lexiquo-Portal
  3. Mehrsprachige Suche in PSYDOK
  4. 'linguistic engine' EXTRAKT
  5. Artikel über EXTRAKT in www.ifra.net
  6. Pertimm System

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Linguistische Datenverarbeitung — In der Computerlinguistik wird untersucht, wie natürliche Sprache mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und… …   Deutsch Wikipedia

  • Linguistische Thesauri — Ein Thesaurus (aus dem altgriechischen thesaurós, „Schatz“, „Schatzhaus“, lat. dann thesaurus, daher auch Tresor) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander… …   Deutsch Wikipedia

  • Suchmaschine — Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet Suchmaschinen haben ihren Ursprung in Information Retrieval Systemen.… …   Deutsch Wikipedia

  • Epistemologie — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Epistemologisch — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Erkenntnisgewinn — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Erkenntnislehre — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Erkenntnistheoretiker — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Erkenntnistheoretisch — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

  • Gnoseologie — Bild dessen, was ich sehe. Welche Teile dieses Bildes gehören zu „mir“, welche zur „Außenwelt“, wie leiste ich die Zuordnung? Abbildung aus Ernst Mach, Die Analyse der Empfindungen (1900), S. 15. Die Erkenntnistheorie oder Epistemologie ist neben …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”