Maschineller Übersetzer

Maschineller Übersetzer

Maschinelle Übersetzung (MÜ oder MT für engl. machine translation), auch automatische Übersetzung, bezeichnet die Übersetzung von Texten aus einer Ausgangssprache (in der MÜ als Quellsprache bezeichnet) in eine Zielsprache mit Hilfe eines Computerprogrammes. MÜ ist ein Teilbereich der künstlichen Intelligenz.

Während die menschliche Übersetzung Gegenstand der angewandten Sprachwissenschaft ist, wird MÜ vor allem in der Informatik und Computerlinguistik erforscht. Schon für die ersten Computer Ende der 40er-Jahre wurden MÜ-Anwendungen geschrieben. MÜ gilt als die Königsdisziplin der Computerlinguistik.

Inhaltsverzeichnis

Menschheitstraum

Das Verstehen einer Sprache, ohne sie gelernt zu haben, ist ein alter Menschheitstraum (Turmbau zu Babel, J. Bechers numerische Interlingua, Babelfisch, Pfingstwunder, Science-Fiction-Geschichten). Die Erfindung der Computer in Kombination mit der Beschäftigung mit dem Phänomen Sprache als wissenschaftlicher Disziplin (Sprachwissenschaft) haben zum ersten Mal einen konkreten Weg zur Erfüllung dieses Traums geöffnet.

Geschichte

Bis zum heutigen Tag hat das militärische Interesse den Weg der MÜ entscheidend geprägt. Eines der frühesten Projekte war ein Russisch-Englisch-Übersetzungsprogramm für das US-Militär. Trotz seiner anekdotenhaft schlechten Qualität genoss das Programm hohe Popularität unter US-Militärs, die sich zum ersten Mal ohne den Umweg über Dritte (Dolmetscher und Übersetzer) selbst zumindest einen Eindruck vom Inhalt russischer Dokumente verschaffen konnten.

Der 1966 für das Pentagon erstellte ALPAC-Bericht bescheinigte der MÜ grundsätzliche Unrealisierbarkeit und brachte mit einem Schlag die Forschung für fast 20 Jahre praktisch ganz zum Erliegen. Erst in den 80er-Jahren begannen Elektrokonzerne wie die Siemens AG (Metal-Projekt) erneut mit der Forschung. In der gleichen Zeit initiierte die japanische Regierung das Fünfte-Generation-Projekt, bei dem MÜ von Englisch in Japanisch zunächst auf der Basis der Programmiersprache Prolog implementiert wurde. Die enge Zusammenarbeit zwischen Universitäten, Elektrokonzernen und Regierung führte zu den weltweit ersten kommerziellen MÜ-Programmen für PCs und hat Japan in die Führungsposition der MÜ-Forschung weltweit gebracht. In den 90er-Jahren lief in Deutschland das BMBF-Leitprojekt Verbmobil, dessen Ziel es war, deutsche, englische und japanische gesprochene Dialogsprache zu dolmetschen. Das Verbmobil-System sollte gesprochene Spontansprache erkennen, die Eingabe analysieren, übersetzen, einen Satz erzeugen und ihn aussprechen.

Der Crash der Dotcom-Unternehmen 2000-2001 hat auch viele kleinere MÜ-Unternehmen in den Ruin getrieben. Heutzutage sind in der MÜ-Software-Industrie weltweit schätzungsweise nur 10–20 Unternehmen aktiv (viele Programme sind lizenziert, so dass der falsche Eindruck einer größeren Vielfalt entsteht), so dass sich die Entwicklung großenteils an den Universitäten abspielt. Eines der bekanntesten Forschungsprojekte dieser Art ist die freie Software Apertium, die von der spanischen Regierung und der Regierung von Katalonien finanziert und an der Universität Alicante weiterentwickelt wird.

Derzeit wird weltweit nur etwa 1 % des gesamten Umsatzes auf dem Übersetzungs-Markt mit MÜ-Anwendungen erzielt.

Dennoch gibt es mehrere Gründe für einen ansteigenden Bedarf an MÜ-Anwendungen:

  • Viele Texte sind heute digital verfügbar (also leicht für den Computer zu verarbeiten).
  • Die Globalisierung erfordert die Übertragung von immer mehr Texten in immer mehr Sprachen (der Markt für Übersetzung verdoppelt sich alle vier Jahre), während die Popularität des Berufs des Übersetzers/Dolmetschers stagniert.
  • Gerade von nur wenigen Westeuropäern/Amerikanern gesprochene beziehungsweise für diese schwierig zu erlernende Sprachen aus Regionen, deren Bewohner ihrerseits kaum westliche Sprachen sprechen, werden immer wichtiger:
    • kommerziell wichtig: die ostasiatischen Sprachen Chinesisch, Koreanisch und Japanisch; sowie Thai.
    • militärisch wichtig: Sprachen der internationalen Konfliktregionen, vor allem mit Beteiligung des US-Militärs. 2003 haben gleich mehrere US-Software-Unternehmen Übersetzungsprogramme für Arabisch und sogar Paschtu (eine der Sprachen in Afghanistan und Grenzregionen Pakistans) herausgebracht. Ebenfalls 2003 hat die DARPA einen Blind-Wettbewerb für eine unbekannte Ausgangssprache durchgeführt.

Übersetzungs-Methoden

Alle MÜ-Systeme benutzen (in Datei-Form vorliegende) zweisprachige Wörterbücher und haben zumindest für grundsätzliche Grammatikregeln Module. Die einzelnen Methoden unterscheiden sich dennoch erheblich.

Die wichtigsten Methoden/Herangehensweisen der MÜ sind:

  • direkte MÜ. Die Wörter des Quelltextes werden mit dem Wörterbuch Wort für Wort und in der gleichen Reihenfolge in die Zielsprache übertragen. Anschließend werden Satzstellung und Flexion nach den Regeln der Zielsprache angepasst. Dies ist die älteste und einfachste MÜ-Methode, die beispielsweise auch obigem Russisch-Englisch-System zugrundelag.
  • Transfer. Die Transfer-Methode ist die klassische MÜ-Methode mit drei Schritten: Analyse, Transfer, Generierung. Der zweite Schritt hat der ganzen Methode den Namen gegeben. Zunächst wird die grammatische Struktur des Quelltextes analysiert, oft in einer Baumstruktur. Abhängig von der gewählten Transfermethode wird daraus oft eine semantische Struktur abgeleitet. Danach werden die Strukturen in die Zielsprache übertragen (=transferiert). Schließlich werden in der Zielsprache aus den Strukturen mit grammatischen Regeln wiederum Sätze erzeugt und so der Zieltext erzeugt (=generiert).
  • Interlingua. Die Interlingua-Methode analysiert zunächst die grammatische Information des Quelltextes und transferiert diesen, nach vordefinierten Regeln, in eine „Zwischensprache“ (=Interlingua). Die grammatische Information in der Zielsprache wird aus dieser Zwischensprache erzeugt. Die Interlingua-Methode ist hilfreich bei mehrdeutigen Ausdrücken. So kann man deutsch „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen.“ nicht mit einer Transfer-Regel würde-->would übersetzen („If I would work, I would buy a car.“), weil auf Englisch if-Sätze would nicht erlauben. In der Interlingua würde die würde-Information abstrakt als „Irreales Konditional“ weitergegeben und im Englischen je nach dem Satzkontext mit oder ohne would realisiert.
  • EBMT (steht für Example-Based Machine Translation, beispielbasierte MÜ). Das Kernstück eines EBMT-System ist ein Übersetzungsspeicher, in dem häufig wiederkehrende Sätze oder Redewendungen mit ihren jeweiligen Übersetzungen gespeichert werden. Statistisch wird (mit Information-Retrieval-Methoden) berechnet, wie ähnlich alle Einträge des Übersetzungsspeichers jeweils einem Satz des Quelltextes sind. Aus der Kombination der Übersetzung der ähnlichsten Sätze wird die Übersetzung generiert.
  • SBMT (steht für Statistics-Based Machine Translation, statistische MÜ). Vor der eigentlichen Übersetzung analysiert ein Programm ein möglichst großes und breitgefächertes Textkorpus von zweisprachigen Texten (oft zum Beispiel Parlamentsprotokolle, etwa aus dem kanadischen Hansard-Corpus). Dabei werden Wörter und grammatische Formen in Ausgangs- und Zielsprache einander aufgrund ihrer Häufigkeit und gegenseitigen Nähe zugeordnet und somit ein Wörterbuch sowie Grammatikübertragungsregeln extrahiert. Auf dieser Basis werden nun Texte übersetzt. Die SBMT ist in letzter Zeit sehr populär, weil sie keinerlei Kenntnis der beteiligten Sprachen voraussetzt. Ein daraus entstehender Vorteil der SBMT ist, dass auch Regeln, die sprachwissenschaftlich noch nicht genau erklärt sind, theoretisch mit erfasst werden können, indem reale Textbestände analysiert werden. Die Übersetzungsqualität ist bisher allerdings meist deutlich schlechter als die mit bestehenden regelbasierten Systemen erreichte, zum Teil auch deshalb, weil die statistische MÜ noch vergleichsweise jung ist. SBMT wird beispielsweise vom Pentagon für die Sprachen favorisiert, für die man schnell ein MÜ-System braucht, ohne Zeit für das Zusammentragen von Regeln durch Menschen zu haben.
  • HAMT (steht für Human-Aided Machine Translation, MÜ mit menschlicher Hilfe). Anstatt die Übersetzung 100 % dem Computer zu überlassen, wird der menschliche Benutzer gebeten, mehrdeutige oder schwierig zu übersetzende Konstruktionen selbst zu übersetzen oder zu vermeiden (so genannte Kontrollierte Sprache). Dies kann im voraus geschehen, indem der Benutzer beispielsweise lange Sätze in kurze Sätze unterteilt, oder in Interaktion, zum Beispiel indem das Programm den Benutzer bittet, die gewünschte Bedeutung eines Wortes auszuwählen. Siehe auch übersetzungsgerechtes Schreiben.

Die meisten Systeme in der Praxis sind eine Mischung aus mehreren Methoden (oft Dominanz des Transfersystems mit Interlingua und EBMT-Elementen).

Nicht zur maschinellen Übersetzung zählt die MAHT (steht für Machine-Aided Human Translation, auch Computer-Aided Translation oder CAT genannt), also die bloß computerunterstützte Übersetzung, bei der ein Computerprogramm den menschlichen Übersetzer durch automatisches Nachschlagen von Terminologie (automatic dictionary look-up), Vergleich mit früheren Übersetzungen (Übersetzungsspeicher) und ähnliche Funktionen unterstützt.

Qualität

Ergebnisse von MÜ-Programmen sind oft unbeabsichtigt erheiternd. Um diesen Effekt zu sehen, genügt es, irgendeinen willkürlich ausgewählten Text von einer kostenlosen Übersetzungsmaschine in die eigene Muttersprache übersetzen zu lassen.

Wie bewertet man MÜ-Qualität? (Evaluation)

Anstatt des intuitiven und wenig aussagekräftigen Eindrucks „diese Übersetzung ist miserabel“ benutzt die MÜ-Forschung die Evaluation, die skalierte Bewertung der Übersetzungsqualität. MÜ-Übersetzungen werden zunächst pro Satz bewertet; die normalisierte Summe der Sätze ist die Qualität des ganzen Textes. In den meisten Fällen wird die Bewertung per Hand von einem Muttersprachler der Zielsprache durchgeführt und in einer Kennziffer ausgedrückt. In Japan wird oft eine fünfstellige Skala mit 0-4 Punkten verwendet:

  • 4 Punkte: Sehr gut verständlich bis perfekt; kein offensichtlicher Fehler.
  • 3 Punkte: Ein bis zwei falsche Wörter; sonst gut verständlich.
  • 2 Punkte: Mit gutem Willen kann man sich ungefähr denken, was ursprünglich gemeint war.
  • 1 Punkt: Der Satz wird in einem anderen als dem gemeinten Sinn verstanden (wenn überhaupt). Das liegt oft an teilweise oder ganz falscher Grammatik-Übersetzung (Struktur).
  • 0 Punkte: Der Satz ergibt keinen Sinn; sieht aus wie eine zufällig zusammengewürfelte, chaotische Anordnung von Wörtern.

Für große Übersetzungen benutzen MÜ-Forscher neuerdings auch automatische Evaluations-Algorithmen wie den Bleu-Score, die allerdings der menschlichen Urteilskraft unterlegen sind.

Zu hohe Erwartungen?

Die Erwartungshaltung von Teilen der Bevölkerung ist hoch. Der Wissenschaft wird grundsätzlich zugetraut, den Traum in absehbarer Zeit vollständig zu verwirklichen („das muss doch möglich sein“). Dagegen erscheint der tatsächliche Fortschritt in der Forschung ernüchternd und unbefriedigend.

Dabei ist eine der Bedingungen für eine funktionierende MÜ, dass die menschliche Sprache umfassend und detailliert verstanden und beschrieben wird. Bis jetzt ist dieses Ziel jedoch noch nicht erreicht. Die meisten Sprachwissenschaftler gehen gar davon aus, dass das vollständige Begreifen von Sprache ein vollständiges Begreifen der menschlichen Intelligenz insgesamt impliziert. Man kann also die Ansicht vertreten, dass ein perfektes MÜ-System den menschlichen Geist simulieren und somit eine Form der Künstlichen Intelligenz darstellen müsste. Wie oben erwähnt ist es ein Vorteil der SBMT, dass dieses Problem umgangen wird, da theoretisch auch noch nicht explizit bekannte Regeln extrahiert werden können.

Praktische Probleme

Dass MÜ-Qualität oft als unbefriedigend empfunden wird, hat auch noch handfestere, teilweise behebbare Ursachen:

  • Billigprogramme“. Viele bewerten den Stand der MÜ aufgrund kostenloser MÜ-Tools, die zum Beispiel im Internet auf Yahoo! oder Google verfügbar sind. Oft handelt es sich hier um abgespeckte oder ältere Versionen von sonst kostenpflichtigen (und besseren) Programmen, oder um eigens schnell (und schlecht) erstellte Programme.
  • Benutzer kennt Ausgangssprache. Gerade bei Übersetzungen zwischen westlichen Sprachen versteht der Benutzer oft die Ausgangssprache bis zu einem gewissen Grad selbst und ist so empfindlicher gegenüber Abweichungen als jemand, der ausschließlich auf die Übersetzung angewiesen wäre.
  • Sprachstil. Jeder Sprachstil hat Besonderheiten, die teilweise noch nicht einmal in der Linguistik beschrieben wurden. MÜ-Systeme gehen meist von der geschriebenen Zeitungssprache aus. Besonders schlechte Ergebnisse liefern MÜ-Systeme bei den Textsorten, für die sie nicht entwickelt wurden, also meistens bei literarischen Texten, bei gesprochener Sprache oder gelegentlich auch bei technischen Texten (beispielsweise bei den berüchtigten maschinell übersetzten Gebrauchsanleitungen aus Japan).
  • Mangelnde Interdisziplinarität. MÜ ist ein Bereich der Computerlinguistik, aber die meisten Forscher kommen aus einer der zwei Mutterdisziplinen dieser Fachrichtung, entweder aus der Informatik oder aus der Sprachwissenschaft, ohne sich genügend Fachkenntnisse in der jeweils anderen Disziplin anzueignen. Während Linguisten oft die Programmierpraxis fehlt, fehlt Informatikern oft die Bereitschaft zur Beschäftigung mit dem Phänomen Sprache. Aus diesem Grund liegt den meisten MÜ-Anwendungen ein strukturalistisches Sprachmodell zugrunde, das die Erkenntnisse in der Linguistik in den letzten 50 Jahren eher unberücksichtigt lässt.
  • Kein Austausch zwischen Industrie und Akademik. Kommerzielle MÜ-Unternehmen beschäftigen oft lieber reine Programmierer, die sich das Fachwissen „vor Ort“ aneignen sollen, als MÜ-Forscher von den Universitäten, die teilweise das Image haben, sich auf unwichtige Details zu versteifen.
  • Zu kleines und/oder fehlerhaftes Wörterbuch. Mit den Veränderungen in Gesellschaft und Wissenschaft nimmt der Wortschatz einer Sprache jeden Tag rasant zu. Außerdem haben viele Wörter mehrere Bedeutungen (vgl. Homonym), die durch Kontext-Analyse disambiguiert werden könnten. Wörterbuch-Mängel wie im Anfangsbeispiel Russisch-Englisch sind zu einem überraschend großen Teil für die schlechte Übersetzungsqualität verantwortlich. Die größten MÜ-Programme haben Wörterbücher mit mehreren Millionen Einträgen und einem Vielfachen an Bedeutungsunterscheidungen. Die detaillierte und vor allem fehlerfreie Erstellung solcher großen Wörterbücher für MÜ-Anwendungen durch Lexikographen stellt für kleinere Unternehmen einfach einen zu kostspieligen Aufwand dar.
  • Mangelnde Transfer-Regeln. Viele grammatische Phänomene unterscheiden sich stark von Sprache zu Sprache bzw. sind nur in bestimmten Sprachen vorhanden. Die Lösung dieser Probleme erfordert oft linguistische Grundlagenforschung; diesen Aufwand suchen MÜ-Unternehmen natürlich zu vermeiden.
  • Computerlinguistische Probleme. Daneben hat die MÜ viele Probleme, die auch bei anderen computerlinguistischen Anwendungen auftreten, z. B. das Verständnis von Weltwissen.

Grammatische Problemgebiete (Diversionen)

In keinem MÜ-System wird jede grammatische Regel angewendet beziehungsweise analysiert. Vielmehr wird oft auf free rides vertraut. Free ride (kostenlose Mitnahme) bedeutet, dass ein bestimmtes, nicht analysiertes grammatisches Phänomen zufällig in der anderen Sprache in ähnlicher Form auftritt (sodass nur die Wörter übersetzt werden müssen). So beim Artikel: der, die, das wird sowieso fast immer zu the im Englischen, fast nie zu a, also scheint eine Analyse als "bestimmter Artikel" überflüssig. Dass aber auch zwischen Deutsch und Englisch free rides scheitern können, zeigt der obige if-Satz mit "würde". Zwischen weniger nah verwandten Sprachen, zum Beispiel Chinesisch und Deutsch, sind free rides oft nicht mal auf der Wortebene eine sichere Bank.

Viele komplexe Grammatik-Phänomene sind von der MÜ noch gar nicht oder nur in Ansätzen erforscht. Dann sind free rides oft die einzige Lösung. Solche Phänomene sind (Auswahl):

  • Artikel. Die germanischen und romanischen Sprachen haben Artikel, viele andere Sprachen dagegen nicht. Bei Übersetzung aus einer anderen Sprache muss der jeweils richtige Artikel quasi "aus dem Nichts" generiert werden – aber eben nicht in allen Fällen.
  • Zusammengesetzte Nomina. In Sprachen wie Deutsch oder Japanisch kann die genaue Beziehung zwischen Nomina untereinander "kaschiert" werden, indem man sie einfach nebeneinander stellt. In anderen Sprachen muss die Beziehung explizit gemacht werden. Beispiel: Donaudampfschifffahrtsgesellschaftskapitän = "Ein Kapitän, der bei einer Gesellschaft arbeitet, die Dampfschiffe auf der Donau betreibt".
  • Relativpronomen. Die meisten Sprachen haben gar kein oder nur ein einziges Relativpronomen. Bei Übersetzung in Deutsch (der, die, das) oder Englisch muss aber ausdifferenziert werden.
  • Tempus/Modalität. Jede Sprache hat ihr eigenes System, um zu sagen, dass ein Satz in der Vergangenheit passiert oder ein Befehl ist. In europäischen Sprachen wird dies oft mit Verb und Adverb realisiert.

Siehe auch

Literatur

  • Arnold, Douglas et al.: Machine Translation. An Introductory Guide. Blackwell, London 1994.
  • Hutchins, W. John: Machine Translation. Past, Present, Future. Harwood/Wiley, Chichester/NY 1986.
  • Muegge, Uwe: Lokalisierung und Maschinelle Übersetzungssysteme; in: Lokalisierung von Technischer Dokumentation. Schmidt-Römhild, Lübeck 2002.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Übersetzung — Über|set|zung [y:bɐ zɛts̮ʊŋ], die; , en: a) <ohne Plural> das Übersetzen: die Übersetzung des Textes [aus dem/vom Spanischen ins Deutsche] ist schwierig. Syn.: ↑ Übertragung. b) 2übersetzter Text: eine wörtliche, wortgetreue, neue, moderne… …   Universal-Lexikon

  • Dolmetschwissenschaft — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Skopostheorie — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Translationswissenschaft — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Translationswissenschaften — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Übersetzungs- und Dolmetschwissenschaften — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Übersetzungswissenschaft — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Sie wird oft auch einfach als Übersetzungswissenschaft bezeichnet, obwohl diese Benennung strenggenommen die ebenfalls zur Translatologie gehörige Dolmetschwissenschaft… …   Deutsch Wikipedia

  • Translatologie — Die Translatologie ist die Wissenschaft vom Dolmetschen und Übersetzen. Im deutschen wissenschaftlichen Diskurs herrscht die Bezeichnung Translationswissenschaft vor. Gelegentlich wird sie auch einfach als Übersetzungswissenschaft bezeichnet,… …   Deutsch Wikipedia

  • Bundessprachenamt — Aufstellung 4. Juli 1969 Land …   Deutsch Wikipedia

  • Künstliche Intelligenz — (KI, englisch artificial intelligence, AI) ist ein Teilgebiet der Informatik, welches sich mit der Automatisierung intelligenten Verhaltens befasst. Der Begriff ist insofern nicht eindeutig abgrenzbar, da es bereits an einer genauen… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”