- Übersetzungsarchiv
-
Ein Übersetzungsspeicher (auch Übersetzungsarchiv; engl. translation memory, abgekürzt TM) ist eine (in der Regel die Haupt-)Komponente von Anwendungen zur rechnerunterstützten Übersetzung (Computer-aided translation, abgekürzt CAT).
Inhaltsverzeichnis
Überblick
Der Übersetzungsspeicher speichert die Übersetzungen – in der Regel menschlicher – Übersetzer und bietet dem Übersetzer diese bereits vorhandenen Übersetzungen später zur Wiederverwendung an. Hierbei können nicht nur identische, sondern auch ähnliche Ausgangstextsegmente erkannt werden. TM-Systeme dienen vor allem zur Sicherung der terminologischen und stilistischen Konsistenz (Einheitlichkeit) von Übersetzungen. Ein weiterer Aspekt ist die Arbeitserleichterung und -beschleunigung und die damit verbundene Kostenreduktion.
Besonders sinnvoll ist der Einsatz von TM-Systemen zur Übersetzung von Gebrauchstexten, in denen immer wiederkehrende identische oder ähnliche Formulierungen vorkommen (etwa Bedienungsanleitungen für Serien ähnlicher Produkte).
Die einzelnen Einheiten der Datenbank werden Segmente genannt. Sie umfassen in der Regel je einen Satz oder Absatz. Der Zugriff auf und die Arbeit mit Übersetzungsspeichern erfolgt über Translation-Memory-Systeme.
Typen
Es gibt zwei grundsätzliche Systemtypen:
- Zum einen gibt es Systeme, in denen Paare von Referenztexten (wiederum getrennt nach Ausgangs- und Zielsprache) gespeichert werden. Diese Systeme haben den Vorteil, dass der Kontext der jeweiligen Segmente erhalten bleibt und bei der Beurteilung der Qualität berücksichtigt werden kann. Außerdem können die Referenztexte gezielt ausgewählt und damit die Basis der Übersetzung optimiert werden.
- Zum anderen gibt es datenbankorientierte Systeme, in denen Paare von Übersetzungseinheiten (Segmente in der Ausgangssprache und ihre Entsprechung in der Zielsprache) ohne den Kontext der jeweiligen Quelldokumente gespeichert werden. Diese Systeme können im Laufzeitverhalten beim Zugriff auf große Datenmengen besser sein, sofern die einzelnen Übersetzungseinheiten in der Datenbank effizienter indiziert werden.
In der Praxis erfolgt die interaktive Arbeit mit einem Übersetzungsspeicher so, dass ein Übersetzer ein Segment zur Übersetzung anwählt. Das System sucht dann im Speicher nach gleichen oder ähnlichen Segmenten und bietet die vorhandenen Übersetzungen an. Diese Übersetzungen können vom Bearbeiter übernommen oder angepasst werden. Werden keine entsprechenden Segmente gefunden, gibt der Bearbeiter eine eigene Übersetzung ein, die dann zusammen mit dem Ausgangssegment gespeichert wird und ab sofort beim Auftreten identischer oder ähnlicher Segmente zur Verfügung steht. Zusätzlich erhält der Übersetzer je nach System noch eine Reihe weiterer Informationen, die ihm die Übersetzung erleichtern sollen. Hierzu gehören:
- Benutzer, der die angebotene Übersetzung angelegt/geändert hat
- Datum der Anlage/Erstellung der Übersetzung
- Häufigkeit der Verwendung der Übersetzung
- Kontext der Übersetzung
- Weitere klassifizierende Informationen
- Angaben zur fach- oder nutzerspezifischen Terminologie
Neben diesem interaktiven Verfahren können die meisten Systeme auch vor der eigentlichen Übersetzung eine vollautomatische Übersetzung („Vorübersetzung“) durchführen. Dabei vergleicht das System die Segmente im zu übersetzenden Dokument mit denen im Übersetzungsspeicher. Bei vollständiger Übereinstimmung wird das Segment durch die gespeicherte Übersetzung ersetzt. Der Benutzer muss sich anschließend nur noch mit dem Sätzen/Segmenten beschäftigen, die nicht im Übersetzungsspeicher gefunden wurden.
Eigenschaften
Üblicherweise verfügen TM-Systeme über Funktionen, die das Erkennen einer verwertbaren Übersetzung unabhängig von variablen Elementen wie Zahlen, Datumsangaben, Maßeinheiten oder Eigennamen ermöglichen.
Die Suche nach ähnlichen Quellsegmenten erfolgt mithilfe von unterschiedlich aufwändigen Suchalgorithmen (Fuzzy-Suche), die dann auch einen meist prozentualen Ähnlichkeitswert angeben.
Um Texte aus Textverarbeitungs- und DTP-Programmen für die TM-Systeme verfügbar zu machen gibt es Filter- und Extraktionsprogramme, die den Quelltext aus den jeweiligen Dateien herauslösen. Im Ergebnis erhält man dann eine markierte („getaggte“) Datei, in welcher der zu übersetzende Text zwischen speziellen Steuercodes (Tags) verfügbar ist. Diese Layout-Tags werden vom System geschützt bzw. ausgeblendet, sodass sie nicht versehentlich überschrieben oder verändert werden können. Bei der Übersetzung von Software (Lokalisierung) kann der Programmcode auf diese Weise vor unbeabsichtigter Veränderung geschützt werden. Nach der Übersetzung dienen die Steuercodes dem Filterprogramm dazu, die Texte wieder an die korrekte Stelle in der DTP-Datei einzufügen und dabei auch Formatierungen (z. B. Fettdruck, Kursiv, ...) auf die entsprechenden Stellen der Übersetzung anzuwenden.
Die meisten TM-Systeme verfügen über spezielle Editoren, um die Arbeit mit diesen „getaggten“ Dateien zu erleichtern.
Der Austausch zwischen verschiedenen TM-Systemen kann über das TMX-Format (Translation Memory eXchange) erfolgen. Da der Inhalt eines Systems jedoch stark von der Art der jeweiligen Segmentierung abhängt und die Definition des TMX-Formats breiten Interpretationsspielraum lässt, ist der Austausch in der Regel nicht verlustfrei.
Außerdem bieten verschiedene TM-Systeme Alignment-Werkzeuge, mit denen bereits früher erstellte Übersetzungen für den Übersetzungsspeicher aufbereitet werden können.
Weblinks
Wikimedia Foundation.