Schematransformation

Schematransformation

Schematransformation und -integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der Datenmigration und Informationsintegration (bzw. Datenintegration) von Bedeutung. Die Transformation und -integration von Schemata lässt sich teilweise mit der Übersetzung natürlicher Sprachen vergleichen und wird ebenso wie diese häufig unterschätzt. Eine konkrete Abbildung eines Schemas (oder mehrerer) auf ein anderes (oder mehrere) wird als Schema Mapping und das automatische Erkennen eines solchen Mappings als Schema Matching bezeichnet. Diese Begriffe werden jedoch nicht ganz einheitlich verwendet. In der Informationsintegration wird zwischen Schemaintegration und Schema Mapping unterschieden je nachdem, ob die Daten der Ausgangsschemata vollständig (materialisierte Integration) oder nur anfragebasiert zusammengeführt werden sollen (virtuelle Integration).

Inhaltsverzeichnis

Schema Mapping

Ein Schema Mapping ist eine Liste von Korrespondenzen, die äquivalente Bestandteile zweier heterogener Schemata miteinander in Beziehung setzt.

Aus dem Mapping sollten sich Transformationsregeln ableiten lassen, mit denen sich die Daten aus dem einen Schema möglichst vollständig in das andere Schema überführen lassen. Dies kann beispielsweise mit Hilfe der Datenbanksprache SchemaSQL geschehen. Zur Ermittlung der konkreten Transformationen bei einem gegebenem Mapping müssen Assoziationen innerhalb und zwischen den Schemata gefunden werden.

Schema Matching

Die Methoden, auf automatischem Wege eine Mapping zwischen zwei gegebenen Schemata zu finden, können in vier Klassen eingeteilt werden:

  • Beschriftungsbasierte Übereinstimmungssuche (label-based matching)
  • Instanzbasierte Übereinstimmungssuche (instance-based matching)
  • Strukturbasierte Übereinstimmungssuche (structure-based matching)
  • sowie Mischformen der eben genannten Methoden

Beschriftungsbasierte Übereinstimmungssuche

Die Kernidee der beschriftungsbasierten Übereinstimmungssuche ist, ein Kreuzprodukt aus allen Attributnamen der beiden zu vergleichenden Schemata zu bilden und für jedes Paar die Ähnlichkeit der Attributnamen zu bestimmen (beispielsweise mit der Levenshtein-Distanz). Die ähnlichsten Paare sind dann (vermutlich) Übereinstimmungen.

Instanzbasierte Übereinstimmungssuche

Gegeben sind zwei Schemata mit den Attributmengen A und B und jeweils darunter liegende Daten.

Die Kernidee der instanzbasierten Übereinstimmungssuche ist, für jedes Attribut kennzeichnende Eigenschaften (beispielsweise Länge, Buchstabenverteilung, etc.) der vorhandenen Daten zu ermitteln. Anschließend wird das Kreuzprodukt aller Attribute der beiden zu vergleichenden Schemata gebildet und für jedes Paar die Ähnlichkeit bezüglich der ermittelten Eigenschaften bestimmt. Die ähnlichsten Paare sind (vermutlich) Übereinstimmungen.

Strukturbasierte Übereinstimmungssuche

Gegeben sind zwei Schemata mit den Elementmengen A und B (Elemente können Attribute, Relationen, etc. sein). Die Kernidee ist nun, die (komplexe) Struktur der Schemata auszunutzen, um Übereinstimmungen zu finden. Betrachtet werden können z. B. die Hierarchieebene des Elementes, der Elementtyp oder Nachbarschaftsbeziehungen. Zur Verbesserung der Ergebnisse kann zum Beispiel Similarity Flooding (Ähnlichkeitsfluten) eingesetzt werden.

Mischformen

Bei den Mischformen unterscheidet man noch zwischen hybriden Ansätzen, die mehrere der grundlegenden Techniken anwenden, und kompositionalen Ansätzen, die mehrere Verfahren (auch hybride Techniken) als Kombination einsetzen und die jeweiligen Ergebnisse gewichten (zum Beispiel mit Hilfe maschinellen Lernens).

Literatur

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Schematransformation und -integration — bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehrerer Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der Datenmigration und Informationsintegration… …   Deutsch Wikipedia

  • Schema Mapping — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schema Matching — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schemaintegration — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • CIDOC CRM — Das CIDOC Conceptual Reference Model bietet die erweiterbare Ontologie für Begriffe und Informationen im Bereich des Kulturerbes. Es ist die Norm (ISO 21127:2006)[1] für den kontrollierten Austausch von Informationen im Bereich des kulturellen… …   Deutsch Wikipedia

  • ETL-Prozess — ETL: Datenfluss und unterstützende Programme Extract, Transform, Load (ETL) ist ein Prozess, bei dem Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden. Extraktion der relevanten Daten aus… …   Deutsch Wikipedia

  • Föderierte Datenbank — Ein föderiertes Informationssystem (oft auch föderiertes Datenbanksystem) ist ein Informationssystem, das einen Zugriff auf mehrere autonome Informationsquellen bietet, ohne dass deren Daten kopiert werden, wie es beispielsweise in einem Data… …   Deutsch Wikipedia

  • Föderiertes Datenbanksystem — Ein föderiertes Informationssystem (oft auch föderiertes Datenbanksystem) ist ein Informationssystem, das einen Zugriff auf mehrere autonome Informationsquellen bietet, ohne dass deren Daten kopiert werden, wie es beispielsweise in einem Data… …   Deutsch Wikipedia

  • CIDOC Conceptual Reference Model — Das CIDOC Conceptual Reference Model bietet die erweiterbare Ontologie für Begriffe und Informationen im Bereich des Kulturerbes. Es ist eine Norm (ISO 21127:2006)[1] für den kontrollierten Austausch von Informationen im Bereich des… …   Deutsch Wikipedia

  • Datenbankschema — Ein Schema oder Datenschema (im Plural „Schemata“ oder „Schemas“) ist in der Informatik eine formale Beschreibung der Struktur von Daten. Besondere Bedeutungen haben Schemata im Zusammenhang mit Datenbanken. Hier ist ein Schema ein sprachlich… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”