Schema Matching

Schema Matching

Schematransformation und -integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der Datenmigration und Informationsintegration (bzw. Datenintegration) von Bedeutung. Die Transformation und -integration von Schemata lässt sich teilweise mit der Übersetzung natürlicher Sprachen vergleichen und wird ebenso wie diese häufig unterschätzt. Eine konkrete Abbildung eines Schemas (oder mehrerer) auf ein anderes (oder mehrere) wird als Schema Mapping und das automatische Erkennen eines solchen Mappings als Schema Matching bezeichnet. Diese Begriffe werden jedoch nicht ganz einheitlich verwendet. In der Informationsintegration wird zwischen Schemaintegration und Schema Mapping unterschieden je nachdem, ob die Daten der Ausgangsschemata vollständig (materialisierte Integration) oder nur anfragebasiert zusammengeführt werden sollen (virtuelle Integration).

Inhaltsverzeichnis

Schema Mapping

Ein Schema Mapping ist eine Liste von Korrespondenzen, die äquivalente Bestandteile zweier heterogener Schemata miteinander in Beziehung setzt.

Aus dem Mapping sollten sich Transformationsregeln ableiten lassen, mit denen sich die Daten aus dem einen Schema möglichst vollständig in das andere Schema überführen lassen. Dies kann beispielsweise mit Hilfe der Datenbanksprache SchemaSQL geschehen. Zur Ermittlung der konkreten Transformationen bei einem gegebenem Mapping müssen Assoziationen innerhalb und zwischen den Schemata gefunden werden.

Schema Matching

Die Methoden, auf automatischem Wege eine Mapping zwischen zwei gegebenen Schemata zu finden, können in vier Klassen eingeteilt werden:

  • Beschriftungsbasierte Übereinstimmungssuche (label-based matching)
  • Instanzbasierte Übereinstimmungssuche (instance-based matching)
  • Strukturbasierte Übereinstimmungssuche (structure-based matching)
  • sowie Mischformen der eben genannten Methoden

Beschriftungsbasierte Übereinstimmungssuche

Die Kernidee der beschriftungsbasierten Übereinstimmungssuche ist, ein Kreuzprodukt aus allen Attributnamen der beiden zu vergleichenden Schemata zu bilden und für jedes Paar die Ähnlichkeit der Attributnamen zu bestimmen (beispielsweise mit der Levenshtein-Distanz). Die ähnlichsten Paare sind dann (vermutlich) Übereinstimmungen.

Instanzbasierte Übereinstimmungssuche

Gegeben sind zwei Schemata mit den Attributmengen A und B und jeweils darunter liegende Daten.

Die Kernidee der instanzbasierten Übereinstimmungssuche ist, für jedes Attribut kennzeichnende Eigenschaften (beispielsweise Länge, Buchstabenverteilung, etc.) der vorhandenen Daten zu ermitteln. Anschließend wird das Kreuzprodukt aller Attribute der beiden zu vergleichenden Schemata gebildet und für jedes Paar die Ähnlichkeit bezüglich der ermittelten Eigenschaften bestimmt. Die ähnlichsten Paare sind (vermutlich) Übereinstimmungen.

Strukturbasierte Übereinstimmungssuche

Gegeben sind zwei Schemata mit den Elementmengen A und B (Elemente können Attribute, Relationen, etc. sein). Die Kernidee ist nun, die (komplexe) Struktur der Schemata auszunutzen, um Übereinstimmungen zu finden. Betrachtet werden können z. B. die Hierarchieebene des Elementes, der Elementtyp oder Nachbarschaftsbeziehungen. Zur Verbesserung der Ergebnisse kann zum Beispiel Similarity Flooding (Ähnlichkeitsfluten) eingesetzt werden.

Mischformen

Bei den Mischformen unterscheidet man noch zwischen hybriden Ansätzen, die mehrere der grundlegenden Techniken anwenden, und kompositionalen Ansätzen, die mehrere Verfahren (auch hybride Techniken) als Kombination einsetzen und die jeweiligen Ergebnisse gewichten (zum Beispiel mit Hilfe maschinellen Lernens).

Literatur

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Schema matching — The terms schema matching and mapping are often used interchangeably. For this article, we differentiate the two as follows: Schema matching is the process of identifying that two objects are semantically related (scope of this article) while… …   Wikipedia

  • Schema Mapping — Schematransformation und integration bezeichnet in der Informatik die Überführung von Schemata ineinander (Transformation) beziehungsweise die Kombination mehreren Schemata zu einem neuen Schema (Integration). Beide Aufgaben sind bei der… …   Deutsch Wikipedia

  • Schema.org — URL: schema.org Коммерческий: Нет Тип сай …   Википедия

  • Schema (genetic algorithms) — A schema is a template in computer science used in the field of genetic algorithms that identifies a subset of strings with similarities at certain string positions. Schemata are a special case of cylinder sets; and so form a topological… …   Wikipedia

  • Matching (Graphentheorie) — Die Theorie um das Finden von Matchings in Graphen ist in der diskreten Mathematik ein umfangreiches Teilgebiet, das in die Graphentheorie eingeordnet wird. Folgende Situation wird dabei betrachtet: Gegeben eine Menge von Dingen und zu diesen… …   Deutsch Wikipedia

  • Globales Matching — bezeichnet im Rahmen der Informationsintegration einen Prozess zur automatischen Abbildung verschiedener Schemas aufeinander (Schema Matching). Dabei werden Ergebnisse aus verschiedenen Matching Verfahren verwendet, um Attribute der zu matchenden …   Deutsch Wikipedia

  • Database schema — A depiction of MediaWiki database schema. A database schema (pronounced skee ma, /ˈski.mə/) of a database system is its structure described in a formal language supported by the database management system (DBMS) and refers to the organization of… …   Wikipedia

  • Holland's schema theorem — is widely taken to be the foundation for explanations of the power of genetic algorithms.A schema is a template that identifies a subset of strings with similarities at certain string positions. Schemata are a special case of cylinder sets; and… …   Wikipedia

  • Image schema — An image schema is a recurring structure of, or within, our cognitive processes, which establishes patterns of understanding and reasoning. Image schemas emerge from our bodily interactions, linguistic experience and historical context. The term… …   Wikipedia

  • Length schema — Length of a schema: The total number of nodes in the schema is called the length N(H) of a schema H. N(H) is also equal to the number of nodes in the programs matching H.References [http://www.cs.ucl.ac.uk/staff/W.Langdon/FOGP/ Foundations of… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”