Objektidentifikation

Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen oder bei der Datenbereinigung notwendig. Die Schwierigkeit besteht darin, dass Datensätze für gleiche Objekte unterschiedliche Werte aufweisen können und deshalb Heuristiken angewandt werden müssen.

Duplikate können beispielsweise durch Eingabe- und Übertragungsfehler, wegen verschiedener Schreibweisen und Abkürzungen oder aufgrund unterschiedlicher Datenschemata entstehen. Beispielsweise können in eine Adressdatenbank aus unterschiedlichen Quellen Adressen aufgenommen werden, wobei ein und dieselbe Adresse mit Variationen mehrfach aufgenommen werden kann. Mittels Duplikaterkennung sollen nun diese Duplikate herausgefunden und die eigentlichen Adressen als Objekte identifiziert werden.

Zur Erkennung von Duplikaten werden verschiedene Ähnlichkeitsmaße angewandt, beispielsweise die Levenshtein-Distanz oder die Typewriterdistanz. Da in der Regel aus Kostengründen nicht jeder Datensatz mit jedem anderen verglichen werden kann, gibt es Verfahren wie die Methode Sortierte Nachbarschaft, bei der nur potenziell ähnliche Datensätze überprüft werden, ob sie Duplikate sind.

Beispiele

Bei den folgenden Einträgen aus einer Liste von Namen kann es sich möglicherweise um Duplikate handeln:

Max Müller

Max Mueller

M. Müller

Max Muller

Bei einer Bibliothek können Dubletten auftreten, wenn mehrere Bibliothekskataloge zusammengeführt werden.

Duplikate können auch mit SQL in einer Datenbank entfernt werden.

Siehe auch

Phonetische Algorithmen, die Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnen, dem phonetischen Code, um eine Ähnlichkeitssuche zu implementieren:

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Epipolargeometrie — Zwei Kameras nehmen von unterschiedlichen Standpunkten eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der… … Deutsch Wikipedia
GS1 — GDSN Inc. Rechtsform Incorporated Sitz Brüssel, Belgien Mitarbeiter … Deutsch Wikipedia
GS1 Germany — GS1 GDSN Inc. Unternehmensform Incorporated Unternehmenssitz Brüssel, Belgien … Deutsch Wikipedia
Global Standards 1 — GS1 GDSN Inc. Unternehmensform Incorporated Unternehmenssitz Brüssel, Belgien … Deutsch Wikipedia
IFX — Infineon Technologies AG Unternehmensform Aktiengesellschaft ISIN … Deutsch Wikipedia
Infineon Technologies AG — Unternehmensform Aktiengesellschaft ISIN … Deutsch Wikipedia
Kernstrahlgeometrie — Zwei Kameras nehmen eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der Geometrie, das die geometrischen… … Deutsch Wikipedia
Stereoanalyse — Zwei Kameras nehmen eine Szene auf. Die Epipolargeometrie beschreibt die Beziehung zwischen den beiden Bildern. Die Epipolargeometrie (selten auch Kernstrahlgeometrie) ist ein mathematisches Modell aus der Geometrie, das die geometrischen… … Deutsch Wikipedia
Werner Deutsch — (2009) Werner Deutsch (* 4. August 1947 in Hau; † 12. Oktober 2010 in Meseberg, Gransee) war Professor für Psychologie an der Technischen Universität Braunschweig (Leiter der Abteilung für Entwicklungspsychologie), Psychodramatiker und… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Objektidentifikation

Beispiele

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Objektidentifikation

Beispiele

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link