Objektidentifizierung

Objektidentifizierung

Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen oder bei der Datenbereinigung notwendig. Die Schwierigkeit besteht darin, dass Datensätze für gleiche Objekte unterschiedliche Werte aufweisen können und deshalb Heuristiken angewandt werden müssen.

Duplikate können beispielsweise durch Eingabe- und Übertragungsfehler, wegen verschiedener Schreibweisen und Abkürzungen oder aufgrund unterschiedlicher Datenschemata entstehen. Beispielsweise können in eine Adressdatenbank aus unterschiedlichen Quellen Adressen aufgenommen werden, wobei ein und dieselbe Adresse mit Variationen mehrfach aufgenommen werden kann. Mittels Duplikaterkennung sollen nun diese Duplikate herausgefunden und die eigentlichen Adressen als Objekte identifiziert werden.

Zur Erkennung von Duplikaten werden verschiedene Ähnlichkeitsmaße angewandt, beispielsweise die Levenshtein-Distanz oder die Typewriterdistanz. Da in der Regel aus Kostengründen nicht jeder Datensatz mit jedem anderen verglichen werden kann, gibt es Verfahren wie die Methode Sortierte Nachbarschaft, bei der nur potenziell ähnliche Datensätze überprüft werden, ob sie Duplikate sind.

Beispiele

Bei den folgenden Einträgen aus einer Liste von Namen kann es sich möglicherweise um Duplikate handeln:

Max Müller
Max Mueller
M. Müller
Max Muller

Bei einer Bibliothek können Dubletten auftreten, wenn mehrere Bibliothekskataloge zusammengeführt werden.

Duplikate können auch mit SQL in einer Datenbank entfernt werden.

Siehe auch

Phonetische Algorithmen, die Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnen, dem phonetischen Code, um eine Ähnlichkeitssuche zu implementieren:


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Objektidentifizierung — objekto atpažinimas statusas T sritis automatika atitikmenys: angl. object identification vok. Objektidentifizierung, f rus. идентификация объекта, f pranc. identification d objet, f …   Automatikos terminų žodynas

  • Digital object identifier — Ein Digital Object Identifier (DOI; übersetzt etwa „Bezeichner für digitale Objekte“) ist ein eindeutiger und dauerhafter Identifikator für digitale Objekte. Er wird vor allem für Online Artikel von wissenschaftlichen Fachzeitschriften verwendet …   Deutsch Wikipedia

  • Dublettenbereinigung — Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim… …   Deutsch Wikipedia

  • Duplikaterkennung — Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren.… …   Deutsch Wikipedia

  • ETL-Prozess — ETL: Datenfluss und unterstützende Programme Extract, Transform, Load (ETL) ist ein Prozess, bei dem Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden. Extraktion der relevanten Daten aus… …   Deutsch Wikipedia

  • Objektidentifikation — Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim… …   Deutsch Wikipedia

  • identification d'objet — objekto atpažinimas statusas T sritis automatika atitikmenys: angl. object identification vok. Objektidentifizierung, f rus. идентификация объекта, f pranc. identification d objet, f …   Automatikos terminų žodynas

  • object identification — objekto atpažinimas statusas T sritis automatika atitikmenys: angl. object identification vok. Objektidentifizierung, f rus. идентификация объекта, f pranc. identification d objet, f …   Automatikos terminų žodynas

  • objekto atpažinimas — statusas T sritis automatika atitikmenys: angl. object identification vok. Objektidentifizierung, f rus. идентификация объекта, f pranc. identification d objet, f …   Automatikos terminų žodynas

  • идентификация объекта — objekto atpažinimas statusas T sritis automatika atitikmenys: angl. object identification vok. Objektidentifizierung, f rus. идентификация объекта, f pranc. identification d objet, f …   Automatikos terminų žodynas

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”