Kölner Phonetik

Kölner Phonetik: Die Kölner Phonetik (auch Kölner Verfahren) ist ein phonetischer Algorithmus, der Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnet, den phonetischen Code. Ziel dieses Verfahrens ist es, gleich klingenden Wörtern denselben Code zuzuordnen, um bei Suchfunktionen eine Ähnlichkeitssuche zu implementieren. Damit ist es beispielsweise möglich, in einer Namensliste Einträge wie "Meier" auch unter anderen Schreibweisen, wie "Maier", "Mayer" oder "Mayr", zu finden. Die Kölner Phonetik ist, im Vergleich zum bekannteren Russell-Soundex-Verfahren, besser auf die deutsche Sprache abgestimmt. Sie wurde 1969 von Postel veröffentlicht.

Inhaltsverzeichnis

1 Grundregeln

1.1 Buchstabencodes

2 Beispiel

3 Literatur

4 Weblinks

Grundregeln

Die Kölner Phonetik bildet jeden Buchstaben eines Wortes auf eine Ziffer zwischen "0" und "8" ab, wobei für die Auswahl der jeweiligen Ziffer maximal ein benachbarter Buchstabe als Kontext benutzt wird. Einige Regeln gelten speziell für den Wortanfang (Anlaut). Auf diese Weise wird ähnlichen Lauten derselbe Code zugeordnet. Die beiden Buchstaben "W" und "V" beispielsweise werden mit der Ziffer "3" codiert. Der phonetische Code für "Wikipedia" lautet "3412". Im Gegensatz zum Soundex-Code ist die Länge des phonetischen Codes nach der Kölner Phonetik nicht beschränkt.

Buchstabencodes

Buchstabe Kontext Code

A, E, I, J, O, U, Y 0

H -

B 1

P nicht vor H

D, T nicht vor C, S, Z 2

F, V, W 3

P vor H

G, K, Q 4

C im Anlaut vor A, H, K, L, O, Q, R, U, X

vor A, H, K, O, Q, U, X außer nach S, Z

X nicht nach C, K, Q 48

L 5

M, N 6

R 7

S, Z 8

C nach S, Z

im Anlaut außer vor A, H, K, L, O, Q, R, U, X

nicht vor A, H, K, O, Q, U, X

D, T vor C, S, Z

X nach C, K, Q

Dass für den Buchstaben "C" die Regel "SC" Vorrang vor der Regel "CH" hat, wurde durch den Zusatz "außer nach S, Z" in Zeile 10 der Tabelle berücksichtigt. Dies wird in der Originalveröffentlichung zwar nicht explizit erwähnt, kann aber aus den dort angeführten Beispielen geschlossen werden (z. B. für "Breschnew" wird als Code "17863" angegeben).

Kleinbuchstaben werden analog kodiert, alle sonstigen Zeichen (z. B. Bindestriche) ignoriert. Für die in der Umwandlungstabelle nicht berücksichtigten Umlaute Ä, Ö, Ü sowie das ß bietet es sich an, diese bei den Vokalen (Code "0") bzw. der Gruppe S, Z (Code "8") einzuordnen.

Die Umwandlung eines Wortes erfolgt in drei Schritten:

Buchstabenweise Kodierung von links nach rechts entsprechend der Umwandlungstabelle.

Entfernen aller mehrfachen Codes.

Entfernen aller Codes "0" außer am Anfang.

Beispiel

Der Name Müller-Lüdenscheidt wird folgendermaßen kodiert:

Buchstabenweise Kodierung: 60550750206880022

Entfernen aller mehrfachen Codes: 6050750206802

Entfernen aller Codes "0": 65752682

Literatur

Hans Joachim Postel: Die Kölner Phonetik. Ein Verfahren zur Identifizierung von Personennamen auf der Grundlage der Gestaltanalyse. in: IBM-Nachrichten, 19. Jahrgang, 1969, S. 925-931.

Weblinks

Martin Wilz: Aspekte der Kodierung phonetischer Ähnlichkeiten in deutschen Eigennamen. Magisterarbeit an der Philosophischen Fakultät der Universität zu Köln, 2005; enthält eine Implementierung in der Programmiersprache Perl.

Maroš Kollár: Perl-Implementierung der Kölner Phonetik und ähnlicher Verfahren als freie Software im CPAN (Comprehensive Perl Archive Network)

Andy Theiler: PHP und Oracle PL/SQL-Implementierung der Kölner Phonetik

Nicolas Zimmer: PHP-Implementation der Kölner Phonetik in einem Kommentar zum Eintrag soundex im PHP-Manual, 2008.

Kategorien:
Algorithmus
Phonetik

Buchstabe	Kontext	Code
A, E, I, J, O, U, Y		0
H		-
B		1
P	nicht vor H
D, T	nicht vor C, S, Z	2
F, V, W		3
P	vor H
G, K, Q		4
C	im Anlaut vor A, H, K, L, O, Q, R, U, X
vor A, H, K, O, Q, U, X außer nach S, Z
X	nicht nach C, K, Q	48
L		5
M, N		6
R		7
S, Z		8
C	nach S, Z
im Anlaut außer vor A, H, K, L, O, Q, R, U, X
nicht vor A, H, K, O, Q, U, X
D, T	vor C, S, Z
X	nach C, K, Q

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

Kölner Verfahren — Die Kölner Phonetik (auch Kölner Verfahren) ist ein phonetischer Algorithmus, der Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnet, den phonetischen Code. Ziel dieses Verfahrens ist es, gleich klingenden Wörtern denselben Code zuzuordnen … Deutsch Wikipedia
Dublettenbereinigung — Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim… … Deutsch Wikipedia
Edit-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia
Editierdistanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia
Fuzzy-Suche — Die Fuzzy Suche oder Fuzzy String Suche umfasst in der Informatik eine Klasse von String Matching Algorithmen, die eine bestimmte Zeichenkette (engl. string) in einer längeren Zeichenkette oder einem Text suchen bzw. finden sollen. Typisch für… … Deutsch Wikipedia
Fuzzy Suche — Die Fuzzy Suche oder Fuzzy String Suche umfasst in der Informatik eine Klasse von String Matching Algorithmen, die eine bestimmte Zeichenkette (engl. string) in einer längeren Zeichenkette oder einem Text suchen bzw. finden sollen. Typisch für… … Deutsch Wikipedia
Levenshtein-Abstand — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia
Levenstein-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia
Lewenstein-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia
Objektidentifikation — Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Kölner Phonetik

Inhaltsverzeichnis

Grundregeln

Buchstabencodes

Beispiel

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Kölner Phonetik

Inhaltsverzeichnis

Grundregeln

Buchstabencodes

Beispiel

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link