- Normalisierung (Text)
-
Normalisierung wird verwendet, um Texte in eine äquivalente Form zu transformieren. Dieser Prozess wird durchgeführt, um Texte für einen bestimmten Vorgang, wie etwa Interaktionen mit der Datenbank oder Suchoperationen, konsistent zu halten.
Normalisierungsformen
Nach dem Unicode Standard gibt es 4 Normalisierungsformen.
- Form D ist die kanonische Zerlegung. Das schwedischen Ångström Zeichen Å (U+212B) wird in seine Bestandteile A und ̊ transformiert.
- Form C ist die kanonische Zerlegung mit anschließender Zusammensetzung. Die Bestandteile eines Zeichens können ggf. zu verschiedenen Zeichen zusammengesetzt werden. Wegen der Vorgaben des Unicode Standards kann durch diese Normalisierung Datenkonsistenz erreicht werden. Das Ångström Zeichen Å wird somit in das kanonisch äquivalente lateinische Zeichen Å (U+00C5) transformiert.
- Form KD ist die Kompatibilitätszerlegung.
- Form KC ist die Kompatibilitätszerlegung mit anschließender Zusammensetzung. Zeichen die als kompatibel gelten, unterscheiden sich zwar optisch, sind jedoch semantisch äquivalent.
Anwendung
- Konsistente Datenhaltung: Die kanonische Normalisierung wird verwendet um sicherzustellen, dass äquivalente Daten nicht in unterschiedlichen Formen persistiert werden.
- Textuelle Suche: Die Kompatibilitätsnormalisierung ist bei der Suche relevant, wo der Anwender grafische Unterschiede wie Zeichensatz oder Hochstellung nicht berücksichtigen möchte. Zusätzlich werden oft weitere Unterschiede wie die Groß-/Kleinschreibung oder Abkürzungen gleichgesetzt.
Siehe auch
Wikimedia Foundation.