Normalisierung (Text)

Normalisierung (Text)

Normalisierung wird verwendet, um Texte in eine äquivalente Form zu transformieren. Dieser Prozess wird durchgeführt, um Texte für einen bestimmten Vorgang, wie etwa Interaktionen mit der Datenbank oder Suchoperationen, konsistent zu halten.

Normalisierungsformen

Nach dem Unicode Standard gibt es 4 Normalisierungsformen.

  • Form D ist die kanonische Zerlegung. Das schwedischen Ångström Zeichen Å (U+212B) wird in seine Bestandteile A und ̊ transformiert.
  • Form C ist die kanonische Zerlegung mit anschließender Zusammensetzung. Die Bestandteile eines Zeichens können ggf. zu verschiedenen Zeichen zusammengesetzt werden. Wegen der Vorgaben des Unicode Standards kann durch diese Normalisierung Datenkonsistenz erreicht werden. Das Ångström Zeichen Å wird somit in das kanonisch äquivalente lateinische Zeichen Å (U+00C5) transformiert.
  • Form KD ist die Kompatibilitätszerlegung.
  • Form KC ist die Kompatibilitätszerlegung mit anschließender Zusammensetzung. Zeichen die als kompatibel gelten, unterscheiden sich zwar optisch, sind jedoch semantisch äquivalent.

Anwendung

  • Konsistente Datenhaltung: Die kanonische Normalisierung wird verwendet um sicherzustellen, dass äquivalente Daten nicht in unterschiedlichen Formen persistiert werden.
  • Textuelle Suche: Die Kompatibilitätsnormalisierung ist bei der Suche relevant, wo der Anwender grafische Unterschiede wie Zeichensatz oder Hochstellung nicht berücksichtigen möchte. Zusätzlich werden oft weitere Unterschiede wie die Groß-/Kleinschreibung oder Abkürzungen gleichgesetzt.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Normalisierung — steht für: ein Prinzip in der Behindertenhilfe, siehe Normalisierungsprinzip die Epoche nach der Niederschlagung des Prager Frühlings in der Geschichte der Tschechoslowakei, siehe Normalisierung (Tschechoslowakei) Normalisierung bzw.… …   Deutsch Wikipedia

  • ANPR — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… …   Deutsch Wikipedia

  • Automatische Kennzeichenerfassung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… …   Deutsch Wikipedia

  • Automatisches Kennzeichen-Lesesystem — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… …   Deutsch Wikipedia

  • Cabibbo-Kobayashi-Maskawa-Matrix — Die Cabibbo Kobayashi Maskawa Matrix (CKM Matrix ) ist eine unitäre 3×3 Matrix, die im Rahmen des Standardmodells der Teilchenphysik repräsentiert, in welchen statistischen Anteilen sich Quarks dreier Flavour Generationen (jeweils Typ Quarks mit… …   Deutsch Wikipedia

  • Kennzeichenerkennung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… …   Deutsch Wikipedia

  • Nummernschilderkennung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… …   Deutsch Wikipedia

  • Unicode — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Basic Multilingual Plane — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Block — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”