Normalisierung (Text)

Normalisierung (Text): Normalisierung wird verwendet, um Texte in eine äquivalente Form zu transformieren. Dieser Prozess wird durchgeführt, um Texte für einen bestimmten Vorgang, wie etwa Interaktionen mit der Datenbank oder Suchoperationen, konsistent zu halten.

Normalisierungsformen

Nach dem Unicode Standard gibt es 4 Normalisierungsformen.

Form D ist die kanonische Zerlegung. Das schwedischen Ångström Zeichen Å (U+212B) wird in seine Bestandteile A und ̊ transformiert.

Form C ist die kanonische Zerlegung mit anschließender Zusammensetzung. Die Bestandteile eines Zeichens können ggf. zu verschiedenen Zeichen zusammengesetzt werden. Wegen der Vorgaben des Unicode Standards kann durch diese Normalisierung Datenkonsistenz erreicht werden. Das Ångström Zeichen Å wird somit in das kanonisch äquivalente lateinische Zeichen Å (U+00C5) transformiert.

Form KD ist die Kompatibilitätszerlegung.

Form KC ist die Kompatibilitätszerlegung mit anschließender Zusammensetzung. Zeichen die als kompatibel gelten, unterscheiden sich zwar optisch, sind jedoch semantisch äquivalent.

Anwendung

Konsistente Datenhaltung: Die kanonische Normalisierung wird verwendet um sicherzustellen, dass äquivalente Daten nicht in unterschiedlichen Formen persistiert werden.

Textuelle Suche: Die Kompatibilitätsnormalisierung ist bei der Suche relevant, wo der Anwender grafische Unterschiede wie Zeichensatz oder Hochstellung nicht berücksichtigen möchte. Zusätzlich werden oft weitere Unterschiede wie die Groß-/Kleinschreibung oder Abkürzungen gleichgesetzt.

Siehe auch

Unicode Normalization Forms

International Components for Unicode (ICU)

Kategorie:
Datenformat

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

Normalisierung — steht für: ein Prinzip in der Behindertenhilfe, siehe Normalisierungsprinzip die Epoche nach der Niederschlagung des Prager Frühlings in der Geschichte der Tschechoslowakei, siehe Normalisierung (Tschechoslowakei) Normalisierung bzw.… … Deutsch Wikipedia
ANPR — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… … Deutsch Wikipedia
Automatische Kennzeichenerfassung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… … Deutsch Wikipedia
Automatisches Kennzeichen-Lesesystem — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… … Deutsch Wikipedia
Cabibbo-Kobayashi-Maskawa-Matrix — Die Cabibbo Kobayashi Maskawa Matrix (CKM Matrix ) ist eine unitäre 3×3 Matrix, die im Rahmen des Standardmodells der Teilchenphysik repräsentiert, in welchen statistischen Anteilen sich Quarks dreier Flavour Generationen (jeweils Typ Quarks mit… … Deutsch Wikipedia
Kennzeichenerkennung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… … Deutsch Wikipedia
Nummernschilderkennung — Automatische Nummernschilderkennung (automatische Kennzeichenerfassung) ist eine Videoüberwachungsmethode, die Schrifterkennung (OCR) nutzt, um Kfz Kennzeichen an Fahrzeugen zu erkennen. Derartige Systeme können derzeit (Stand: 2005) etwa ein… … Deutsch Wikipedia
Unicode — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… … Deutsch Wikipedia
Basic Multilingual Plane — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… … Deutsch Wikipedia
Unicode-Block — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Normalisierung (Text)

Normalisierungsformen

Anwendung

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Normalisierung (Text)

Normalisierungsformen

Anwendung

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link