Han-Vereinheitlichung

Han-Vereinheitlichung
Beispiel für Han-Vereinheitlichung: das Ideogramm in Kurzzeichen, Langzeichen, Kanji und Hanja (von links nach rechts)

Mit dem Begriff Han-Vereinheitlichung (englisch Han unification) wird in der Informatik die Vereinheitlichung der chinesischen Hanzi, japanischen Kanji und koreanischen Hanja (CJK), seltener auch vietnamesische Chữ nôm in einen Zeichensatz bezeichnet. Der Begriff wird meistens im Zusammenhang mit Unicode und der dort stattgefundenen Han-Vereinheitlichung verwendet.

Die Idee, die verschiedenen Han-Schriften in einen Zeichensatz zu vereinigen, ist nicht neu – schon 1980 existierte mit dem CCCII ein Zeichensatz, der Kurzzeichen, Langzeichen und Kanji vereinigte. Diese Idee wurde auch bei der Entwicklung des Unicode-Standards verfolgt. Im Februar 1990 wurde eine eigens auf die Han-Vereinheitlichung spezialisierte Gruppe, das CJK-IRG gegründet. Diese Gruppe wurde wenig später in IRG umbenannt.

Als China die Entwicklung eines neuen Zeichensatzes, GB 13000 bekanntgab, einigten sich Unicode und China darauf, den Han-Zeichensatz gemeinsam zu entwickeln.

Han-Vereinheitlichung in Unicode

Für die Han-Vereinheitlichung in Unicode ist die Ideographic Rapporteur Group (IRG) zuständig, die alle Kodierungsvorschläge überprüft und Zeichen, die vereinigt werden können, ausfindig macht. Die Vereinheitlichung in Unicode erfolgt nach strengen Regeln:

  • Um die Umstellung von älteren Zeichensätzen auf Unicode einfacher zu machen, wurde für die 20.902 Zeichen der ersten Unicode-Version die source separation rule benutzt, die besagt, dass zwei Ideogramme, die in einem älteren Zeichensatz unterschieden werden, auch in Unicode unterschieden werden. Für später kodierte CJK-Ideogramme wird diese Regel nicht mehr benutzt.
  • Wenn Ideogramme von der historischen Bedeutung nicht verwandt sind, werden sie ebenfalls nicht vereinigt. Dies trifft z. B. auf die Zeichen (Erde) und (Krieger) zu, welche zwar ähnlich aussehen, aber eine völlig verschiedene Bedeutung und Ursprung haben.

Anschließend werden die Ideogramme in ihre einzelnen Striche zerlegt. Danach werden die Anzahl und die Position der Striche, die Struktur, die Kodierung in einem älteren Zeichensatz sowie das Radikal der Zeichen bestimmt. Wenn alles übereinstimmt, werden die Zeichen vereinigt, sonst nicht.

Meistens werden Zeichen vereinfacht, wenn sie nur bei den verschiedenen Schreibstilen der chinesischen Schrift anders aussehen. So wird beispielsweise das Radikal (als Radikal ) in der Druckschrift entweder mit einem oder mit zwei oberen Punkten geschrieben. In der Regelschrift und der Handschrift besitzt dieses Zeichen allerdings überall nur einen Punkt. Ähnlich ist es auch bei dem -Radikal, das zwar in der klassischen Druckschrift (Ming) noch wie ein geschrieben wird, in der Hand- und Regelschrift allerdings geschrieben wird. Da nach den Schriftreformen in der Volksrepublik China und Japan versucht wurde, die Druckschrift an die Handschrift anzupassen, in Korea allerdings gar nicht und in Taiwan begrenzt, treten diese Unterschiede auf.

Kritik

In Ostasien wird die Han-Vereinheitlichung hauptsächlich aus kulturellen, allerdings auch aus technischen Gründen kritisiert. Vor allem in Japan hat Unicode daher immer noch einen schweren Stand.

Historisch gab es im Chinesischen wie im Japanischen keine exakte Trennung zwischen Glyphe und Schriftzeichen. Im europäischen und deutschen Sprachraum tritt dieses Problem nur in Einzelfällen auf, wie etwa bei der Ligatur sz = ß. Beim Design von Unicode hatte das Konsortium die Wahl, entweder diese Differenzierung systematisch einzuführen oder aber vollständig darauf zu verzichten und jede Variation separat zu kodieren. Dies hätte für zahlreiche semantisch identische Zeichen zu zahlreichen Varianten geführt, insbesondere auch zu Varianten, die sich nicht eindeutig am Sprachraum (klassisches Chinesisch, vereinfachtes Chinesisch, Japanisch, Koreanisch), sondern nur historisch abgrenzen lassen.

Der heutige Unicode Standard stellt einen Kompromiss dar. Auf eine vollständig Vereinheitlichung lediglich nach semantischen Kriterien wurde verzichtet. Dies hatte praktische Gründe. Es war erklärtes Ziel, dass sich modernes Chinesisch, Japanisch und Koreanisch im selben Text ohne Fontwechsel differenzieren lassen. Auch klassische Texte können in Unicode 3.1 semantisch eindeutig abgebildet werden. Lediglich die Darstellung historischer Variationen, die im linguistischen Kontext interessant sein können, ist in Unicode 3.1 nicht möglich. Dies muss durch den Font erfolgen.

Ein weiteres Problem ist die fehlende Möglichkeit, in einem Text ohne Markup verschiedene Varianten eines Zeichens anzugeben. Besonders im Japanischen, wo einige Ortsbezeichnungen und Namen immer noch die alten Radikale benutzen, führt das zu Problemen. So wird beispielsweise das erste Zeichen des Ortsteils Gion 祇園 von Kyōto nicht mit geschrieben, sondern mit , obwohl andere Wörter mit mit dem -Radikal geschrieben werden.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Han Unification — Beispiel für Han Vereinheitlichung: das Ideogramm 次 in Kurzzeichen, Langzeichen, Kanji und Hanja (von links nach rechts) Mit dem Begriff Han Vereinheitlichung (engl. Han unification) wird in der Informatik die Vereinheitlichung der chinesischen… …   Deutsch Wikipedia

  • Han unification — Beispiel für Han Vereinheitlichung: das Ideogramm 次 in Kurzzeichen, Langzeichen, Kanji und Hanja (von links nach rechts) Mit dem Begriff Han Vereinheitlichung (engl. Han unification) wird in der Informatik die Vereinheitlichung der chinesischen… …   Deutsch Wikipedia

  • Han-Chinesen — Da der Begriff Chinesen im Deutschen nicht eindeutig unterscheidet zwischen Staatsangehörigen Chinas und Angehörigen der Han Nationalität, also „ethnischen Chinesen“, hat sich die Bezeichnung „Han Chinesen“ oder kurz Han zunehmend eingebürgert.… …   Deutsch Wikipedia

  • Han-Nationalität — Da der Begriff Chinesen im Deutschen nicht eindeutig unterscheidet zwischen Staatsangehörigen Chinas und Angehörigen der Han Nationalität, also „ethnischen Chinesen“, hat sich die Bezeichnung „Han Chinesen“ oder kurz Han zunehmend eingebürgert.… …   Deutsch Wikipedia

  • Han-Volk — Da der Begriff Chinesen im Deutschen nicht eindeutig unterscheidet zwischen Staatsangehörigen Chinas und Angehörigen der Han Nationalität, also „ethnischen Chinesen“, hat sich die Bezeichnung „Han Chinesen“ oder kurz Han zunehmend eingebürgert.… …   Deutsch Wikipedia

  • Basic Multilingual Plane — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Block — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Ebene — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode-Schriftart — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

  • Unicode Font — Logo von Unicode Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es,… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”