ISO 8859-1

ISO 8859-1
ISO 8859
-1  Latin-1, Westeuropäisch
-2  Latin-2, Mitteleuropäisch
-3  Latin-3, Südeuropäisch
-4  Latin-4, Nordeuropäisch
-5  Kyrillisch
-6  Arabisch
-7  Griechisch
-8  Hebräisch
-9  Latin-5, Türkisch
-10  Latin-6, Nordisch
-11  Thai
-13  Latin-7, Baltisch
-14  Latin-8, Keltisch
-15  Latin-9, Westeuropäisch
-16  Latin-10, Südosteuropäisch

ISO 8859-1, genauer ISO/IEC 8859-1, auch bekannt als Latin-1, ist ein von der ISO zuletzt 1998 aktualisierter Standard für die Informationstechnik zur Zeichenkodierung mit acht Bit und der erste Teil der Normenfamilie ISO/IEC 8859.

Die mit sieben Bit kodierbaren Zeichen entsprechen US-ASCII mit führendem Nullbit. Zusätzlich zu den 95 darstellbaren ASCII-Zeichen (2016–7E16) kodiert ISO 8859-1 96 weitere (A016–FF16), also insgesamt 191 von theoretisch möglichen 256 (= 28). Den Positionen 0016–1F16 und 7F16–9F16 sind in ISO/IEC 8859 und damit ISO/IEC 8859-1 keine Zeichen zugewiesen. ISO 8859-1 jedoch besetzt alle diese Stellen mit nicht darstellbaren Steuerzeichen.

ISO(-)8859-1 versucht möglichst viele Sonderzeichen westeuropäischer Sprachen abzudecken. Da zur Vollständigkeit neben dem Eurosymbol vor allem für Französisch einige Zeichen fehlen, wurde ISO/IEC 8859-15 geschaffen.

Windows-1252 Westeuropäisch (Western European) ist eine 8-Bit-Zeichenkodierung des Microsoft-Betriebssystems Windows, die die meisten westeuropäischen Sprachen unterstützt. Sie baut auf ISO 8859-1 und ISO 8859-15 auf.

Manche Applikationen vermischen die Definition von ISO-8859-1 und Windows-1252. Diese Codierungen unterscheiden sich jedoch nur in den Steuerzeichen im Bereich 8016 bis 9F16. Da diese beispielsweise in HTML keine Bedeutung haben, werden oft die druckbaren Zeichen aus Windows-1252 verwendet. Aus diesem Grund schreibt der neue HTML5-Standard vor, dass als ISO-8859-1 markierte Texte als Windows-1252 zu interpretieren sind.[1]

Inhaltsverzeichnis

Geschichte

ISO 8859-1 basiert auf dem DEC Multinational Character Set, das von der Digital Equipment Corporation im Terminal VT220 verwendet wurde. Es wurde ursprünglich von der European Computer Manufacturers Association (ECMA) entwickelt und im März 1985 als ECMA-94 veröffentlicht. Die zweite Auflage von ECMA-94 enthielt außerdem ISO 8859-2, ISO 8859-3 und ISO 8859-4 als Teil der Spezifikation.[2]

Tabellen

ISO/IEC 8859-1

Code …0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
0… nicht belegt
1…
2… SP ! " # $ % & ' ( ) * + , - . /
3… 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4… @ A B C D E F G H I J K L M N O
5… P Q R S T U V W X Y Z [ \ ] ^ _
6… ` a b c d e f g h i j k l m n o
7… p q r s t u v w x y z { | } ~
8… nicht belegt
9…
A… NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
B… ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C… À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D… Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E… à á â ã ä å æ ç è é ê ë ì í î ï
F… ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

SP (2016, „space“) ist das Leerzeichen, NBSP (A016, „non-breaking space“) das feste Leerzeichen und SHY (AD16, „soft hyphen“) der normalerweise nur an Zeilenenden sichtbar werdende „bedingte Trennstrich“.

ISO-8859-1

Code …0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
0… NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1… DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2… wie ISO/IEC 8859, Windows-125X und US-ASCII
3…
4…
5…
6…
7… wie ISO/IEC 8859, Windows-125X und US-ASCII DEL
8… PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
9… DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
A… wie ISO/IEC 8859-1 und Windows-1252
B…
C…
D…
E…
F…

Die IANA hat folgende gleichwertige großschreibungsunabhängige Bezeichnungen für diese Codetabelle registriert:

  • ISO_8859-1:1987
  • ISO_8859-1
  • ISO-8859-1
  • ISO-IR-100
  • csISOLatin1
  • latin1
  • l1
  • IBM819
  • CP819

Windows-1252

Windows-Codepages
874  Thai
932  Japanisch
936  Vereinfachtes Chinesisch
949  Koreanisch
950  Traditionelles Chinesisch
1250  Mitteleuropäisch
1251  Kyrillisch
1252  Westeuropäisch
1253  Griechisch
1254  Türkisch
1255  Hebräisch
1256  Arabisch
1257  Baltisch
1258  Vietnamesisch

Windows-1252 – auch Cp1252 genannt – wird als Westeuropäisch (Western European) bezeichnet.

Sie weicht von ISO-8859-1 im Bereich 8016–9F16 ab, dessen 32 Positionen hier 27 darstellbare Zeichen beinhalten, u. a. die in ISO 8859-15 hinzugekommenen und einige für bessere Typografie notwendige Zeichen. Die Unterschiede zwischen all diesen Kodierungen sowie generell mangelnde Konsequenz bei der Unterstützung verschiedener Zeichensätze sind ein häufiges Interoperabilitätsproblem.

Code …0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
0… wie ISO-8859-1 und US-ASCII
1…
2… wie ISO/IEC 8859, ISO-8859-1 und US-ASCII
3…
4…
5…
6…
7… wie ISO-8859-1 und US-ASCII
8… ƒ ˆ Š Œ Ž
9… ˜ š œ ž Ÿ
A… wie ISO/IEC 8859-1 und ISO-8859-1
B…
C…
D…
E…
F…

Windows-1252 ist ebenfalls bei der IANA registriert.[3]

siehe auch Windows-1250 Mitteleuropäisch (Central European), ISO-8859-2

ISO 8859-1 vs. ISO 8859-15 vs. Windows-1252 vs. Unicode

Unterschiede zwischen ISO 8859-1, ISO 8859-15, Windows-1252 und Unicode
Zeichen Š š Ž ž Œ œ Ÿ ¤ ¦ ¨ ´ ¸ ¼ ½ ¾
ISO 8859-1 A4 A6 A8 B4 B8 BC BD BE
ISO 8859-15 A4 A6 A8 B4 B8 BC BD BE
Windows-1252 80 8A 9A 8E 9E 8C 9C 9F A4 A6 A8 B4 B8 BC BD BE
Unicode 20AC 160 161 17D 17E 152 153 178 A4 A6 A8 B4 B8 BC BD BE

Aufgrund der weiten Verbreitung von ISO-8859-1 wurde der Unicode Standard gerade so angelegt, dass der Unicode Standard eine Erweiterung von ISO-8859-1 ist. Ein (Steuer-)Zeichen, das in ISO-8859-1 durch den Bytewert x kodiert wird, belegt deshalb im Unicode Standard den Codepoint x.

Verwendung

ISO 8859-1 ist neben US-ASCII und UTF-8 (einer Unicode-Kodierung) die wohl wichtigste und am häufigsten gebrauchte Kodierung.

Für mindestens folgende Sprachen reicht ISO 8859-1 aus:

  • Afrikaans (È/è, É/é, Ê/ê, Ë/ë, Î/î, Ï/ï, Ô/ô, Û/û),
  • Albanisch (Ç/ç, Ë/ë),
  • Baskisch (Ñ/ñ),
  • Dänisch (Å/å, Æ/æ, Ø/ø),
  • Deutsch (Ä/ä, Ö/ö, Ü/ü, ß, in Fremdwörtern: É/é, nicht Euro-Symbol und ggf. ſ),
  • Englisch (£, ¢; veraltend: Æ/æ, ä, ë, ï, ö, ü, nicht Œ/œ),
  • Färöisch (Á/á, Ð/ð, Í/í, Ó/ó, Ú/ú, Ý/ý, Æ/æ, Ø/ø),
  • Finnisch (Ä/ä, Ö/ö, in Fremdwörtern: Å/å, nicht Š/š, Ž/ž),
  • Französisch (Æ/æ, À/à, Â/â, È/è, É/é, Ê/ê, Ë/ë, Î/î, Ï/ï, Ô/ô, Ù/ù, Û/û, Ç/ç, Ü/ü, ÿ, nicht Œ/œ, Ÿ),
  • Irisches Gälisch, neue Orthographie (Á/á, É/é, Í/í, Ó/ó, Ú/ú),
  • Isländisch (Á/á, Ð/ð, É/é, Í/í, Ó/ó, Ú/ú, Ý/ý, Þ/þ, Æ/æ, Ö/ö),
  • Italienisch (À/à, È/è, É/é, Ò/ò, Ù/ù),
  • Katalanisch (À/à, Ç/ç, È/è, É/é, Í/í, Ï/ï, Ò/ò, Ó/ó, Ú/ú, Ü/ü, nicht dagg. Ŀl/ŀl),
  • Niederländisch (nicht IJ/ij, aber ÿ),
  • Norwegisch, Bokmål und Nynorsk (Å/å, Æ/æ, Ø/ø, Ò/ò),
  • Portugiesisch inkl. Portugiesisch (Brasilien) (À/à, Á/á, Â/â, Ã/ã, Ç/ç, É/é, Ê/ê, Í/í, Ó/ó, Ô/ô, Õ/õ, Ú/ú, Ü/ü),
  • Rätoromanisch,
  • Schottisches Gälisch (À/à, È/è, Ì/ì, Ò/ò, Ù/ù)
  • Schwedisch (Å/å, Ä/ä, Ö/ö),
  • Spanisch (¡, ¿, ª, º, Á/á, É/é, Í/í, Ñ/ñ, Ó/ó, Ú/ú, Ü/ü, früher auch Ç/ç),
  • Swahili und
  • Wallonisch (Â/â, Å/å, Ç/ç, È/è, É/é, Ê/ê, Î/î, Ô/ô, Û/û).

Da dies heutzutage in Westeuropa, Amerika und Australien die am meisten verwendeten (Schrift-)Sprachen sind, ist es überall dort die dominierende Zeichenkodierung. Auch in Teilen Afrikas, in denen nicht die arabische Schrift verwendet wird, ist es weit verbreitet, obwohl oft einige Sonderzeichen fehlen, die aber auch in keiner anderen 8-Bit-Kodierung vorhanden sind, siehe z. B. pannigerianisches Alphabet.

Verwendung diakritischer Zeichen
Code …0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
C…/E… À/à Á/á Â/â Ã/ã Ä/ä Å/å Æ/æ Ç/ç È/è É/é Ê/ê Ë/ë Ì/ì Í/í Î/î Ï/ï
fra, ita, cat, por, sco fao, gle, isl, por, spa fra, por, wln por deu, eng, fin, swe dan, fin, nor, swe, wln dan, eng, fao, fra, isl, nor alb, fra, cat, por, wln afr, fra, ita, cat, sco, wln afr, fra, gle, isl, ita, cat, por, spa, wln afr, fra, por, wln afr, alb, eng, fra sco fao, fra, gle, isl, cat, por, spa afr, wln afr, eng, fra, cat
D…/F… Ð/ð Ñ/ñ Ò/ò Ó/ó Ô/ô Õ/õ Ö/ö Ø/ø Ù/ù Ú/ú Û/û Ü/ü Ý/ý Þ/þ ß/ÿ
fao, isl baq, spa ita, cat, sco fao, gle, isl, cat, por, spa afr, fra, por, wln por deu, eng, fin, isl, swe dan, fao, nor fra, ita, sco fao, gle, isl, cat, por, spa afr, fra, wln deu, eng, fra, cat, por, spa fao, isl isl deu; fra, nld

Siehe auch

Einzelnachweise

  1. HTML5 Editor's Draft 5 March 2011, 8.2.2.2 Character encodings, aufgerufen am 6. März 2011.
  2. ECMA (Hrsg.): Standard ECMA-94: 8-Bit Single-Byte Coded Graphic Character Sets. 2. Auflage. Juni 1984 (online, abgerufen am 4. Januar 2008).
  3. http://www.iana.org/assignments/charset-reg/windows-1252

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • ISO 8859 — ISO 8859, également appelée plus formellement ISO/CEI 8859, est une norme commune de l ISO et de la CEI de codage de caractères sur 8 bits pour le traitement informatique du texte. Le standard est divisé en parties numérotées publiées séparément …   Wikipédia en Français

  • Iso 8859 — ISO 8859, également appelée plus formellement ISO/CEI 8859, est une norme commune de l ISO et de la CEI de codage de caractères sur 8 bits pour le traitement informatique du texte. Le standard est divisé en parties numérotées publiées séparément …   Wikipédia en Français

  • ISO-8859-1 — Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 …   Deutsch Wikipedia

  • ISO-8859-1 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • Iso 8859-1 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • ISO 8859 — семейство ASCII совместимых кодовых страниц, разработанное совместными усилиями ISO и IEC. По состоянию на 2006 год это семейство состояло из 15 ти кодовых страниц. Общая информация Поскольку кодировки ISO 8859 разрабатывались как средства для… …   Википедия

  • ISO-8859-15 — ISO 8859 1 Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 …   Deutsch Wikipedia

  • ISO 8859-1 — ISO/IEC 8859 1 (также известная как ISO 8859 1 и Latin 1) кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0 31 (0x0 0x1F) и 127… …   Википедия

  • ISO-8859 — семейство кодовых страниц, разработанное совместными усилиями IEC. По состоянию на 2006 г. это семейство состоит из 15 кодовых страниц. Общая информация Поскольку кодировки ISO 8859 разрабатывались как средства для обмена информацией, а не как… …   Википедия

  • ISO-8859-13 — ISO 8859 1 Latin 1, Westeuropäisch 2 Latin 2, Mitteleuropäisch 3 Latin 3, Südeuropäisch 4 Latin 4, Baltisch 5 Kyrillisch 6 Arabisch 7 Griechisch 8 …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”