Buchstabenhäufung

Die Buchstabenhäufigkeit ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text bzw. einer Sammlung von Texten („Korpus“) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die Quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen ^[1] in Betracht zu ziehen sind (Best 2005). Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.

Inhaltsverzeichnis

1 Anwendung
2 Weiterführung
3 Buchstabenhäufigkeiten in deutschsprachigen Texten
- 3.1 Anfangsbuchstaben
- 3.2 Endbuchstaben
4 Buchstabenhäufigkeiten in anderen Sprachen
5 Siehe auch
6 Einzelnachweise
7 Literatur
8 Weblinks

Anwendung

Die Buchstabenhäufigkeit wird in der Entschlüsselung von Substitutionsverfahren in der Kryptoanalyse sowie in der Datenkompression und -kodierung benutzt. Bei einfachen Verschlüsselungsverfahren wie beispielsweise dem Cäsarchiffre kann ein Text alleine durch Häufigkeitsanalyse entschlüsselt werden. Dabei werden die Häufigkeiten der einzelnen Zeichen im Geheimtext festgestellt, und dann mit der Häufigkeit der Zeichen in einem Klartext der vermuteten Sprache verglichen. Nun werden die Buchstaben des Geheimtextes durch die „normalen“ Buchstaben gleicher Häufigkeit ersetzt. Der häufigste Buchstabe des Geheimtextes entspricht dann zum Beispiel dem Klartextbuchstaben „e“. Diese Methode funktioniert um so besser, je länger der zu entschlüsselnde Text ist, weil dadurch die statistische Abweichung der gefundenen Buchstabenhäufigkeit von der zu erwartenden Häufigkeit geringer wird.

Für den Maschinenschreibunterricht (siehe Tastschreiben) ist es ungemein wichtig, dass die Lehrkraft über die Buchstabenhäufigkeit in einer Sprache gut informiert ist und die Unterrichtsinhalte entsprechend darauf abgestimmt werden. Häufige Buchstaben wie das E oder das I müssen hinreichend trainiert werden um eine möglichst hohe Anschlagszahl und eine gute Schreibsicherheit zu erzielen.

Hersteller von Buchstabenspielen wie Boggle oder Scrabble berücksichtigen bei den nationalen Varianten ebenfalls die Häufigkeit und, falls vorhanden, auch die Wertigkeit der Buchstaben.

Eine der ersten Anwendungen war das Morse-Alphabet, das für häufige Zeichen kurze Codes verwendet (zum Beispiel E = ·); für selten gebrauchte Zeichen dagegen längere Codes (zum Beispiel Q = – – · –). Siehe dazu auch Shannon-Fano-Kodierung.

Weiterführung

Die Weiterführung der Buchstabenhäufigkeit ist die Häufigkeit von Buchstabenpaaren und -tripeln und die Worthäufigkeit. Befasst man sich statt mit der geschriebenen einmal mit der gesprochenen Sprache, so kann man ganz entsprechend auch Erhebungen zur Laut- oder Phonemhäufigkeit durchführen.

Buchstabenhäufigkeiten in deutschsprachigen Texten

Die Umlaute ä, ö und ü wurden wie ae, oe und ue gezählt, die Ligatur ſz als eigenständiges Zeichen ß^[2].

Platz	Buchstabe	Relative Häufigkeit
1.	E	17,40 %
2.	N	09,78 %
3.	I	07,55 %
4.	S	07,27 %
5.	R	07,00 %
6.	A	06,51 %
7.	T	06,15 %
8.	D	05,08 %
9.	H	04,76 %
10.	U	04,35 %
11.	L	03,44 %
12.	C	03,06 %
13.	G	03,01 %
14.	M	02,53 %
15.	O	02,51 %
16.	B	01,89 %
17.	W	01,89 %
18.	F	01,66 %
19.	K	01,21 %
20.	Z	01,13 %
21.	P	00,79 %
22.	V	00,67 %
23.	ß	00,31 %
24.	J	00,27 %
25.	Y	00,04 %
26.	X	00,03 %
27.	Q	00,02 %

Zum Vergleich: Bei einer Gleichverteilung der 27 Buchstaben betrüge die Häufigkeit jeweils 3,70 %.

Anfangsbuchstaben

Die Häufigkeit von Anfangsbuchstaben gibt an, wie oft ein Buchstabe als erster Buchstabe eines Wortes vorkommt. Sie hängt relativ stark von der Textart ab. Für Fließtext sind die fünf häufigsten Anfangsbuchstaben:^[3]

Platz	Buchstabe	Relative Häufigkeit
1.	D	14,2 %
2.	S	10,8 %
3.	E	07,8 %
4.	I	07,1 %
5.	W	06,8 %

Für Lexika ergibt sich eine andere Verteilung. Die Buchstaben „D“, „E“, „I“ und „W“ kommen im Vergleich zum Fließtext wesentlich seltener am Wortanfang vor, „S“ kommt mit deutlichem Abstand am häufigsten vor:^[3]

Platz	Buchstabe	Relative Häufigkeit
1.	S	11,8 %
2.	K	07,3 %
3.	A	07,1 %
4.	P	07,0 %
5.	B	05,7 %
5.	M	05,7 %

Endbuchstaben

Die Häufigkeit von Endbuchstaben gibt an, wie häufig ein Buchstabe als letzter Buchstabe eines Wortes vorkommt. (Als Beispiel-Textbasis wurde das Buch Effi Briest von Theodor Fontane ausgewertet, wobei „ß“ stets als „ss“ gezählt wurde. Die Textbasis umfasst alle 36 Kapitel dieses Werks mit insgesamt 572.849 Zeichen.)

Platz	Buchstabe	Relative Häufigkeit
1.	N	21,0 %
2.	E	15,1 %
3.	R	13,0 %
4.	T	10,3 %
5.	S	09,6 %

Buchstabenhäufigkeiten in anderen Sprachen

Buchstabe	Deutsch	Englisch ^[4]	Französisch ^[5]	Spanisch ^[6]	Esperanto ^[7]	Italienisch^[8]
a	06,51 %	08,167 %	07,636 %	12,53 %	12,12 %	11,74 %
b	01,89 %	01,492 %	00,901 %	01,42 %	00,98 %	00,92 %
c	03,06 %	02,782 %	03,260 %	04,68 %	00,78 %	04,5 %
d	05,08 %	04,253 %	03,669 %	05,86 %	03,04 %	03,73 %
e	17,40 %	12,702 %	14,715 %	13,68 %	08,99 %	11,79 %
f	01,66 %	02,228 %	01,066 %	00,69 %	01,03 %	00,95 %
g	03,01 %	02,015 %	00,866 %	01,01 %	01,17 %	01,64 %
h	04,76 %	06,094 %	00,737 %	00,70 %	00,38 %	01,54 %
i	07,55 %	06,966 %	07,529 %	06,25 %	10,01 %	11,28 %
j	00,27 %	00,153 %	00,545 %	00,44 %	03,50 %	00,00 %
k	01,21 %	00,772 %	00,049 %	00,00 %	04,16 %	00,00 %
l	03,44 %	04,025 %	05,456 %	04,97 %	06,14 %	06,51 %
m	02,53 %	02,406 %	02,968 %	03,15 %	02,99 %	02,51 %
n	09,78 %	06,749 %	07,095 %	06,71 %	07,96 %	06,88 %
o	02,51 %	07,507 %	05,378 %	08,68 %	08,78 %	09,83 %
p	00,79 %	01,929 %	03,021 %	02,51 %	02,74 %	03,05 %
q	00,02 %	00,095 %	01,362 %	00,88 %	00,00 %	00,51 %
r	07,00 %	05,987 %	06,553 %	06,87 %	05,91 %	06,37 %
s	07,27 %	06,327 %	07,948 %	07,98 %	06,09 %	04,98 %
t	06,15 %	09,056 %	07,244 %	04,63 %	05,27 %	05,62 %
u	04,35 %	02,758 %	06,311 %	03,93 %	03,18 %	03,01 %
v	00,67 %	00,978 %	01,628 %	00,90 %	01,90 %	02,10 %
w	01,89 %	02,360 %	00,114 %	00,02 %	00,00 %	00,00 %
x	00,03 %	00,150 %	00,387 %	00,22 %	00,00 %	00,00 %
y	00,04 %	01,974 %	00,308 %	00,90 %	00,00 %	00,00 %
z	01,13 %	00,074 %	00,136 %	00,52 %	00,50 %	00,49 %
œ	00,00 %	00,00 %	00,018 %	00,00 %	00,00 %	00,00 %
ß	00,31 %	00,00 %	00,00 %	00,00 %	00,00 %	00,00 %
à	00,00 %	00,00 %	00,486 %	00,00 %	00,00 %	0siehe a
ç	00,00 %	00,00 %	00,085 %	00,00 %	00,00 %	00,00 %
ĉ	00,00 %	00,00 %	00,00 %	00,00 %	00,66 %	00,00 %
è	00,00 %	00,00 %	00,271 %	00,00 %	00,00 %	0siehe e
é	00,00 %	00,00 %	01,904 %	00,00 %	00,00 %	0siehe e
ê	00,00 %	00,00 %	00,225 %	00,00 %	00,00 %	00,00 %
ë	00,00 %	00,00 %	00,00 %	00,00 %	00,00 %	00,00 %
ĝ	00,00 %	00,00 %	00,00 %	00,00 %	00,69 %	00,00 %
ĥ	00,00 %	00,00 %	00,00 %	00,00 %	00,02 %	00,00 %
î	00,00 %	00,00 %	00,045 %	00,00 %	00,00 %	00,00 %
ì	00,00 %	00,00 %	00,00 %	00,00 %	00,00 %	0siehe i
ï	00,00 %	00,01 %	00,005 %	00,00 %	00,00 %	00,00 %
ĵ	00,00 %	00,00 %	00,00 %	00,00 %	00,12 %	00,00 %
ò	00,00 %	00,00 %	00,00 %	00,00 %	00,00 %	0siehe o
ŝ	00,00 %	00,00 %	00,00 %	00,00 %	00,38 %	00,00 %
ù	00,00 %	00,00 %	00,058 %	00,00 %	00,00 %	0siehe u
ŭ	00,00 %	00,00 %	00,00 %	00,00 %	00,52 %	00,00 %

Siehe auch

Einzelnachweise

↑ S. dazu: http://www-alt.uni-trier.de/uni/fb2/ldv/lql_wiki/index.php/Phoneme_frequency; Buchstaben, Laute und Phoneme folgen im Prinzip den gleichen Verteilungen.
↑ Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, Seite 10
↑ ^a ^b Peter Vogelgesang, 2003: Häufigkeit von Buchstaben.
↑ English letter frequencies
↑ CorpusDeThomasTempé. Abgerufen am 15. Juni 2007.
↑ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
↑ La Oftecoj de la Esperantaj Literoj. Abgerufen am 14. September 2007.
↑ Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3

Literatur

Karl-Heinz Best: Zur Häufigkeit von Buchstaben, Leerzeichen und anderen Schriftzeichen in deutschen Texten. In: Glottometrics 11, 2005, S. 9–31.
Karl-Heinz Best: Laut- und Phonemhäufigkeiten im Deutschen. In: Göttinger Beiträge zur Sprachwissenschaft 10/ 11, 2005, 21-32.

Weblinks

Das lateinische Grundalphabet

Aa Bb Cc Dd Ee Ff Gg Hh Ii Jj Kk Ll Mm Nn Oo Pp Qq Rr Ss Tt Uu Vv Ww Xx Yy Zz

(für darauf basierende Buchstaben mit diakritischen Zeichen u. a. siehe Liste lateinisch-basierter Alphabete)

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Academic dictionaries and encyclopedias

Buchstabenhäufung

Inhaltsverzeichnis

Anwendung

Weiterführung

Buchstabenhäufigkeiten in deutschsprachigen Texten

Anfangsbuchstaben

Endbuchstaben

Buchstabenhäufigkeiten in anderen Sprachen

Siehe auch

Einzelnachweise

Literatur

Weblinks

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Buchstabenhäufung

Inhaltsverzeichnis

Anwendung

Weiterführung

Buchstabenhäufigkeiten in deutschsprachigen Texten

Anfangsbuchstaben

Endbuchstaben

Buchstabenhäufigkeiten in anderen Sprachen

Siehe auch

Einzelnachweise

Literatur

Weblinks

Share the article and excerpts

Direct link