- Häufigkeitsklasse
-
Der Begriff Häufigkeitsklasse ist ein Begriff aus der Linguistik und ist ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.
Berechnung
Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the (der/die/das), in der schwedischen och (und).
Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse N berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.
Dabei ist die Gaußklammer. Die so berechnete Häufigkeitsklasse N ist eine ganze Zahl, die ausdrückt, um wie viel mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i.A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse N eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.
Nach dem Zipfschen Gesetz erwartet man, dass die Klasse N etwa 2N Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.
Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).
Siehe auch
Weblinks
- wortschatz.informatik.uni-leipzig.de – Wortschatzlexikon der Universität Leipzig auf Basis deutscher Quellen mit Angabe der Häufigkeitsklasse
- DeReWo – Korpusbasierte Grund-/Wortformenlisten des Instituts für Deutsche Sprache mit Angabe der Häufigkeitsklasse
Wikimedia Foundation.