Häufigkeitsklasse

Häufigkeitsklasse

Der Begriff Häufigkeitsklasse ist ein Begriff aus der Linguistik und ist ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.

Berechnung

Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the (der/die/das), in der schwedischen och (und).

Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse N berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.

N=\left\lfloor0{,}5-\log_2\left(\frac{\mathrm{H \ddot{a} ufigkeit\, des\, untersuchten\, Wortes}}{\mathrm{H \ddot{a} ufigkeit\, des\, h \ddot{a} ufigsten\, Wortes}}\right)\right\rfloor

Dabei ist \lfloor\ldots\rfloor die Gaußklammer. Die so berechnete Häufigkeitsklasse N ist eine ganze Zahl, die ausdrückt, um wie viel mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i.A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa \frac{1}{2^N} mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse N eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.

Nach dem Zipfschen Gesetz erwartet man, dass die Klasse N etwa 2N Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.

Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Frequenzwörterbuch — Frequenzwörterbücher (auch: Häufigkeitswörterbücher) geben den Wortschatz einer Sprache, eines Autors, einer Textsorte etc. wieder, wobei die Häufigkeit, mit der die einzelnen Wörter in einem Text oder Textkorpus vorkommen, das wichtigste Ziel… …   Deutsch Wikipedia

  • Buchstabenhäufung — Die Buchstabenhäufigkeit ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text bzw. einer Sammlung von Texten („Korpus“) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des… …   Deutsch Wikipedia

  • Geschwafel — Geschwurbel ist ein abwertender Begriff der Umgangssprache für vermeintlich oder tatsächlich unverständliche, realitätsferne oder inhaltsleere Aussagen. Geschwurbel findet sich vorwiegend in Bereichen, in denen sprachliche Ausdrucksformen wichtig …   Deutsch Wikipedia

  • Hk — ist die Abkürzung für: BVG Baureihe HK, Bezeichnung für die neueste Fahrzeugserie der Berliner U Bahn Haller Kreisblatt, eine Tageszeitung aus Halle in Westfalen Handelskammer Handwerkskammer Hauptkabel Häufigkeitsklasse, ein statistisches Maß… …   Deutsch Wikipedia

  • Schwurbel — Geschwurbel ist ein abwertender Begriff der Umgangssprache für vermeintlich oder tatsächlich unverständliche, realitätsferne oder inhaltsleere Aussagen. Geschwurbel findet sich vorwiegend in Bereichen, in denen sprachliche Ausdrucksformen wichtig …   Deutsch Wikipedia

  • Vorderer Rand der Verteidigung — HKL ist die Abkürzung für: Herz Kreislauferkrankung Hauptkampflinie, Linie mit direktem Feindkontakt im Krieg Hauptkampflinie, rechtsextreme Band Helsingin kaupungin liikennelaitos, die Verkehrsbetriebe der finnischen Hauptstadt Helsinki Heizung …   Deutsch Wikipedia

  • Frequency list — In computational linguistics, a frequency list is a sorted list of words (word types) together with their frequency, where frequency here usually means the number of occurrences in a given corpus. A short example could be: the3789654he 2098762 [ …   Wikipedia

  • Buchstabenhäufigkeit — Die Buchstabenhäufigkeit ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten („Korpus“) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des… …   Deutsch Wikipedia

  • Cote d'Ivoire — République de Côte d’Ivoire …   Deutsch Wikipedia

  • Côte d'Ivoire — République de Côte d’Ivoire …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”