- Within-document Frequency
-
WDF (Within-document Frequency) bedeutet die dokumentspezifische Gewichtung eines Wortes.
Die Formel für die Dokumentspezifische Wortgewichtung wurde von Donna Harman entwickelt um Worten, die in einem Dokument vorkommen, einen für die Informationswissenschaft nutzbaren Gewichtungswert zu geben. Dieser Gewichtungswert lässt sich zum Beispiel zusammen mit der Inverse Document Frequency (IDF) und dem Gewichtungswert P zur einfachen Gewichtungsformel kombinieren. Mit dem WDF wird nicht die relative Häufigkeit eines Wortes im Dokument ermittelt, sondern ein gestauchter Wert, der besser verwendbar ist. Je höher die WDF eines Wortes ist, desto häufiger kommt dieses Wort im Dokument vor.
Die Formel
i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j
Erklärung zu "+1": falls Freq(i,j) = 0 ist, erreicht man mit dem "+1" dass im Zähler log2(1) = 0 steht.
BeispielEin Dokument besteht aus 12000 Wörtern, also ist L=12000. Das Wort i kommt in diesem Dokument 23 mal vor, also ist Freq(i,j)=23.
Nun braucht man nur noch einsetzen und es entsteht:Als Ergebnis erhält man den Gewichtungswert WDF(i)= 0,3 (gerundet), zum Vergleich ist die relative Häufigkeit des Wortes i hier 0,001%.
Literatur
- Harman, Donna: Ranking algorithms. – In: William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval.
Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 363-392. - Lecture Notes in Computer Science Vol.1083 - Evaluating Natural Language Processing Systems von Karen Sparck Jones; Julia R. Galliers aus der Reihe Lecture Notes in Computer Science Vol.1083. Berlin, Springer 1996.
Siehe auch
- Inverse Dokumenthäufigkeit / Inverse Document Frequency (IDF)
- Textstatistik
- Harman, Donna: Ranking algorithms. – In: William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval.
Wikimedia Foundation.