Within-document Frequency

Within-document Frequency

WDF (Within-document Frequency) bedeutet die dokumentspezifische Gewichtung eines Wortes.

Die Formel für die Dokumentspezifische Wortgewichtung wurde von Donna Harman entwickelt um Worten, die in einem Dokument vorkommen, einen für die Informationswissenschaft nutzbaren Gewichtungswert zu geben. Dieser Gewichtungswert lässt sich zum Beispiel zusammen mit der Inverse Document Frequency (IDF) und dem Gewichtungswert P zur einfachen Gewichtungsformel kombinieren. Mit dem WDF wird nicht die relative Häufigkeit eines Wortes im Dokument ermittelt, sondern ein gestauchter Wert, der besser verwendbar ist. Je höher die WDF eines Wortes ist, desto häufiger kommt dieses Wort im Dokument vor.

Die Formel

WDF(i) = \frac{\log_2(\mathrm{Freq}(i,j)+1)}{\log_2(L)}

i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j

Erklärung zu "+1": falls Freq(i,j) = 0 ist, erreicht man mit dem "+1" dass im Zähler log2(1) = 0 steht.


Beispiel

Ein Dokument besteht aus 12000 Wörtern, also ist L=12000. Das Wort i kommt in diesem Dokument 23 mal vor, also ist Freq(i,j)=23.
Nun braucht man nur noch einsetzen und es entsteht:

WDF(i)= \frac{\log_2(23+1))}{\log_2(12\,000)}

Als Ergebnis erhält man den Gewichtungswert WDF(i)= 0,3 (gerundet), zum Vergleich ist die relative Häufigkeit des Wortes i hier 0,001%.

Literatur

  • Harman, Donna: Ranking algorithms. – In: William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval.
    Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 363-392.
  • Lecture Notes in Computer Science Vol.1083 - Evaluating Natural Language Processing Systems von Karen Sparck Jones; Julia R. Galliers aus der Reihe Lecture Notes in Computer Science Vol.1083. Berlin, Springer 1996.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Within document frequency — WDF (Within document Frequency) bedeutet die dokumenspezifische Gewichtung eines Wortes. Die Formel für die Dokumentspezifische Wortgewichtung wurde von Donna Harman entwickelt um Worten, die in einem Dokument vorkommen, einen für die… …   Deutsch Wikipedia

  • Radio-frequency identification — (RFID) is a technology that uses radio waves to transfer data from an electronic tag, called RFID tag or label, attached to an object, through a reader for the purpose of identifying and tracking the object. Some RFID tags can be read from… …   Wikipedia

  • Identity document — National identity card redirects here. For cards referred to in the English language as national identity card , see National identity card (disambiguation). An identity document (also called a piece of identification or ID, or colloquially as… …   Wikipedia

  • Dual-tone multi-frequency signaling — One of the few production telephone DTMF keypads with all 16 keys, from an Autovon Telephone. The column of red keys produces the A, B, C, and D DTMF events. Dual tone multi frequency signaling (DTMF) is used for telecommunication signaling over… …   Wikipedia

  • High-energy radio-frequency weapons — (HERF) or High Power Radio Frequency weapons (HPRF) are weapons that use high intensity radio waves to disrupt electronics. They are a type of directed energy weapon. They operate similarly to electromagnetic pulse (EMP) devices, by inducing… …   Wikipedia

  • WdF — hat folgende Bedeutungen : Wachdienstführer, siehe Liste polizeilicher Abkürzungen Wahrscheinlichkeitsdichtefunktion Westdeutsches Fernsehen, siehe WDR Fernsehen Wellendigitalfilter Windows Driver Foundation Within document Frequency World Darts… …   Deutsch Wikipedia

  • Information Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationsrückgewinnung, gelegentlich ungenau Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem Suchen nach komplexen Inhalten (also z. B. keine Einzelwörter) beschäftigt und… …   Deutsch Wikipedia

  • WDF — hat folgende Bedeutungen : Wachdienstführer, siehe Liste polizeilicher Abkürzungen Wahrscheinlichkeitsdichtefunktion Westdeutsches Fernsehen, siehe WDR Fernsehen Wellendigitalfilter Windows Driver Foundation Within document Frequency World… …   Deutsch Wikipedia

  • Tf–idf — The tf–idf weight (term frequency–inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important a word is to a document in a collection or corpus.… …   Wikipedia

  • Bioacoustics — is a cross disciplinary science that combines biology and acoustics. Usually it refers to the investigation of sound production, dispersion through elastic media, and reception in animals, including humans. This involves neurophysiological and… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”