- Termfrequenz
-
Die Termfrequenz (TF) gibt beim Information Retrieval die relative Häufigkeit eines Wortes beziehungsweise Termes in einem gesamten Dokument an. Sie dient als Indikator der Repräsentativität des Wortes für den Inhalt des Gesamtdokumentes. Die Termfrequenz wird unter Anderem in Verbindung mit der Inversen Dokumenthäufigkeit zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.
Die Termfrequenz lässt sich berechnen als
.
Wobei hd(t) die Häufigkeit des Termes t im Dokument d und a(d) die Anzahl der Terme im Dokument d bezeichnet. Häufig wird statt der direkten Anzahlen ihr Logarithmus verwendet, so dass
.
Im Argument des Zählers wird eins addiert, damit die Termfrequenz für nicht vorkommende Terme Null ist. Werte mit einer Termfrequenz unter einem bestimmten Schwellenwert können ggf. ignoriert werden. Sehr häufige aber nicht sinntragende Wörter wie Pronomen werden als Stoppworte aussortiert.
Beispiel
Das aus einem Satz bestehende Dokument "Dumm bleibt dumm da helfen auch keine Pillen" enthält 8 Wörter, wobei das Wort "dumm" zweimal und das Wort "Pillen" einmal vorkommt. Die Termfrequenzen betragen ohne Logarithmierung TF = 2 / 8 = 0,25 bzw. TF = 1 / 8 = 0,125 und bei Verwendung des Logarithmus TF = log(3) / log(8) = 0,53 bzw. TF = log(2) / log(8) = 0,33.
Wikimedia Foundation.