Termfrequenz

Termfrequenz
Redundanz Die Artikel Termfrequenz, Suchwortdichte und TF-IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz. Cjesch 13:31, 11. Dez. 2006 (CET)

Die Termfrequenz (TF) gibt beim Information Retrieval die relative Häufigkeit eines Wortes beziehungsweise Termes in einem gesamten Dokument an. Sie dient als Indikator der Repräsentativität des Wortes für den Inhalt des Gesamtdokumentes. Die Termfrequenz wird unter Anderem in Verbindung mit der Inversen Dokumenthäufigkeit zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.

Die Termfrequenz lässt sich berechnen als

TF(t,d)=\frac{h_d(t)}{a(d)}.

Wobei hd(t) die Häufigkeit des Termes t im Dokument d und a(d) die Anzahl der Terme im Dokument d bezeichnet. Häufig wird statt der direkten Anzahlen ihr Logarithmus verwendet, so dass

TF(t,d)=\frac{\log(h_d(t)+1)}{\log(a(d))}.

Im Argument des Zählers wird eins addiert, damit die Termfrequenz für nicht vorkommende Terme Null ist. Werte mit einer Termfrequenz unter einem bestimmten Schwellenwert können ggf. ignoriert werden. Sehr häufige aber nicht sinntragende Wörter wie Pronomen werden als Stoppworte aussortiert.

Beispiel

Das aus einem Satz bestehende Dokument "Dumm bleibt dumm da helfen auch keine Pillen" enthält 8 Wörter, wobei das Wort "dumm" zweimal und das Wort "Pillen" einmal vorkommt. Die Termfrequenzen betragen ohne Logarithmierung TF = 2 / 8 = 0,25 bzw. TF = 1 / 8 = 0,125 und bei Verwendung des Logarithmus TF = log(3) / log(8) = 0,53 bzw. TF = log(2) / log(8) = 0,33.


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Keyword-Dichte — Die Artikel Termfrequenz, Suchwortdichte und TF IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… …   Deutsch Wikipedia

  • TF-IDF — Die Artikel Termfrequenz, Suchwortdichte und TF IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… …   Deutsch Wikipedia

  • Tf-idf — Die Artikel Termfrequenz, Suchwortdichte und TF IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… …   Deutsch Wikipedia

  • Inverse Dokumenthäufigkeit — Die Inverse Dokumenthäufigkeit (englisch Inverse Document Frequency (IDF)) dient beim Information Retrieval zur Bestimmung der Trennfähigkeit eines Wortes bzw. Termes für die Indexierung von Dokumenten. Ein Wort, das nur in wenigen… …   Deutsch Wikipedia

  • Gleichordnende Indexierung — Bei der gleichordnenden Indexierung (engl. coordinate indexing) werden einem Dokument bei der Indexierung mehrere Deskriptoren unstrukturiert und gleichrangig zugeordnet. Beispielsweise kann ein Dokument über Lungenkrebs mit den Deskriptoren… …   Deutsch Wikipedia

  • Latent Semantic Analysis — Latent Semantic Indexing (kurz LSI) ist ein (patentgeschütztes) Verfahren des Information Retrieval, das 1990 zuerst von Deerwester et al.[1] erwähnt wurde. Verfahren wie das LSI sind insbesondere für die Suche auf großen Datenmengen wie dem… …   Deutsch Wikipedia

  • Tf-idf-Maß — Das tf idf Maß (von engl. term frequency ‚Vorkommenshäufigkeit‘ und inverse document frequency ‚inverse Dokumenthäufigkeit‘) wird im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”