Tf-idf-Maß

Das tf-idf-Maß (von engl. term frequency ‚Vorkommenshäufigkeit‘ und inverse document frequency ‚inverse Dokumenthäufigkeit‘) wird im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt.

Mit der so errechneten Gewichtung eines Wortes bezüglich des Dokuments, in welchem es enthalten ist, können Dokumente als Suchtreffer einer wortbasierten Suche besser gerankt (in der Trefferliste angeordnet) werden, als es beispielsweise über die Termfrequenz allein möglich wäre.

Vorkommenshäufigkeit

Die Vorkommenshäufigkeit $t f i, j$ gibt an, wie häufig der Term $i$ im Dokument $j$ vorkommt. Ist beispielsweise das Dokument 5 der Satz

Das rote Auto hält an der roten Ampel.

dann ist $t f r o t,5 = 2.$

Inverse Dokumenthäufigkeit

Die inverse Dokumenthäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente.

Die inverse Dokumentfrequenz $i d f$ hängt hingegen nicht vom einzelnen Dokument, sondern vom Dokumentkorpus, der Gesamtmenge aller Dokumente im Retrievalszenario, $D$ ab:

$idf_i = \log \frac{N}{n_i}$

Hier ist $N = | D |$ die Anzahl der Dokumente im Korpus und $n i$ die Anzahl der Dokumente, die Term $i$ beinhalten.

Das Gewicht $w$ eines Terms $i$ im Dokument $j$ ist dann nach TF-IDF:

$w_{i,j} = tf_{i,j} \cdot idf_i = tf_{i,j} \cdot \log \frac{N}{n_i}$

In den meisten Anwendungen dürfte es sinnvoll sein, dass ein vielfaches Vorkommen eines Terms nicht auch in gleichem Maße zur Relevanz beiträgt. In der Praxis wird der TF-Wert daher in der Regel normalisiert.

Literatur

Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison-Wesley, Harlow u. a. 1999, ISBN 0-201-39829-X, S. 29–30.

Kategorien:

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Vektorraum-Retrieval — Das Vektorraum Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren zur Informationsbeschaffung, bei dem die Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Zur Auswertung wird die… … Deutsch Wikipedia
Information Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationsrückgewinnung, gelegentlich ungenau Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem Suchen nach komplexen Inhalten (also z. B. keine Einzelwörter) beschäftigt und… … Deutsch Wikipedia
Alters-Diabetes — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Altersdiabetes — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Blutzuckerkrankheit — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
DNOAP — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Diabetes — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Diabetes Mellitus — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Diabetes Typ II — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia
Diabetesdiät — Klassifikation nach ICD 10 E10 Primär insulinabhängiger Diabetes mellitus (Typ 1 Diabetes) E11 Nicht primär insulinabhängiger Diabetes mellitus (Typ 2 Diabetes) … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Tf-idf-Maß

Vorkommenshäufigkeit

Inverse Dokumenthäufigkeit

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Tf-idf-Maß

Vorkommenshäufigkeit

Inverse Dokumenthäufigkeit

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link