Fuzzy-Retrieval

Fuzzy-Retrieval

Das Fuzzy-Information-Retrieval hat sich seit den 70er Jahren entwickelt. Hier benennt Fuzzy-Information-Retrieval ein Information Retrieval, das auf der Fuzzy-Logik basiert.

Inhaltsverzeichnis

Das Fuzzy-IR-Modell

Das Fuzzy-IR-Modell ist zu definieren mit einem Quadrupel <T, Q, D, F>, wobei

  • T = {t1, t2, …, tn} eine Menge von Indextermen, die Queries und Dokumente beschreiben.
  • Q = {q1, q2, …, qn} eine Menge von Querys, die aus Indextermen bestehen. Dabei lassen sich die Indexterme durch logische Operationen AND, OR und NOT verknüpfen.
  • D= {d1, d2, …, dn} eine Menge von Dokumenten. Jedes dj ∈ D, j = 1, 2, …, n ist durch {( t1, wj1 ), …,( tn, wjn )} zu repräsentieren, wobei wji (i = 1,2,…, n) die Wichtigkeit von Term ti in dj darstellt und einen Wert aus dem Intervall [0, 1] einnimmt.
  • F ist eine Rankingfunktion
F: D x Q → [0, 1],
F (d, q) ∈ [0, 1].

Der Wert repräsentiert die Ähnlichkeit zwischen dem Dokument d und dem Query q.

Für eine Query gilt Folgendes:

  1. Eine Query q ist eine wohlgeformte, propositionale Formel.
  2. Ein individueller Indexterm ist eine Query: q = ti. Diese Art von Query nennt man Atomquery.
  3. Wenn q eine Query ist, ist ¬q (die Negation von q) auch eine Query.
  4. Wenn q und q′ Querys sind, sind qq′(q oder q′) und qq′ (q und q′) auch Queries.

Die Fuzzy-Mengen-Operationen werden wie folgt verwendet:

F (dj, t1 AND t2) = MIN(wj1, wj2)
F (dj, t1 OR t2) = MAX(wj1, wj2)
F (dj, t1′) = 1 – wj1

Nun wird ein Beispiel zur Verdeutlichung der Anwendung von Fuzzy-IR-Modell genannt. Die Query lautet:

q1 = Golden AND Silver

Es gibt zwei Dokumente:

d1 = {(Golden, 0,4), (Silver,0,4)}
d2 = {(Golden, 0,4), (Silver, 0,7)}

Nach der Operation kommt es zum Ergebnis:

F (d1, t1 AND t2) = MIN(0,4, 0,4) = 0,4
F (d2, t1 AND t2) = MIN(0,4, 0,7) = 0,4

Die gleichen Resultate bei d1 und d2 sagen aus, dass die Ähnlichkeit zwischen d1 und q1 mit der zwischen d2 und q1 gleich ist. Aber die meisten Leute würden entscheiden, dass d2 dem q1 ähnlicher als d1 wäre. Hier ist das unerwünschte Ergebnis darauf zurückzuführen, dass die Operation nur auf ein Termgewicht Rücksicht nimmt. Zudem beschränken sich die einfachen Fuzzy-Menge-Operationen lediglich auf zwei Terme. Folgend werden zwei entwickelte Fuzzy-Modelle vorgestellt, die beliebig viele Terme evaluieren können. Weiterhin lässt sich ein Parameter als „softness factor“ zur Lösung des obengenannten Problems (des auf ein Gewicht angewiesenen Ergebnisses) in die Modelle einführen

Erweiterte Fuzzy-IR-Modelle

Das Waller-Kraft-Modell

F(dj, t1 AND … AND tn) = (1 – γ) · MIN{wj1, …, wjn} + γ · MAX{wj1, …, wjn}, 0 ≤ γ ≤ 0,5;

F(dj, t1 OR … OR tn) = (1 – γ) · MIN{wj1, …, wjn} + γ · MAX{wj1, …, wjn}, 0,5 ≤ γ ≤ 1.

Das Modell mischt die Operation Maximum mit Minimum und hat bessere Effektivität als beim einfachen Fuzzy-Modell.

Das Paice-Modell

Bei einer AND-Verknüpfung: wji der Größe nach in ansteigender Reihenfolge sortiert, d. h. wj1 ≤ … ≤ wjn

F(dj, t1 AND … AND tn) = [∑i=1n (ri-1 · wji)]/[∑i=1n ri-1], 0 ≤ r ≤ 1.

Bei einer OR-Verknüpfung: wji der Größe nach in absteigender Reihenfolge sortiert, d. h. wj1 ≥ … ≥ wjn

F(dj, t1 OR … OR tn) = [∑i=1n (ri-1 · wji)]/[∑i=1n ri-1], 0 ≤ r ≤ 1.

Dieses Modell berücksichtigt alle Termgewichte bei der Berechnung der Ähnlichkeit. Aber es verlangt höheren Berechnungsaufwand als beim Waller-Kraft-Modell.

Vergleich

In der folgenden Tabelle werden die Ergebnisse von d1 und d2 bei einfachem Fuzzy-IR-Modell, Waller-Kraft-Modell sowie Paice-Modell miteinander verglichen.

q1 = t1 AND t2 Einfaches Fuzzy IR-Modell Waller-Kraft-Modell (γ = 0,3) Paice-Modell (r = 0,3)
d1 = ((t1, 0,4), (t2, 0,4)) 0,4 (1−0,3)·0,4+0,3·0,4 = 0,4 (0,30·0,4+0,31·0,4)/(0,30+0,31) = 0,4
d2 = ((t1, 0,4), (t2, 0,7)) 0,4 (1−0,3)·0,4+0,3·0,7 = 0,49 (0,30·0,4+0,31·0,7)/(0,30+0,31) = 0,47

Der Ähnlichkeitsgrad zwischen d1 und q1 ist bei den drei Modellen gleich, das ist verständlich. Der Unterschied entsteht bei den Ergebnissen von d2, wobei die von den zwei erweiterten Modellen größer als das bei einfachem Fuzzy-IR-Modell sind, was eher der Erwartung entspricht. Deswegen kann man sagen, dass die beiden Modelle bessere Retrievaleffektivität als das einfache Fuzzy-IR-Modell haben.


Zwar mischt das Waller-Kraft-Modell Maximum mit Minimum, aber es beachtet nur diese zwei Termgewichte, was zum Problem bei Queries mit mehr als zwei Termen führen kann. Beispiel:

q2 = t1 OR t2 OR t3 OR t4 OR t5
d3 = {(t1, 0,1), (t2, 0,5), (t3, 0,5), (t4, 0,5), (t5, 0,8)}
d4 = {(t1, 0,1), (t2, 0,2), (t3, 0,2), (t4, 0,2), (t5, 0,8)}

Es ist klar, dass der Ähnlichkeitsgrad zwischen d3 und q2 größer als der zwischen d4 und q2 ist. Aber nach der Gleichung bei Waller-Kraft-Modell werden gleiche Ergebnisse bei d3 und d4 berechnet, welcher Wert für den Parameter γ auch bestimmt wird, weil es bei diesem Modell nur auf das MIN- und MAX-Termgewicht Rücksicht genommen wird. Somit entsteht das Problem. Im Vergleich dazu ist das Paice-Modell zwar komplexer, aber es berücksichtigt alle Termgewichte bei der Berechnung und vermeidet deswegen dieses Problem.

Die Einführung des Termgewichtes in die Query

Die gerade gezeigten Modelle berücksichtigen keine Gewichte von Termen in Queries, wobei alle Terme die gleiche Wichtigkeit in Queries haben. Es ist bekannt, dass die Einführung der Gewichte von Termen in die Queries die Effektivität des Retrievals verbessern kann. Mit dem Termgewicht wird die Query repräsentiert: qk={(t1, wk1), …, (tn, wkn)}, wk ∈ [0, 1]. Im Retrieval werden die Gewichte von Termen in Querys und Dokumenten multipliziert, d. h.

F(dj, (ti, wki)) = wji·wki

Ein Query ohne Termgewicht gleicht einem Query, in dem die Gewichte von allen Termen „1“ betragen. Ein Term wird weggenommen, wenn dessen Gewicht null ist, das bedeutet, dass der Term keinen Einfluss auf den Query hat.

Obwohl das Waller-Kraft-Modell und das Paice-Modell keine Methode anbieten, die Termgewichte in Querys zu evaluieren, hat das P-Norm-Modell Formeln für die Kalkulation der Termgewichte in Querys.

Fuzzy-IR-Modell mit Query-Gewichten

Das P-Norm-Modell mit Query-Gewichten [Salton et al, 1983]

F(dj, (tq(k)1, wq(k)1) AND … AND (tq(k)n, wq(k)n)) = 1 − [[∑i=1n (1 − wji)p · wq(k)ip]/[∑i=1n wjip]]1/p, 1 ≤ p < ∞,

F(dj, (tq(k)1, wq(k)1) OR … OR (tq(k)n, wq(k)n)) = 1 − [[∑i=1n wjip · wq(k)ip]/[∑i=1n wjip]]1/p, 1 ≤ p < ∞.

Hier ist „p“ der Parameter und repräsentiert den Grad an Genauigkeit.„1“ bedeutet wenig genau, während „∞“ sehr genau heißt.

Term-Relationen

Fuzzy-Term-Relationen bezeichnet man als Fuzzy-Thesauren. Hier bedeutet diese Relation eine Fuzzy-Relation auf einer Fuzzy-Menge, die die Interpretation von einem Fuzzy-Graph hat. Formal wird angenommen: T = {t1, t2, …, tm}ist eine Menge von Termen und D = {d1, d2, …, dn}eine Menge von Dokumenten. Eine (allgemeine) Term-Relation wird definiert durch eine Fuzzy-Relation auf TD: R(x, y), x, yTD. (Hier werden Terme und Dokumente in eine gesamte Menge vereinigt, obwohl man es Term-Relation nennt.) Drei Typen der Relationen sind einbezogen:

  1. Eine Relation zwischen zwei Termen, R(t, t′), t, t′ ∈T,
  2. Eine Relation zwischen zwei Dokumenten, R(d, d′), d, d′∈D,
  3. Eine Relation zwischen einem Term und einem Dokument: R(t, d) oder R(d, t), tT, dD.

Die untengenannten Probleme in Term-Relationen werden dann diskutiert:

  1. konkrete Beispiele für Term-Relationen,
  2. Methode von Beschaffung und Bildung der Term-Relationen,
  3. Methode von Verwendung der Term-Relationen in Information Retrieval.

Beispiele für Term-Relationen

Die Thesauren und ihre Fuzzy-Versionen sind typische Beispiele für Term-Relationen, wobei die Fuzzy-Relation R nicht auf TD, sondern auf T definiert wird. Verschiedene Typen von Fuzzy-Thesauren werden berücksichtigt. Zum Beispiel sieht Reisinger [1974] Fuzzy-Äquivalenz und Fuzzy-ordnende Relationen als natürliche Generalisationen von scharf kategorischen und hierarchischen Relationen an. Tahani [1976] erwähnt auch partielle Fuzzy-Ordnung. Redecki [1976] schlägt die Verwendung von einer Fuzzy-Äquivalenz-Relation zusammen mit einer Teilmenge der elementaren Terme und einer Termgeneralisationsrelation vor.

In der Forschung von Fuzzy-Thesauren werden symmetrische und unsymmetrische Fuzzy-Relationen sowie Fuzzy-Transitivität beachtet, deren Annahme jedoch zu einem Problem führt, weil man in Realität keine Fuzzy-Transitivität direkt finden kann. Dieses Problem ist durch die Berücksichtigung von Fuzzy-Graphen (ungerichtete Graphen) und Digraphen [Miyamoto, 1990b, S.30] zu lösen. Angegeben ist eine Fuzzy-Relation R, die nicht transitiv sein muss. Diese Relation lässt sich durch einen Fuzzy-Digraph repräsentieren, und ein „transitive closure“ wird überdacht, R* = RR2∪…∪Rk∪…(Rk = Rk-1οR, wobei ο die MAX-MIN-Komposition impliziert). R* bedeutet den Grad von Erreichbarkeit auf dem Digraph, und zwar R*(x, y) ist der MAX-Wert von α-Schnitt, wobei x auf dem scharfen Digraph von y aus erreichbar ist.

Die obengenannten Operationen und Eigenschaften von Fuzzy-Relationen werden hier zusammengefasst:

  1. Angegeben sind zwei Fuzzy-Relationen R und S, die auf T definiert werden. Die MAX-MIN-Komposition: (RοS) (x, z) = MAXyTMIN[R(x, y), S(y, z)].
  2. Eine Relation R auf einer Menge T wird bezeichnet als
    1. reflexiv, wenn für alle x, xT, R(x, x) = 1,
    2. symmetrisch, wenn für alle x und y, x, yT, R(x, y) = R(y, x),
    3. transitiv, wenn für alle x und y, x, yT, R(x, y)≥ MAXzTMIN[R(x, z), R(z, y)].

Konstruktion der Term-Relationen

Verschiedene Forschungen behandeln unter unterschiedlichen Annahmen die Methoden von automatischer Konstruktion der Fuzzy-Relation von Termen oder von Dokumenten. Eine typische Methode dafür ist die Verwendung von Dokument-Term-Matrix A = (aij), wobei aij das Gewicht von Term tj in dem Dokument di darstellt. Hier wird angenommen: γj = ∑i aij /di ist die Fuzzy-Menge, die dem Term tj entspricht. Eine symmetrische Relation Rs(tj, tk) und eine unsymmetrische Relation Rn(tj, tk) sind definiert durch

Rs(tj, tk) = |γjγk| / |γjγk|, Rn(tj, tk) = |γjγk| / |γj|,

wobei |γj| = a1j+a2j+…+anj die ∑-Summe ist. Diese Methode basiert auf der Annahme, dass die Bedeutung von den beiden Termen auch ähnlich ist, wenn die zwei Patterns von γj und γk ähnlich sind. Die Annahme von Rn(tj, tk) ist, dass γj eine engere Bedeutung als γk hat, wenn γj der γk inklusive ist.

Verwendung von Term-Relationen in IR

Es gibt zwei Basismethoden von Verwendung der Term-Relationen in Information Retrieval. Wenn eine Term-Relation als ein Netzwerk ermöglicht wird, in dem die Dokumente Terminalknoten sind und ein Query ein Originalknoten ist, wird das Retrieval durch die Verfolgung vom Netzwerk durchgeführt. Andererseits, wenn eine Term-Relation R auf T zusammen mit einer Fuzzy-Relation F(d, t) und einem Fuzzy-Query-Vektor q = ∑j wj/tj angegeben wird, ist eine einfache Standardmethode für Retrieval der Dokumente die Kalkulation von einer Fuzzy-Menge δ = FοRοq durch die Anwendung von MAX-MIN-Komposition der Fuzzy Relationen[Miyamoto, 1990b, S.195].

Siehe auch

Analog zum Fuzzy-Retrieval ist ein Fuzzy-Klassifikator ein auf unscharfen Mengen basierendes Klassifikationsverfahren. Die Suche nach Wörtern ähnlicher Schreibweise wird auch als Fuzzy Suche bezeichnet.

Literatur

  • Lee, Joon Ho: Properties of extended Boolean models in information retrieval. In: Croft & Rijsbergen (1994): SIGIR 1994. Seite 182–190.
  • Miyamoto, S.: 1989, Two approaches for information retrieval through fuzzy associations IEEE Trans. Syst. Man Cybernet. SMC-19 123-30 — 1990b Fuzzy Sets in Information Retrieval and Cluster Analysis (Dordrecht: Kluwer).
  • Miyamoto, Sadaaki: Information Retrieval. In: Ruspini, Enrique H.; Bonissone, Piero P.; Pedrycz, Witold (eds.): Handbook of fuzzy computation. Bristol, Institute of Physics Publ.1998: F.4.2.
  • Paice, C.P.: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development, 3 (1), 1984, Seite 33–42.
  • Panyr, Jiri: Die Theorie der Fuzzy-Mengen und Information-Retrieval-Systeme. In: Nachrichten für Dokumentation 37, 1986. Seite 163–168.
  • Salton, G.; Fox, E.A.; Wu, H.: Extended boolean information retrieval. In: Communication of the ACM, 26(11), 1983, Seite 1022–1036.
  • Waller, W.G.; Kraft, D.H.: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management, 15, 1979, Seite 235–245.

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Fuzzy Retrieval — Das Fuzzy Information Retrieval hat sich seit den 70er Jahren entwickelt. Hier benennt Fuzzy Information Retrieval ein Information Retrieval, das auf der Fuzzy Logik basiert. Inhaltsverzeichnis 1 Das Fuzzy IR Modell 2 Erweiterte Fuzzy IR Modelle… …   Deutsch Wikipedia

  • Fuzzy — Fuzzy, nach dem englischen Wort für unscharf, verschwommen, kann sich auf Folgendes beziehen: Fuzzy Klassifikator Fuzzy C Means Fuzzy Logik Fuzzy Bit Fuzzy Regler Fuzzy Retrieval Fuzzy Suche Fuzzy Lokalisierung = unscharfe Lokalisierung Weitere… …   Deutsch Wikipedia

  • Retrieval — (engl. für Wiederfinden, Abholen) wird im Allgemeinen im Kontext von Datenbank oder Informationssystemabfragen verwendet und kann im Speziellen stehen für: Information Retrieval Erweitertes Boolesches Retrieval Fuzzy Retrieval Library Computer… …   Deutsch Wikipedia

  • Fuzzy-Suche — Die Fuzzy Suche oder Fuzzy String Suche umfasst in der Informatik eine Klasse von String Matching Algorithmen, die eine bestimmte Zeichenkette (engl. string) in einer längeren Zeichenkette oder einem Text suchen bzw. finden sollen. Typisch für… …   Deutsch Wikipedia

  • Fuzzy Suche — Die Fuzzy Suche oder Fuzzy String Suche umfasst in der Informatik eine Klasse von String Matching Algorithmen, die eine bestimmte Zeichenkette (engl. string) in einer längeren Zeichenkette oder einem Text suchen bzw. finden sollen. Typisch für… …   Deutsch Wikipedia

  • Fuzzy-Klassifikator — Ein Fuzzy Klassifikator ist ein Klassifikationsverfahren, das auf der Theorie der unscharfen Mengen (Fuzzy Logik) basiert. Das Ergebnis einer Fuzzy Klassifikation ist wiederum eine unscharfe Menge, bei der die Zugehörigkeit zu einer Klasse als… …   Deutsch Wikipedia

  • fuzzy logic — ☆ fuzzy logic n. 〚< fuzzy (set), coined (1965) by L. A. Zadeh, U.S. computer scientist〛 a type of logic used in computers and other electronic devices for processing imprecise or variable data: in place of the traditional binary values, fuzzy… …   Universalium

  • Fuzzy string searching — Approximate string search is the name that is used for a category of techniques for finding strings that approximately match some given pattern string. It may also be known as approximate or inexact matching. Approximate string searching has two… …   Wikipedia

  • Information-Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

  • Information retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”