- Latent semantische Indizierung
-
Die Latent semantische Indizierung, kurz LSI genannt, ist eine Methode, um Dokumente automatisch zu klassifizieren.
Mit dieser Methode kann eine Suchmaschine feststellen, um was es bei einem Text oder einer Internetseite geht. Man nimmt einfach an, dass z.B. eine Seite über Apple-Computer meistens ebenfalls die Wörter iMac oder iPod enthält.
Latent Semantische Indizierung geht also im Vergleich zur normalen Indizierung einen Schritt weiter. Es werden nicht nur die Schlüsselwörter einer Seite gespeichert, sondern es wird auch untersucht, welche anderen Seiten ebenfalls diese Begriffe enthalten. LSI betrachtet Dokumente mit vielen gleichen Begriffen als "semantische Nähe" und Dokumente mit nur einigen wenigen gleichen Wörtern als "semantisch Entfernt".
Diese im Grunde genommen einfache Methode stimmt dennoch überraschend gut mit einer menschlichen Klassifizierung von Dokumenten überein. Obwohl der LSI Algorithmus zwar nicht versteht, was der Text bedeutet, ist die Mustererkennung überraschend hoch.
Indem sie zusätzliches Gewicht auf in Verbindung stehende Wörter in Inhalten legt, bewirkt eine Latent Semantische Indizierung einen Negativeffekt auf das Ranking einer Seite, das nur die Suchbegriffe enthält, aber nicht die oftmals mit Ihnen in Verbindung stehenden Wörter.
Weblinks
- Latent Semantic Indexing
- Text entnommen von Semager
- Latent semantisches Indizieren Fachlicher Artikel zur semantischen Indizierung.
Wikimedia Foundation.