Tagwolke

Tagwolke
Schlagwortwolke aus den am häufigsten benutzten Schlagwörtern bei Flickr

Eine Schlagwortwolke (auch: Schlagwortmatrix oder Stichwortwolke selten Etikettenwolke, englisch: tag cloud) ist eine Methode zur Informationsvisualisierung, bei der eine Liste aus Schlagworten alphabetisch sortiert flächig angezeigt wird, wobei einzelne unterschiedlich gewichtete Wörter größer oder auf andere Weise hervorgehoben dargestellt werden. Wortwolken werden zunehmend beim gemeinschaftlichen Indexieren und in Weblogs eingesetzt. Bekannte Anwendungen sind die Darstellung populärer Stichwörter bei Flickr, Technorati und Del.icio.us.

Schlagwortwolken wurden vermutlich zuerst 2002 von Jim Flanagan eingesetzt[1] und zunächst als gewichtete Liste (engl. weighted list) bezeichnet.[2] Um einige Zeit früher im Jahr 1980 kam allerdings schon das Buch „Tausend Plateaus. Kapitalismus und Schizophrenie“ von Gilles Deleuze und Felix Guattari heraus[3], auf dessen Einband bereits eine „Begriffswolke“ abgebildet ist.

Erstellung einer Schlagwortwolke

Prinzipiell wird die Schriftgröße eines Schlagwortes in einer Schlagwortwolke durch dessen Häufigkeit bestimmt. Für eine Wortwolke der Kategorien eines Weblogs entspricht die Benutzungshäufigkeit beispielsweise der Anzahl von Weblog-Einträgen, die einer Kategorie zugeordnet sind. Bei kleinen Häufigkeiten genügt es, für jede Anzahl von eins bis zu einem Maximalwert die Schriftgröße direkt anzugeben.[4] Für größere Werte sollte eine Normierung vorgenommen werden. Bei einer linearen Normierung wird das Gewicht ti eines Deskriptors auf eine Größenskala von 1 bis f abgebildet, wobei tmin und tmax den Wertebereich der vorhandenen Gewichte angeben.

s_i = \left \lceil \frac{f_{\mathrm{max}}\cdot(t_i - t_{\mathrm{min}})}{t_{\mathrm{max}}-t_{\mathrm{min}}} \right \rceil für ti > tmin; sonst si = 1

  • si: Anzuzeigende Fontgröße
  • fmax: maximale Fontgröße
  • ti: Anzahl
  • tmin: minimale Anzahl
  • tmax: maximale Anzahl

Da die Anzahl indexierter Objekte pro Schlagwort üblicherweise nach einem Potenzgesetz verteilt ist[5], ist für größere Wertebereiche eine logarithmische Darstellung sinnvoll[6].

Für flektierende Sprachen wie das Deutsche müssen die Worte vor dem Zählen zuerst lemmatisiert also auf ihre Grundform reduziert werden.

Quellen

  1. Jim Flanagan: Search Engine Referrals. In: Everything Burns. 6.9.2002. Abgerufen am 17.5.2006.
  2. The Spread of Weighted Lists. In: Signal vs Noise. Matthew Linderman, 2.12.2004. Abgerufen am 17.5.2006.
  3. Gilles Deleuze, Felix Guattari: Tausend Plateaus. Kapitalismus und Schizophrenie. 1992, ISBN 3883960942. 
  4. Ed Kohler: How to Make a Tag Cloud for Movable Type Blogs. In: technologyevangelist.com. 8.3.2006. Abgerufen am 14.5.2006.
  5. Jakob Voss: Collaborative thesaurus tagging the Wikipedia way. April 2006 [1]
  6. kentbye: Tag Cloud Font Distribution Algorithm. In: kentbye's blog. 2005-06-24. Abgerufen am 17.5.2004.

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”