Attributsgewichtung

Attributsgewichtung

Die Attributsgewichtung (engl. attribute selection oder feature selection) wird auch als Sensitivitätsanalyse bezeichnet. Die englische Bezeichnung deutet darauf hin, dass sie Attribute danach auswählen, ob sie für das Ergebnis eines Versuchs oder Entscheidungsprozesses relevant waren, und wenn ja, in welchem Maße.

Grundidee

Im Data-Mining werden Datensätze oft als Beispiele oder Instanzen (engl. instance, Beispiel) bezeichnet. Sie sind durch eine Reihe von Größen gekennzeichnet, die Eigenschaften oder Attribute heißen. In einem Entscheidungsprozess führen die Ausgangsdaten zu einer Zielgröße, die im einfachsten Fall zwei Werte annehmen kann und nach denen die Instanz klassifiziert wird. Dabei ist oft interessant, welches der Attribute welchen Einfluss auf die Zielgröße, also den Klassenwert der Instanz hatte. Dies herauszufinden ist das Ziel der Sensitivitätsanalyse oder Attributsgewichtung. Zu deren Werkzeugen gehören die Relief-Algorithmen, zu denen auch ReliefF zählt. Für ihre Anwendung ist zunächst die Definition einer Entfernung zwischen den Instanzen erforderlich, die sich aus den Differenzen zwischen den Attributen ergibt. Häufig genügt dafür die so genannte Manhattan-Distanz, die Summe der Differenzbeträge zwischen den Attributwerten.

Beispiel

Nachfolgendes Beispiel soll ein intuitives Verständnis dafür liefern, was mit den einzelnen Begriffen gemeint ist:

Attribute: Ausblick Temperatur Luftfeuchtigkeit windig Klasse: Spieltag
mögl. Werte: sonnig kühl normal nein Kl.wert: findet statt
veränderlich mild hoch ja fällt aus
regnerisch heiß

In obigem Beispiel existieren vier Attribute, von denen zwei Attribute jeweils drei Werte, die anderen beiden Attribute nur zwei Werte annehmen können. Eine Instanz ist hierbei eine konkrete Wetterlage als Kombination der vier Attribute. Durch die Kombination der Attribute können 3 * 3 * 2 * 2 = 36 verschiedene Wetterlagen in diesem Beispiel abgebildet werden. Jede Instanz kann dabei einer von zwei Klassen angehören, deren beide mögliche Klassenwerte durch die Entscheidung gegeben sind, ob unter den in der Instanz definierten Wetterbedingungen ein Spiel stattfindet oder ausfällt.


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • ReliefF — Die Relief Algorithmen, einer Familie von Algorithmen zur Attributsgewichtung, gehören zu den überwachten Lernmethoden des maschinellen Lernens. Zunächst einmal bezieht sich der Relief Algorithmus nicht auf künftige Entscheidungsprozesse, sondern …   Deutsch Wikipedia

  • Data Mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Data mining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Dataminer — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Datamining — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Datenschürfung — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Matchplus — Unter Data Mining (englisch für „Datenschürfen“) versteht man die systematische Anwendung von Methoden, die meist statistisch mathematisch begründet sind, auf einen Datenbestand mit dem Ziel der Mustererkennung. Hierbei geht es vor allem um das… …   Deutsch Wikipedia

  • Relief-Algorithmus — Die Relief Algorithmen, einer Familie von Algorithmen zur Attributsgewichtung, gehören zu den überwachten Lernmethoden des maschinellen Lernens. Zunächst einmal bezieht sich der Relief Algorithmus nicht auf künftige Entscheidungsprozesse, sondern …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”