Ausreißer

Ein Ausreißer-Messwert

Der Boxplot wird über einem Zahlenstrahl dargestellt.

In der Statistik spricht man von einem Ausreißer, wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht. Die „Erwartung“ wird meistens als Streuungsbereich um den Erwartungswert herum definiert, in dem die meisten aller Messwerte zu liegen kommen, z. B. der Quantilabstand Q₇₅ – Q₂₅. Werte außerhalb dieses Intervalls werden (meist willkürlich) als Ausreißer bezeichnet. Im Boxplot werden besonders hohe Ausreißer gesondert dargestellt. Die robuste Statistik beschäftigt sich mit der Ausreißerproblematik. Auch im Data-Mining beschäftigt man sich mit der Erkennung von Ausreißern.

Inhaltsverzeichnis

1 Überprüfung auf Messfehler
- 1.1 Ausreißertests
- 1.2 Unterschiede zu Extremwerten
2 Multivariate Ausreißer
- 2.1 Andrews Kurven
- 2.2 Stahel-Donoho Outlyingness
3 Ausreißererkennung im Data-Mining
4 Einzelnachweise
5 Siehe auch
6 Weblinks

Überprüfung auf Messfehler

Entscheidend ist es dann, zu überprüfen, ob es sich bei dem Ausreißer tatsächlich um ein verlässliches und echtes Ergebnis handelt, oder ob ein Messfehler vorliegt.

Beispiel: So wurde das Ozonloch über der Antarktis einige Jahre zwar bereits gemessen, die Messwerte aber als offensichtlich falsch gemessen bewertet und in ihrer Tragweite nicht erkannt^[1].

Ausreißertests

Ein anderer Ansatz wurde u. a. von Ferguson im Jahr 1961 vorgeschlagen.^[2] Danach wird davon ausgegangen, dass die Beobachtungen aus einer hypothetischen Verteilung stammen. Ausreißer sind dann Beobachtungen, die nicht aus der hypothetischen Verteilung stammen. Die folgenden Ausreißertests gehen alle davon aus, dass die hypothetische Verteilung eine Normalverteilung ist und prüfen, ob einer oder mehrere der Extremwerte nicht aus der Normalverteilung stammen:

Ausreißertest nach Grubbs
Ausreißertest nach Nalimov
Ausreißertest nach Dixon
Ausreißertest nach Hampel

Der Ausreißertest nach Walsh basiert hingegen nicht auf der Annahme einer bestimmten Verteilung der Daten. Im Rahmen der Zeitreihenanalyse können Zeitreihen, bei denen ein Ausreißer vermutet wird, darauf getestet werden und dann mit einem Ausreißermodell modelliert werden.

Unterschiede zu Extremwerten

Ein beliebter Ansatz ist es, den Boxplot zu nutzen um „Ausreißer“ zu identifizieren. Die Beobachtungen außerhalb der Whisker werden dabei willkürlich als Ausreißer bezeichnet. Für die Normalverteilung kann man leicht ausrechnen, dass knapp 0,7 % der Masse der Verteilung außerhalb der Whiskers liegen. Bereits ab einem Stichprobenumfang von $n > 143$ würde man daher (im Mittel) mindestens eine Beobachtung außerhalb der Whiskers erwarten (oder auch $k$ Beobachtungen außerhalb der Whiskers bei $n > 143.3362 * k$ ). Sinnvoller ist es daher zunächst von Extremwerten statt von Ausreißern zu sprechen.

Multivariate Ausreißer

Ausreißer rechts unten im Scatterplot und Boxplots für jede einzelne Variable.

In mehreren Dimensionen wird die Situation noch komplizierter. In der Grafik rechts kann der Ausreißer rechts unten in der Ecke nicht durch Inspektion jeder einzelnen Variablen erkannt werden; er ist in den Boxplots nicht sichtbar. Trotzdem wird er eine lineare Regression deutlich beeinflussen.

Andrews Kurven

Andrews (1972) schlug vor jede multivariate Beobachtung $(x i 1, x i 2,..., x i p)$ durch eine Kurve zu repräsentieren^[3]:

$f_i(t) = \frac{x_{i1}}{\sqrt{2}}+x_{i2}\sin(t)+x_{i3}\cos(t)+x_{i4}\sin(2t)+x_{i5}\cos(2t)+...$

Damit wird jede multivariate Beobachtung auf eine zweidimensionale Kurve im Intervall $[ - π;π]$ abgebildet. Aufgrund der Sinus- und Kosinusterme wiederholt sich die Funktion $f i (t)$ außerhalb des Intervalls $[ - π;π]$ .

Für jeweils zwei Beobachtungen $i$ und $j$ gilt:

$\underbrace{\int_{-\pi}^{\pi} \left(f_i(t)-f_j(t)\right)^2 dt}_{(1)} = \underbrace{\pi \sum_{k=1}^p (x_{ik}-x_{jk})^2}_{(2)}$

Die Formel (1) links neben dem Gleichheitszeichen entspricht (zumindest approximativ) der Fläche zwischen den beiden Kurven und die Formel (2) rechts ist (zumindest approximativ) der multivariate euklidische Abstand zwischen den beiden Datenpunkten.

Ist also der Abstand zwischen zwei Datenpunkten klein, dann muss auch die Fläche zwischen den Kurven klein sein, d.h. die Kurven $f i (t)$ und $f j (t)$ müssen nahe beinander verlaufen. Ist jedoch der Abstand zwischen zwei Datenpunkten groß, muss auch die Fläche zwischen den Kurven groß sein, d.h. die Kurven $f i (t)$ und $f j (t)$ müssen sehr unterschiedlich verlaufen. Ein multivariater Ausreißer würde als Kurve sichtbar, die sich von allen anderen Kurven in ihrem Verlauf deutlich unterscheidet.

Andrews Kurven haben zwei Nachteile:

Wenn der Ausreißer in genau einer Variablen sichtbar ist, nimmt der Mensch die unterschiedlichen Kurven umso besser wahr, je weiter vorne diese Variable auftaucht. Am besten sollte sie die Variable $x_{\bullet1}$ sein. D.h. es bietet sich an, die Variablen zu sortieren, z.B. $x_{\bullet1}$ wird die Variable mit der größten Varianz, oder man nimmt die erste Hauptkomponente.
Wenn man viele Beobachtungen hat, müssen viele Kurven gezeichnet werden, sodass der Verlauf einer einzelnen Kurve nicht mehr sichtbar ist.

Stahel-Donoho Outlyingness

Stahel (1981) und David Leigh Donoho (1982) haben die sog. Outlyingness definiert um eine Maßzahl zu erhalten, die angibt wie weit ein Beobachtungswert von der Masse der Daten entfernt liegt.^[4]^[5] Durch die Berechnung aller möglichen Linearkombinationen $\alpha_1 x_{i1}+\alpha_2 x_{i2}+ \dots + \alpha_p x_{ip} = \alpha^Tx_i$ , d. h. die Projektion des Datenpunktes auf den Vektor $α$ , mit $\sum_{k=1}^p \alpha_i^2=1$ ergibt sich die Outlyingness

$\operatorname{out}(x_i) = \sup_{\alpha} \left(\operatorname{out}(x_i, \alpha)\right) = \sup_{\alpha} \left(\frac{\alpha^Tx_i-\operatorname{median}(\alpha^Tx)}{\operatorname{mad}(\alpha^Tx)}\right)$

mit $\operatorname{median}(\alpha^Tx)$ der Median der projizierten Punkte, als robustes Lagemaß, und $\operatorname{mad}(\alpha^Tx)$ die mittlere absolute Abweichung der projizierten Punkte, als robustes Streuungsmaß. $\operatorname{out}(x_i, \alpha)$ ist dabei eine Standardisierung.

In der Praxis wird die Outlyingness berechnet, in dem für mehrere hundert oder tausend zufällig ausgewählte Projektionsrichtungen $α$ das Maximum $\operatorname{out}(x_i, \alpha)$ genommen wird.

Ausreißererkennung im Data-Mining

Unter dem englischen Begriff Outlier Detection (deutsch: Ausreißererkennung) versteht man den Teilbereich des Data-Mining, bei dem es darum geht, untypische und auffällige Datensätze zu identifizieren. Anwendung hierfür ist beispielsweise die Erkennung von (potentiell) betrügerischen Kreditkartentransaktionen in der großen Menge der validen Transaktionen. Die ersten Algorithmen zur Outlier Detection waren eng an den hier erwähnten statistischen Modellen orientiert, jedoch haben sich aufgrund von Berechnungs- und vor allem Laufzeitüberlegungen die Algorithmen seither davon entfernt.^[6] Ein wichtiges Verfahren hierzu ist der dichtebasierte Local Outlier Factor.

Einzelnachweise

↑ Karl-Heinz Ludwig (2007), Eine kurze Geschichte des Klimas: Von der Entstehung der Erde bis heute (2. Auflage), Beck Verlag, S. 149
↑ Ferguson, T. S. (1961), On the Rejection of outliers, In Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, vol. 1, 253-287.
↑ Andrews, D. (1972). Plots of high-dimensional data, Biometrics 28: 125-136.
↑ Stahel., W. A. (1981). Robuste Schätzungen: infinitesimale Optimalität und Schätzungen von Kovarianzmatrizen. PhD thesis, ETH Zürich.
↑ Donoho., D. L. (1982). Breakdown properties of multivariate location estimators. Qualifying paper, Harvard University, Boston.
↑ Kriegel H.-P., Kröger P., Zimek A.: Outlier Detection Techniques. Tutorial. In: 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2009). Bangkok, Thailand 2009 (http://www.dbs.ifi.lmu.de/Publikationen/Papers/tutorial_slides.pdf, abgerufen am 26. März 2010).

Siehe auch

Wiktionary: Ausreißer – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

M-Schätzer

Weblinks

Grundlagen der Statistik Ausreißertests
Learning by Simulations Simulation der Auswirkung eines Ausreißers auf die lineare Regression

Kategorien:

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Ausreißer — aka The Runaway is a 2004 German Academy Award nominated live action short film.On January 31, 2006 it was nominated for the Academy Award for Live Action Short Film. External links * … Wikipedia
Ausreißer — Ausreißer, 1) (Bergb.), ein Erztrumm, welches sich von dem Haupteingange abwendet, ohne sich wieder zu nähern; 2) bei Gruben u. Steinbrecherarbeit ein Loch, wenn beim Sprengen mit Pulver die erforderliche Wirkung von ihm aus nicht erfolgt; 3)… … Pierer's Universal-Lexikon
Ausreißer — Ausreißer,der:⇨Flüchtling(1) … Das Wörterbuch der Synonyme
Ausreißer — Sonderfall; Spezialfall * * * Aus|rei|ßer [ au̮srai̮sɐ], der; s, , Aus|rei|ße|rin [ au̮srai̮sərɪn], die; , nen (ugs.): Person, die ausgerissen ist: der Ausreißer wurde von der Polizei nach Hause gebracht. Syn.: ↑ Flüchtling. * * * Aus|rei|ßer 〈m … Universal-Lexikon
Ausreißer (Begriffsklärung) — Ausreißer ist: in der Statistik der Ausreißer ein von zu Hause davongelaufenes Kind oder Jugendlicher, siehe Trebegänger und Straßenkind ein enteilter Radrennfahrer, siehe Ausreißversuch eine Bezeichnung für sogenannte Runaway Sterne, die sich… … Deutsch Wikipedia
Ausreißer, der — Der Ausreißer, des s, plur. ut nom. sing. 1) Ein Entflohener, besonders von Soldaten, der seine Fahne böslich verlässet, von der letzten Bedeutung des vorigen Wortes. In dem Salischen Gesetze wird ein solcher Ausreißer Austrappo genannt, von… … Grammatisch-kritisches Wörterbuch der Hochdeutschen Mundart
Ausreißer — Begriff der Statistik für einen „extrem“ großen oder kleinen Merkmalswert in einer ⇡ Gesamtheit. „Extrem“ kann dabei nicht allgemein gültig präzisiert werden. A. wirken sich nur auf manche ⇡ Mittelwerte, z.B. das ⇡ arithmetische Mittel, und auf ⇡ … Lexikon der Economics
Ausreißer — Ausreißerm 1.Flüchtender,Geflohener,Deserteur.⇨ausreißen1.1800ff. 2.Minderjähriger,derElternhaus,SchuleoderArbeitsstätteverläßtoderbereits(heimlich)verlassenhat.1900ff. 3.Radsportler,dereinenVorsprungerringt.1920ff … Wörterbuch der deutschen Umgangssprache
Ausreißer — Aus|rei|ßer … Die deutsche Rechtschreibung
Der Ausreißer — Ausreißer ist: in der Statistik der Ausreißer eine Person, die vor irgendetwas davonläuft, zum Beispiel jemand, der aus dem Gefängnis flieht oder von zu Hause wegrennt ein enteilter Radrennfahrer in der Astronomie eine Bezeichnung für sogenannte… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Ausreißer

Inhaltsverzeichnis