Kernel density estimation

Kernel density estimation

Die Kerndichteschätzung (auch Parzen-Methode[1], englisch: Kernel Density Estimation, KDE) ist ein Verfahren zur Darstellung einer eindimensionalen Verteilung.

In der klassischen Statistik geht man davon aus, dass statistische Phänomene einer bestimmten Wahrscheinlichkeitsverteilung folgen und dass sich diese Verteilung in Stichproben realisiert. In der nichtparametrischen Statistik werden Verfahren entwickelt, um aus der Realisation einer Stichprobe die zu Grunde liegende Verteilung zu identifizieren. Ein bekanntes Verfahren ist die Erstellung eines Histogramms. Nachteil dieses Verfahrens ist, dass das resultierende Histogramm nicht stetig ist. Vielfach ist aber davon auszugehen, dass die zu Grunde liegende Verteilung als stetig betrachtet werden kann. So etwa die Verteilung von Wartezeiten in einer Schlange oder die Rendite von Aktien.

Der im folgenden beschriebene Kerndichteschätzer ist dagegen ein Verfahren, das eine stetige Schätzung der unbekannten Verteilung ermöglicht. Genauer: die Kerndichteschätzung ist ein gleichmäßig konsistenter, stetiger Schätzer der Lebesgue-Dichte eines unbekannten Wahrscheinlichkeitsmaßes durch eine Folge von Dichten.

Inhaltsverzeichnis

Beispiel

Kerndichteschätzung

Im folgenden Beispiel wird die Dichte einer Standardnormalverteilung (schwarz gestrichelt) durch Kerndichteschätzung geschätzt. In der konkreten Situation des Schätzens ist diese Kurve natürlich unbekannt und soll durch die Kerndichteschätzung geschätzt werden. Es wurde eine Stichprobe (vom Umfang 100) generiert, die gemäß dieser Standardnormalverteilung verteilt ist. Mit verschiedenen Bandbreiten h wurde dann eine Kerndichteschätzung durchgeführt. Man sieht deutlich, dass die Qualität des Kerndichteschätzers von der gewählten Bandbreite abhängt. Eine zu kleine Bandbreite erscheint "verwackelt", während eine zu große Bandbreite zu "grob" ist.

Kerne

Kerndichteschätzung mit Cauchykern

Mit Kern wird die stetige Lebesgue-Dichte k eines fast beliebig zu wählenden Wahrscheinlichkeitsmaßes K bezeichnet. Mögliche Kerne sind etwa:

  • Gaußkern k(t):=\frac{1}{\sqrt{2\pi}}\exp \left(-\frac{1}{2}t^2\right)
  • Cauchy-Kern k(t):=\frac{1}{\pi(1+t^2)}
  • Picard-Kern k(t):=\frac{1}{2}\exp(-|t|)

Diese Kerne sind Dichten von ähnlicher Gestalt wie der abgebildete Cauchykern. Der Kerndichteschätzer stellt eine Überlagerung in Form der Summe entsprechend skalierter Kerne dar, die abhängig von der Stichprobenrealisation positioniert werden. Die Skalierung und ein Vorfaktor gewährleisten, dass die resultierende Summe wiederum die Dichte eines Wahrscheinlichkeitsmaßes darstellt. Der folgenden Abbildung wurde eine Stichprobe vom Umfang 10 zu Grunde gelegt, die als schwarze Kreise dargestellt ist. Darüber sind die Cauchykerne (grün gestrichelt) dargestellt, aus deren Überlagerung der Kerndichteschätzer resultiert (rote Kurve).

Der Epanechnikov-Kern ist dabei derjenige Kern, der unter allen Kernen die mittlere quadratische Abweichung des zugehörigen Kerndichteschätzers minimiert.

Der Kerndichteschätzer

Ist x_1,\ldots,x_n\in\mathbb{R} eine Stichprobe, k ein Kern, so wird der Kerndichteschätzer zur Bandbreite h > 0 definiert als: \tilde f_{n}:\mathbb{R}\to\mathbb{R}_{+}, \tilde f_{n}(t)=\frac{1}{n}\sum_{j=1}^{n}k_h(t-x_j)=\frac{1}{nh}\sum_{j=1}^{n}k\left(\frac{t-x_j}{h}\right).

Die Wahl der Bandbreite h ist entscheidend für die Qualität der Approximation. Mit entsprechender, in Abhängigkeit vom Stichprobenumfang gewählter Bandbreite konvergiert die Folge \tilde f_n der Kerndichteschätzer fast sicher gleichmäßig gegen die Dichte des unbekannten Wahrscheinlichkeitsmaßes. Diese Aussage wird im folgenden Satz von Nadaraja konkretisiert.

Satz von Nadaraja

Der Satz liefert die Aussage, dass mit entsprechend gewählter Bandbreite eine beliebig gute Schätzung der unbekannten Verteilung durch Wahl einer entsprechend großen Stichprobe möglich ist.

Sei k ein Kern von beschränkter Variation. Die Dichte f eines Wahrscheinlichkeitsmaßes sei gleichmäßig stetig. Mit 0<\alpha<\frac{1}{2} und c > 0 seien für n\in\mathbb{N} die Bandbreiten h(n)=\frac{c}{n^\alpha} definiert. Dann konvergiert die Folge der Kerndichteschätzer \tilde f_{n} mit Wahrscheinlichkeit 1 gleichmäßig gegen f, d. h.  P\left(\left\{x\in\mathbb{R}^{\infty}\vert\lim_{n\to\infty}\sup_{t\in\mathbb{R}}\left|\tilde{f}_n(t)-f(t)\right|=0\right\}\right)=1

Siehe auch

Schätzfunktion, Histogramm, Empirische Verteilungsfunktion, Stichprobe, Dichteschätzer

Einzelnachweise

  1. Parzen E. (1962). On estimation of a probability density function and mode, Ann. Math. Stat. 33, pp. 1065-1076.

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Kernel density estimation — of 100 normally distributed random numbers using different smoothing bandwidths. In statistics, kernel density estimation is a non parametric way of estimating the probability density function of a random variable. Kernel density estimation is a… …   Wikipedia

  • Multivariate kernel density estimation — Kernel density estimation is a nonparametric technique for density estimation i.e., estimation of probability density functions, which is one of the fundamental questions in statistics. It can be viewed as a generalisation of histogram density… …   Wikipedia

  • Density estimation — In probability and statistics, density estimation is the construction of an estimate, based on observed data, of an unobservable underlying probability density function. The unobservable density function is thought of as the density according to… …   Wikipedia

  • Density (disambiguation) — Density and dense usually refer to a measure of how much of some entity is within a fixed amount of space. Types of density include: In physics, density of mass: Density, mass per volume Area density or surface density, mass over a (two… …   Wikipedia

  • Kernel (statistics) — A kernel is a weighting function used in non parametric estimation techniques. Kernels are used in kernel density estimation to estimate random variables density functions, or in kernel regression to estimate the conditional expectation of a… …   Wikipedia

  • Kernel smoother — A kernel smoother is a statistical technique for estimating a real valued function f(X),,left( Xin mathbb{R}^{p} ight) by using its noisy observations, when no parametric model for this function is known. The estimated function is smooth, and the …   Wikipedia

  • Kernel regression — Not to be confused with Kernel principal component analysis. The kernel regression is a non parametric technique in statistics to estimate the conditional expectation of a random variable. The objective is to find a non linear relation between a… …   Wikipedia

  • Estimation par noyau — Estimation par la méthode du noyau d un échantillon de 100 nombres aléatoires distribués selon la loi normale pour différentes valeurs de la fenêtre. En statistique, l’estimation par noyau (ou encore méthode de Parzen Rozenblatt) est une méthode… …   Wikipédia en Français

  • Stochastic kernel estimation — In statistics, a stochastic kernel estimate is an estimate of the transition function of a (usually discrete time) stochastic process. Often, this is an estimate of the conditional density function obtained using kernel density estimation. The… …   Wikipedia

  • List of statistics topics — Please add any Wikipedia articles related to statistics that are not already on this list.The Related changes link in the margin of this page (below search) leads to a list of the most recent changes to the articles listed below. To see the most… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”