- Varianzschätzung
-
Mit Varianzschätzung werden in der Statistik zwei verwandte Begrifflichkeiten bezeichnet:
- die Schätzung einer unbekannten Varianz einer Grundgesamtheit und
- die Schätzung der Varianz einer Schätzfunktion eines unbekannten Parameter der Grundgesamtheit.
Im letzteren Fall ist sie eine Methode zur Messung der Genauigkeit von Schätzverfahren und erlaubt die Konstruktion von Konfidenzintervallen (Intervallschätzung). Oft fließt in die Berechnung von Intervallschätzungen auch die unbekannte Varianz der Grundgesamtheit ein. Diese wird mit einem Verfahren für den ersten Fall geschätzt.
Inhaltsverzeichnis
Schätzung der Varianz der Grundgesamtheit
Zur Schätzung der Varianz der Grundgesamtheit mit Hilfe der Stichprobenvarianz gibt es verschiedene Schätzfunktionen, siehe auch
Meist wird die korrigierte Stichprobenvarianz benutzt, die auf der Maximum-Likelihood-Schätzung der Varianz einer normal-verteilten Grundgesamtheit basiert.
Varianzschätzung einer normal-verteilten Grundgesamtheit
Die Stichprobenvariablen sind, wie Grundgesamtheit, normal verteilt Xi∼N(μ,σ2) mit μ der unbekannte Mittelwert und σ2 die unbekannte Varianz der Grundgesamtheit. Dann ist die Likelihoodfunktion einer Stichprobe mit Umfang n
und die Log-Likelihoodfunktion
- .
Um einen Schätzer für σ2 finden, wird die Log-Likelihoodfunktion nach σ2 abgeleitet
und gleich Null gesetzt um ein Maximum zu finden
- .
Die zweite Ableitung ergibt sich als
und an der Stelle :
- ,
d.h. es handelt sich um ein Maximum, wenn .
Schätzung der Varianz einer Schätzfunktion
Hat man eine Schätzfunktion für einen unbekannten Parameter θ der Grundgesamtheit, so hat man zunächst nur eine Punktschätzung für diesen. Man ist jedoch interessiert auch Konfidenzintervalle für den geschätzten Parameter anzugeben, d.h. man muss die Verteilung und die Varianz von kennen.
Dies ist jedoch nicht immer möglich und deswegen gibt es verschiedene Verfahren:
- direkte Verfahren auf Basis der Likelihoodfunktion,
- lineare Approximation der log-Likelihoodfunktion und
- Resampling-Methoden.
Wurde die Schätzfunktion mit Hilfe der Maximum-Likelihood-Methode berechnet, so weiß man über das asymptotische Verhalten:
- sowie
mit die Kovarianzmatrix der Schätzfunktion(en) und I(θ) die Fisher-Informationsmatrix.
Bekannte Verteilung von
Lässt sich die Verteilung und die Varianz von berechnen, z.B. mit Hilfe des zentralen Grenzwertsatzes, so lässt sich die Varianz leicht schätzen.
Ein Beispiel ist der Stichprobenmittelwert einer normalverteilten Grundgesamtheit bzw. bei Gültigkeit des zentralen Grenzwertsatzes bei einer beliebigen Verteilung in der Grundgesamtheit:
- .
Daraus lässt sich das Konfidenzintervall ableiten
mit z1 − α / 2 aus der Standardnormalverteilung.
Direkte Verfahren
Bei direkten Verfahren nutzt man die Darstellung
- bzw. multivariat
Darauf basierende Varianzschätzungen kann man meist nur bei einfachen Punktschätzern angeben. Hier werden Approximationsformeln nur bei Stichprobendesigns mit Inklusionswahrscheinlichkeiten zweiter Ordnung benötigt. Exakte Methoden, das heißt einfach auszurechnende Formeln können im Fall eines Linearen Schätzers angegeben werden.
Jedoch sind weder der wahre Parameter θ noch die Funktion bekannt. Daher werden die Schätzwerte und die normierte Likelihoodfunktion als Wahrscheinlihkeitsdichte für θ genutzt:
- bzw. multivariat
Die Schätzung erfolgt dann mit Hilfe numerischer Integration.
Lineare Approximation
Bei nicht-linearen Schätzern (z.B. einem Ratio-Schätzer) kommen approximative Methoden zum Einsatz. Kann man die Log-Likelihood-Funktion mit der Taylorapproximation um das Maximum entwickeln
und unter Ausnutzung der Definition der Fisher-Informationsmatrix
folgt
- .
Alternativ können durch die Woodruff-Linearisierung nicht-lineare Schätzer zu linearen umgewandelt werden.
Resampling-Methoden
Eine weitere Möglichkeit stellen Resamplingmethoden dar. Hierbei werden B Substichproben zufällig aus der vorhandenen Stichprobe gezogen und mit diesen ein Schätzwert berechnet. Diese Schätzwerte sind eine empirische Approximation an die unbekannte Verteilung von .
-
Stichprobe: Substichprobe 1: Substichprobe B:
Daher ergibt sich
mit . Bei der Schätzung kann das Stichprobendesign durch Gewichtung berücksichtigt werden.
Kategorie:- Schätztheorie
Wikimedia Foundation.