Konfidenzintervall

Das Konfidenzintervall (auch Vertrauensbereich, Vertrauensintervall oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das Vertrauensintervall schließt einen Bereich um den geschätzten Wert des Parameters ein, der – vereinfacht gesprochen – mit einer zuvor festgelegten Wahrscheinlichkeit (dem Konfidenzniveau) die wahre Lage des Parameters trifft. Ein Vorteil des Konfidenzintervalls gegenüber der Punktschätzung eines Parameters ist, dass man an ihm direkt die Signifikanz ablesen kann. Ein für ein vorgegebenes Konfidenzniveau zu breites Vertrauensintervall weist auf einen zu geringen Stichprobenumfang hin. Entweder ist die Stichprobe tatsächlich „klein“, oder das untersuchte Phänomen ist so variabel, dass nur durch eine unrealistisch große Stichprobe ein Konfidenzintervall von akzeptabler Breite erreicht werden könnte.

Inhaltsverzeichnis

1 Definition
2 Formale Definition
3 Beispiel einer Anwendung
4 Beschreibung des Verfahrens
5 Ausgewählte Schätzintervalle
- 5.1 Übersicht für stetige Verteilungen
- 5.2 Diskrete Verteilungen
6 Konfidenzintervalle und Hypothesentests
7 Beispiele für ein Konfidenzintervall
8 Literatur
9 Weblinks
10 Einzelnachweise

Definition

Es seien unabhängige und identisch verteilte Zufallsvariablen $X_1,\cdots, X_n$ mit unbekanntem Verteilungsparameter θ gegeben. Wenn sich Stichprobenfunktionen $U$ und $V$ angeben lassen, so dass gilt:

$\!\,P(U < \theta < V) = \gamma,$

dann heißt das (stochastische) Intervall $[U, V]$ ein Konfidenzintervall für θ mit Konfidenzniveau $γ$ (auch: ein $γ$ -Konfidenzintervall). Die Realisationen $u$ und $v$ von $U$ bzw. $V$ bilden das Schätzintervall $[u, v]$ .

Da die Realisationen $u$ und $v$ der Grenzen $U$ und $V$ keine Zufallsvariablen sind und θ ein fixer Wert ist, kann man nicht sagen, dass das Schätzintervall $[u, v]$ mit Wahrscheinlichkeit $γ$ den unbekannten Parameter θ enthält. Es bedeutet vielmehr, dass im Mittel $100\,\gamma\ %$ der Schätzintervalle den unbekannten Parameter überdecken. Dem nicht widersprechend, kann wie bereits von R. A. Fisher festgestellt, in manchen Modellen die Qualität des Schätzintervalls von den Daten abhängen und sogar zu Antworten führen, welche mit Blick auf die Daten unsinnig sind. Probleme mit solcher Post-Data-Inkohärenz führen zur Theorie der bedingten Inferenz.

Formale Definition

Es seien $(X , \mathcal{F}$ , $P_{\vartheta}$ : $\vartheta \in \Theta$ ) ein statistisches Modell und $Σ$ eine Menge. $\tau : \Theta \rightarrow \Sigma$ sei eine zu ermittelnde Kenngröße für den Parameter $\vartheta$ . Sei weiter $0 < \alpha < 1, \alpha \in \mathbb{R}$ .

Eine Abbildung $C : X \rightarrow P(\Sigma)$ heißt nun Konfidenzintervall zum Irrtumsniveau $α$ von $τ$ , wenn sie jedem möglichen Beobachtungsergebnis $x \in X$ eine Menge $C(x) \subset \Sigma$ zuordnet, so dass gilt:

$\inf_{\vartheta \in \Theta} P_{\vartheta} [ x \in X : C(x) \ni \tau(\vartheta) ] \geq 1 - \alpha$

Beispiel einer Anwendung

Ein Physikdoktorand misst die ausstrahlende Wellenlänge bei einem Experiment unter zwei verschiedenen Bedingungen. Leider ist das Messgerät 10 Jahre alt und die Mechanik der Optik etwas wackelig. Obwohl also aufgrund des Versuchsansatzes nur das Licht einer Wellenlänge pro Bedingung erwartet wird, streut das Ergebnis bei unabhängigen Messungen. Der Physikdoktorand geht davon aus, dass das Messgerät mit gleicher Wahrscheinlichkeit zu große wie zu kleine Wellenlängen misst und dass extreme Messfehler unwahrscheinlicher sind als Messwerte nahe dem wahren Wert (Normalverteilung).

Daraufhin rechnet er aus den Ergebnissen der Einzelmessungen den arithmetischen Mittelwert aus. Für jede Bedingung einen Mittelwert. Er zeigt die Daten seinem Doktorvater, der wissen will, wie stark die Streuung der Messwerte war.

Jetzt rechnet der Doktorand den Standardfehler aus, um ein Maß für die Genauigkeit seiner beiden Mittelwerte zu bekommen und diese graphisch (als Fehlerbalken um den Mittelwert) darstellen zu können. Der Standardfehler bezieht neben der Streuung die Anzahl der Einzelmessungen mit ein. Je mehr Einzelmessungen vorgenommen werden desto näher kommt der errechnete Mittelwert dem wahren Wert und desto kleiner ist auch der Standardfehler.

Der Doktorvater ist aber immer noch nicht zufrieden, denn jetzt will er wissen, ob sich die zwei errechneten Mittelwerte unter den zwei unterschiedlichen Bedingungen statistisch signifikant voneinander unterscheiden oder ob es nur aufgrund der Ungenauigkeit des Gerätes zu unterschiedlichen Mittelwerten kommt. Daraufhin rechnet der Doktorand die Vertrauensintervalle um die Mittelwerte aus, die in Abhängigkeit von der Streuung und der Anzahl der Einzelmessungen den Bereich angeben, der jeweils den wahren Wert mit hoher Wahrscheinlichkeit mit einschließt. Wählt man ein 95 %-Konfidenzintervall (das heißt: in 95 von 100 Fällen enthalten die errechneten Intervallgrenzen den wahren Wert) und die Balken des Konfidenzintervalls der beiden Mittelwerte überschneiden sich nicht, dann werden die Mittelwerte in der Regel als signifikant unterschiedlich bezeichnet (wird häufig mit einem * markiert). Hierbei handelt es sich aber nur um eine Faustregel: Es gibt sehr wohl Fälle, in denen sich die Unter- und Obergrenze zweier Konfidenzintervalle nicht überschneiden, die Mittelwerte aber dennoch nicht signifikant unterschiedlich sind. Bei einem 99 %-Konfidenzintervall und fehlender Überlappung gelten sie als hochsignifikant unterschiedlich (Markierung: **).

Beschreibung des Verfahrens

Man interessiert sich für den unbekannten Parameter θ einer Grundgesamtheit. Diese wird durch eine Schätzfunktion aus einer Stichprobe vom Umfang n geschätzt. Es wird davon ausgegangen, dass die Stichprobe eine einfache Zufallsstichprobe ist, in etwa die Grundgesamtheit widerspiegelt und dass deshalb die Schätzung in der Nähe des wahren Parameters liegen müsste. Die Schätzfunktion ist eine Zufallsvariable mit einer Verteilung, die den Parameter θ enthält.

Man kann zunächst mit Hilfe der Verteilung ein Intervall angeben, das den unbekannten wahren Parameter γ mit einer Wahrscheinlichkeit 1−α überdeckt. 1−α wird Konfidenzniveau oder Konfidenzkoeffizient genannt. Ermitteln wir z. B. das 95 %-Konfidenzintervall für den wahren Erwartungswert μ einer Population, dann bedeutet dies, dass wir ein Konfidenzintervall ermitteln, das bei durchschnittlich 95 von 100 gleichgroßen Zufallsstichproben den Erwartungswert enthält.

Das Verfahren wird anhand eines normalverteilten Merkmals mit dem unbekannten Erwartungswert μ und der bekannten Varianz σ² demonstriert: Es soll der Erwartungswert μ dieser Normalverteilung geschätzt werden. Verwendet wird die erwartungstreue Schätzfunktion: der Stichprobenmittelwert $\bar X$ .

Zentrales Schwankungsintervall von $\bar{X}$

Der Erwartungswert der Population wird anhand unserer Stichprobe geschätzt

Schätzfunktion: $\bar X =\frac{1}{n}\sum_{i=1}^n X_i$

Punktschätzung: $\hat \mu =\bar x = \frac{1}{n}\sum_{i=1}^n x_i$

wobei die Zufallsvariable X_i (i=1,…,n) für die i-te Beobachtung (vor der Ziehung der Stichprobe) steht. Es ist

$\bar X \sim \mathcal{N} \left( \mu;\frac{\sigma^2}{n} \right)$

Die Grenzen des zentralen Schwankungsintervalls

$[\bar x_u; \bar x_o]$ ,

in dem $\hat\mu$ mit der Wahrscheinlichkeit 1−α liegt, bestimmen sich aus der Beziehung

$P(\bar x_u \le \bar X \le \bar x_o )=1-\alpha$ .

Man standardisiert zur Standardnormalverteilung $\mathcal{N}(0,1)$ und erhält für die standardisierte Zufallsvariable

$Z = \frac {\bar X-\mu}{\sigma/\sqrt{n}}$

die Wahrscheinlichkeit

$P \left( {-z_\left( 1-\tfrac {\alpha}{2} \right) \le \frac{\bar X-\mu}{\sigma/\sqrt{n}} \le z_\left( 1-\tfrac{\alpha}{2} \right)} \right) =1-\alpha$ ,

wobei $\textstyle z_\left( 1-\frac {\alpha}{2} \right)$ das (1-α/2)-Quantil der Standardnormalverteilung ist. Löst man nach μ auf, so ergibt sich aus

$P \left( { \bar X-z_\left( 1-\tfrac {\alpha}{2} \right)\frac {\sigma}{\sqrt{n}} \le \mu \le \bar X+z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}}} \right) =1- \alpha$

das (1−α)-Konfidenzintervall für μ

Mögliche Lage des unbekannten µ im Schätzintervall um das beobachtete $\bar x$ .

$\left[ { \bar X-z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}} ; \ \bar X+z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}}} \right].$

Das Schätzintervall, die Realisation eines Konfidenzintervalles anhand einer konkreten Stichprobe, ergibt sich dann als

$\left[ { \bar x-z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}} ; \ \bar x+z_\left( 1-\tfrac {\alpha}{2} \right) \frac {\sigma}{\sqrt{n}}} \right].$

Die Grenzen des Schätzintervalles hängen jedoch von $\bar x$ ab und ändern sich damit von Stichprobe zu Stichprobe. Ist die Stichprobe aber extrem ausgefallen, überdeckt das Intervall den Parameter nicht. Dies ist in 100α% aller Stichproben der Fall, d.h das durch $\bar x$ bestimmte Intervall überdeckt den wahren Parameter μ also mit einer Wahrscheinlichkeit von 1−α.

Von besonderem Interesse ist die Breite des Konfidenzintervalls. Diese bestimmt sich durch die Standardabweichung der Schätzfunktion und das gewählte Konfidenzniveau. Durch Erhöhung des Stichprobenumfangs kann die Breite verringert werden. Erwünscht ist in der Regel ein möglichst schmales Konfidenzintervall, denn dies weist bei konstantem Konfidenzniveau auf eine genaue Schätzung hin.

Ausgewählte Schätzintervalle

Übersicht für stetige Verteilungen

Erwartungswert eines normalverteilten Merkmals mit bekannter Varianz $σ$ : $\textstyle z_{(1-\tfrac{\alpha}{2})}$ ist das (1−α/2)-Quantil der Standardnormalverteilung.	$\left[ { \bar x-z_{(1-\tfrac{\alpha}{2})}\frac {\sigma}{\sqrt{n}} \ ; \ \bar x+z_{(1-\tfrac{\alpha}{2})}\frac{\sigma}{\sqrt{n}}} \right]$
Erwartungswert eines normalverteilten Merkmals mit unbekannter Varianz: Die Varianz der Grundgesamtheit wird durch die korrigierte Stichprobenvarianz $s^2= \tfrac {1}{n-1}\sum (x_i-\bar x)^2$ geschätzt. $\textstyle t_{(1-\tfrac{\alpha}{2};n-1)}$ ist das (1−α/2)-Quantil der t-Verteilung mit n-1 Freiheitsgraden. Für n > 30 kann das Quantil der t-Verteilung näherungsweise durch das entsprechende Quantil der Standardnormalverteilung ersetzt werden.	$\left[{\bar x-t_{(1-\tfrac{\alpha}{2};n-1)}\frac{s}{\sqrt{n}}\ ;\ \bar x+t_{(1-\tfrac{\alpha}{2}; n-1)} \frac{s}{\sqrt{n}}} \right]$
Erwartungswert eines unbekannt verteilten Merkmals mit unbekannter Varianz: Falls $n$ genügend groß ist, kann aufgrund des zentralen Grenzwertsatzes das Konfidenzintervall bestimmt werden.	$\left[ { \bar x-z_{(1-\tfrac {\alpha}{2})}\frac{s}{\sqrt{n}}\ ;\ \bar x+z_{(1-\tfrac{\alpha}{2})}\frac{s}{\sqrt{n}}} \right]$
Standardabweichung eines normalverteilten Merkmals: $\textstyle \chi^2_{(p;k)}$ ist das p-Quantil der χ²-Verteilung mit k Freiheitsgraden.	$\left[ \ s\sqrt{\frac {n-1}{ \chi^2_{(1-\tfrac {\alpha}{2}; n-1)}}} ; s\sqrt{\frac {n-1}{\chi^2_{(\tfrac {\alpha}{2}; n-1)}}}\ \right]$

Diskrete Verteilungen

Konfidenzintervalle für den Parameters p der Binomialverteilung sind beschrieben in dem

→ Hauptartikel: Konfidenzintervall einer unbekannten Wahrscheinlichkeit

Das sogenannte Clopper-Pearson-Konfidenzintervall kann mit Hilfe der Beta- oder F-Verteilung bestimmt werden. Dieses Konfidenzintervall wird auch exakt genannt, da das geforderte Konfidenzniveau tatsächlich eingehalten wird. Bei Näherungsmethoden, die (meistens) auf der Approximation der Binomialverteilung durch die Normalverteilung basieren, wird das Konfidenzniveau oft nicht eingehalten.

Ist die Zahl der Elemente in der Grundgesamtheit bekannt, kann für den Parameter (mit Hilfe eines Korrekturfaktors) auch ein Konfidenzintervall für ein Urnenmodell ohne Zurücklegen angegeben werden.^[1]

Konfidenzintervalle und Hypothesentests

Konfidenzintervalle kommen auch bei Hypothesentests zum Einsatz: Testet man von einem Parameter θ die Nullhypothese: θ = θ₀, dann ist das Kriterium für das Ablehnen der Nullhypothese bei Signifikanzniveau α, ob das entsprechende (1-α)-Konfidenzintervall den Wert θ₀ enthält oder nicht. Daher ersetzen Konfidenzintervalle gelegentlich auch Hypothesentests.

Beispielsweise testet man in der Regressionsanalyse, ob im multiplen Regressionsmodell mit der geschätzten Regressionshyperebene

$\hat{y} = b_0 + b_1 \, x_1 + b_2 \, x_2 + \dotsb+ b_m \,x_m$

die wahren Regressionskoeffizienten β_j (j = 1, … , m) gleich Null sind. Wenn die Hypothese nicht abgelehnt wird, sind die entsprechenden Regressoren x_j vermutlich für die Erklärung der abhängigen Variablen y unerheblich. Eine entsprechende Information liefert das Konfidenzintervall für einen Regressionskoeffizienten: Überstreicht das Konfidenzintervall die Null, kann mit einer Wahrscheinlichkeit von 1-α der Regressionskoeffizient ebenso gut Null sein, d. h. er ist statistisch insignifikant.

Beispiele für ein Konfidenzintervall

Beispiel 1 Ein Unternehmen möchte flächendeckend auf dem Markt ein neues Spülmittel einführen. Um die Käuferakzeptanz auszuloten, wird in einem Supermarkt dieses Produkt mit hohem Werbeaufwand platziert. Es soll mit dieser Aktion der durchschnittliche tägliche Absatz in einem Supermarkt dieser Größe geschätzt werden. Man definiert nun den täglichen Absatz als Zufallsvariable $X$ [Stück] mit den unbekannten Parametern Erwartungswert μ und der Varianz σ². Man geht auf Grund langjähriger Beobachtungen hier davon aus, dass $X$ annähernd normalverteilt ist. Die Marktforschungsabteilung hat einen Konfidenzkoeffizienten von 0,95 als ausreichend erachtet. Es wird nun 16 Tage lang der tägliche Absatz erfasst. Es hat sich beispielsweise ergeben

Absatz x	110	112	106	90	96	118	108	114	107	90	85	84	113	105	90	104

Bei normalverteilter Grundgesamtheit mit unbekannter Varianz wird das Konfidenzintervall für den Erwartungswert angegeben als

$\left[ { \bar x-t_\left( 1-\frac {\alpha}{2}; n-1 \right) \frac {s}{\sqrt{n}} \ ; \ \bar x+t_ \left( 1-\frac {\alpha}{2} ; n-1 \right) \frac {s}{\sqrt{n}}} \right]$

Es ist

$\bar x = \frac{1}{16} \cdot (110 + 112 + \dotsb+ 104)=\frac{1}{16} \cdot 1632 = 102$

und

$\begin{align} s^2 &= \frac{1}{n-1} \sum (x_i-\bar x)^2\\ &= \frac{1}{15} \left((110-102)^2+(112-102)^2+ \dotsb+ (104-102)^2 \right)\\ &= \frac{1}{15} \cdot 1856 = 123{,}73 \end{align}$

Es ist das (1-α/2)-Quantil der t-Verteilung mit 15 Freiheitsgraden

$t_\left( 1-\frac {\alpha}{2} ; n-1 \right) = t_\left( 0{,}975; 15 \right) = 2{,}13$

Das 95 %-Konfidenzintervall berechnet sich dann als

$\left[ { 102 - 2{,}13 \frac {\sqrt{123{,}73}} {\sqrt{16}} ; 102 + 2{,}13 \frac {\sqrt{123{,}73}} {\sqrt{16}} } \right] = [102 -5{,}92; 102 + 5{,}92] = [96{,}08; 107{,}92]$

In 95 % aller Fälle beinhaltet also das Intervall des durchschnittlichen täglichen Absatzes an Spülmittelflaschen zwischen ca. 96 und 108 Stück den wahren Mittelwert. Dieses Intervall ist relativ schmal, so dass man gut mit dieser Information planen kann.

Beispiel 2 Ein Unternehmen lieferte ein Los von 6000 Stück (z.B. Schrauben) an den Kunden. Dieser führt mittels Stichprobennahme gemäß der internationalen Norm ISO 2859-1^[2] eine Eingangsprüfung durch. Dabei werden z.B. 200 Schrauben (je nach gewähltem AQL) zufällig über das gesamte Los gezogen und auf Übereinstimmung mit den vereinbarten Anforderungen (Qualitätsmerkmalen) geprüft. Von den 200 geprüften Schrauben erfüllen 10 Stück die gestellten Anforderungen nicht. Mittels der Berechnung des Konfidenzintervalls (Excel-Funktion BETAINV) kann der Kunde abschätzen, wie groß der zu erwartende Anteil fehlerhafter Schrauben im ganzen Los ist: bei einem Konfidenzniveau von 95% berechnet man das Clopper-Pearson-Konfidenzintervall [2,4%,9%] für den Anteil fehlerhafter Schrauben im Los (Parameter: n=200, k=10).

Literatur

U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. 8. Auflage. Vieweg, 2005.
J. Hartung: Statistik. 14. Auflage. Oldenbourg, 2005.

Weblinks

Einzelnachweise

↑ Siehe zum Beispiel die Abschnitte 3.1.1 und 3.2 bei Hartung. Hier werden die Wilson- und Clopper-Pearson-Intervalle, sowie der Korrekturfaktor für die hypergeometrische Verteilung besprochen.
↑ Annahmestichprobenprüfung anhand der Anzahl fehlerhaften Einheiten oder Fehler [Attributprüfung] - Teil 1: Nach der annehmbaren Qualitätsgrenzlage [AQL] geordnete Stichprobenpläne für die Prüfung einer Serie von Losen

Kategorie:

Schätztheorie

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Synonyme:

Vertrauensbereich

Schlagen Sie auch in anderen Wörterbüchern nach:

Konfidenzintervall — Vertrauensbereich * * * Konfidenzintervall, Vertrauensintervalle … Universal-Lexikon
Konfidenzintervall — Mutungsintervall, Vertrauensbereich; Intervall, das im Wege der ⇡ Konfidenzschätzung eines ⇡ Parameters der ⇡ Grundgesamtheit ermittelt wurde und dem ein bestimmtes ⇡ Konfidenzniveau (z.B. 0,95) zugeordnet ist. Literatursuche zu … … Lexikon der Economics
Konfidenzintervall — pasikliovimo intervalas statusas T sritis fizika atitikmenys: angl. confidence interval vok. Konfidenzbereich, m; Konfidenzintervall, n; Vertrauensintervall, n rus. доверительная область, f; доверительный интервал, m pranc. intervalle de… … Fizikos terminų žodynas
Konfidenzintervall einer unbekannten Wahrscheinlichkeit — Ein Konfidenzintervall einer unbekannten Wahrscheinlichkeit ist ein Konfidenzintervall (Vertrauensbereich) für den Parameter p der Binomialverteilung (nach Beobachtung von k Treffern in einer Stichprobe der Länge n). Vergleich der in diesem… … Deutsch Wikipedia
Konfidenzintervall — Kon|fi|denz|in|ter|vall [...val] das; s, e: Vertrauensintervall, Intervall (4), das einen zu schätzenden Parameter mit vorgegebener Wahrscheinlichkeit überdeckt (math. Statistik) … Das große Fremdwörterbuch
Vertrauensbereich — Konfidenzintervall … Universal-Lexikon
Mutungsintervall — ⇡ Konfidenzintervall … Lexikon der Economics
Vertrauensbereich — ⇡ Konfidenzintervall … Lexikon der Economics
Confidence interval — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… … Deutsch Wikipedia
Intervallschätzung — Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Konfidenzintervall

Inhaltsverzeichnis

Definition

Formale Definition

Beispiel einer Anwendung

Beschreibung des Verfahrens

Ausgewählte Schätzintervalle

Übersicht für stetige Verteilungen

Diskrete Verteilungen

Konfidenzintervalle und Hypothesentests

Beispiele für ein Konfidenzintervall

Literatur

Weblinks

Einzelnachweise

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Konfidenzintervall

Inhaltsverzeichnis

Definition

Formale Definition

Beispiel einer Anwendung

Beschreibung des Verfahrens

Ausgewählte Schätzintervalle

Übersicht für stetige Verteilungen

Diskrete Verteilungen

Konfidenzintervalle und Hypothesentests

Beispiele für ein Konfidenzintervall

Literatur

Weblinks

Einzelnachweise

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link