Confidence interval

Confidence interval

Das Konfidenzintervall (auch Vertrauensbereich oder Mutungsintervall genannt) ist ein Begriff aus der mathematischen Statistik. Er sagt etwas über die Präzision der Lageschätzung eines Parameters (zum Beispiel eines Mittelwertes) aus. Das Vertrauensintervall schließt einen Bereich um den geschätzten Wert des Parameters ein, der – vereinfacht gesprochen – mit einer zuvor festgelegten Wahrscheinlichkeit die wahre Lage des Parameters trifft. Ein Vorteil des Konfidenzintervalls gegenüber der Punktschätzung eines Parameters ist, dass man an ihm direkt die Signifikanz ablesen kann. Ein zu breites Vertrauensintervall weist auf einen zu geringen Stichprobenumfang hin. Entweder ist die Stichprobe tatsächlich "klein", oder das untersuchte Phänomen ist so variabel, dass nur durch eine unrealistisch große Stichprobe ein Konfidenzintervall von akzeptabler Breite erreicht werden könnte.

Inhaltsverzeichnis

Beispiel einer Anwendung

Ein Physikdoktorand misst die ausstrahlende Wellenlänge bei einem Experiment unter zwei verschiedenen Bedingungen. Leider ist das Messgerät 10 Jahre alt und die Mechanik der Optik etwas wackelig. Obwohl also aufgrund des Versuchsansatzes nur das Licht einer Wellenlänge pro Bedingung erwartet wird, streut das Ergebnis bei unabhängigen Messungen. Der Physikdoktorand geht davon aus, dass das Messgerät mit gleicher Wahrscheinlichkeit zu große wie zu kleine Wellenlängen misst und dass extreme Messfehler unwahrscheinlicher sind als Messwerte nahe dem wahren Wert (Normalverteilung).

Daraufhin rechnet er aus den Ergebnissen der Einzelmessungen den arithmetischen Mittelwert aus. Für jede Bedingung einen Mittelwert. Er zeigt die Daten seinem Doktorvater, der wissen will, wie stark die Streuung der Messwerte war.

Jetzt rechnet der Doktorand den Standardfehler aus, um ein Maß für die Genauigkeit seiner beiden Mittelwerte zu bekommen und diese graphisch (als Fehlerbalken um den Mittelwert) darstellen zu können. Der Standardfehler bezieht neben der Streuung die Anzahl der Einzelmessungen mit ein. Je mehr Einzelmessungen vorgenommen werden desto näher kommt der errechnete Mittelwert dem wahren Wert und desto kleiner ist auch der Standardfehler.

Der Doktorvater ist aber immer noch nicht zufrieden, denn jetzt will er wissen, ob sich die zwei errechneten Mittelwerte unter den zwei unterschiedlichen Bedingungen statistisch signifikant voneinander unterscheiden oder ob es nur aufgrund der Ungenauigkeit des Gerätes zu unterschiedlichen Mittelwerten kommt. Daraufhin rechnet der Doktorand die Vertrauensintervalle um die Mittelwerte aus, die in Abhängigkeit von der Streuung und der Anzahl der Einzelmessungen den Bereich angeben, der jeweils den wahren Wert mit hoher Wahrscheinlichkeit mit einschließt. Wählt man ein 95 %-Konfidenzintervall (das heißt: in 95 von 100 Fällen enthalten die errechneten Intervallgrenzen den wahren Wert) und die Balken des Konfidenzintervalls der beiden Mittelwerte überschneiden sich nicht, dann werden die Mittelwerte in der Regel als signifikant unterschiedlich bezeichnet (wird häufig mit einem * markiert); hierbei handelt es sich aber nur um eine Faustregel: es gibt sehr wohl Fälle, wo sich die Unter- und Obergrenze zweier KI nicht überschneiden und die Mittelwerte nicht signifikant unterschiedlich sind. Bei einem 99 %-Konfidenzintervall und fehlender Überlappung gelten sie als hochsignifikant unterschiedlich (Markierung: **).

Beschreibung des Verfahrens

Man interessiert sich für den unbekannten Verteilungsparameter einer Zufallsvariablen einer Grundgesamtheit. Der „wahre“ Parameter γ (Gamma) für eine Grundgesamtheit wird durch eine Schätzfunktion g aus einer Stichprobe vom Umfang n geschätzt. Es wird davon ausgegangen, dass die Stichprobe in etwa die Grundgesamtheit widerspiegelt und dass deshalb die Schätzung in der Nähe des wahren Parameters liegen müsste. Die Schätzfunktion ist eine Zufallsvariable mit einer Verteilung, die den Parameter γ enthält.

Man kann zunächst mit Hilfe der Verteilung ein Intervall angeben, das den unbekannten wahren Parameter γ mit einer Wahrscheinlichkeit 1−α einschließt. 1−α wird Konfidenzkoeffizient genannt. Ermitteln wir z. B. das 95 %-Konfidenzintervall für den wahren Erwartungswert μ einer Population, dann bedeutet dies, dass wir bei durchschnittlich 5 von 100 gleichgroßen Zufallsstichproben ein Konfidenzintervall ermitteln, das den Erwartungswert nicht enthält.

Das Verfahren wird anhand eines normalverteilten Merkmals mit dem unbekannten Erwartungswert μ und der bekannten Varianz σ2 demonstriert: Es soll der Erwartungswert μ dieser Normalverteilung geschätzt werden. Verwendet wird die erwartungstreue Schätzfunktion: der Stichprobenmittelwert  \bar X .

Normalverteilung von \bar{X}

Der Erwartungswert der Population wird anhand unserer Stichprobe geschätzt

\hat \mu =\bar X =\frac{1}{n}\sum_{i=1}^n X_i ,

wobei die Zufallsvariable Xi (i=1,…,n) für die i-te Beobachtung (vor der Ziehung der Stichprobe) steht. Es ist

\bar X \sim \mathcal{N} \left( \mu;\frac{\sigma^2}{n} \right)

Die Grenzen des Intervalls

[\bar x_u; \bar x_o] ,

in dem \bar X mit der Wahrscheinlichkeit 1−α liegt, bestimmen sich aus der Beziehung

P(\bar x_u \le \bar X \le \bar x_o ).

Man standardisiert und erhält für die standardisierte Zufallsvariable

Z = \frac {\bar X-\mu}{\frac{\sigma}{\sqrt{n}}}

die Wahrscheinlichkeit

P \left( { -z \left( 1-\frac {\alpha}{2} \right) \le \frac {\bar X-\mu}{\frac {\sigma}{\sqrt{n}}} \le z \left( 1-\frac{\alpha}{2} \right) } \right) =1- \alpha,

wobei z(1-α/2) das (1-α/2)-Quantil der Standardnormalverteilung ist. Löst man nach μ auf, resultiert aus dem Zufallsintervall

P \left( { \bar X-z \left( 1-\frac {\alpha}{2} \right) \cdot \frac {\sigma}{\sqrt{n}} \le \mu \le \bar X+z \left( 1-\frac {\alpha}{2} \right) \cdot \frac {\sigma}{\sqrt{n}}} \right) =1- \alpha

das (1−α)-Konfidenzintervall für μ

Mögliche Lage von µ im Konfidenzintervall um \bar{X} mit unbekanntem µ und beobachtetem \bar x
\left[ { \bar x-z \left( 1-\frac {\alpha}{2} \right) \cdot \frac {\sigma}{\sqrt{n}} \ ; \ \bar x+z \left( 1-\frac {\alpha}{2} \right) \cdot \frac {\sigma}{\sqrt{n}}} \right].

Das durch \bar x bestimmte Intervall überdeckt den wahren Parameter μ also mit einer Wahrscheinlichkeit von 1−α. Ist die Stichprobe aber extrem ausgefallen, überdeckt das Intervall den Parameter nicht. Dies ist in α·100 % aller Stichproben der Fall.

Von besonderem Interesse ist die Breite des Konfidenzintervalls. Diese bestimmt sich durch die Standardabweichung der Schätzfunktion. Durch Erhöhung des Stichprobenumfangs kann die Breite verringert werden. Erwünscht ist in der Regel ein möglichst schmales Konfidenzintervall, denn dies weist auf eine genaue Schätzung hin.

Ausgewählte Konfidenzintervalle

Übersicht

Erwartungswert eines normalverteilten Merkmals mit bekannter Varianz: \left[ { \bar x-z(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}) \frac {\sigma}{\sqrt{n}} \ ; \ \bar x+z(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}) \frac {\sigma}{\sqrt{n}}} \right]
Erwartungswert eines normalverteilten Merkmals mit unbekannter Varianz. Die Varianz der Grundgesamtheit wird durch die korrigierte Stichprobenvarianz
s^2= \frac {1}{n-1}\sum (x_i-\bar x)^2

geschätzt.

t(1-α;n-1) ist das 1−α-Quantil der t-Verteilung mit n-1 Freiheitsgraden.

Für n > 30 kann das Quantil der t-Verteilung näherungsweise durch das entsprechende Quantil der Standardnormalverteilung ersetzt werden.

\left[ { \bar x-t(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}, n-1) \frac {s}{\sqrt{n}} \ ; \ \bar x+t(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}, n-1) \frac {s}{\sqrt{n}}} \right]
Erwartungswert eines unbekannt verteilten Merkmals mit unbekannter Varianz, falls n > 50 ist. \left[ { \bar x-z(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}) \frac {s}{\sqrt{n}} \ ; \ \bar x+z(1-\begin{matrix} \frac {\alpha}{2} \end{matrix}) \frac {s}{\sqrt{n}}} \right]
Varianz eines normalverteilten Merkmals.

χ2(p;k) ist das p-Quantil der χ2-Verteilung mit k Freiheitsgraden.

 \left[ \frac {(n-1)s^2}{\chi^2 (1- \frac {\alpha}{2}, n-1)} \ ; \ \frac {(n-1)s^2}{ \chi^2(\frac {\alpha}{2}; n-1)}  \right]
Anteilswert θ einer dichotomen Grundgesamtheit bei einem Urnenmodell mit Zurücklegen, falls
n> \frac {9}{p(1-p)}

ist, mit p=\frac{x}{n} und x als Realisation der binomialverteilen Zufallsvariablen.

\left[ { p-z \left( 1-\frac {\alpha}{2} \right) \sqrt {\frac {p(1-p)}{n}} \ ; \ p+z \left( 1-\frac {\alpha}{2}  \right) \sqrt {\frac {p(1-p)}{n}}} \right]

Anmerkungen

Ist die Zahl N der Elemente in der Grundgesamtheit bekannt, kann für den Parameter auch ein Konfidenzintervall für ein Urnenmodell ohne Zurücklegen angegeben werden. Hier wird die Standardabweichung noch mit einem Korrekturfaktor modifiziert.

Wenn bei einem binomialverteilten Merkmal der Stichprobenumfang n < \frac {9}{p(1-p)} ist, kann ein exaktes Konfidenzintervall für den Anteilswert mit Hilfe der F-Verteilung angegeben werden.

Anwendung bei Hypothesentests

Konfidenzintervalle kommen auch bei Hypothesentests zum Einsatz: Testet man von einem Parameter θ die Nullhypothese: θ = θ0, dann ist das Kriterium für das Ablehnen der Nullhypothese bei Signifikanzniveau α, ob das entsprechende (1-α)-Konfidenzintervall den Wert θ0 enthält oder nicht.

Bemerkung

Konfidenzintervalle können gelegentlich auch Hypothesentests ersetzen. Beispielsweise testet man in der Regressionsanalyse, ob im multiplen Regressionsmodell mit der geschätzten Regressionshyperebene

 \hat{y} = b_0 + b_1 \, x_1 + b_2 \, x_2 + \dotsb+ b_m \,x_m = \sum_{i=0}^m b_i \, x_i mit x0 = 1

die wahren Regressionskoeffizienten βj (j = 1, … , m) gleich Null sind. Wenn die Hypothese nicht abgelehnt wird, sind die entsprechenden Regressoren xj vermutlich für die Erklärung der abhängigen Variablen y unerheblich. Eine entsprechende Information liefert das Konfidenzintervall für einen Regressionskoeffizienten: Überstreicht das Konfidenzintervall die Null, kann mit einer Wahrscheinlichkeit von 1-α der Regressionskoeffizient ebenso gut Null sein, d. h. er ist statistisch insignifikant.

Beispiel für ein Konfidenzintervall

Ein Unternehmen möchte flächendeckend auf dem Markt ein neues Spülmittel einführen. Um die Käuferakzeptanz auszuloten, wird in einem Supermarkt dieses Produkt mit hohem Werbeaufwand platziert. Es soll mit dieser Aktion der durchschnittliche tägliche Absatz in einem Supermarkt dieser Größe geschätzt werden. Man definiert nun den täglichen Absatz als Zufallsvariable X [Stück] mit den unbekannten Parametern Erwartungswert μ und der Varianz σ2. Man geht auf Grund langjähriger Beobachtungen hier davon aus, dass X annähernd normalverteilt ist. Die Marktforschungsabteilung hat einen Konfidenzkoeffizienten von 0,95 als ausreichend erachtet. Es wird nun 16 Tage lang der tägliche Absatz erfasst. Es hat sich beispielsweise ergeben

Absatz x 110 112 106 90 96 118 108 114 107 90 85 84 113 105 90 104

Bei normalverteilter Grundgesamtheit mit unbekannter Varianz wird das Konfidenzintervall für den Erwartungswert angegeben als

\left[ { \bar x-t \left( 1-\frac {\alpha}{2}; n-1 \right) \frac {s}{\sqrt{n}} \ ; \ \bar x+t \left( 1-\frac {\alpha}{2} ; n-1 \right) \frac {s}{\sqrt{n}}} \right]

Es ist

\bar x = \frac{1}{16} \cdot (110 + 112 + \dotsb+ 104)=\frac{1}{16} \cdot 1632 = 102

und


\begin{align}
s^2 &= \frac{1}{n-1} \sum (x_i-\bar x)^2\\
&= \frac{1}{15} \left((110-102)^2+(112-102)^2+ \dotsb+ (104-102)^2 \right)\\
&= \frac{1}{15} \cdot 1856 = 123{,}73
\end{align}

Es ist das (1-α/2)-Quantil der t-Verteilung mit 15 Freiheitsgraden

t \left( 1-\frac {\alpha}{2} ; n-1 \right) = t \left( 0{,}975; 15 \right) = 2{,}13

Das 95 %-Konfidenzintervall berechnet sich dann als

\left[ { 102 - 2{,}13 \frac {\sqrt{123{,}73}} {\sqrt{16}} ; 102 + 2{,}13 \frac {\sqrt{123{,}73}} {\sqrt{16}} } \right] = [102 -5{,}92; 102 + 5{,}92] = [96{,}08; 107{,}92]

In 95 % aller Fälle beinhaltet also das Intervall des durchschnittlichen täglichen Absatzes an Spülmittelflaschen zwischen ca. 96 und 108 Stück den wahren Mittelwert. Dieses Intervall ist relativ schmal, so dass man gut mit dieser Information planen kann.

Konfidenzintervall für eine Wahrscheinlichkeit

Eine weitere Möglichkeit, den Vertrauensbereich (Konfidenzintervall) für eine Wahrscheinlichkeit (Anteilswert einer dichotomen Grundgesamtheit) exakt zu bestimmen, ist die Verwendung der Betaverteilung. Mehr Informationen finden sich im Artikel Konfidenzintervall einer unbekannten Wahrscheinlichkeit.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Confidence interval — This article is about the confidence interval. For Confidence distribution, see Confidence Distribution. In statistics, a confidence interval (CI) is a particular kind of interval estimate of a population parameter and is used to indicate the… …   Wikipedia

  • Confidence Interval — A term used in inferential statistics that measures the probability that a population parameter will fall between two set values. The confidence interval can take any number of probabilities, with the most common being 95% or 99%. In other words …   Investment dictionary

  • confidence interval —    A statistical measure of confidence in a calculated value. A 95% confidence interval equates to the expectation that the value in question will lie within the range stated 95% of the time and outside the range 5%. A certain allele in a… …   Forensic science glossary

  • confidence interval — pasikliautinasis intervalas statusas T sritis biomedicinos mokslai apibrėžtis Intervalas, kuriam, remiantis artima vienetui tikimybe, priklauso vertinamojo rodiklio tikroji reikšmė. Intervalą įprasta žymėti PI (angl. CI) ir nurodyti tikimybę,… …   Lithuanian dictionary (lietuvių žodynas)

  • confidence interval — pasikliovimo intervalas statusas T sritis Standartizacija ir metrologija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultato vertė. atitikmenys: angl. confidence interval vok. Vertrauensbereich, m rus.… …   Penkiakalbis aiškinamasis metrologijos terminų žodynas

  • confidence interval — pasikliovimo intervalas statusas T sritis chemija apibrėžtis Dydžio verčių intervalas, kuriame su pasirinktąja tikimybe yra matavimo rezultatų vertė. atitikmenys: angl. confidence interval rus. доверительная область; доверительный интервал …   Chemijos terminų aiškinamasis žodynas

  • confidence interval — pasikliovimo intervalas statusas T sritis fizika atitikmenys: angl. confidence interval vok. Konfidenzbereich, m; Konfidenzintervall, n; Vertrauensintervall, n rus. доверительная область, f; доверительный интервал, m pranc. intervalle de… …   Fizikos terminų žodynas

  • confidence interval — a type of statistical interval estimate for an unknown parameter: a range of values believed to contain the parameter, with a predetermined degree of confidence. Its endpoints are the confidence limits and it has a stated probability (the… …   Medical dictionary

  • confidence interval — Statistics. the interval bounded by confidence limits. Cf. interval estimation. [1930 35] * * * …   Universalium

  • confidence interval — noun a particular kind of interval estimate of a population parameter …   Wiktionary

  • confidence interval — The degree of certainty that an event will fall outside of boundaries on a distribution. For a normal distribution, boundaries set at two standard deviations from the mean create approximately 95 percent confidence intervals. In other words, only …   Financial and business terms

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”