- Statistische Signifikanz
-
Unterschiede zwischen Messgrößen oder Variablen in der Statistik heißen signifikant (bezeichnend), wenn die Wahrscheinlichkeit, dass sie durch Zufall so zustande kommen würden, nur gering ist. Liegt Signifikanz vor, wird statistisch darauf geschlossen, dass tatsächlich ein Unterschied vorliegt. Dennoch muss ein solcher Unterschied nicht zwingend vorhanden sein. Auch Unterschiede, die statistisch signifikant sind, können zufällig sein. Wie häufig das der Fall ist, hängt von der Auswahl der untersuchten Messgrößen ab: Es können zwischen 0 % und 100 % der statistisch signifikanten Zusammenhänge zufälligen Ursprungs sein.
Überprüft wird Signifikanz durch an das Datenmaterial angepasste statistische Tests, die eine Abschätzung der Irrtumswahrscheinlichkeit erlauben. Das a priori festzulegende Quantil der maximal zulässigen Irrtumswahrscheinlichkeit wird als Signifikanzniveau α (griech.: alpha) bezeichnet. Beispielsweise bedeutet α = 0,05, dass die maximal zulässige Wahrscheinlichkeit für irrtümliches Ablehnen einer eigentlich richtigen Nullhypothese 5 % beträgt (Fehler 1. Art). Umgekehrt beträgt die Wahrscheinlichkeit, dass eine richtige Nullhypothese vom Test korrekt bestätigt wird mindestens 1−α.
Ist ein Unterschied nicht signifikant, kann ebenfalls nicht ohne weiteres darauf geschlossen werden, dass kein Unterschied vorliegt, da über den Fehler 2. Art, β, zunächst nichts bekannt ist.
Des Weiteren beschreibt statistische Signifikanz den Informationsgehalt eines Ereignisses bzw. einer Messung. Je kleiner α ist, desto höher ist die Informationsqualität.
Inhaltsverzeichnis
Beispiele
- Bei einer Umfrage wird festgestellt, dass 55 % der Frauen zu Partei A tendieren, während von 53 % der Männer Partei B bevorzugt wird. Gibt es tatsächlich einen Unterschied bei der politischen Überzeugung von Männern und Frauen oder sind nur zufällig bei den Frauen viele Anhängerinnen von Partei A und bei den Männern von Partei B befragt worden?
- Mit einem neuen Medikament ist die Heilungsrate höher als ohne Medikament. Ist das neue Medikament wirklich wirksam oder sind nur zufällig besonders viele Patienten ausgewählt worden, die auch von alleine wieder gesund geworden wären?
- In der Umgebung einer Chemiefabrik tritt eine bestimmte Krankheit besonders häufig auf. Ist das Zufall oder gibt es einen Zusammenhang?
Irrtumswahrscheinlichkeit und Signifikanzniveau
In den oben genannten Beispielen kann man sich nie hundertprozentig sicher sein, dass der Zufall die Ergebnisse nicht verfälscht hat. Man kann aber abschätzen, wie wahrscheinlich es ist, dass die gemessenen Ergebnisse nur aufgrund eines ungünstigen Zufalls auftreten. Dieser zufällige Fehler wird allgemein als Fehler 1. Art (synonym: α-Fehler) und die bedingte Wahrscheinlichkeit seines Auftretens unter der Voraussetzung, dass die Nullhypothese richtig ist, als Irrtumswahrscheinlichkeit bezeichnet.
Bei einem parametrischen Modell hängt die Wahrscheinlichkeit für verschiedene Fehlschlüsse vom unbekannten Verteilungsparameter ab und wird durch eine Gütefunktion angegeben.
Die obere Grenze für die Signifikanz, also jener Wert den man noch zu akzeptieren bereit ist, heißt Signifikanzniveau. Obwohl es frei wählbar ist, findet man in der Literatur häufig ein Niveau von 5 %. Die Etablierung dieses Wertes wird verschiedentlich R. A. Fisher zugeschrieben.[1].
Eine heuristische Motivation des Wertes 5 % ist wie folgt: eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von weniger als (≤) 5% einen Wert an, der sich vom Erwartungswert um mehr als die zweifache Standardabweichung unterscheidet. Bei einer Irrtumswahrscheinlichkeit von kleiner oder gleich 5% spricht man von Signifikanz. Das bedeutet in der Praxis, dass eine von 20 Untersuchungen, bei denen die Nullhypothese richtig ist, zu dem Schluss kommt, sie sei falsch. Bei einem Wert von ≤1% spricht man von sehr signifikant. Wenn die Irrtumswahrscheinlichkeit ≤0,1% ist, so spricht man von einem hoch signifikanten Ergebnis.
Bei einer Irrtumswahrscheinlichkeit ≤0,3% spricht man von einem sehr signifikanten Ergebnis; die Motivation für den Wert 0,3% ist ähnlich: Eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von weniger als 0,3% einen Wert an, der sich vom Erwartungswert um mehr als die dreifache Standardabweichung unterscheidet.
Im Gegensatz zur Fisherschen Auffassung von Signifikanz als Gradmesser für den Wahrheitsgehalt einer Hypothese ist im Kontext einer klassischen strikten Neyman-Pearson-Testtheorie eine nachträgliche Einstufung des Testergebnisses in unterschiedliche Grade der Signifikanz nicht vorgesehen.
Auch bei tatsächlich oder vorgeblich statistisch signifikanten Aussagen ist immer eine kritische Überprüfung der Versuchsanordnung und -durchführung notwendig. Nur selten genügen wissenschaftliche Untersuchungen den mathematischen Anforderungen an einen aussagefähigen statistischen Test. Bei vielen Studien steht der Wunsch des oder der Studiendurchführenden (z. B. im Rahmen einer Doktorarbeit) nach einem „signifikanten“ Ergebnis bei der Studiendurchführung zu sehr im Vordergrund. Untersuchungen, bei denen die Nullhypothese bestätigt wird, werden nämlich gemeinhin als uninteressant und überflüssig angesehen. Als Hinweise auf die Qualität einer Studie können im medizinischen Umfeld die Eigenschaften „randomisiert“, „kontrolliert“ und „doppelblind“ gelten. Ohne diese sind Aussagen etwa zur Wirksamkeit von Therapien mit äußerster Vorsicht zu behandeln. Sehr schwierig und problematisch ist insbesondere die Interpretation signifikanter Korrelationen in retrospektiven Studien. Zu bedenken ist darüber hinaus stets, dass aus statistisch signifikanten Korrelationen oft fälschlich auf eine vermeintliche Kausalität geschlossen wird (Beispiel: Zwischen 1960 und 1990 korrelierte die Zahl der Störche in Deutschland signifikant mit der menschlichen Geburtenrate, da beide Zahlen stark gesunken sind, dennoch ist die Kausalität zumindest fraglich).
Probleme bei der Interpretation
Aussagewert und Power (Beispiel klinische Forschung)
Statistisch signifikante Studien können trotzdem einen geringen praktischen Aussagewert haben.
Studien mit großer Fallzahl führen aufgrund der hohen statistischen Power (Teststärke) oft zu hoch signifikanten Ergebnissen. Solche Studien können trotzdem einen geringen Aussagewert haben, wenn die Größe des beobachteten Effekts oder der gemessene Parameter nicht klinisch relevant sind. Statistische Signifikanz ist also ein notwendiges, aber noch kein hinreichendes Kriterium für eine praktisch auch relevante – d.h. hier: ausreichend starke – Wirkung eines Medikaments. Für die Beurteilung der Relevanz ist die Effektstärke (Effektgröße) ein wichtiges Hilfsmittel.
Weitere kritische Prüfsteine vom methodologischen Gesichtspunkt aus sind:
- die Korrektheit der statistischen Modellannahmen (beispielsweise die Verteilungsannahme)
- die Anzahl der durchgeführten statistischen Tests (bei mehreren Tests, von welchen nicht einer eindeutig als primärer Test gekennzeichnet ist, sollte eine Adjustierung des Signifikanzniveaus durchgeführt werden)
- die prospektive Definition der Analysemethoden vor der „Entblindung“ doppelblinder Studien.
- die „Kosten“, die durch einen eventuellen Fehler 1. Art oder 2. Art entstehen können (Menschenleben im pharmazeutischen Bereich, oder entstehende monetäre Kosten oder Unfallgefahren durch Fehler 1. oder 2. Art bei der Auswahl von Verkehrspiloten-Anwärtern)
Irrige Überzeugungen
Entgegen weit verbreiteter Meinung ist Signifikanz nicht mit der Irrtumswahrscheinlichkeit gleichzusetzen. Im Output mancher Statistikprogramme (z. B. SPSS) wird die Irrtumswahrscheinlichkeit als „Sig.“ oder „Signifikanz“ bezeichnet, was zu Missverständnissen führen kann. Richtig ist hingegen: Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist.
Nicht zutreffend sind die Annahmen, das Signifikanzniveau oder der beobachtete p-Wert lege fest
- die Effektgröße
- die Wahrscheinlichkeit, dass die Nullhypothese wahr oder falsch ist
- die Wahrscheinlichkeit, dass die Alternativhypothese wahr oder falsch ist
- den Grad der Zuversicht, dass das Ergebnis wiederholbar ist.[2]
Wissenschaftliches Publizieren
Vielfach wurde die Signifikanz als Maß dafür genommen, ob ein wissenschaftlicher Artikel veröffentlicht werden sollte. Dies führt jedoch zum sogenannten "Publikationsbias", da mögliche Zufallsergebnisse nicht durch Publikation der gesamten Bandbreite der durchgeführten Untersuchungen relativiert werden. [3]
Die Herausgeber der Zeitschrift für Sozialpsychologie erklärten hingegen ausdrücklich, dass die Annahme von Artikeln in ihrer Zeitschrift nicht von der Signifikanz der Ergebnisse abhängt, da die Redaktion einen Kontrapunkt zu dem Ausbreiten des Fehlers 1. Art schaffen wolle. In der Publikation von Ergebnissen klinischer Studien sind derzeit Anstrengungen durch internationale Fachzeitschriften wie auch der forschenden Institutionen (insbesondere Pharmaunternehmen) im Gange, öffentlich zugängliche Datenbanken zu schaffen, in welchen verbindlich alle durchgeführten Studien sowie ihre prospektiv definierten Zielparameter enthalten sind. Dadurch sollen die Komplettheit der Veröffentlichung auch nicht vorhergesehener bzw. unerwünschter - und daher für ein Pharmaunternehmen unangenehmer - Resultate überprüfbar und eine Einschätzung des Publikationsbias möglich werden.
Signifikanz und Kausalität
Die Signifikanz sagt nichts über mögliche kausale Zusammenhänge oder deren Art aus, was oft insbesondere von Laien übersehen wird.
Als Beispiel weise eine Statistik nach, dass in der Umgebung einer Chemiefabrik eine bestimmte Krankheit besonders häufig auftrete. Der Unterschied zur normalen Verbreitung in der Gesamtbevölkerung sei signifikant. Dies würde aber nicht zwingend bedeuten, dass die Chemiefabrik diese Krankheitshäufung ursächlich hervorruft.
Denkbar wäre z. B. auch, dass die Umgebung der Chemiefabrik eine unbeliebte Wohngegend ist und daher dort überwiegend sozial schwache Familien wohnen, die sich einen Wegzug nicht leisten können. Meist ernähren sich sozial schwache Familien schlechter und haben in der Regel eine schlechtere Gesundheitsvorsorge als der Bevölkerungsdurchschnitt, was bestimmte Krankheiten begünstigen könnte.
Ebenso denkbar wäre, dass die Krankheit einfach in manchen Gebieten z. B. durch überschreiten einer bestimmten Bevölkerungsdichte und damit verbundene erhöhte Ansteckungsgefahr gehäuft auftritt, und die Chemiefabrik zufällig in einem Gebiet mit gehäuftem Auftreten steht.
Im ersten Fall liegt zwar ein kausaler Zusammenhang vor, der jedoch anders ist als auf den ersten Blick angenommen werden wird. Theoretisch kann hier sogar ein Fehler der Art cum hoc ergo propter hoc vorliegen, dies z. B. dann, wenn die Chemiefabrik da gebaut wurde, wo viele sozial schwache Familien wohnen, z. B. weil diese sich mangels Lobby weniger gut gegen die Ansiedlung einer Fabrik wehren können als Bewohner wohlhabenderer Wohngegenden.
Im zweiten Fall liegt kein kausaler Zusammenhang vor, vielmehr wird der sogenannte Zielscheibenfehler begangen: NACH dem Feststellen einer signifikanten Häufung eines Ereignisses (Krankheit) wird ein auffälliges anderes Ereignis (Chemiefabrik) als kausal zusammenhängend interpretiert.
Siehe auch
- F-Test zur Feststellung statistischer Signifikanz des Unterschiedes zweier Varianzen
- t-Test
- Operationscharakteristik
Literatur
- Hans-Peter Beck-Bornholdt, Hans-Hermann Dubben: Der Hund, der Eier legt. Rowohlt, 2001, ISBN 3-499-61154-6, (populärwissenschaftliche Darstellung).
- Jürgen Bortz: Statistik: Für Human- und Sozialwissenschaftler. Springer, Berlin 2005, ISBN 3-540-21271-X.
Weblinks
Wiktionary: signifikant – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen- Peter Sedlmeier: Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen (PDF-Datei; 427 kB).
- Jan M. Hoem: The reporting of statistical significance in scientific journals (PDF-Datei; 131 kB).
- Earliest Uses: Significance.
Einzelnachweise
- ↑ Stephen Stigler: Fisher and the 5% level. In: CHANCE, Band 21, Nr. 4, Springer, New York Dezember 2008. S. 12
- ↑ Gerd Gigerenzer, Zeno Swijtink, Theodore Porter: Das Reich des Zufalls. ISBN 3-8274-0101-1.
- ↑ Wolfgang Weihe: Klinische Studien und Statistik. In: Deutsches Ärzteblatt 101, 26. März 2004.
Wikimedia Foundation.