Signifikanztests

Zusammenfassung: Sedlmeier et al. 2018 – Kapitel 12

Der Signifikanztest basiert auf der Fragestellung ob die gegebenen Daten (Stichprobe) mit dem erwarteten Wert (Populationsparameter) und dessen natürlicher Variation als Zufallsprodukt erklärbar ist. D.h. ausgehend von der Nullhypothese H0 wird eine Stichprobenverteilung konstruiert und die Wahrscheinlichkeit der beobachteten oder noch extremeren Daten mit dem Erwartungswert der H0 verglichen. Schließlich wird geprüft ob diese bedingte Wahrscheinlichkeit auch genannt p-Wert kleiner als eine vorgegebene Wahrscheinlichkeit auch genannt Signifikanzniveau α ist.

p( Daten | H0 ) < Signifikanzniveau ( α )

Ist der p-Wert größer als α können wir unsere Nullhypothese gegen die Abweichungen aus der Stichprobe mit der zufälligen natürlichen Variation verteidigen. Hingegen ist der p-Wert kleiner dem Signifikanzniveau entscheiden wir uns das ab diesem Grenzwert, dass es kein Zufall mehr sein kann. Ein solches Testergebnis wird als signifikant bezeichnet.

Ronald Aylmer Fisher machte Signifikanztests auch für Nicht-Statistiker zugänglich und populär. Allerdings hatte seine Version des Tests zwei Probleme:

  • Es bestand keine Möglichkeit abzuschätzen, mit welcher Wahrscheinlichkeit eine vorhandene Abweichung entdeckt werden konnte.
  • Zweitens, konnte man keinerlei Aussagen bei einem nicht signifikanten Test machen.

Der Signifikanztest wurde von J. Neyman und E. S. Pearson erweitertet und verbessert. Sie führten eine weitere statistische Hypothese, nämlich die Alternativhypothese H1 ein. Die Alternativhypothese entspricht häufig der Forschungshypothese und macht es möglich Aussagen über Effektgröße und Teststärke (Power) zu machen. Die Teststärke beziffert die Chance bzw. Wahrscheinlichkeit den erwarteten bzw. geforderten Effekt finden zu können.

Mit diesem dichotomen Ansatz sind nun zwei Arten von Fehler möglich:

  • Fehler der 1. Art / α-Fehler: Die Nullhypothese wird verworfen obwohl sie eigentlich zutrifft.
  • Fehler der 2. Art / β-Fehler: Die Nullhypothese wird beibehalten obwohl die Alternativhypothese zutrifft.

Neyman und Pearson fordern dass die Wahrscheinlichkeiten für diese Fehler aus einer Kosten-Nutzen-Analyse hergeleitet werden sollen. In der psychologischen Forschungspraxis hat sich eine abgewandelte Form etabliert, die auf den optimierten Ansatz von Neyman und Pearson basiert. Im Unterschied wird die Analyse der Teststärke ohne einer elaborierten Kosten-Nutzen-Analyse durchgeführt.

Die klassische Inferenzstatistik ist mit dem Signifikanztest und dem p-Wert über Jahrzehnte in harsche Kritik geraten. Auf alle Fälle sollte der Signifikanztest mit Bedacht eingesetzt werden. Wenn man sich seiner Begrenzungen bewusst ist, spricht nichts dagegen die so gewonnene Information zu nutzen. “Kann das noch Zufall sein?” ist eine zentrale Fragestellung, die sich weiterhin lohnt im Kontext der Inferenzstatistik. Zudem empfiehlt es sich den Signifikanztest in Kombination mit weiteren Methoden zu nutzen.

Schreibe einen Kommentar