Die Erde ist rund (P < 5%)

27.11.2013

Wozu brauchen wir welche Statistik, und was bedeutet das Wort "signifikant"? Während die Statistik des 20. Jahrhunderts an ihre Grenzen stösst, sind die 250 Jahre alten Ideen eines englischen Pfarrers wieder aktuell. Von Valentin Amrhein

Wie kommt eine Ärztin zu ihrer Diagnose? Die Abschätzung eines Krankheitsrisikos oder des Verlaufs einer Krankheit erfolgt auf Grundlage von Daten früherer Patienten. "Alle klinischen Entscheidungsprozesse basieren auf Statistik", sagt Andreas Papassotiropoulos, Leiter der Abteilung für molekulare Neurowissenschaften an der Universität Basel – um sogleich anzufügen: "Es gibt immer noch erschreckende Lücken im statistischen Wissen sowohl der Ärzte als auch der medizinisch und biologisch Forschenden." Er nennt das Beispiel eines Forschers, der in einem Vortrag Messwerte einer genetisch veränderten und einer normalen Maus zeigte. Auf die Frage, wie viele Mäuse er denn gemessen habe, sagte der Forscher: "Nur diese zwei; man sieht ja, dass es einen Unterschied gibt."

Warum bräuchte es in diesem Fall statistische Beratung? Nehmen wir an, wir interessieren uns für die Frage, ob Schweizer Männer grösser sind als Schweizer Frauen. Die einfachste Antwort erhalten wir, wenn wir wie beim Mäusebeispiel einen beliebigen Schweizer Mann und eine Schweizer Frau betrachten. Vielleicht wäre dieser Mann aber zufällig nicht grösser, sondern kleiner als die Frau. Wir würden dann aus unserer Beobachtung fälschlicherweise schliessen, dass Männer generell kleiner als Frauen sind. Üblicherweise nehmen Forschende deshalb grössere Stichproben und messen zum Beispiel die Körpergrösse von je 50 zufällig ausgewählten Männern und Frauen. Wie aber könnte man die Messwerte miteinander vergleichen? Es ist kaum sinnvoll, sich jeden Datenpunkt einzeln anzuschauen. Wir müssen die Daten vereinfachen, etwa indem wir den Durchschnitt der Männer und der Frauen vergleichen.

Im Durchschnitt tot

Nun ist der Durchschnitt ein statistisches Modell und entspricht nicht der Wirklichkeit. Keine einzige Person in der Schweiz wird tatsächlich auf den Nanometer genau so gross sein wie der Durchschnitt. Ein Sprichwort bringt es auf den Punkt: Wenn der Jäger am Hasen einmal links und einmal rechts vorbeischiesst, dann ist der Hase im Durchschnitt tot. "Man kann einem Patienten aufgrund des durchschnittlichen Verlaufs ähnlicher Krankheitsfälle nicht sicher sagen, wie es ihm morgen gehen wird", sagt Andreas Papassotiropoulos. Der Umgang mit dieser Tatsache erfordere ein gewisses statistisches Bewusstsein sowohl auf Seiten des Arztes wie auch des Patienten. Der Durchschnitt ist zwar ein gutes Modell, aber Ärzte müssen das Modell immer auch mit individuellen Daten über den einzelnen Patienten ergänzen. Und mit der aufkommenden personalisierten Medizin werden diese Daten immer umfangreicher. Weil Statistik in Forschung und medizinischer Praxis ständige Begleiterin ist und lebenslanges Lernen erfordere, müsse die Statistik-Ausbildung an den Hochschulen und Universitäten während des ganzes Studiums erfolgen, sagt Papassotiropoulos.

Wenn Statistik Spass macht

Schliesslich kann Statistik sogar Spass machen. Das merkt man spätestens, wenn man in einem Forschungsprojekt um die statistische Auswertung nicht mehr herum kommt. Und Statistik ist viel mehr als das Errechnen von durchschnittlichen Körpergrössen und die übersichtliche Präsentation der Daten. Solcher beschreibenden Statistik steht die so genannte schliessende Statistik gegenüber, in der es zum Beispiel darum geht, wissenschaftliche Hypothesen zu überprüfen und zu quantifizieren, wie "signifikant" ein Resultat ist. Was aber bedeutet statistische Signifikanz?

Zurück zum Bespiel mit den Körpergrössen. Das Grundproblem der Stichproben ist der so genannte Stichprobenfehler: Vielleicht haben wir ja rein zufällig grosse Männer und kleine Frauen ausgesucht. Ein einfacher statistischer Test kann zeigen, ob der Unterschied in den Mittelwerten der 50 Frauen und Männer so zuverlässig ist, dass wir tatsächlich auf die Gesamtheit der Menschen in der Schweiz Rückschlüsse ziehen können.

Um das Konzept der Signifikanz zu verstehen, muss man ein paarmal um die Ecke denken. Eine statistische Analyse geht üblicherweise von der so genannten Nullhypothese aus – in unserem Fall: dass Männer und Frauen genau gleich gross sind. Mit einem statistischen Modell kann man dann simulieren, wie gross die Unterschiede in den Mittelwerten der Körpergrösse von Männern und Frauen wären, wenn wir beliebig viele hypothetische Stichproben von je 50 Männern und Frauen nähmen. Wenn dabei der Grössenunterschied, den wir tatsächlich gefunden haben, in weniger als fünf Prozent der Fälle auftritt, sagt man, das Ergebnis sei signifikant: Der von uns gefundene Grössenunterschied wäre sehr unwahrscheinlich, gegeben, dass in Wirklichkeit Männer und Frauen gleich gross sind.

Die meisten natur-, sozial- oder wirtschaftswissenschaftlichen, psychologischen oder medizinischen Studien haben nur dann eine Chance auf Veröffentlichung, wenn die Ergebnisse signifikant sind. Aus Sicht vieler Forschender ist das wohl ein Hauptgrund dafür, dass es Statistik braucht. Das Problem ist nur: Ein signifikantes Ergebnis beantwortet leider nicht unsere Forschungsfrage. Denn mit einem Signifikanztest haben wir nur geprüft, wie wahrscheinlich unser Unterschied in den Mittelwerten ist, gegeben, dass die Nullhypothese zutrifft, nämlich dass Frauen und Männer in Wahrheit gleich gross sind. Wie für die meisten Nullhypothesen war auch für diese von vornherein klar, dass sie nicht zutrifft: Wann sind schon zwei Gruppen von Lebewesen exakt gleich gross? Zudem waren wir nicht an der Nullhypothese interessiert, sondern an der Hypothese, dass Männer grösser sind als Frauen. Leider liefert uns aber die klassische Nullhypothesen-Statistik keine Information, mit welcher Wahrscheinlichkeit die Hypothese zutrifft.

Dem P-Wert verfallen

Schliessende Statistik macht also in den meisten Fällen nicht, was sie soll. Trotzdem sind Forschende und Laien, Journalistinnen und Zeitungsleser dem Wort signifikant hörig und dem sogenannten P-Wert verfallen, der eben kleiner als fünf Prozent sein muss, um signifikant zu sein (P steht für "probability" und bezeichnet die Wahrscheinlichkeit unseres Ergebnisses oder eines noch extremeren Ergebnisses, gegeben, dass die Nullhypothese zutrifft). Die Kritik an Nullhypothesentests ist fast so alt wie der P-Wert selber, der Anfang des 20. Jahrhunderts erfunden wurde. Am schönsten hat den Unsinn des P-Werts sowie die Tendenz der Wissenschaftler, P-Werte zu wichtig zu nehmen, der grosse Psychologe und Statistiker Jacob Cohen auf den Punkt gebracht, der seine 1994 in "American Psychologist" veröffentlichte Nullhypothesen-kritischen Publikation "The earth is round (P < 5%)" betitelte.

Die klassische Statistik entfernt sich daher vom Testen von Nullhypothesen und konzentriert sich eher darauf, Muster in den Daten zu identifizieren, um zum Verständnis der zugrunde liegenden Prozesse beizutragen. Es gibt schon seit etwa 250 Jahren eine Alternative zu den Signifikanztests: Die Bayesianische Statistik, die auf den englischen Mathematiker und Pfarrer Thomas Bayes zurückgeht. Diese Art der Statistik hat drei grosse Vorteile: Erstens kann man früheres Wissen in die Berechnungen einbeziehen, man muss also nicht bei jeder Datenerfassung so tun, als hätte noch nie jemand das Gleiche untersucht. Zweitens erhalten wir damit, was wir wirklich wollen, nämlich eine Angabe über die Wahrscheinlichkeit, dass unsere Hypothese zutrifft.

Den dritten Vorteil erklärt Penelope Vounatsou, Statistikerin am Schweizerischen Tropen- und Public-Health-Institut in Basel: "Man kann mit Bayesianischer Statistik viel komplexere Modelle rechnen als mit den klassischen statistischen Methoden." In den statistischen Modellen des Tropeninstituts wird zum Beispiel für jedes einzelne von 10 000 Dörfern geschätzt, wie viele Menschen zu einer gewissen Zeit vermutlich an einer bestimmten Krankheit leiden, womit die klassischen statistischen Methoden überfordert wären. "Auch in den "Omiks" ist Bayesianische Statistik die Zukunft", sagt Penelope Vounatsou. Sie meint damit zum Beispiel die Proteomik oder Genomik, die sich mit den Funktionen und dem Zusammenwirken aller Proteine oder Gene einer Zelle oder eines Organismus befassen.

Mathematisch kaum lösbar

Warum hat sich die Bayesianische Statistik nicht schon vor 250 Jahren durchgesetzt? Das Problem ist, dass Bayesianische Modelle aufgrund der komplizierten Integrale mathematisch oft kaum mehr lösbar sind. Erst durch die Entwicklung von Simulationstechniken in den 1970er Jahren in Kombination mit dem Aufkommen von leistungsstarken Personalcomputern wurden die Methoden allgemein anwendbar. Folglich wird über einige Methoden noch diskutiert, etwa über die korrekte Ein-beziehung früheren Wissens in die Berechnungen. Auch sind die Methoden oft noch wenig standardisiert, sodass es noch keine statistische Software gibt, in denen mit ein paar Klicks ein Bayesianischer Test durchzuführen wäre. Die Frage ist auch, ob es das jemals geben wird, da für viele Analysen Spezialisten erforderlich sind. Also schreiben die Forschenden um Penelope Vounatsou die benötigten Computerfunktionen in verschiedenen Programmiersprachen selber.

Auch Andreas Papassotiropoulos hat an der Abteilung für molekulare Neurowissenschaften für die Bayesianischen Analysen einen Mathematiker angestellt. Trotzdem schliesst er sein Plädoyer für eine lebenslange statistische Weiterbildung möglichst der ganzen Bevölkerung mit den Worten: "Auch wenn wir die Auswertungen in Zukunft den Spezialisten überlassen werden: Das entbindet Forscher, Ärzte und andere Auftraggeber nicht davon, die Methoden zu verstehen. Denn wir sind es schliesslich, die die Ergebnisse interpretieren und darauf aufbauend unsere Entscheidungen treffen müssen."

Aus "Horizonte" 98, September 2013