Ach, Studien machen doch die besten, die absurdesten Headlines. Deswegen seid ihr doch gerade hier, nicht wahr? Da kann man als Journalist schwer drumherum, es ist zu verlockend. Auch wir nicht. Doch Studien sind eine komplizierte Materie, die doch nicht immer ganz so eindeutig sind, wie es scheint. Warum das so ist, erklärt uns hier im Anschluss ein Statistik-Professor. Und am Ende versteht man auch, warum Sperma nicht gegen Depressionen hilft.
Kein Tag vergeht, ohne dass nicht irgendwo in der deutschen Medienlandschaft eine der vielen Tausend Studien Wellen schlägt, die weltweit jährlich zu den diversen Risiken und Gefahren, weniger oft auch zu den rosigen Seiten unseres Lebens und unserer Gesundheit einer mal mehr, mal weniger überraschten Öffentlichkeit unterbreitet werden.
Videos by VICE
Radfahren macht impotent, Milch macht impotent, zu viel Fernsehgucken macht impotent, Herzinfarkt durch Mittagsschlaf (man wollte herausgefunden haben, dass eine Stunde regelmäßigen Mittagschlafs das Herzinfarktrisiko für Männer um 50 Prozent erhöht), Vegetarier leben länger, Schokolade macht dünn, dicke Kinder sind doof, Kaffee beeinflusst Fruchtbarkeit (Frauen, die mehr als fünf Tassen Kaffee täglich trinken, sollen 11 Prozent länger brauchen, um schwanger zu werden), mediterrane Kost senkt das Diabetes-Risiko und so weiter und so fort.
Besonderer Aufmerksamkeit dürfen sich dabei jene Studien sicher sein, die einer immer wieder erschrockenen Öffentlichkeit ein erhöhtes Risiko für Krebs verkünden. Bekannte Übeltäter der jüngeren Vergangenheit sind etwa Atomkraftwerke, Herbizide in der Landwirtschaft und rotes Fleisch.
Und leider sind die allermeisten Studien, die in den Medien regelmäßig zu Panikattacken führen, sehr weit von Doppelblindversuchen weg.
Die weltweit wohl renommierteste wissenschaftliche Fachzeitschrift Science hat einmal eine lange Liste solcher Krebs-Alarme einer gründlichen Analyse unterzogen. Diese betrafen neben den bekannten Verdächtigen auch Dinge wie elektromagnetische Felder (35 Prozent höheres Brustkrebsrisiko bei Frauen), alkoholhaltige Mundspülung (um 50 Prozent erhöhtes Mundkrebsrisiko), Höhensonne (um 30 Prozent höheres Hautkrebsrisiko) oder den regelmäßigen Verzehr von Joghurt, der angeblich das Risiko von Eierstockkrebs bei Frauen verdoppeln soll.
In keinem einzigen dieser Fälle konnte das Studienergebnis durch unabhängige Nachfolgestudien bestätigt werden, es war jedes Mal ein Fehlalarm. In aller Regel hatte man eine wichtige weitere erklärende Variable vergessen—etwa die Info, ob die an Krebs erkrankte Person auch raucht.
Und so ist auch einen Vielzahl anderer Studien zu angeblichen Gesundheitsrisiken wissenschaftlich nicht viel mehr als Schrott. Um zu sehen, warum, sollte man zunächst einmal derartige Studien nach ihrer Machart unterteilen. Da sind zunächst einmal kontrollierte Experimente: Eine Gruppe von Patienten erhält ein neues Medikament, eine Kontrollgruppe nicht. Idealerweise ist die Kontrollgruppe der behandelten Gruppe bezüglich Alter, Geschlecht und sonstiger soziodemografischer Merkmale maximal ähnlich; weder die behandelten noch die unbehandelten Patienten noch die Ärzte wissen, zu welcher Gruppe wer gehört.
Das ist der Goldstandard: ein Doppelblindversuch. Was dabei herauskommt, ist in aller Regel verlässlich. Allein durch Zufall kann es vorkommen, dass auch ohne jeden Effekt die untersuchte Behandlung als überlegen aus dem Experiment herausgeht. Das heißt in der Statistik auch Fehler erster Art.
Dieser Fehler erster Art ist aber kontrollierbar und kein Problem. Probleme, und zwar riesige Probleme, treten mit wachsender Schärfe auf, je weiter man sich von diesem Goldstandard des Doppelblindversuchs entfernt. Und leider sind die allermeisten Studien, die in den Medien regelmäßig zu Panikattacken führen, sehr weit von Doppelblindversuchen weg. Der Standard sind sogenannte Beobachtungsstudien wie etwa eine, die zu der Schlagzeile: „Kaffee verursacht Gelenkrheumatismus” führte. Das ist ein typisches Ergebnis einer sogenannten Beobachtungsstudie: Man hat zwei Gruppen von Menschen—die mit und die ohne Gelenkrheumatismus. Dann wird gefragt: Wie unterscheiden sich diese Menschen sonst noch? Antwort: Die mit Rheuma trinken öfter Kaffee. Ergo: Kaffee ist der Grund für Rheuma.
Man unterscheidet nicht immer korrekt zwischen Korrelation und Kausalität. Das ist der mit Abstand häufigste Fehler in medizinischen und sonstigen Studien aller Art.
Es ist nur allzu klar, was hier für Trugschlüsse möglich sind. Vielleicht ist es ja gerade umgekehrt: Menschen mit Rheuma sind öfter in der Kälte und trinken deshalb öfter Kaffee. Oder anders ausgedrückt: Man unterscheidet nicht immer korrekt zwischen Korrelation und Kausalität. Das ist der mit Abstand häufigste Fehler in medizinischen und sonstigen Studien aller Art.
Korrelation bedeutet: Zwei Variablen bewegen sich systematisch in die gleiche Richtung. Ein Beispiel bei Menschen ist die Körpergröße und das Gewicht: Je größer, desto schwerer. Nicht in jedem Einzelfall, aber im Großen und Ganzen schon. Das ist positive Korrelation. Oder bei gebrauchten PKW das Alter und der Preis: Je älter, desto billiger. Das ist negative Korrelation. Und hier ist sogar ein Rückschluss auf die Kausalität erlaubt: Das Alter ist die Ursache für den Preis.
Aber viele Korrelationen entstehen auch ohne jede Kausalität. So existiert z. B. bei Männern eine hohe negative Korrelation zwischen dem Einkommen und der Anzahl der Haare auf dem Kopf: Je weniger Haare, desto höher das Einkommen. Es nützt aber nichts, sich eine Glatze zu scheren, die Korrelation kommt deshalb zustande, weil mit wachsendem Lebensalter das Einkommen wächst und die Haare ausfallen.
In der Wissenschaftszeitschrift Nature war einmal ein auf ähnliche Argumente gründender Beweis zu lesen, dass zumindest in Deutschland doch der Klapperstorch die Kinder bringt: Die Korrelation von Storchenbrutpaaren und Geburten erreichte in dem betrachteten Zeitraum in Deutschland fast das Maximum von 1. Und das reicht vielen Studien schon als Argument.
Natürlich lieferte Nature den wahren Grund der Korrelation gleich mit: Ein in beiden Zeitreihen vorhandener gleichläufiger Trend. Denn wann immer zwei Datenreihen beide steigen oder beide fallen, sind sie automatisch hoch positiv korreliert. So beobachtet man die Deutschland auch eine hohe Korrelation zwischen den Belegungszahlen unserer Trinkerheilanstalten und den Apfelsinenimporten aus Portugal. Also machen Apfelsinen uns zu Säufern? Nein, beide Datenreihen sind seit dem Zweiten Weltkrieg angestiegen.
Machen Apfelsinen uns zu Säufern?
Dieses Übersehen von Alternativerklärungen gilt selbst für eine der wenigen unbestrittenen Erfolgsgeschichten der modernen Medizinstatistik, die Entdeckung, dass Rauchen Lungenkrebs erzeugt. Aber wer weiß denn schon, dass Raucher auch weitaus häufiger als Nichtraucher ermordet oder vom Bus überfahren werden?
Und zwar aus dem gleichen Grund, aus dem sie rauchen: Weil sie risikofreudigere Menschen sind. Es gibt in der Psychologie die sogenannte „Raucherpersönlichkeit”. Die würde auch dann ein bis zwei Jahre früher sterben als ein Nichtraucher, wenn sie nie im Leben auch nur eine Zigarette raucht. Mit anderen Worten, die acht bis zehn Jahre kürzere Lebenserwartung der Raucher kann man nicht komplett dem Rauchen in die Schuhe schieben.
Aber das sind Nebensächlichkeiten. Worauf es ankommt: Wenn Sie am Montag in der Zeitung lesen „Schachspielen fördert Schlaganfall” oder „Alzheimer durch Kaffeesahne”, keine Panik. Fragen Sie erst mal nach, wie dieses Resultat gefunden worden ist. In aller Regel ist das nur ein zufälliges Artefakt einer schlampig ausgewerteten Statistik.
UPDATE: Dieser Artikel wurde am 31.05.2016 um 12:44 aktualisiert, weil der Autor und seine Expertise kurz vorgestellt werden sollte.