Neue Studie: Nicht jede Studie ist vertrauenswürdig

Ein Beitrag von: Jonas Kilb

Nicht jede Studie erfüllt qualitative Mindeststandards. luhze-Autor Jonas geht der Frage nach, warum schlechte Studien veröffentlicht werden und wie wir sie erkennen können.

Ergebnisse wissenschaftlicher Studien werden schon lange auch außerhalb von akademischen Kreisen diskutiert, beispielsweise in sozialen Netzwerken und der Boulevardpresse. Häufig werden dabei Ergebnisse einzelner Studien ohne weitere Prüfung oder Einordnung als Fakten dargestellt. Das ist durchaus problematisch, denn nicht jede Studie erfüllt qualitative Standards und neben seriösen Untersuchungen werden auch viele zweifelhafte Studien veröffentlicht. Aber was sind die Ursachen von schlechter Forschung und woran erkennen wir, dass eine Studie belastbar ist?

Um die Qualität einer Studie beurteilen zu können, ist es unumgänglich, diese gründlich zu lesen. Dafür sei, je nach Fachbereich, oft kein außergewöhnliches Fachwissen von Nöten, so Julia Roher, Persönlichkeitspsychologin und Wissenschaftsforscherin aus Leipzig. In der Regel genügten gesunder Menschenverstand und ein kritischer Blick auf Methodik und Ergebnisse. Unter anderem diese Fragen können euch helfen, die Qualität einer Studie einzuschätzen:

Wo wurde die Studie veröffentlicht?

Wissenschaftliche Studien erscheinen in Fachzeitschriften, so genannten Journals. Eingehende Studien werden dort von fachkundigen Expert*innen bewertet und überprüft. Dieser Vorgang wird als peer-review bezeichnet. Wie sorgfältig und sauber diese Überprüfung stattfindet, ist von Journal zu Journal sehr unterschiedlich. Während einige Reviewer die Artikel nur grob überfliegen, würden andere sorgfältig jeden Rechenschritt in der Datenanalyse nachprüfen, erzählt Julia Roher.

Neben seriösen Journals gibt es außerdem sogenannte „Predatory Journals“, welche Studien im Austausch gegen große Geldmengen ungeprüft veröffentlichen. Ein Indikator für die Qualität eines Journals kann dessen „Impact-Faktor“ sein. Dieser ist zwar online leicht herauszufinden, jedoch nicht unumstritten. Fragt im Zweifel eure Dozent*in.

Ist die statistische Evidenz plausibel?

Effekte und Unterschiede (zum Beispiel zwischen einer Versuchs und einer Kontrollgruppe) gelten als statistisch signifikant, wenn sie mit einer hohen Wahrscheinlichkeit nicht nur zufällig in der Stichprobe nachgewiesen wurden. In der Regel werden in Studien p-Werte als Maß für statistische Signifikanz berichtet. Vereinfacht gesagt, entsprechen p-Werte der Wahrscheinlichkeit dafür, dass die gefunden Effekte nur zufällig in der Stichprobe aufgetreten sind. Ergebnisse werden als statistisch signifikant bezeichnet, wenn der p-Wert unter einer gewissen Höchstgrenze liegt (in der Regel 5 Prozent).

Die meisten Journals veröffentlichen bevorzugt solche Studien, die signifikante Effekte nachweisen können. Laut Julia Roher veranlasse das manche Forschende dazu, ihre Daten zu frisieren, um signifikante Effekte vorzutäuschen (p-hacking). Derartige Manipulation ist ohne weiteres schwer nachzuweisen, wenn in der einer Studie jedoch alle Wert knapp unterhalb der Signifikanzgrenze liegen, ist das ein Grund zur Skepsis!

Ist die erhobene Stichprobe repräsentativ?

Hierzu ein Beispiel: In der Gesundheitsforschung werden häufig Daten von Krankenkassen ausgewertet, um Aussagen über die Entwicklung von bestimmten Krankheitsbildern zu treffen. Das ist problematisch, da in den Daten der Krankenkassen nur diagnostizierte und behandelte Fälle geführt werden. Wenn eine Studie beispielsweise auf Grundlage von Krankenkassendaten zu dem Schluss kommt, dass die Zahl depressiver Erkrankungen zunähme, dann ist dieses Ergebnis mit Vorsicht zu betrachten, denn aus den Krankenkassendaten kann lediglich geschlossen werden, dass sich mehr Menschen wegen depressiver Symptome in Behandlung begeben. Es wäre falsch auf Grundlage dieser Daten darauf zu schließen, dass die Zahl der depressiven Menschen zugenommen habe. Der Anstieg der behandelten Krankheitsfälle könnte auch auf ein verändertes Bewusstsein für psychische Erkrankungen zurückgeführt werden. Zweifelsohne ist es häufig schwierig bis unmöglich repräsentative Stichproben zu erheben. Systematische Verzerrungen und Einschränkungen sollten aber von den Autor*innen reflektiert werden.

Werden die Ergebnisse kritisch eingeordnet und alternative Erklärungen diskutiert?

Erkenntnisgewinn geschieht in der Wissenschaft durch Widerlegung von Theorien und Annahmen, nicht durch deren Bestätigung. Ein Merkmal von seriösen Studien ist es, dass die Forschenden ihre Ergebnisse kritisch einordnen, Einschränkungen ihres Forschungsdesigns transparent machen und ihre Ergebnisse nicht als unumstößliche Fakten darstellen.

Ursachen schlechter Studien

Laut Julia Roher gibt es in der Wissenschaft einige systematische Schwächen, welche die Entstehung schlechter Studien begünstigen. Auf verschiedenen Ebenen des wissenschaftlichen Systems müsse demnach ein Wandel stattfinden. Beispielsweise unterliegen Forschende häufig einem großen Leistungsdruck und werden vorrangig danach bewertet, wie viel sie publizieren. Darunter leidet im Zweifel die Qualität ihrer Arbeiten. „Problem der Wissenschaftskultur“, nennt das Roher und wünscht sich neue Maßstäbe, nach denen Forschende bewertet werden. Belohnung und Anerkennung müssten neu strukturiert werden.

Doch auch die Journals leisten durch ihre Veröffentlichungskriterien einen Beitrag zur Entstehung schlechter Studien. Nach wie vor werden nämlich bevorzugt Studien mit „positiven“ oder signifikanten Ergebnissen veröffentlicht – mit weitreichenden Folgen. Zum einen leidet darunter der wissenschaftliche Erkenntnisgewinn insgesamt, da bevorzugt solche Studien veröffentlicht werden, die eine bestimmte Hypothese stützen, während solche, die der Hypothese widersprechen könnten, weniger beachtet oder gar nicht erst wahrgenommen werden. Zudem fühlen sich einige Forschende dazu gedrängt ihre Ergebnisse zu „verschönern“, um ihre Studien publizieren zu können. Dieses Vorgehen ist zwar hoch problematisch, aber angesichts des bestehenden Publikationsdrucks teilweise nachvollziehbar. Einige Journals haben in Folge der Diskussion um die damit einhergehende „Replikationskrise“ ihre Einreichungsform zu sogenannten „registrierten Berichten“ umgestellt. In diesen Journals werden Pläne für Studien noch vor deren Durchführung eingereicht und anhand ihrer methodischen Vorgehensweise bewertet. Die Veröffentlichung geschieht dann unabhängig von den Ergebnissen. In einigen Fachbereichen (beispielsweise der Medizin) werden außerdem Datenbanken mit allen durchgeführten Studien gepflegt.

Trotz aller Schwierigkeiten bleibt Julia Roher betont optimistisch und verteidigt die Wissenschaft gegen zynische Skepsis. Die Wissenschaft sei nicht perfekt, aber dennoch „das beste System, um systematisch Wissen über die Welt zu generieren.“ Es gebe viele erfolgreiche Initiativen, welche dazu beitragen Schwächen zu korrigieren und Transparenz zur Norm zu machen. Einen Überblick über derartige Projekte aus Leipzig findet ihr online auf der Webseite des „Open Science Network Leipzig“.

Foto: Pixabay

Hochschuljournalismus wie dieser ist teuer. Dementsprechend schwierig ist es, eine unabhängige, ehrenamtlich betriebene Zeitung am Leben zu halten. Wir brauchen also eure Unterstützung: Schon für den Preis eines veganen Gerichts in der Mensa könnt ihr unabhängigen, jungen Journalismus für Studierende, Hochschulangehörige und alle anderen Leipziger*innen auf Steady unterstützen. Wir freuen uns über jeden Euro, der dazu beiträgt, luhze erscheinen zu lassen.

Beitrag von:Jonas Kilb
Datum:13. Dezember 2022

Ressort:Wissenschaft
Ausgabe:Online–Ausgabe

Neue Studie: Nicht jede Studie ist vertrauenswürdig

Verwandte Artikel

Ideen mit Auszeichnung

Sexismus erhöht die Glaubwürdigkeit?