Bewältigung der Replikationskrise in der Machine Learning Modellierung
DFG-Projekt "Facing the Replication Crisis in Machine Learning Modeling" im Rahmen des DFG-Schwerpunktprogramms "META-REP" bewilligt
Die Ausgangslage
Machine Learning (ML) Modelle erfreuen sich in vielen wissenschaftlichen Disziplinen wie Medizin, Epidemiologie und Psychologie zunehmender Beliebtheit. Allerdings ist die Übertragung komplexer, statistischer Methoden auf andere Anwendungsgebiete außerhalb ihres Kerngebiets fehleranfällig. So beruhten die anfänglich vielversprechenden Ergebnisse leider häufig auf falsch validierten Modellen, die zu überhöhten Vorhersagegüte führten (z.B. bei der Vorhersage des Suizidrisikos). Da methodische Mängel schwerwiegende negative Folgen sowohl für den Einzelnen als auch für die Gesellschaft haben können, warnen einige Forscher bereits vor einer "neuen" Replikationskrise in der ML Forschung. Die bisherige Aufarbeitung hat sich weitgehend auf die algorithmischen Aspekte dieser Krise beschränkt und die besonderen Herausforderungen in der psychologischen Forschung, wie unreliable Indikatoren, kleine Stichproben und fehlende Datenpunkte, außer Acht gelassen. Wir schlagen ein Arbeitsmodell vor, das speziell auf die ML-Forschung in der Psychologie zugeschnitten ist und typische Herausforderungen und Fallstricke aufzeigt. Es besteht aus fünf Schritten: (1) Konzeptualisierung, (2) Datenvorverarbeitung, (3) Modelltraining, (4) Modellvalidierung und -evaluation sowie (5) Interpretation und Generalisierbarkeit. Neben den eher technisch-statistischen umfasst dieses Modell auch die konzeptuellen Aspekte, die für eine erfolgreiche Implementierung von ML in der psychologischen Forschung berücksichtigt werden müssen.
Das Arbeitsprogramm
Im ersten Projekt führen wir ein systematisches Review über die Forschung der letzten 10 Jahre zur prädiktiven Modellierung in verschiedenen psychologischen Teildisziplinen durch, um so einen Überblick über gängige Praktiken in Bezug auf Konzeptualisierung, Datenvorverarbeitung, Modelltraining, -validierung und Generalisierbarkeit sowie Open-Science-Praktiken zu geben. Im zweiten Projekt werden auf Basis des Reviews typische Fallstricke identifiziert und eine Checkliste entwickelt, die Autor:innen bei der Navigation durch den ML-Workflow unterstützen soll. Zusätzlich wird ein „Risk of bias“ Instrument entwickelt, das zur Beurteilung der Qualität von ML-Studien verwendet werden kann (z.B. bei Meta-Analysen). Im dritten Projekt sollen mittels einer ML Prediction Challenge die Checkliste und die Empfehlungen zur Modellierung experimentell validiert werden. Einer Gruppe werden über die Aufgabenbeschreibung hinaus keine weiteren Informationen gegeben, während die andere Gruppe Empfehlungen erhält, wie sie methodische Fallstricke erkennen und vermeiden können. Zentral ist die Frage, ob die Umsetzung der Empfehlungen zu robusteren, transparenteren und reproduzierbaren Vorhersagen führt. Im vierten Projekt wird ein frei zugänglicher Online-Lernkurs entwickelt, der die Logik und Techniken der ML-Modellierung anschaulich vermittelt. Alle vier Projekte werden Werkzeuge und Ressourcen bereitstellen, um die Replikationskrise in der ML-Modellierung zu entschärfen.