Bachelorarbeiten

Wenn Sie Interesse an einem der inhaltlichen (I) und/oder methodischen (M) Themen haben, dann wenden Sie sich bitte an die/den angegebene/n Betreuer*in.

Zur Bearbeitung der Themen benötigen Sie in der Regel spezifische Kenntnisse der Statistik-Software R beziehungsweise Kenntnisse zu spezifischen statistischen Methoden. Unser Betreuungskonzept sieht eine angeleitete Einarbeitung vor, bei der wir Ihnen ggf. notwendige Kenntnisse vermitteln, insbesondere Programmierkenntnisse und Wissen zu statistischen Methoden, die über die Inhalte der Bachelor- bzw. Mastermodule hinausgehen.

(M) Modellwahl bei regularisierten Regressionsmodellen (1 Arbeit, Florian Scharf)

Seit einigen Jahren werden zunehmend Methoden des maschinellen Lernens in der Psychologie zur Vorhersage der Datenpunkte neuer Personen verwendet. Regularisierte Regressionen (z.B. Lasso-Regression, Elastic-Net Regression) sind dabei eine sehr beliebte Modifikation der multiplen linearen Regression, welche die Schätzung des Modells und die Auswahl relevanter Prädiktoren (sog. Modellwahl) in einem Schritt kombiniert. Es ist bekannt, dass regularisierte Regressionen nur unter bestimmten, eingeschränkten Umständen in der Lage sind, die wahren Prädiktoren zu finden. Im Rahmen dieser Bachelorarbeit sollen in einer Simulationsstudie wesentliche Befunde zu diesem Umstand repliziert werden und die Konsequenzen für die praktische Anwendung der Methode abgeschätzt werden.

(M) Vergleich regularisierter Regressionsmodelle mit Random Forests (max. 3 Arbeiten, Florian Scharf)

Seit einigen Jahren werden zunehmend Methoden des maschinellen Lernens in der Psychologie zur Vorhersage der Datenpunkte neuer Personen verwendet. Regularisierte Regressionen (z.B. Lasso-Regression, Elastic-Net Regression) und Random Forests sind dabei sehr beliebte Methoden, wobei letzterer oft besondere Vorteile nachgesagt werden, wenn das wahre Modell durch viele Interaktionen gekennzeichnet ist. Allerdings werden bei regularisierten Regressionen selten Interaktionsterme oder quadratische Terme berücksichtigt, so dass der Vergleich der Methoden häufig nicht fair ausfällt. Im Rahmen dieser Bachelorarbeit soll anhand von frei verfügbaren Datensätzen ein Vergleich der Vorhersageperformanz der Methoden durchgeführt werden, um einzuschätzen, wie stark der Einschluss nicht-linearer Terme in regularisierte Regressionsmodelle deren relative Performanz gegenüber Random Forests steigern kann.

(M) Nützlichkeit von Regularisierung zur Glättung von polynomialen Regressionen (1 Arbeit, Florian Scharf und Salomé Li Keintzel)

Obwohl lineare Zusammenhänge in der Psychologie eine gängige Annahme sind, findet sich in vielen Bereichen Evidenz für U-förmige oder andere polynomiale Zusammenhänge. Diese lassen sich beispielsweise durch die Aufnahme von Polynomen als Regressionsterme modellieren. Ein bekanntes Problem dabei ist, dass Polynome hohen Grades den Zusammenhang nicht besser, sondern zunehmend schlechter annähern – sie werden sozusagen „zu wellenförmig“ (Runges Phänomen). In dieser Abschlussarbeit soll untersucht werden, inwiefern diesem Problem durch Regularisierung (z.B. Ridge-Regression) oder Bayesianische Schätzmethoden begegnet werden kann.

(M) Anzahl der Faktoren bei explorativen Faktorenanalysen (max. 2 Arbeiten, Florian Scharf/Kim-Laura Speck)

Die Bestimmung der Zahl der zu extrahierenden Faktoren ist ein wichtiger Zwischenschritt bei explorativen Faktorenanalysen. Es existieren zahlreiche Methoden zur Bestimmung dieser Anzahl und die Güte der Faktorenlösung hängt im Folgenden maßgeblich davon ab, dass in diesem Schritt die korrekte Anzahl an Faktoren bestimmt wird. Deswegen ist es wichtig, eine Bestimmungsmethode zu wählen, die mit hoher Wahrscheinlichkeit die korrekte Anzahl an Faktoren ausgibt. Auerswald und Moshagen (2019) haben in einer umfangreichen Simulation die Performanz verschiedener Methoden miteinander verglichen. In den ausgeschriebenen Bachelorarbeiten sollen ausgewählte Ergebnisse der Studie repliziert werden. Dabei sollen die originalen Befunde erweitert werden, indem weitere Methoden einbezogen werden, die in jüngeren Veröffentlichungen vorgeschlagen wurden.

(M) Vergleich verschiedener Tools zur Berechnung statistischer Power (max. 2 Arbeiten pro Semester, Salomé Li Keintzel & Florian Scharf)

Stichprobenplanung basierend auf Berechnungen zur statistischen Power gehören mittlerweile zum Standard in psychologischer Forschung. Häufig werden die Tools, die zur Berechnung verwendet werden, jedoch nur von den Entwickelnden selbst geprüft und keiner systematischen externen Qualitätskontrolle unterzogen. Im Rahmen einer Bachelorarbeit soll anhand eines klar umrissenen Designs die Performanz verschiedener Tools und R-Pakete (z.B. G*Power, Webpower, pwr, ...) in einer kleinen Simulationsstudie untersucht und mit der empirischen, tatsächlichen Power abgeglichen werden. Für die Simulationsstudie existiert bereits Code von einem Projekt, der zur Orientierung dienen kann. Denkbare Designs wären zum Beispiel Gruppenvergleiche mittels t-Tests unter verschiedenen Voraussetzungsverletzungen oder die so häufig angenommenen Interaktionseffekte in einer ANOVA oder multiplen linearen Regression.

(M) Große kleine Werte in der Geomin-Rotation bei Explorativen Faktorenanalysen (1 Arbeit, Kim-Laura Speck)

Faktorlösungen von Explorativen Faktorenanalysen (EFAs) werden typischerweise (orthogonal oder oblique) rotiert. Indem man zu einer Einfachstruktur rotiert, soll die Interpretierbarkeit der Ergebnisse erhöht werden. Dafür können verschiedene Rotationsmethoden verwendet werden. Die Geomin-Rotation ist eine häufig verwendete und standardmäßig in Software implementierte Rotationsmethode. Die Geomin-Rotation beinhaltet einen Parameter ε („epsilon“), der die Unbestimmbarkeit von Lösungen abwenden soll. Dafür genügen kleine, positive ε-Werte (Sass & Schmitt, 2010; Hattorie et al., 2017). Allerdings schlagen Marsh et al. (2009, 2010, 2011) ε-Werte von 0.5 vor. In dieser Simulationsstudie soll untersucht werden, wie sich die Größe des Epsilon-Parameters auf die Faktorlösung auswirken. Oder grob gesagt: Wie groß dürfen „kleine positive Werte“ in der Geomin-Rotation sein?

(M) Konfirmatorische Faktoranalysen für ordinalskalierte Daten – eine Simulations-Replikation (1 Arbeit, Kim-Laura Speck)

Konfirmatorische Faktoranalysen werden häufig für die Analyse von Fragebogendaten verwendet. In Fragebögen werden Antworten von Probanden meistens auf n-stufigen Likert-Skalen erfasst. Fragebogendaten erfüllen daher streng genommen nicht die Voraussetzung der Maximum Likelihood (ML)-Schätzung, die von kontinuierlichen, normalverteilten Daten ausgeht. In einer umfangreichen Simulationsstudie wurden alternative Schätzmethoden (robuste ML-Schätzer und weighted least squares (WLSMV)) miteinander verglichen (Li, C. H. (2016). Confirmatory factor analysis with ordinal data: Comparing robust maximum likelihood and diagonally weighted least squares. Behavior research methods, 48, 936-949.). Die Performanz der Schätzer wurde für verschiedene Stichprobengrößen und verschiedene Abstufungen der Likert-Skala untersucht. Diese einflussreiche Simulationsstudie soll im Rahmen dieser Bachelorarbeit repliziert werden. Die Ergebnisse der Simulation können bezüglich der Replizierbarkeit von Simulationsstudien und auf konzeptueller Ebene diskutiert werden.

(I) Meaningless Means in Meta-Analysis (max. 2 Arbeiten, Salomé Li Keintzel)

Einzelne Studien liefern noch keine überzeugende Evidenz für oder gegen das Vorliegen eines inhaltlich vermuteten Effekts. Die Idee sogenannter Meta-Analysen ist deshalb, durch Zusammenfassung der Ergebnisse verschiedener Studien einen belastbaren mittleren Effekt zu bestimmen. Die Meta-Analyse hat sich mittlerweile als „Goldstandard“ in der Forschungslandschaft etabliert, birgt jedoch eine Reihe an Problemen: Die Frage der Vergleichbarkeit zwischen verschiedenen Studiendesigns, zwischen verschieden gemessenen Effekten oder auch des Publikation-Bias, der dazu führt, dass nicht-signifikante Ergebnisse seltener publiziert werden (siehe z.B. Sharpe, 1997 oder die Posts 104-106 auf http://datacolada.org). In einer Bachelorarbeit soll eine publizierte Meta-Analyse zum Beispiel aus dem Bereich der Aggressionsforschung auf die Berücksichtigung dieser Punkte kritisch geprüft und mit begründeten Veränderungen nachgebaut werden - Ganz nach einem von Borenstein et al. formulierten Grundsatz (2009, Chapter 43): "Rather than thinking of meta-analysis as a process of garbage in garbage out, we can think of it as a process of waste management."

(I) Wie verhält sich der Effekt von Mindfulness-Interventionen über die Zeit? (1 Arbeit, Salomé Li Keintzel)

In einer Studie von Neubauer et al. (2024) wurden Personen über 10 Tage randomisiert Mindfulness-Übungen oder eine Kontrollaufgabe auf dem Handy präsentiert und ihre Achtsamkeit danach erhoben. Dabei wurde zwischen den Personen variiert, wie häufig sie die Übungen präsentiert bekamen und untersucht, ob die kurzfristigen Effekte durch die Intervention auch zu stabilen, überdauernden Änderungen der Achtsamkeit der Personen führen. Es ist plausibel anzunehmen, dass der Effekt der Mindfulness-Übungen am Anfang noch sehr groß ist, dann jedoch mit der Zeit, oder mit der Anzahl an Interventionen, abnimmt – da sich die Teilnehmenden nach der 25sten Intervention zum Beispiel daran gewöhnt haben, und auch ohne die Übung achtsamer sind - oder die Übung satt haben und nicht mehr richtig mitmachen. In dieser Bachelorarbeit soll dieser Datensatz re-analysiert werden und dabei insbesondere Zeitverlauf der Effekt der Achtsamkeitsübung über die Zeit mithilfe von Multilevel-Modellen (wie beschrieben in Keintzel et al., in preparation) näher untersucht werden.

(I) Befragung zum Wissen bzgl. post-selektive Inferenz (1 Arbeit, Anna Nikolei und Florian Scharf)

Statistische Analyse gehen typischerweise davon aus, dass Modellselektion (z.B. die Auswahl der Prädiktoren in einem ALM) und inferenzstatistische Testungen von Modellparametern unabhängig voneinander sind. In der Praxis kommt es jedoch häufig vor, dass datengetriebene Modellselektion stattfindet. Werden dann am selben Datensatz die inferenzstatistischen Testungen durchgeführt, resultiert dies in einer Erhöhung der alpha-Fehlerrate.

Einige Autor:innen (z.B. Berk et al., 2013) betonen, dass das Problem der Inferenz nach Modellwahl zwar in der Praxis weitestgehend ignoriert würde, unter Statistiker:innen aber dennoch ein grobes Bewusstsein dafür vorliege, dass inferenzstatistische Testungen durch datengetriebene Modellwahl beeinflusst werden.

In dieser Bachelorarbeit soll diese Behauptung für Forschende in der Psychologie geprüft werden. Dafür soll eine Umfrage zum Bewusstsein für das Problem der Inferenz nach datengetriebener Modellwahl erstellt, durchgeführt und ausgewertet werden.