Modulare Fragenbogendesigns für sozialwissenschaftliche Umfragen: Der Beitrag statistischer Modellierung mittels Imputationsverfahren
Im Mittelpunkt des Projektes stand die Untersuchung der Eignung von Methoden zur Imputation von geplant fehlenden Datenpunkten, welche aus einem sogenannten modularen Fragebogendesign resultieren. Ziel war es, einen vollständigen, zur Analyse geeigneten Datensatz zu produzieren. Die Untersuchung bezog sich insbesondere auf den Einsatz von modularen Fragebogendesigns in sozialwissenschaftlichen Erhebungen und deren Bedingungen, z.B. kleine Stichprobengrößen, eine Vielzahl von Variablen, geringe Korrelationen zwischen Variablen/Items und kategoriale Variablen.
Zur Erreichung unseres Forschungsziels führten wir Monte-Carlo Simulationen mit den Daten des German Internet Panels (GIP) auf den Hochleistungsrechner des Bundeslandes Baden-Württemberg (bwHPC) durch.
Unsere Ergebnisse zeigen, dass die Allokation mehrerer Items eines Themenblocks zum gleichen Fragebogenmodul mit der Annahme, dass diese Items eine hohe Korrelation aufweisen zu schlechteren imputationsbasierten Schätzungen führen als eine zufällige Allokation von Items zu Modulen oder die Allokation von Items des gleichen Themas zu verschiedenen Modulen. Die Unterschiede zwischen den beiden letzteren Strategien sind jedoch gering aufgrund der hohen Anzahl von geringen Korrelationen in den Daten.
Des Weiteren wurden in unserem Projekt eine Vielzahl von Imputationsmethoden auf ihre Eignung hin untersucht, vollständige Datensätze im Rahmen von modularen Fragenbogendesigns zu produzieren, die Schätzungen mit akzeptabler Qualität erlauben. In unserer Untersuchung konnten wir insbesondere vor dem Hintergrund kleiner Stichprobengrößen und einer hohen Anzahl verwendeter Variablen gute Ergebnisse bei Imputationsmethoden beobachten, die eine Vereinfachung der Imputationsmodelle ermöglichen. Beispiele sind Verfahren, welche die Anzahl der unabhängigen Variablen reduzieren. In einem weiteren Forschungsabschnitt wurde das Vorhandensein von ungeplant fehlenden Datenpunkten durch Auslassen der Befragten (item nonresponse) untersucht, welche zusätzliche zu den geplant fehlenden Datenpunkten durch das modulare Fragebogendesign auftreten. In diesem Zusammenhang konnte gezeigt werden, dass große Probleme entstehen, wenn der Anteil an fehlenden Datenpunkten aus beiden Quellen zusammen zu groß wird oder wenn ungeplant fehlende Datenpunkte auftreten, welche dem Fall „missing not at random“ (MNAR) zugeordnet werden können. Aus diesem Grund empfehlen wir, die Menge an geplant fehlenden Datenpunkten bei solchen Items zu reduzieren, bei denen ein größerer Anteil an „item nonresponse“ erwartet wird.