Logistische Regression bei Zufallsauswahl der Kontrollgruppe

Beitrag von **SPH** » 29.09.2008, 09:28

Hallo Zusammen!

Ich habe einen Datensatz mit zwei unterschiedlich großen Gruppen (n1 = 2,5 Millionen, n2 = 3.800) und eine Reihe von Variablen, die einen Einfluss auf die Gruppenzugehörigkeit haben. Prinzipiell will ich nun eine logistische Regression rechnen, sprich welche unabhängigen Variablen haben einen Einfluss auf die Wahrscheinlichkeit zu einer bestimmten Gruppe zu gehören.

Folgendes Problem: Um den Datensatz etwas handhabbarer zu machen, würde ich gerne dessen Größe reduzieren. Überlegung: Ich wähle zufällig 3.800 Einträge aus den 2,5 Millionen aus und führe dann meine Regressionsanalyse durch.

Prinzipiell entspricht dieses Vorgehen ja einer geschichteten Zufallsauswahl mit einem Auswahlsatz von 0,15% (Gruppe 1) und 100% (Gruppe 2).

Kann man das so machen? Wirkt sich die Auswahl irgendwie auf meine Standardfehler etc. aus?

Beitrag von **SPH** » 05.10.2008, 10:50

Niemand eine Idee?