Gewichtung Stichprobe durch Verdoppelung einiger Fälle?

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
keinstatistikprofi
Beiträge: 2
Registriert: 14.02.2011, 11:04

Gewichtung Stichprobe durch Verdoppelung einiger Fälle?

Beitrag von keinstatistikprofi »

Hallo,

habe folgende praktische Frage-/Problemstellung bei der Bewertung von durchgeführten Interviews und Gewichtung der Fallzahlen:
Verteilung Grundgesamtheit: 33% + 33% + 33%
Durchgeführte Interviews: n=30 + 30 + 15
Frage: ist es zu Gewichtung möglich, die n=15 Fälle im Datensatz zu verdoppeln (auf n=30), um die Verteilung der Gründgesamtheit zu erreichen und dann mit n=90 weiterzurechnen?

Da es sich um ein praktisches Problem handelt, wäre es wichtig zu erfahren, ob diese Vorgehensweise noch tolerierbar oder ggf. ein absolutes methodisches "No Go" ist, .

Danke für fundierte eure Anworten (am besten mit Begründung/Quelle)!
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Natürlich ist es möglich, Daten so zu gewichten, dass sie nach Gewichtung den Verteilungen der Grundgesamtheit entsprechen.

Für eine spätere inferenzstatistische Auswertung, etwa über den Chi-Quadrat Test, den t-Test, Varianzanalyse oder dgl. Verfahren wären die gewichteten Daten dann allerdings nicht mehr zu gebrauchen, wenn die Verfahren wie üblich über die SPSS-Dialoge abgerufen werden.

Der Hintergrund ist ganz einfach: Durch Gewichtung (in diesem Beispiel von 15 auf 30) entstehen ja keine weiteren Zufallsvariablen. Das ist aber die Voraussetzung (bei SPSS) für diese Tests: die i-i-d Verteilung. Sonst könnte man sich per Gewichtung den Datensatz auch auf, sagen wir mal, N=900 hochgewichten und dann wäre plötzlich alles signifikant.

Etwas anderes gilt für die Schätzung von µ der GG. Durch nachträgliche Gewichtung könnte so der Fehler der Stichprobe (etwa durch unterschiedliche Response) kompensiert werden.

Etwas anderes gilt auch für die Berechnung von Signifikanztests, die –z. B.- über Bootstrap-Verfahren berechnet werden.

Allerdings ist die Frage, ob bei Einsatz inferenzstatistischer Verfahren die Gewichtung überhaupt notwendig ist. Denn –als Beispiel- die Varianzanalyse (bei drei Gruppen) lässt sich auch über ungleich große Subsamples rechnen.


Etwas ausführlicher (aber sehr mathematisch !!) zur Stichprobentheorie folgende Literatur:

Pokropp: Stichproben - Theorie und Verfahren Oldenburg Verlag
drfg2008
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Da fehlt in der Frage das "wozu" der gedachten Datenverdoppelung in Gruppe 3. So recht leuchtet das ja nicht ein. Zu Ende gedacht könnte man 1 Fall erheben und den ver30fachen, das würde Mühe sparen.
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Eigentlich wird meist geschichtet (SPSS bietet da wohl Möglichkeiten).

Allerdings wird die Gewichtung auch bei prominenten Studien eingesetzt, etwa der PISA-Studie.
drfg2008
keinstatistikprofi
Beiträge: 2
Registriert: 14.02.2011, 11:04

Beitrag von keinstatistikprofi »

Vielen Dank für die schnellen Antworten!

@ drfg 2008: wenn ich richtig verstanden habe, kann ich die Fallzahl durch die Verdoppelung der Antworten in den Rohdaten nicht von 75 auf 90 erhöhen (mit dem Ziel signifikante Abweichungen z.B. T Test zu erhalten).

@ Generalist: es ist ein eher konkretes praktisches Durchführungsproblem, das mit der Möglichkeit der Datenerhebung zusammenhängt. Deshalb die Frage, der zu "Ende gedachte" Fall ist nicht relevant.

Zusammenfassend ist die beschriebene Vorgehensweise also nicht verboten, oder?
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Nach Einsatz einer Gewichtung ist die Benutzung inferenzstatistischer Verfahren, die eine einfache Zufallsstichprobe voraussetzen (siehe Menüführung bei SPSS) NICHT mehr sinnvoll.

Die Verwendung von Gewichtungsvariablen ist umstritten. In der Statistik bietet sich hier der Einsatz von geschichteten Stichproben an (Stratification oder Poststratifikation). Diese Verfahren sind bei Pokropp (siehe oben) genau beschrieben. In diesem Rahmen lassen sich auch Tests, wie der t-Test berechnen, allerdings nur eine Variante, die die Schichtungen berücksichtigt.

Vielleicht kann man das einmal sehr grob so beschreiben: Wer nicht weiß, wie Stratifikationsverfahren funktionieren, oder nicht die geeigneten Programmpakete dafür besitzt, weicht auf Gewichtungen aus. Diese sind aber nur sinnvoll für die Schätzung von Lageparametern (µ-Problem, p-Problem) aber auf keinen Fall für Hypothesentests (siehe oben).

Die Kritik von generalist ist schon korrekt. In der Absurdität wird manches klarer. Und genau das Argument kenne ich von anderer Seite.

Für die Lösung des Problems: den t-Test einfach über die ungewichteten Daten berechnen. Für die Schätzung von Lageparametern hingegen die Gewichtung nutzen. Beides sauber auseinanderhalten.

Gruss
drfg2008
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten