Wie Daten auf Repräsentativität testen?
-
- Beiträge: 11
- Registriert: 29.11.2010, 13:09
Wie Daten auf Repräsentativität testen?
Hallo Zusammen,
ich habe per Umfrage rund 2000 Fragebögen erhoben mit jeweils ca 40 Variablen wie Alter, Geschlecht, Bildung, Einstellung zu zB Fastfood (5er Skala "Esse gerne" bis "Esse gar nicht") und möchte in einem ersten Schritt untersuchen, ob die Ergebnisse aus der Umfrage=Stichprobe repräsentativ sind für Deutschland=Grundgesamtheit.
Wollte dies anhand Mittelwerte und T-test machen, nur leider sind die einzelnen Variablen fast alle nicht normalverteilt. Hatte gelesen, dass man dann den U-Test nimmt, in SPSS finde ich diesen jedoch nur für Gruppenvergleiche. Kann jemand helfen? Und wie überprüfe ich die Repräsentativität bei den Variablen, wo ein Mittelwert keinen Sinn (nominale Varibalen) macht?
Vielen Dank schon mal
Conny
ich habe per Umfrage rund 2000 Fragebögen erhoben mit jeweils ca 40 Variablen wie Alter, Geschlecht, Bildung, Einstellung zu zB Fastfood (5er Skala "Esse gerne" bis "Esse gar nicht") und möchte in einem ersten Schritt untersuchen, ob die Ergebnisse aus der Umfrage=Stichprobe repräsentativ sind für Deutschland=Grundgesamtheit.
Wollte dies anhand Mittelwerte und T-test machen, nur leider sind die einzelnen Variablen fast alle nicht normalverteilt. Hatte gelesen, dass man dann den U-Test nimmt, in SPSS finde ich diesen jedoch nur für Gruppenvergleiche. Kann jemand helfen? Und wie überprüfe ich die Repräsentativität bei den Variablen, wo ein Mittelwert keinen Sinn (nominale Varibalen) macht?
Vielen Dank schon mal
Conny
-
- Beiträge: 50
- Registriert: 12.09.2011, 11:14
-
- Beiträge: 11
- Registriert: 29.11.2010, 13:09
Danke für Deine Antwort, es handelt sich allerdings nicht nur um demografische Merkmale sondern zB auch um Einstellungen zu Fastfood.
Die Daten sind nicht normalverteilt in der Stichprobe und ich möchte einfach nur wissen bzw. untersuchen, ob zB die Aussagen der Stichprobe "67% der befragten Personen essen gerne Fastfood" und "Der Mittelwert in der Stichprobe liegt bei 3,6" auch für die Grundgesamtheit gilt.
Die Daten sind nicht normalverteilt in der Stichprobe und ich möchte einfach nur wissen bzw. untersuchen, ob zB die Aussagen der Stichprobe "67% der befragten Personen essen gerne Fastfood" und "Der Mittelwert in der Stichprobe liegt bei 3,6" auch für die Grundgesamtheit gilt.
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Natürlich gilt das nicht exakt für die Grundgesamtheit, es gibt ja Stichprobenfehler. Die Grundgesamtheit wird dann statt bei 67,0% vielleicht bei 66,3% oder so liegen. Du kannst ja Konfidenzintervalle berechnen, wenn Du Vorstellungen darüber gewinnen willst, wie stark das abweichen kann.
Eher spannend ist die Frage wofür das repräsentativ sein soll. Wenn Du nicht tatsächlich eine deutschlandweite Zufalls-Stichprobe gezogen haben solltest, so dass potenziell jeder Einwohner hätte befragt werden können, dann kannst Du wohl kaum Aussagen über "Deutschland=Grundgesamtheit" machen. Ich vermute mal, dass es sich um eine preisgünstige online-Umfrage oder sowas handelt, eine teure Repräsentativbefragung lässt man normalerweise von Leuten machen, die sich mit Erhebungs- und Auswertungsmethodik ausreichend auskennen.
Eher spannend ist die Frage wofür das repräsentativ sein soll. Wenn Du nicht tatsächlich eine deutschlandweite Zufalls-Stichprobe gezogen haben solltest, so dass potenziell jeder Einwohner hätte befragt werden können, dann kannst Du wohl kaum Aussagen über "Deutschland=Grundgesamtheit" machen. Ich vermute mal, dass es sich um eine preisgünstige online-Umfrage oder sowas handelt, eine teure Repräsentativbefragung lässt man normalerweise von Leuten machen, die sich mit Erhebungs- und Auswertungsmethodik ausreichend auskennen.
-
- Beiträge: 50
- Registriert: 12.09.2011, 11:14
Leider ist es bei Onlineumfragen mit der Repräsentativität noch problematisch , da du hier eine sehr hohe Selbstrekrutierung der Teilnehmer hast. Ausserdem sind die Zugangsvoraussetzungen beschränkt - Personen ohne Internet (Ja, die gibts!) können zum Beispiel nicht teilnehmen. Da vor allem Personen mit höherem Einkommen und höherem Bildungsniveau über Internetzugang verfügen <strike> könnte hier ein Grund dafür liegen, dass deine Daten nicht normalverteilt sind. </strike>
Wenn das Ziel deiner Untersuchung aber eher theoretischer Natur ist, dann ist Repräsentativität garnicht so wichtig. Dann kommt es eher darauf an, ob die zu überprüfenden Zusammenhänge zufällig oder überzufällig sind.
Wenn das Ziel deiner Untersuchung aber eher theoretischer Natur ist, dann ist Repräsentativität garnicht so wichtig. Dann kommt es eher darauf an, ob die zu überprüfenden Zusammenhänge zufällig oder überzufällig sind.
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Das ist kein korrekter Gedankengang. Die Stichprobe ist eben "repräsentativ" für die Grundgesamtheit, die durch die Rekrutierungsbedingungen repräsentiert wird. Allerdings natürlich nicht für "die" Deutschen. Aber das hat alles mit der Verteilunghier nichts zu tun.Da vor allem Personen mit höherem Einkommen und höherem Bildungsniveau über Internetzugang verfügen könnte hier ein Grund dafür liegen, dass deine Daten nicht normalverteilt sind.
Der eigentlich springende Punkt ist, dass es keine perfekt normalverteilten Grundgesamtheiten gibt, und daher jeder Normalverteilungstest die Nullhypothese ("die Daten stammen aus einer exakt normalverteilten Grundgesamtheit") ablehnt, wenn die Stichprobe genügend groß ist. Und n=2000 ist sicherlich bereits eine sehr sensitive Stichprobengröße. Bei n=2000 sollte man dann auch nicht mehr eigens testen, sondern sich das grafisch veranschaulichen, ob die Verteilung irgendwie "besonders" aussieht (zum Beispiel sehr schief ist oder dergleichen). Häufig sind Abweichungen von der Normalverteilung eher unbedeutend.
Und wie bereits gesagt, bei großen Stichproben braucht man für statistische Tests keine Normalverteilung in der Grundgesamtheit als Voraussetzung.
-
- Beiträge: 50
- Registriert: 12.09.2011, 11:14
Ja, stimmt. Es muss natürlich keine Normalverteilung in der Grundgesamtheit existieren. Sorry.Das ist kein korrekter Gedankengang.
Zu dem zweiten Teil deines Beitrags:
Das interessiert mich! Fällt dir da spontan ne Quelle ein? Gibt es einen Richtwert, ab welcher Stichprobengröße (z.B. 500) ein "grafischer Test" ausreichend ist? (Ich denke dabei z.B. an die Bereichnung von nem linearen Strukturgleichungsmodell, wobei die Normalverteilungsannahme auch nicht verletzt sein sollte - es sei denn man passt das Verfahren an).bei großen Stichproben braucht man für statistische Tests keine Normalverteilung in der Grundgesamtheit als Voraussetzung.
-
- Beiträge: 50
- Registriert: 12.09.2011, 11:14
Ich hoffe, ich sag nix falsches. Und ich bin mir auch nicht sicher, ob es das ist was du eigentlich brauchst. Aber geh mal in SPSS auf Analysieren => deskriptive statistiken => explorative datenanalyse, pack die Variable rein und klick unter "statistik" das 95% Konfidenzintervall an. In der Tabelle steht dann, dass der Mittelwert zu 95% zwischen X und Y befindet.
-
- Beiträge: 11
- Registriert: 29.11.2010, 13:09
hmmm... ok, dann packe ich die einfach mal in das Feld "Abhängige Variable" (Wofür ist denn das Feld "Faktorenliste"?)
Habe dann zB. als Ergebnis für Fastfood: Mittelwert=3,93
Untergrenze 3,59, Obergrenze 4,26
Dann müsste ich doch die Aussage treffen können: mit 95% Wahrscheinlichkeit liegt der Mittelwert in der Grundgesamtheit zwischen 3,93 und 4,26?
Aber habe ich dann nicht das Problem, dass für nicht normalverteilte Mittelwerte keinen Sinn machen und man den Median nehmen muss?
Habe dann zB. als Ergebnis für Fastfood: Mittelwert=3,93
Untergrenze 3,59, Obergrenze 4,26
Dann müsste ich doch die Aussage treffen können: mit 95% Wahrscheinlichkeit liegt der Mittelwert in der Grundgesamtheit zwischen 3,93 und 4,26?
Aber habe ich dann nicht das Problem, dass für nicht normalverteilte Mittelwerte keinen Sinn machen und man den Median nehmen muss?
-
- Beiträge: 50
- Registriert: 12.09.2011, 11:14