Wie Daten auf Repräsentativität testen?

Beitrag von **conny2** » 11.09.2011, 02:34

Hallo Zusammen,

ich habe per Umfrage rund 2000 Fragebögen erhoben mit jeweils ca 40 Variablen wie Alter, Geschlecht, Bildung, Einstellung zu zB Fastfood (5er Skala "Esse gerne" bis "Esse gar nicht") und möchte in einem ersten Schritt untersuchen, ob die Ergebnisse aus der Umfrage=Stichprobe repräsentativ sind für Deutschland=Grundgesamtheit.

Wollte dies anhand Mittelwerte und T-test machen, nur leider sind die einzelnen Variablen fast alle nicht normalverteilt. Hatte gelesen, dass man dann den U-Test nimmt, in SPSS finde ich diesen jedoch nur für Gruppenvergleiche. Kann jemand helfen? Und wie überprüfe ich die Repräsentativität bei den Variablen, wo ein Mittelwert keinen Sinn (nominale Varibalen) macht?

Vielen Dank schon mal

Conny

Beitrag von **Lastdaysofapril** » 12.09.2011, 11:27

Was ist der Sinn einer Stichprobe, wenn man die Merkmalsausprägungen der Grundgesamtheit schon kennt?

Es handelt sich ja sicher nur um ein paar demografische Merkmale (Alter, Geschlecht) die überprüft werden sollen. Ich glaube, dafür eignet sich ein Chi-Quadrat Test ganz gut.

Beitrag von **conny2** » 12.09.2011, 11:34

Danke für Deine Antwort, es handelt sich allerdings nicht nur um demografische Merkmale sondern zB auch um Einstellungen zu Fastfood.

Die Daten sind nicht normalverteilt in der Stichprobe und ich möchte einfach nur wissen bzw. untersuchen, ob zB die Aussagen der Stichprobe "67% der befragten Personen essen gerne Fastfood" und "Der Mittelwert in der Stichprobe liegt bei 3,6" auch für die Grundgesamtheit gilt.

Beitrag von **Generalist** » 12.09.2011, 12:05

Natürlich gilt das nicht exakt für die Grundgesamtheit, es gibt ja Stichprobenfehler. Die Grundgesamtheit wird dann statt bei 67,0% vielleicht bei 66,3% oder so liegen. Du kannst ja Konfidenzintervalle berechnen, wenn Du Vorstellungen darüber gewinnen willst, wie stark das abweichen kann.

Eher spannend ist die Frage wofür das repräsentativ sein soll. Wenn Du nicht tatsächlich eine deutschlandweite Zufalls-Stichprobe gezogen haben solltest, so dass potenziell jeder Einwohner hätte befragt werden können, dann kannst Du wohl kaum Aussagen über "Deutschland=Grundgesamtheit" machen. Ich vermute mal, dass es sich um eine preisgünstige online-Umfrage oder sowas handelt, eine teure Repräsentativbefragung lässt man normalerweise von Leuten machen, die sich mit Erhebungs- und Auswertungsmethodik ausreichend auskennen.

Beitrag von **conny2** » 12.09.2011, 12:08

Ich war in verschiedenen Städten quer in Deutschland und die Onlineumfrage ging auch an rund 1000 Personen die quer verteilt in D wohnen. Wie würde ich ein Konfidenzintervall bei nicht normalverteilten Variablen in SPSS denn machen?

Beitrag von **Lastdaysofapril** » 12.09.2011, 15:30

Leider ist es bei Onlineumfragen mit der Repräsentativität noch problematisch , da du hier eine sehr hohe Selbstrekrutierung der Teilnehmer hast. Ausserdem sind die Zugangsvoraussetzungen beschränkt - Personen ohne Internet (Ja, die gibts!) können zum Beispiel nicht teilnehmen. Da vor allem Personen mit höherem Einkommen und höherem Bildungsniveau über Internetzugang verfügen <strike> könnte hier ein Grund dafür liegen, dass deine Daten nicht normalverteilt sind. </strike>

Wenn das Ziel deiner Untersuchung aber eher theoretischer Natur ist, dann ist Repräsentativität garnicht so wichtig. Dann kommt es eher darauf an, ob die zu überprüfenden Zusammenhänge zufällig oder überzufällig sind.

Beitrag von **Generalist** » 12.09.2011, 15:43

Da vor allem Personen mit höherem Einkommen und höherem Bildungsniveau über Internetzugang verfügen könnte hier ein Grund dafür liegen, dass deine Daten nicht normalverteilt sind.

Das ist kein korrekter Gedankengang. Die Stichprobe ist eben "repräsentativ" für die Grundgesamtheit, die durch die Rekrutierungsbedingungen repräsentiert wird. Allerdings natürlich nicht für "die" Deutschen. Aber das hat alles mit der Verteilunghier nichts zu tun.

Der eigentlich springende Punkt ist, dass es keine perfekt normalverteilten Grundgesamtheiten gibt, und daher jeder Normalverteilungstest die Nullhypothese ("die Daten stammen aus einer exakt normalverteilten Grundgesamtheit") ablehnt, wenn die Stichprobe genügend groß ist. Und n=2000 ist sicherlich bereits eine sehr sensitive Stichprobengröße. Bei n=2000 sollte man dann auch nicht mehr eigens testen, sondern sich das grafisch veranschaulichen, ob die Verteilung irgendwie "besonders" aussieht (zum Beispiel sehr schief ist oder dergleichen). Häufig sind Abweichungen von der Normalverteilung eher unbedeutend.

Und wie bereits gesagt, bei großen Stichproben braucht man für statistische Tests keine Normalverteilung in der Grundgesamtheit als Voraussetzung.

Beitrag von **Lastdaysofapril** » 12.09.2011, 15:51

Das ist kein korrekter Gedankengang.

Ja, stimmt. Es muss natürlich keine Normalverteilung in der Grundgesamtheit existieren. Sorry.

Zu dem zweiten Teil deines Beitrags:

bei großen Stichproben braucht man für statistische Tests keine Normalverteilung in der Grundgesamtheit als Voraussetzung.

Das interessiert mich! Fällt dir da spontan ne Quelle ein? Gibt es einen Richtwert, ab welcher Stichprobengröße (z.B. 500) ein "grafischer Test" ausreichend ist? (Ich denke dabei z.B. an die Bereichnung von nem linearen Strukturgleichungsmodell, wobei die Normalverteilungsannahme auch nicht verletzt sein sollte - es sei denn man passt das Verfahren an).

Beitrag von **conny2** » 12.09.2011, 16:25

back to the roots:

Die Variablen sind, bis auf wenige Ausnahmen wie Alter, definitiv nicht normalverteilt. Weder grafisch noch nach Kolmogorov

Wie würde ich ein Konfidenzintervall bei nicht normalverteilten Variablen in SPSS denn machen?

Beitrag von **Lastdaysofapril** » 12.09.2011, 17:00

Ich hoffe, ich sag nix falsches. Und ich bin mir auch nicht sicher, ob es das ist was du eigentlich brauchst. Aber geh mal in SPSS auf Analysieren => deskriptive statistiken => explorative datenanalyse, pack die Variable rein und klick unter "statistik" das 95% Konfidenzintervall an. In der Tabelle steht dann, dass der Mittelwert zu 95% zwischen X und Y befindet.

Beitrag von **conny2** » 12.09.2011, 17:15

hmmm... ok, dann packe ich die einfach mal in das Feld "Abhängige Variable" (Wofür ist denn das Feld "Faktorenliste"?)

Habe dann zB. als Ergebnis für Fastfood: Mittelwert=3,93
Untergrenze 3,59, Obergrenze 4,26

Dann müsste ich doch die Aussage treffen können: mit 95% Wahrscheinlichkeit liegt der Mittelwert in der Grundgesamtheit zwischen 3,93 und 4,26?

Aber habe ich dann nicht das Problem, dass für nicht normalverteilte Mittelwerte keinen Sinn machen und man den Median nehmen muss?

Beitrag von **Lastdaysofapril** » 12.09.2011, 18:16

Das Problem ist ja: Wer ist deine Grundgesamtheit? Schließlich muss jedes Element der Grundgesamtheit diesselbe wahrscheinlichkeit haben in das sample zu kommen.

Das mit dem Median - wenn ich Generalist richtig verstehe - ist nicht nötig. Sofern das Merkmal ausreichend skaliert ist.