Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
für eine Untersuchung möchte ich Korrelationen zwischen einer dichotomen (ja/nein) abhängigen Variable und mehreren unabhängigen Variablen wie Altersgruppen (unter 30Jahre/30-45Jahre/über 45Jahre), Geschlecht (m/w) oder Arbeitszeitdauer (Vollzeit/Teilzeit) berechnen.
Ist die Berechnung nach Pearson in so einem Fall möglich oder müssen die Daten metrisch skaliert sein? Was muss ich außerdem berücksichtigen, wenn ich die Rechnung durchführen kann?
für eine Untersuchung möchte ich Korrelationen zwischen einer dichotomen (ja/nein) abhängigen Variable und mehreren unabhängigen Variablen wie Altersgruppen (unter 30Jahre/30-45Jahre/über 45Jahre), Geschlecht (m/w) oder Arbeitszeitdauer (Vollzeit/Teilzeit) berechnen.
Warum und wozu Korrelationen?
Ist die Berechnung nach Pearson in so einem Fall möglich
Nein.
Der gängige Koeffizient für 2x2 Kreuztabellen ist Phi. Dichotom versus Altersgruppe wäre der "Rank-Biserial Correlation Coefficient".
mit der Korrelation möchte ich die Daten etwas anschaulicher darstellen und Annahmen formulieren, die ich im späteren Verlauf mit einer binären log Regression prüfe.
wenn ich die unabhängigen Variablen dichotomisiere wäre auch der chi-quadrat test zulässlich?
mit der Korrelation möchte ich die Daten etwas anschaulicher darstellen u
Prozentuale Unterschiede ("Männer 80% vollzeit, Frauen 66%") sind doch eigentlich anschaulicher.
und Annahmen formulieren, die ich im späteren Verlauf mit einer binären log Regression prüfe.
Das könnte leicht in eine Fishing-Exedition ausarten -- wenn Du mit bivariaten Analysen einige Variablen aus einem größeren Pool auswählst und mit denen dann die Regression rechnest, dann "kent" die Regression diese Vorgschichte nicht und die dort ermittelten p-Werte sind verzerrt und die Analyseergebnisse möglicherweise nicht stabil/übertragbar.
wenn ich die unabhängigen Variablen dichotomisiere wäre auch der chi-quadrat test zulässlich?
Sicher . 2x2 Kreuztabelle mit Chi² ist naheliegend. Aber wozu dichotomisieren? Du kannst auch 2*k-Kreuztabellen berechnen, bzw. U-Tests (fürs Alter).
das problem bei der anschaulichkeit ist, dass ich 7 abhängige variablen habe, deren ausprägungen ich jeweils mit 6 unabhängigen variablen gegenüberstelle, die bis zu 4 ausprägungen haben.
das ganze wird dann einmal im gesamtüberblick und für drei auswahlvariablen dargestellt wird.
da das ganze im rahmen einer masterarbeit stattfindet und ich nur begrenzt platz habe, ist die abbildung von prozentangaben zu umfangreich. korrelationsmaße kann ich für die auswahlvariablen in einer tabelle auf einer seite abbilden. die prozentwerte kommen wenn überhaupt in den anhang.
was die stabilität für die regression angeht, die lässt sich dann doch durch nagelkerke o.ä bestimmen, richtig?
Nein. Dass pseudo-R von Nagelkerke zeigt die Stärke des Zusammenhangs innerhalb der Stichprobe. Über die Stabilität/Generalisierbarkeit der Befunde sagt das wenig.
Von sehr starke Effekten darf man annehmen, dass sie auch in weiteren
Stichproben als signifikant replizierbar wären, aber einen Index für die
Zuverlässigkeit gibt es nicht. Letztlich ist es einfach so, man muss im
Auge behalten, dass eine Variablenvorauswahl anhand statistischer statttheoretisch-inhaltlicher Kriterien immer das Risiko mit sich bringt,
dass man den Zufall ausnutzt und das multiple Regressionsmodell
unzuverlässig sein kann.