Pearson Korrelation bei nicht metrisch skalierten Variablen

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
spiky
Beiträge: 7
Registriert: 17.01.2013, 14:21

Pearson Korrelation bei nicht metrisch skalierten Variablen

Beitrag von spiky »

Hallo zusammen,

für eine Untersuchung möchte ich Korrelationen zwischen einer dichotomen (ja/nein) abhängigen Variable und mehreren unabhängigen Variablen wie Altersgruppen (unter 30Jahre/30-45Jahre/über 45Jahre), Geschlecht (m/w) oder Arbeitszeitdauer (Vollzeit/Teilzeit) berechnen.

Ist die Berechnung nach Pearson in so einem Fall möglich oder müssen die Daten metrisch skaliert sein? Was muss ich außerdem berücksichtigen, wenn ich die Rechnung durchführen kann?

Vielen Dank im Voraus,
Spiky
:)
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Re: Pearson Korrelation bei nicht metrisch skalierten Variab

Beitrag von Generalist »

für eine Untersuchung möchte ich Korrelationen zwischen einer dichotomen (ja/nein) abhängigen Variable und mehreren unabhängigen Variablen wie Altersgruppen (unter 30Jahre/30-45Jahre/über 45Jahre), Geschlecht (m/w) oder Arbeitszeitdauer (Vollzeit/Teilzeit) berechnen.
Warum und wozu Korrelationen?
Ist die Berechnung nach Pearson in so einem Fall möglich
Nein.

Der gängige Koeffizient für 2x2 Kreuztabellen ist Phi. Dichotom versus Altersgruppe wäre der "Rank-Biserial Correlation Coefficient".
spiky
Beiträge: 7
Registriert: 17.01.2013, 14:21

Beitrag von spiky »

mit der Korrelation möchte ich die Daten etwas anschaulicher darstellen und Annahmen formulieren, die ich im späteren Verlauf mit einer binären log Regression prüfe.

wenn ich die unabhängigen Variablen dichotomisiere wäre auch der chi-quadrat test zulässlich?
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

mit der Korrelation möchte ich die Daten etwas anschaulicher darstellen u
Prozentuale Unterschiede ("Männer 80% vollzeit, Frauen 66%") sind doch eigentlich anschaulicher.
und Annahmen formulieren, die ich im späteren Verlauf mit einer binären log Regression prüfe.
Das könnte leicht in eine Fishing-Exedition ausarten -- wenn Du mit bivariaten Analysen einige Variablen aus einem größeren Pool auswählst und mit denen dann die Regression rechnest, dann "kent" die Regression diese Vorgschichte nicht und die dort ermittelten p-Werte sind verzerrt und die Analyseergebnisse möglicherweise nicht stabil/übertragbar.
wenn ich die unabhängigen Variablen dichotomisiere wäre auch der chi-quadrat test zulässlich?
Sicher . 2x2 Kreuztabelle mit Chi² ist naheliegend. Aber wozu dichotomisieren? Du kannst auch 2*k-Kreuztabellen berechnen, bzw. U-Tests (fürs Alter).
spiky
Beiträge: 7
Registriert: 17.01.2013, 14:21

Beitrag von spiky »

das problem bei der anschaulichkeit ist, dass ich 7 abhängige variablen habe, deren ausprägungen ich jeweils mit 6 unabhängigen variablen gegenüberstelle, die bis zu 4 ausprägungen haben.
das ganze wird dann einmal im gesamtüberblick und für drei auswahlvariablen dargestellt wird.
da das ganze im rahmen einer masterarbeit stattfindet und ich nur begrenzt platz habe, ist die abbildung von prozentangaben zu umfangreich. korrelationsmaße kann ich für die auswahlvariablen in einer tabelle auf einer seite abbilden. die prozentwerte kommen wenn überhaupt in den anhang.

was die stabilität für die regression angeht, die lässt sich dann doch durch nagelkerke o.ä bestimmen, richtig?

danke für deine teilnahme :)
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Nein. Dass pseudo-R von Nagelkerke zeigt die Stärke des Zusammenhangs innerhalb der Stichprobe. Über die Stabilität/Generalisierbarkeit der Befunde sagt das wenig.
spiky
Beiträge: 7
Registriert: 17.01.2013, 14:21

Beitrag von spiky »

und gibt es da auch einen wert, der etwas aussagt?
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Von sehr starke Effekten darf man annehmen, dass sie auch in weiteren
Stichproben als signifikant replizierbar wären, aber einen Index für die
Zuverlässigkeit gibt es nicht. Letztlich ist es einfach so, man muss im
Auge behalten, dass eine Variablenvorauswahl anhand statistischer statttheoretisch-inhaltlicher Kriterien immer das Risiko mit sich bringt,
dass man den Zufall ausnutzt und das multiple Regressionsmodell
unzuverlässig sein kann.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten