niedriger Korrelationskoeffizient, durchwachsene Signifikanz
-
- Beiträge: 6
- Registriert: 17.03.2010, 09:35
niedriger Korrelationskoeffizient, durchwachsene Signifikanz
Hallo ,
ich habe ein sicher lapidares Problem, ich hoffe trotzdem, dass sich Antworten darauf finden!
Ich habe eine Variable meines Datensatzes auf Korrelation nach Pearson mit mehreren anderen Variablen untersuchen lassen.
Ich erhalte aber durchweg Korrelationskoeffizienten zwischen 0 und +/- 0,1. Die Signifikanzen (2-seitig) sind jedoch recht durchwachsen, zwischen 0,001 bis 0,9...
Nun bin ich mir nicht sicher, was ich davon halten kann.
Der Korrelationskoeffizient sagt mir zumindest, dass in der Stichprobe keine bis kaum Korrelation vorhanden ist...
Die Signifikanz jedoch spricht sich einmal aus, dass die jeweilige korrelation mit >90 %iger Wahrscheinlichkeit nicht in der Grundgesamtheit auftritt. (da wo 0,9.. steht)
Andererseits sagt eine andere (trotz niedrigem Korrelationskoeffizient!), dass in der Grundgesamtheit zu 1% keine Korrelation auftritt, anders gesagt eine Korrelation sehr Wahrscheinlich ist.
Kann das passen?
Das heißt, da ich ja Zusammenhänge herausfiltern sollte, dass ich mich auf die Signifikanzen berufen muss/kann?
Dazu sei zu sagen, dass es in dem Datensatz 70 % missings gibt (keine ungültigen Antworten, lediglich leere Variablen)
Ich hoffe, mir kann jmd helfen. Herzlichen Dank!
ich habe ein sicher lapidares Problem, ich hoffe trotzdem, dass sich Antworten darauf finden!
Ich habe eine Variable meines Datensatzes auf Korrelation nach Pearson mit mehreren anderen Variablen untersuchen lassen.
Ich erhalte aber durchweg Korrelationskoeffizienten zwischen 0 und +/- 0,1. Die Signifikanzen (2-seitig) sind jedoch recht durchwachsen, zwischen 0,001 bis 0,9...
Nun bin ich mir nicht sicher, was ich davon halten kann.
Der Korrelationskoeffizient sagt mir zumindest, dass in der Stichprobe keine bis kaum Korrelation vorhanden ist...
Die Signifikanz jedoch spricht sich einmal aus, dass die jeweilige korrelation mit >90 %iger Wahrscheinlichkeit nicht in der Grundgesamtheit auftritt. (da wo 0,9.. steht)
Andererseits sagt eine andere (trotz niedrigem Korrelationskoeffizient!), dass in der Grundgesamtheit zu 1% keine Korrelation auftritt, anders gesagt eine Korrelation sehr Wahrscheinlich ist.
Kann das passen?
Das heißt, da ich ja Zusammenhänge herausfiltern sollte, dass ich mich auf die Signifikanzen berufen muss/kann?
Dazu sei zu sagen, dass es in dem Datensatz 70 % missings gibt (keine ungültigen Antworten, lediglich leere Variablen)
Ich hoffe, mir kann jmd helfen. Herzlichen Dank!
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
hallo,
kann es sein, dass dein datensatz sehr groß ist (große stichprobe)? dann werden leicht auch kleine unterschiede signifikant. du kannst dann eine poweranalyse (gpower 3.1, kostenloser download) durchführen.
die signifikanz bzw. eher der p-wert sagt, ob der korrelationskoeffizient signifinant von null verschieden ist oder nicht. über die grundgesamtheit direkt sagt er eigentlich nichts aus. der test beruht ja nur auf der annahme, dass sich ein merkmal (hier: stärke eines zusammenhangs) bei unendlicher anzahl von gezogenen stichproben auf eine bestimmte art und weise verteilt. man sollte daher von wahrscheinlichkeiten sprechen und nicht darüber, wie die verhältnisse in der population sind.
ein problem sind auch die vielen missings. es ist hier möglich, dass je nach betrachtetem koeffizienten (variablenpaar) ganz unterschiedliche personen an der berechnung beteiligt sind. z.b. im extremfall, dass sich korrelation x-y auf eine hälfte der stichprobe bezieht und die korrelation a-b auf die andere hälfte. lösung wäre, mit listenweisen fallausschluss zu rechnen, falls dann überhaupt von der stichprobe noch was übrig bleibt.
kann es sein, dass dein datensatz sehr groß ist (große stichprobe)? dann werden leicht auch kleine unterschiede signifikant. du kannst dann eine poweranalyse (gpower 3.1, kostenloser download) durchführen.
die signifikanz bzw. eher der p-wert sagt, ob der korrelationskoeffizient signifinant von null verschieden ist oder nicht. über die grundgesamtheit direkt sagt er eigentlich nichts aus. der test beruht ja nur auf der annahme, dass sich ein merkmal (hier: stärke eines zusammenhangs) bei unendlicher anzahl von gezogenen stichproben auf eine bestimmte art und weise verteilt. man sollte daher von wahrscheinlichkeiten sprechen und nicht darüber, wie die verhältnisse in der population sind.
ein problem sind auch die vielen missings. es ist hier möglich, dass je nach betrachtetem koeffizienten (variablenpaar) ganz unterschiedliche personen an der berechnung beteiligt sind. z.b. im extremfall, dass sich korrelation x-y auf eine hälfte der stichprobe bezieht und die korrelation a-b auf die andere hälfte. lösung wäre, mit listenweisen fallausschluss zu rechnen, falls dann überhaupt von der stichprobe noch was übrig bleibt.
-
- Beiträge: 6
- Registriert: 17.03.2010, 09:35
Hallo zurück,
ich kann mir ehrlich gesagt nicht vorstellen, dass das so kompliziert sein muss, da die Analyse für den Statistik Quereinsteigerkurs an der Uni ist... Wir sind gerade bei den Korrelationen und die Anforderung ist, aus dem (wirklich sehr großen) Datensatz Stereotypen zum Thema Politik herauszufinden und wie sie sich erklären lassen.
Ich habe insgesamt fünf Fragen (und somit Variablen), die auf stereotypes Denken hinweisen. Diese wiederum habe ich nun mit einigen anderen testen lassen, wo ich dachte, dass sie sich beeinflussen könnten (zBsp Herkunft, Alter, politische Aktivität etc).
Das Ergebnis sind wie gesagt die K.Koeffizienten um 0 und die unterschiedlichen Signifikanzen...
Das mit der Grundgesamtheit habe ich übrigens aus dem Begleitheft... das heißt, der p-Wert sagt n i c h t aus, dass der K.koeffizient in der STichprobe zwar klein ist, dafür aber die Wahrscheinlichkeit groß, dass es eine Korrelation in der Grundgesamtheit dieser zwei Eigenschaften gibt????
ich kann mir ehrlich gesagt nicht vorstellen, dass das so kompliziert sein muss, da die Analyse für den Statistik Quereinsteigerkurs an der Uni ist... Wir sind gerade bei den Korrelationen und die Anforderung ist, aus dem (wirklich sehr großen) Datensatz Stereotypen zum Thema Politik herauszufinden und wie sie sich erklären lassen.
Ich habe insgesamt fünf Fragen (und somit Variablen), die auf stereotypes Denken hinweisen. Diese wiederum habe ich nun mit einigen anderen testen lassen, wo ich dachte, dass sie sich beeinflussen könnten (zBsp Herkunft, Alter, politische Aktivität etc).
Das Ergebnis sind wie gesagt die K.Koeffizienten um 0 und die unterschiedlichen Signifikanzen...
Das mit der Grundgesamtheit habe ich übrigens aus dem Begleitheft... das heißt, der p-Wert sagt n i c h t aus, dass der K.koeffizient in der STichprobe zwar klein ist, dafür aber die Wahrscheinlichkeit groß, dass es eine Korrelation in der Grundgesamtheit dieser zwei Eigenschaften gibt????
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
ob nichtlineare regression angebracht wäre, kann ich nicht sagen. ich würde mich an den stoff halten, der gerade dran ist. einen nichtlinearen zusammenhang müsste man auf einem streudiagramm erkennen können z.b. dass die punkte sich in etwa u-förmig anordnen. wenn das nur eine wolke ist, dann spricht das gegen einen wie auch immer gearteten zusammenhang.
der signifikanztest sagt nur etwas über die wahrscheinlichkeit, einen zusammenhang von einer bestimmten stärke zu finden. er sagt nichts über den wahren wert in der population. wenn es in deinem begleitheft anders steht, kannst du es z.b. in der klausur ebenso ausdrücken. der dozent will es dann ebenso haben.
bitte beachte das skalenniveau deiner beiden variablen z.b. kannst du herkunft und stereotypes denken nicht korrelieren, weil herkunft eine kategoriale variable ist. habt ihr unterschiedliche koeffizienten gelernt z.b. spearman-korrelation für rangvariablen? ggf. kommen andere koeffizienten in frage.
der signifikanztest sagt nur etwas über die wahrscheinlichkeit, einen zusammenhang von einer bestimmten stärke zu finden. er sagt nichts über den wahren wert in der population. wenn es in deinem begleitheft anders steht, kannst du es z.b. in der klausur ebenso ausdrücken. der dozent will es dann ebenso haben.
bitte beachte das skalenniveau deiner beiden variablen z.b. kannst du herkunft und stereotypes denken nicht korrelieren, weil herkunft eine kategoriale variable ist. habt ihr unterschiedliche koeffizienten gelernt z.b. spearman-korrelation für rangvariablen? ggf. kommen andere koeffizienten in frage.
-
- Beiträge: 6
- Registriert: 17.03.2010, 09:35
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
nominal ist das, was in spss eingetragen ist? das kann/soll man ändern. bestimmte formate/angaben sind voreingestellt und sollen bei bedarf geändert werden. spss rechnet alles aus, ob es sinn macht oder nicht. korrelation herkunft mit was auch immer macht z.b. definitiv keinen sinn. alter z.b. ist nicht nominal siehe z.b. http://de.wikipedia.org/wiki/Skalenniveau.
-
- Beiträge: 6
- Registriert: 17.03.2010, 09:35
-
- Beiträge: 939
- Registriert: 13.05.2008, 10:52
missings werden nicht einbezogen, können aber bei einen großen datensatz und vielen korrelationen doch zu verzerrten ergebnissen bzw. fehlinterpretationen führen (wie dargestellt). was habt ihr denn im kurs zu den missings gelernt? ich würde mich mal mit den anderen studenten kurz schliessen, was die machen. auch wegen metrisch/nominal. kann es sein, dass im datensatz ein paar fallen eingebaut sind z.b. dass man alter als nominal angezeigt bekommt und es dann auf metrisch stellen muss?
-
- Beiträge: 6
- Registriert: 17.03.2010, 09:35
Das hab ich auch schon gedacht mit den Fallen
Aber nein, er soll so wie er ist korrekt sein.
Ich habe mich nochmal in einem anderen SPSS Buch belesen, da steht, für mich käme eigentlich nur der Kontingenzkoeffizient in Frage.
Könnte man Pearson aber nehmen, wenn eine Variable nominal ist und die andere metrisch?
Tut mir leid für die vielen Fragen, aber die anderen Studenten nehmens mit den Hausaufgaben nicht so... letzten Endes wird das Programm aber wohl nur der verstehen, der sich richtig damit auseinandersetzt. Also vielen herzlichen Dank für deine steten Antworten!!!

Ich habe mich nochmal in einem anderen SPSS Buch belesen, da steht, für mich käme eigentlich nur der Kontingenzkoeffizient in Frage.
Könnte man Pearson aber nehmen, wenn eine Variable nominal ist und die andere metrisch?
Tut mir leid für die vielen Fragen, aber die anderen Studenten nehmens mit den Hausaufgaben nicht so... letzten Endes wird das Programm aber wohl nur der verstehen, der sich richtig damit auseinandersetzt. Also vielen herzlichen Dank für deine steten Antworten!!!