Interpretation von Signifikanz

Beitrag von **stats-beginner** » 13.10.2009, 17:05

Hallo Leute,

ich benötige Hilfe bei der Interpretation von Signifkanzwerten.
Ich habe den Mann-Whitney-Test durchgeführt nachdem der Kruskal-Wallis mir sagte, dass es Unterschiede gibt. Ich habe vier Alterskategorien (18-29; 30-39; 40-49 und 50-68jährige), die ich mit mit der Frage gekreuzt habe, wie viel % des Einkommens durch den Unterricht in einer Sportart erzielt wird (es sind freie Sportlehrer, die befragt wurden).
Die 50-68jährigen unterscheiden sich von allen anderen Gruppen signifikant und hatten im Kruskal-Wallis-Test den niedrigsten Rang (mittlerer Rang 220,78, alle anderen lagen höher).
Den Mann-Whitney-Test habe ich für jedes Paar durchgeführt - wie gesagt, nur die 50-68jährigen unterscheiden sich.
Der Jahrgang der 50-68jährigen ist absolut die kleinste Gruppe.
Meine Frage: Wie ist das zu interpretieren? Bedeutet es, dass für diese Gruppe die Sportstunden den größten Teil des Einkommens ausmachen und damit besonders wichtig sind?

Gruß

Beitrag von **KarinJ** » 14.10.2009, 07:57

Bedeutet es, dass für diese Gruppe die Sportstunden den größten Teil des Einkommens ausmachen und damit besonders wichtig sind?

nein. diese aussage kann man so nicht treffen. eventuell ist der satz nur zweideutig formuliert, vielleicht auch falsch:

zunächst geht man vom kruskal-wallis-test aus. ich nehme an, der war signifikant. dann würde die aussage, die man treffen kann, lauten: es gibt einen unterschied zwischen den altersklassen im anteil des einkommens, der durch unterricht in sportart x erzielt wird bzw. unscharf formuliert: es gibt einen zusammenhang zwischen alter und einkommensanteil.

dann erfolgen die paarvergleiche, um den unterschied zu lokalisieren. es unterscheiden sich also die 50-68jährigen von allen anderen gruppen? auch an einem z.b. bonferroni-adjustierten signifikanzniveau, das wäre: normales signifkanzniveau z.b. .05 geteilt durch anzahl der tests? siehe bortz für diese adjustierung und alternativ holms-adjustierung (es gibt sicher weitere alternativen, zu denen ich aber nichts sagen kann).

angenommen, es unterscheidet sich nach der adjustierung immer noch die eine gruppe von allen anderen gruppen, erinnere man sich daran, was man eigentlich getan hat: es wurde verglichen der anteil des einkommens für eine sportart jeweils zweier altersgruppen.

man kann nun also sagen, dass die 50-68jährigen gegenüber den anderen altersklassen den größeren bzw. kleineren anteil haben (je nach codierung, siehe unten).

da sie sich von allen anderen klassen unterscheiden, haben sie das den größten bzw. kleinsten anteil von allen altersklassen (je nach codierung, siehe unten). man kann allerdings keine aussage darüber machen, was dieser anteil für das gesamteinkommen dieser altersgruppe ausmacht, da man ja nicht die anderen einkommensanteile mit dem für sport innerhalb jeder altersgruppe verglichen hat! man kann also nicht sagen, dass für diese gruppe die sportstunden den größten teil des einkommens (was impliziert: ihres einkommens bzw. einkommen der 50-68jährigen insgesamt) ausmachen und damit besonders wichtig sind.

ausserdem: wenn die 50-68jährigen im kruskal-wallis-test den niedrigsten mittleren rang hatten, dann müßten sie eigentlich einen niedrigeren anteil haben als die anderen - obwohl das natürlich eine frage der codierung ist. wie hast du das einkommen codiert? üblich wäre, niedrigen klassen auch niedrige zahlen zuzuweisen - hast du das so gemacht oder ist es bei dir umgekehrt (niedriges einkommen = hohe zahl, hohes einkommen = niedrige zahl)? im letzteren fall würde dann ein niedriger mittlerer rang für ein hohes einkommen stehen, im ersten fall würde ein niedriger mittlerer rang ein niedriges einkommen bedeuten.

Beitrag von **stats-beginner** » 14.10.2009, 09:41

Hallo und vielen Dank für Deine Antwort. Alles habe ich nicht verstanden aber es geht schon.
Ja, Du hast recht. Die 50-68jährigen haben die niedrigsten Ränge beim Kruskal-Wallis-Test.
Die Ränge sind folgendermaßen:

18-26 282,18
30-39 302,39
40-49 284,26
50-68 220,78

die Asymptotische Signifikanz des Tests lag bei 0,004.
Folgende Fragen hatte ich gekreuzt: Einmal wollte ich wissen wieviel % des Einkommens auf, in dem Fall Golfstunden, also Golfunterricht entfallen und diese Frage habe ich mit dem Alter gekreuzt.
Dann habe ich den Kruskal Wallis Test durchgeführt und als dieser einen Unterschied zeigte, führte ich den Mann-Whitney-Test durch für die paarweisen Vergleiche. Heraus kam, dass sich die 50-68jährigen unterscheiden und zwar folgendermaßen (jedoch nur von den 30-39jährigen, das hatte ich falsch gesehen:
30-39 signifikanz bei 0,000

Das heißt also, zwischen diesen beiden gibt es einen Unterschied. Der ja auch schon über die Ränge angezeigt wird oder?
Die 50-68jährigen bilden die zahlenmäßig schwächste Gruppe in dieser Kreuztabellierung, die 30-39jährigen die stärkste Gruppe.
Welche Aussage, ausser der, dass einen Unterschied gibt, kann ich nun treffen?

Gruß

Beitrag von **KarinJ** » 14.10.2009, 10:30

du kannst sagen (aufgrund kruskal-wallis), dass ein unterschied der einkommensanteile aufgrund von golf-unterricht innerhalb der altersgruppen festgestellt wurde.

dann würdest du sagen, dass der effekt mit hilfe von mann-whitney-u-tests lokaliert wurde.

u-tests hast du ausgeführt 6 stück, wenn ich mich nicht verzählt habe. dann wäre das bonferroni-adjustierte signifikanzniveau, das von einem u-test unterschritten werden muss, damit er als signifikant gilt: .05 / 6 = .008 --> das ist der fall beim vergleich vom 50-68 mit 30-39. die aussage wäre dann, dass zwischen den beiden gruppen ein signifikanter unterschied vorliegt im einkommensanteil durch golf-unterricht.

die angabe der mittleren ränge nützt mir nichts, um zu sehen, welche gruppe das größere einkommen hatte. man muss wissen, ob niedriges einkommen mit niedrigen zahlen und hohes einkommen mit hohen zahlen codiert wurde (oder ob es umgekehrt gemacht wurde). das wäre normal und auch sinnvoll, weil es missverständnisse ausschliesst. dann wäre nämlich die niedrigere mittlere rangsumme das niedrigere einkommen. man muss dazu allerdings die mittlere rangsumme des u-testes heranziehen.

die unterschiede in der gruppenstärke sollten keine bedeutung haben, da die rangsumme gemittelt werden. grenzen für die gruppengröße im u-test bzw. für das verhältnis der gruppenstärken kenne ich leider nicht.

Beitrag von **stats-beginner** » 14.10.2009, 11:29

Hallo und vielen Dank noch mal.
Also was die Höhe der Einkommensangaben angeht, verfuhr ich wie folgt. Da die Antworten frei eintragbar waren und in Prozent, habe ich die Angaben für den Test klassiert.
Das heißt ich habe alle Angaben, die bis zehn Prozent liefen eben auch bis 10% klassiert. Also, hatte jemand eine 1 eingetragen für "1% meines Einkommens entfällt auf Golfstunden", so habe ich die 1 unter "bis 10%" einsortiert, alles über 10 bis einschließlich 20 habe ich in der Kategorie bis 20% klassiert und codiert und so fort.
Danach habe ich dann die Kreuztabelle, anschließend die Tests durchgeführt.
Nachdem, was Du mir sagst, kann ich also nun sagen, dass es einen signifikanten Unterschied zwischen den 30-39jährigen und den 50-68jährigen gibt. Wenn ich mir die Verteilung der Daten ansehe, so stelle ich fest, dass in der Kreuztabellierung, die höchsten Werte auf die 30-39jährigen entfallen. Kann ich zumindest sagen, dass für diese Gruppe, das Entgeld aus den Golfstunden sehr wichtig ist?

Gruß

Beitrag von **KarinJ** » 14.10.2009, 11:48

wichtig ist, dass du die "1" für "bis 10%", die "2" für "bis 20%" auch als codes in deiner datei verwendet hast. dann würde ein niedriger rang auch ein niedrigeres einkommen bedeuten.

du kannst nicht sagen, dass das entgelt für diese gruppe wichtig ist, denn du hast nicht nach der wichtigkeit gefragt. du hast nur festgestellt, dass diese gruppe deskriptiv den höchsten wert hat. du hattest ausserdem festgestellt, dass diese gruppe sich nur von den 50-68jährigen unterscheidet, d.h. dass es statistisch betrachtet, zu den restlichen gruppen keinen unterschied gibt bzw. genauer formuliert: der unterschied ist nicht signifikant/ bedeutsam.

Beitrag von **stats-beginner** » 14.10.2009, 11:57

Hallo - deine Antworten lassen mich klarer sehen!
Die 2 habe ich auch für "bis 10%" codiert, erst ab 11 habe ich bis 20 alles für 20% codiert.
Demnach müssten also die niedrigen Ränge auch niedrige Werte haben. In der Kreuztabelle ist das prozentual auch so.
Ich werde nun lediglich mitteilen, dass der Unterschied zwischen den beiden Altersgruppen statistisch siginifikant ist. Das müsste dann doch in Ordnung sein?

Viele Grüße

Beitrag von **KarinJ** » 14.10.2009, 13:01

Ich werde nun lediglich mitteilen, dass der Unterschied zwischen den beiden Altersgruppen statistisch siginifikant ist. Das müsste dann doch in Ordnung sein?

das ist das ergebnis des tests.

2 habe ich auch für "bis 10%" codiert, erst ab 11 habe ich bis 20 alles für 20% codiert

das ist ein missverständnis. die antworten 1% bis 10% sollten der kategorie "1" zugeordnet sein, d.h. mit 1 codiert; die antworten 11% bis 20% sollten mit 2 codiert sein usw.

Beitrag von **stats-beginner** » 14.10.2009, 13:16

Hm Okay,

das würde bedeuten, dass ich die bereits klassierte Variable noch einmal klassieren sollte!?

Beitrag von **KarinJ** » 14.10.2009, 13:26

verstehe ich das richtig, du hast die antworten codiert:

1% bis 10% = 10
11% bis 20% = 20
usw.

das ist auch ok. letztendlich kommt es nur darauf an, dass die zahlen, die für die codierung der merkmalskategorien verwendet werden, eine rangreihenfolge ergeben. ob man mit 10, 20, 30... codiert oder mit 1, 2, 3... oder sogar 0, 99, 200 .... spielt keine rolle.

Beitrag von **stats-beginner** » 14.10.2009, 13:44

Ja, das ist korrekt. Wenn also im Fragebogen jemand angegeben hatte, dass die Golfstunden, die er gibt rund 1% seines Gehaltes ausmachen, so konnte er das im Bogen selbst genauso reinmalen.
für die spezielle Auswertung im Rahmen der Kreuztabelle mit dem Alter und dann auch die Tests habe ich die Variable klassiert, indem ich von 1-10 alles = macht bis 10% des Einkommens aus gesetzt habe.
So kam ich auf die Kategorien.
nun gibt mir der Kruskal-Wallist Test genau diese Kategorien auch an - ich glaube nicht, dass er sie dabei ordnet, also etwa bis 10% nach ganz unten etc. Ich sehe wohl aber die mittleren Ränge und hier gibt es eben Unterschiede. In denen liegen manche Kategorien höher als andere.

Viele Grüße

Statistik-Tutorial Forum

Interpretation von Signifikanz

Interpretation von Signifikanz

Signifikanzniveau interpretieren