Teststärke zu gering für Hypothesenprüfung

Beitrag von **Patrick_T** » 31.07.2019, 09:44

Hallo,

folgender Tatbestand:

Ich habe meine ungerichtete Unterschiedshypothese mit dem t-Test untersucht. (UV = dichotom/nominal, AV = intervallskaliert)
Vor.: alle Varianzen gleich (F-Test nicht sign), nomalverteilt (da Stichprobe der Gruppen n1= 100 und n2 = 239), StiPro unabhängig

Ich habe keinen signifikanten Unterschied feststellen können (t(337) = -0,605, p = .545), daher habe ich daraufhin die Teststärke und Effektstärke (beides mit G*Power) berechnet.
Diese liegt mit einer Effektstärke von gerade einmal d = .07 bei 1-Beta = .09 (nein, kein Schreibfehler...)

Auch die ANOVA brachte ähnliche Ergebnisse (F = 0.366, Quadratsumme = 0,130, p = .545) und bei der Teststärkenprüfung kamen ebenso schlechte Ergebnisse heraus (f = 0.03, 1-Beta = 0.09).

Nach Bortz/Döring kann ich nun nicht einmal die Nullhypothese annehmen, weil ja meine Teststärke super klein ist. Richtig?
Ich habe auch nochmal den Mann-Whitney-U-Test durchgeführt, kamen aber wie erwartet ähnliche Ergebnisse bei raus. (U = 11526,500, z = -0.515, p = .606, d = 0.07, 1-Beta = 0,09)

Bei der Stichprobemumfangsplanung habe ich schon bemerkt, dass meine Stichprobe viel zu klein ist- das wird das Problem sein. Bedeutet das aber jetzt, dass meine Daten letztendlich unbrauchbar sind? Wie interpretiert man denn sowas? Und gäbe es noch einen anderen Test, der mir mit mehr Teststärke vielleicht helfen könnte, wenigstens die Nullhypothese anzunehmen?

DANKE!

Viele Grüße
Patrick

Beitrag von **dutchie** » 31.07.2019, 13:56

hallo Patrick

deine stichproben sind nicht klein, die sind groß...

Patrick_T hat geschrieben:Nach Bortz/Döring kann ich nun nicht einmal die Nullhypothese annehmen, weil ja meine Teststärke super klein ist. Richtig?

die teststärke entscheidet durch den Betafehler über die Alternativhypothese nicht die Nullhypothese..

nein..dein d = 0.07 wird bei deiner stichprobe nicht signifikant, --> H0: d = 0 beibehalten, das ist aber identisch mit Annahmen H1 (...)
H1 = nicht H0, entweder oder!!

die Bortz Logik bezieht sich auf eine spezifizierte Alternativhypothesen H1: d >= 0.07, die hattest du aber nicht, hättest du die gehabt
hättest du die Fallzahlkalkulation vorher gemacht, nicht hinterher und dein N wäre größer, aber so ein kleines d würde keiner testen wollen,
weil es praktisch bedeutungslos ist.

also du mußt die H0 annehmen, weil alpha groß!

Die teststärke ist bei dir auch so klein, weil der Effekt so klein ist.
Du behältst die H0: d = 0 bei, lehnst H1: d ungleich 0 ab, und der Effekt von dem du ausgehst ist d = 0, das ist das was die H0 behauptet.
und nicht d = 0.07.
also ist deine Stichprobe nicht zu klein und der test nicht zu schwäch, deine Hypothesen (UV AV Annahmen) stimmt einfach nicht,

Patrick_T hat geschrieben:Nach Bortz/Döring kann ich nun nicht einmal die Nullhypothese annehmen, weil ja meine Teststärke super klein ist. Richtig?

Nach Bortz/Döring kann ich nun nicht einmal die Nullhypothese (eher die H1???) annehmen, weil ja meine Teststärke super klein ist. Richtig?
nein..die teststärke entscheidet durch den betafehler über die Alternativhypothese nicht die Nullhypothese..
du meinst du mußt die H0 beibehalten und kannst die H1 gleichzeitig nicht verwerfen?

du hast einen betafehler von beta = .91 du kannst H1 nicht ablehnen beta > 0.05
und bei einen alpha fehler von .545 H0 auch nicht, du kannst beide hypothesen gleichzeitig nicht verwerfen, beide Hypothesen stimmen?

... aber auf welche Hypos bezieht sich das dann?

also H0: d = 0 mit alpha .545 und H1: d = 0.07 mit beta .91 ???
beides kann nicht gleichzeitig wahr sein, aber gleichzeitig falsch (alpha und beta < .05) !!
N wird so gewählt, das mindestens eine Hypo immer signifikant ist, mindestens ein Fehler < .05!

aber hast du denn obiges Hypo Pärchen?
es ist so, dass du vier Hypothesen im Spiel hast !

H0a: d <= 0 vs. H1a: d > 0 (einseitig alpha = .27)?
H0b: d > 0.07 vs. H1b: d <= 0.07 (einseitig beta =.45)?

H0a kann nicht abgelehnt werden und H1b auch nicht
dein d war ursprünglich negativ?
beide Hypos H0a und H1b können gleichzeitig wahr sein!
d <= 0 und d <=0.7

gruß
dutchie

Beitrag von **Patrick_T** » 02.08.2019, 14:02

Hi dutchie,

hab ich verstanden. Habe in meiner Stichprobenumfangsplanung aber Annahmen getroffen (die letztendlich falsch waren...). Das sind jetzt meine Ergebnisse:
Laut Levene-Test der Varianzgleichheit mit F = 3.45 bei einem Signifikanzniveau von p = .057 lag bei der Variablen Stressempfinden keine Varianzhomogenität vor. Aus diesem Grund verwendete ich die Ergebnisse des Welch-Tests, welche in der Zeile für ungleiche Varianzen angezeigt wurde. Es zeigte sich kein statistisch signifikanter Unterschied zwischen der Ausprägung des Stressempfindens der Gruppe Meditierende und der Kontrollgruppe Nicht-Meditierende, t(326) = -1.028, peinseitig = .153. Das Stressempfinden der Teilstichprobe Meditierende war in der Untersuchung 1.028 Einheiten geringer als das der Teilstichprobe Nicht-Meditierende. Die wahre Differenz lag dabei laut 95 %-Konfidenzintervall zwischen -2.32 und 0.73. (95 % CI [-2.32; 0.73]). Das bedeutet, das Stressempfinden der Gruppe Meditierende war sowohl geringer (-2.32) als auch höher (0.73) als bei der Gruppe Nicht-Meditierende.

Die Alternativhypothese, dass das Stressempfinden von meditierenden Arbeitnehmerinnen und Arbeitnehmern geringer ist, als das der nicht meditierenden Arbeitnehmerinnen und Arbeitnehmer, musste verworfen werden (p > .05).

In meiner Stichprobenumfangsplanung ging ich von einem mittelstarken Effekt (d = 0.50), einem Signifikanzniveau von α = .05 sowie einer Teststärke von 1-β = .80 aus und ermittelte dafür einen optimalen Stichprobenumfang von n = 102. Es sollte nun anhand der tatsächlichen Effekt- und Teststärkeergebnissen der Untersuchung das Beta-Fehlerniveau überprüft sowie berechnet werden, wie groß die Stichprobe hätte sein müssen, um einen möglichen Effekt mit einer Teststärke von 1-β = .80 in der Stichprobe aufzudecken. Zur Überprüfung des Beta-Fehlers, d.h. ob nach Ablehnung der H1 die Nullhypothese angenommen werden konnte, musste ich zunächst die Teststärke berechnen und β bestimmen. Die Berechnung der Effektstärke Cohen’s d mit G*Power ergab d = 0.13 (M1 = 16.57, M2 = 17.36, SD1 = 6.49, SD2 = 5.69), was eine erhebliche Differenz zum erwarteten mittelstarken Effekt darstellte (d = 0.50). Nach Einteilung von Cohen (1988) lag der Wert unterhalb einer Effektstärke für einen kleinen Effekt (d = 0.2). Die Berechnung der Teststärke über G*Power ergab 1- β = .28 (einseitig, d = 0.13, α = .05, n1 = 92, n2 = 234). Das bedeutete, dass die Wahrscheinlichkeit für ein statistisch signifikantes Ergebnis, wenn in Wirklichkeit ein Populationseffekt bestünde, bei 28 % lag. Die Wahrscheinlichkeit, H1 abzulehnen und H0 anzunehmen, obwohl in Wirklichkeit H1 galt (β -Fehler), lag bei 91 %. Die optimale Effektstärke lag bei der vorliegenden Stichprobe für ein statistisch signifikantes Ergebnis, wenn in Wirklichkeit ein Populationseffekt bestünde, bei d = 0.31 (einseitig, α = .05, 1- β = .80, n1 = 92, n2 = 234). Die optimale Stichprobe lag mit der tatsächlichen Effektstärke bei n = 1808, n1 = 511 und n2 = 1297 (einseitig, α = .05, 1- β = .80, Allocation ratio n2/n1 = 2.54).
Schließlich verwerfe ich die Alternativhypothese (α > .05), kann jedoch durch die in der Stichprobenumfangsplanung angenommenen Werte auch nicht die Nullhypothese annehmen (β > .20).

VG
Patrick

Beitrag von **dutchie** » 02.08.2019, 15:56

hallo Patrick

..ein durcheinander!!

....

Patrick_T hat geschrieben:Schließlich verwerfe ich die Alternativhypothese (α > .05), kann jedoch durch die in der Stichprobenumfangsplanung angenommenen Werte auch nicht die Nullhypothese annehmen (β > .20).

zum vertändnis, obiges ist nicht deine abschließende Bewertung, oder?
das hieße ja dann, dass du ...gar nichts entscheidest, weil obiges sich Widerspricht?

.??? !

ist aber auch eine Konsequenz des Vorgangs an sich!

Es muss entschieden werden, und in Wirklichkeit ist keinen Entscheidung auch eine Entscheidung!

du schreibst ja weiter oben:

Patrick_T hat geschrieben:Die Alternativhypothese, dass das Stressempfinden von meditierenden Arbeitnehmerinnen und Arbeitnehmern geringer ist, als das der nicht meditierenden Arbeitnehmerinnen und Arbeitnehmer, musste verworfen werden (p > .05).

das ist dein abschließendes ergebnis oder?
..man sagt aber.. nicht die H1 verwerfen, du testet ja die H0, und du sagst: ..die H0 wird beibehalten

Patrick_T hat geschrieben:Das bedeutet, das Stressempfinden der Gruppe Meditierende war sowohl geringer (-2.32) als auch höher (0.73) als bei der Gruppe Nicht-Meditierende.

..und das kingt auch komisch!.. die Nulldifferenz ist im CI enthalten--> H0 beibehalten

Du bekommst jeden effekt signifikant, wenn du die Stichprobengröße erhöhst!
d.h. jeder Testsituation endet so wie bei dir, wenn H0 nicht sig wird.
das heißt das Problem ist die Stichprobengröße--?
nein!
bei dir ist α > .05 bei d= 0.13, n = 102, d.h du behältst die H0 bei, der Effekt ist nicht von null zu unterscheiden!
deine H1 behauptet d = 0.50 !!!! deine H1 kannst du verwerfen! Es gilt H0: d = 0
Meditation ist wirkungslos !!! ja aber wenn ich .....ja dann ist d auch erst mal nicht größer als 0.13, und nahe bei 0

du denkst:
Wenn du behauptest das d > 0 ist, machst du eine Fehler von alpha > 5% (p=??), deshalb tust du das nicht!--> HO gilt
Wenn du behauptest das d = 0 ist, machst du eine Fehler von beta > 20% (q=72%), deshalb tust du das nicht!--> H1 gilt
Das ist aber etwas, das gleichzeitig nie passieren kann!

ist dein alpha in der berechnung 0.05 richtig? müßte man nicht mit p rechnen, das du beobachtet hast!
zudem geht die Berechnung von Varianzhomogentät aus!

du gehtst davon aus, dass d = 0.13 der wahre effekt ist, den bekommst du mit 1-β = blabla signifikant bei n = 1808
entscheidung vertagen bis du 1808 Leute zusammen hast ? Das sind Planspiele! dadurch wird nichts entschieden!
Oder willst du weg von der Empirie? Fakt ist was die 102 gemacht haben. Die Rumrechnerei macht Meditation nicht wirkungsvoller,
man hat aber den eindruck...es soll wirkend gemacht werden..ganz gefährlich!

Ist denn ein d = 0.13 praktisch bedeutsam! im Gegensatz zu statistisch bedeutsam, bei N=102 ist d=0.13 statistisch nicht bedeutsam also = 0?
Darum geht es, ES ist wichtig die praktische bedeutsamkeit abzusätzen...
z.B. wenn ich mit therapie XY therapiere, lebt der Patient 30 sekunden länger, therapie XY kostet 3000 Euro, wer kann in 30 sekunden
3000 euro verdienen? Wie groß muss der Effekt der Meditation sein, dass der Nutzen durch verringerten Stress, die Kosten an Zeit
und Geld übersteigt, das musst du ausrechnen, das wäre dann dein d das du in die Fallzahlkalkulation einbringst.

gruß
dutchie

Statistik-Tutorial Forum

Teststärke zu gering für Hypothesenprüfung

Teststärke zu gering für Hypothesenprüfung

Re: Teststärke zu gering für Hypothesenprüfung

Re: Teststärke zu gering für Hypothesenprüfung

Re: Teststärke zu gering für Hypothesenprüfung