Hallo zusammen,
bei meiner Analyse bin ich gerade auf ein Problem gestoßen. Ich versuche mal, nur das wichtigste zu nennen: Ich Untersuche den Einfluss einer sportlichen Tätigkeit auf das subjektive Wohlbefinden (lineare Regression; Stata).
Dabei ist mir aufgefallen, dass in meinem Datensatz eine ganze Menge an Personen keinen Sport macht (etwa die Hälfte). Gefragt wurden die Teilnehmer nach dem wöchentlichen Aufwand in Stunden für Sport (pro Woche).
Jetzt ist es so: Wenn ich alle Versuchspersonen mit einbeziehe, dann bekomme ich keinen signifikanten Koeffizienten heraus (Sport hätte hier also keinen signifikanten Einfluss auf das subjektive Wohlbefinden). Wenn ich in meiner Regression allerdings nur die Leute mit einbeziehe, welche mindestens eine Stunde pro Woche Sport machen, dann wird der Koeffizient sehr wohl signifikant (bei alpha 5%).
Ich vermute, dass bei erster Vorgehensweise kein signifikantes Ergebnis rauskommt, da so ein hoher "0"-Anteil in den Daten herrscht und deshalb wenig Varianz vorhanden ist, was es der Regression schwerer macht, signifikante Ergebnisse hervorzubringen (mal laienhaft ausgedrückt). Ist diese Annahme vertretbar?
Deshalb meine Idee, nur die Sporttreibenden zu berücksichtigen. Ergibt sich dadurch ein Nachteil für meine Arbeit? Wenn ich sage, dass ich untersuche, welchen Einfluss Sport auf das subjektive Wohlbefinden hat, dann würden ja eigentlich beide Vorgehensweise mit dieser "Ankündigung" vereinbar sein, oder? Ich frage mich, inwiefern das die Qualität meiner Untersuchung verschlechtern wenn ich nur die Sporttreibenden miteinbeziehe. Immerhin diskriminiere ich ja.
Wenn ich die zweite Variante wähle, dann könnte ich z.B. sagen, dass eine Stunde Sport pro Woche das subjektive Wohlbefinden um (z.B.) 0,07 (Skaleneinheiten) erhöht. Könnte ich damit auch automatisch eine Aussage für die nicht-Sportler machen, nämlich dass diese im Schnitt ein um 0,07 geringeres Wohlbefinden aufweisen? Eine eigene Regression für die nicht-Sportler kann ich ja nicht rechnen, da diese alle den Wert "0" angegeben haben. Wäre das trotzdem eine runde Sache oder fällt jemandem eine bessere Idee ein, etwas zu den "nicht-Sportlern" zu sagen?
Ich würde mich sehr freuen, wenn mir dazu jemand einen Tipp geben könnte oder mir zumindest verrät, wonach ich in der Literatur suchen muss. Ich kenne den "Titel" zu meinem Problem nämlich nicht, was die Lösungssuche erheblich erschwert.
Viele Grüße!
Hoher Anteil mit Ausprägung "0" in meinem Datensatz
-
- Beiträge: 8
- Registriert: 18.04.2019, 12:50
-
- Beiträge: 2762
- Registriert: 01.02.2018, 10:45
Re: Hoher Anteil mit Ausprägung "0" in meinem Datensatz
hallo
wenn du die nuller berücksichtigst
ist es eher so, dass es bei denen auch viele gibt denen es gut geht..!
das ist was anderes!!!
du musst versuchen das vollständig zu beschreiben!!!
in etwas:
sport ja -nein hat keine wirkung
aber wenn sport, dann steigt das wohlbefinden mit der intensität
gruß
dutchie
wenn du die nuller berücksichtigst
ist es eher so, dass es bei denen auch viele gibt denen es gut geht..!
das ist was anderes!!!
du musst versuchen das vollständig zu beschreiben!!!
in etwas:
sport ja -nein hat keine wirkung
aber wenn sport, dann steigt das wohlbefinden mit der intensität
gruß
dutchie