Hallo zusammen,
ich habe einen Datensatz ca. 450 Beobachtungen. Die Erstellung der Umfrage oblag dem Lehrstuhl, alle relevanten IVs sind gemessen auf einer 7-Likert-Scale. Die Umfrage liegt einem geprüftem theoretischem Modell zugrunde. Neben zwei DVs, wurden IVs, Moderatoren und Kontrollvariablen inkludiert.
Im ersten Schritt habe ich die IVs zu insgesamt vier Faktoren gemergt, dies ist auch signifikant und soweit in Ordnung. Die summated Scales der einzelnen Faktoren habe ich berechnet. Nun möchte ich eine lineare Regression rechnen, um den Einfluss der Moderatoren oder deren Interaktionseffekt mit jedem Faktor auf die DV zu testen. Um das Ganze etwas anschaulicher zu machen.
DV:
Repurchase
Recommendation
Wir haben die Faktoren:
VE (Value-Equity)
BE (Brand-Equity)
RE (Relationship-Equity)
Kontrollvariablen:
gender
income
education
Nun habe ich u.a. Moderatoren wie "Intensity" und "Complexity". Klar ist, dass ich jeden Interaktionseffekt berechne und als neue Var. definiere, also z. B. VE*Intensity, VE*Complexity, BE*Intensity usw.
So was nun? Rein intuitiv würde ich nun "alles in einen Topf schmeißen", also Faktoren, Moderatoren, Interaktionseffekte und einfach die Kontrollvariablen hinzufügen.
Wäre das so korrekt? Das Resultat ist allerdings höchst fragwürdig, da fast nichts signifikant ist und eine enorm hohe Multikollinearität herrscht (Condition Index > 200). Dies macht eigentlich ja auch Sinn, da die Interaktionseffekte logischerweise mit den Faktoren korrelieren.
Und genau an dieser Stelle hänge ich seit Tagen. Ich habe zwischenzeitliche Regressionen gerechnet, die rein den Moderator auf jeden Faktor berücksichtigen. Also lineare Regressionen z.B. mit VE, Intensity und Intensity*VE (Interaktionseffekt). Insgesamt waren das 24 Regressionen, wobei nur bei 2 Regressionen bis auf die Constante alles signifikant bei einem 5% level ist.
Nun habe ich jedoch keinerlei Plan wie ich fortführen sollte. Kann ich einfach sagen, ich nehme nur die beiden Moderatoren (in meinem Fall Intensity, VE*Intensity, Complexity, VE*Complexity) in mein Gesamtmodell mit rein, deren Effekt isoliert betrachtet signifikant ist? Alle weiteren Effekte z.B. BE*Intensity, BE*Complexity etc) würde ich einfach ausschließen und sagen "Effekt war nicht signifikant". Ist das so korrekt? Abschließend noch eine Antwort meiner Professorin: "Your model specification should include VE, BE, RE, moderator and control variables. However, I would actually test each moderating effect separately to reduce the multicollinearity issue." Schön und gut, aber wie reduziere ich dann die Multikollinearität?
Entschuldigt den langen Text, aber ich weiß mittlerweile echt nicht mehr wo mir der Kopf steht.
Bin über jede Hilfe dankbar.
Viele Grüße
Tecmaster
Moderierte Regression Full model vs. Multikollinearität
-
- Beiträge: 1
- Registriert: 15.01.2018, 09:30
-
- Beiträge: 2734
- Registriert: 01.02.2018, 10:45
Re: Moderierte Regression Full model vs. Multikollinearität
hallo
ich schätze dein problem ist noch aktu.
wenn man alle variablen zentriert oder standardisiert verringert sich die Multikollinearität .
(siehe A F Hayes moderation und mediation...., der hat im augenblich glaub ich den besten überblick, den kennst du vielleicht).
- es kann sein, das das ganze nicht signifikant wird, gerade wegen der Multikollinearität.
wenn die grundlage ein "geprüftes modell" ist warum prüfst du es nicht genauso, wie schon geprüft und bestätigt wurde.
was heist das "gemergt"? dast du alles in eine Faktorenanlyse geschmissen und die Faktorwerte berechnet?
- wo ist denn der unterschied zwischen moderatoren und kontrollvariablen? der klassische moderator ist doch geschlecht (wenn das mit gender gemeint ist)
- der moderator muss nicht teil des modells sein, es langt wenn er moderiert
- die verteilung des moderators checken und dann dichotomisieren, dann multiplizieren.
- nicht unbedingt gut für meinen geschmach, intervallniveau mit intervallniveau zu multiplizieren
(sieht jedoch Frazier, Barron "testing moderator and mediator....")
- vielleicht die moderatoren auch mergen.
einkommen und education (meint das ausbildung oder erziehung?) korreliert, da kann man einen faktor draus machen.
- bau dein Modell schrittweise auf, zuerst die normalen UV (in inglisch DV) dann nur eine interaktion dazutun
und auf signifikanten zuwachs (R^2) testen (wie deine Prof erklärt), aber dann hast du die interaktionen der interaktionen
der intraktionen nicht mit drin.
- umfragedaten sind fehleranfällig.
- es kann auch sein, dass eher auf eine große stichprobe geziehlt wurde, und dabei die Valdität der Umfrage vernachlässigt wurde.
- worum geht es überhaupt? unter "intensity" kann ich mir leider nix vorstellen.
- es würde helfen wenn man sich klar macht über die Zielsetzung des Modells: Vorhersage, Anwendung oder Erklärung, je nachdem müsste man
das Modell anders bauen.
- das Modell ist falsch, weil ein individuum nur zwei bis drei Variablen involviert, dabei aber verschiedene Individuen auch verschiedene Variablen.
jetzt schmeist man alles in den statistik topf und hat 50 relevante Variablen...in einen Model, das für niemanden gilt.
such dir drei personen cluster mit drei unterschiedlichen Modellen.
Entschuldigt den langen Text
gruß
dutchie
ich schätze dein problem ist noch aktu.
wenn man alle variablen zentriert oder standardisiert verringert sich die Multikollinearität .
(siehe A F Hayes moderation und mediation...., der hat im augenblich glaub ich den besten überblick, den kennst du vielleicht).
- es kann sein, das das ganze nicht signifikant wird, gerade wegen der Multikollinearität.
wenn die grundlage ein "geprüftes modell" ist warum prüfst du es nicht genauso, wie schon geprüft und bestätigt wurde.
was heist das "gemergt"? dast du alles in eine Faktorenanlyse geschmissen und die Faktorwerte berechnet?
- wo ist denn der unterschied zwischen moderatoren und kontrollvariablen? der klassische moderator ist doch geschlecht (wenn das mit gender gemeint ist)
- der moderator muss nicht teil des modells sein, es langt wenn er moderiert
- die verteilung des moderators checken und dann dichotomisieren, dann multiplizieren.
- nicht unbedingt gut für meinen geschmach, intervallniveau mit intervallniveau zu multiplizieren
(sieht jedoch Frazier, Barron "testing moderator and mediator....")
- vielleicht die moderatoren auch mergen.
einkommen und education (meint das ausbildung oder erziehung?) korreliert, da kann man einen faktor draus machen.
- bau dein Modell schrittweise auf, zuerst die normalen UV (in inglisch DV) dann nur eine interaktion dazutun
und auf signifikanten zuwachs (R^2) testen (wie deine Prof erklärt), aber dann hast du die interaktionen der interaktionen
der intraktionen nicht mit drin.
- umfragedaten sind fehleranfällig.
- es kann auch sein, dass eher auf eine große stichprobe geziehlt wurde, und dabei die Valdität der Umfrage vernachlässigt wurde.
- worum geht es überhaupt? unter "intensity" kann ich mir leider nix vorstellen.
- es würde helfen wenn man sich klar macht über die Zielsetzung des Modells: Vorhersage, Anwendung oder Erklärung, je nachdem müsste man
das Modell anders bauen.
- das Modell ist falsch, weil ein individuum nur zwei bis drei Variablen involviert, dabei aber verschiedene Individuen auch verschiedene Variablen.
jetzt schmeist man alles in den statistik topf und hat 50 relevante Variablen...in einen Model, das für niemanden gilt.
such dir drei personen cluster mit drei unterschiedlichen Modellen.
Entschuldigt den langen Text
gruß
dutchie