Regressionsergebnis visualisieren

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
Konkordanz
Beiträge: 81
Registriert: 25.03.2018, 17:56

Regressionsergebnis visualisieren

Beitrag von Konkordanz »

Hallo Forum,

Ich arbeite gerade an einer wahlanalyse. Mein Ziel ist eine geeignete Form der Visualisierung zu finden, welche Merkmale einer Gemeinde welchen Einfluss auf das Wahlergebnis einer Partei haben.
Hierzu prüfe ich anfangs alle infrage kommenden Variablen in einem multiplen linearen Regressionsmodell , inwiefern diese für das Wahlergebnis einer Partei von Relevanz sind. Anschließend möchte ich die einflussreichen Variablen irgendwie visualisieren. Ist es sinnvoll, wenn ich diese dann deskriptiv darstelle?
Also angenommen die Arbeitslosenquote einer Gemeinde zeigt sich in der Regression einflussreich. Ist es zulässig, wenn ich dann zB deskriptiv beschreibe, wie das durchschnittliche Wahlergebnis der jeweiligen Partei in Gemeinden mit "geringer", "mittlerer" und "hoher" Arbeitslosigkeit" ausfällt? Die Frage ist für mich deshalb relevant, weil die deskriptive Auswertung ja dann wieder losgelöst vom Einfluss aller anderen Variablen dargestellt werden würde. Oder ist es notwendig, dass ich über die Regressionsgleichung verschiedene Situationen berechne?...für das obige Beispiel also verschiedene Arbeitslosenquoten eintippe, die Berechnung durchführe und die Ergebnisse anschließend grafisch darstelle?
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Regressionsergebnis visualisieren

Beitrag von dutchie »

hallo Konkordanz

du hast das problem richtig erkannt...

du brauchst beides:
r, y mit x1
r, y mit x2
r, y mit x3.. darstellen und testen
und
R y.123.. darstellen und testen

die wirkung von 1 2 3 auf y darstellen über Pfadigramm mit standardisierten Koeffizienten
die kleinen r darstellen zu kontrolle und eventell supression check...und...

denn es gibt zwei Arten, Größen von"Einfluss", einen für die Theorie (R, b,beta) und einen für die Anwendung (r)....
1. beta: einfluss X1 wenn andere konstant bleiben, multiple Regression
2. r: einflus von X1 wenn das nicht so ist.. X1 kann auf X2 wirken, dann ist einfluss von X1 bei 2 größer als bei 1, bivariat

denk dir: mutter schlägt vater, vater schlägt kind, mutter schlägt Kind, vater schlägt mutter.
wen verhafte ich? vater oder mutter? das ist eine Frage von 2.

Will ich Wahlverhalten erklären oder beeinflussen...?

gruß
dutchie
Konkordanz
Beiträge: 81
Registriert: 25.03.2018, 17:56

Re: Regressionsergebnis visualisieren

Beitrag von Konkordanz »

Hallo Dutchie,

danke für deine Antwort. Ich verstehe sie leider nicht ganz.
dutchie hat geschrieben: du hast das problem richtig erkannt... du brauchst beides:
r, y mit x1
r, y mit x2
r, y mit x3.. darstellen und testen
und
R y.123.. darstellen und testen
Was genau meinst du mit "beides"?
Und wie genau sollte ich r, y, x1-3 + Ry.123 "darstellen und testen"? Was bedeuten die Kürzel bzw. kannst du es mir es bitte etwas konkreter erklären?
dutchie hat geschrieben:Will ich Wahlverhalten erklären oder beeinflussen...?
Worauf verweist du mich mit dieser Frage? Dass man einerseits bivariate Zusammenhänge über Korrelationen darstellen kann, dies aber kaum Sinn ergibt und ich mich infolge dessen also für Pfaddiagramme mit den beta-Werten entscheiden soll?

Also: Bisher habe ich die bivariaten Zusammenhänge dargestellt und habe gemerkt, dass das keinen Sinn ergibt bzw. zu möglicherweise falschen Aussagen führt. Ich habe daher eine multiple lineare Regression durchgeführt, um den Einfluss von 20 Variablen auf das Wahlergebnis der Linkspartei und das Wahlergebnis der AfD zu prüfen. Im Falle der Linkspartei sind beispielsweise 8 von diesen 20 Variablen einflussreich:
  • - Anteil ungültiger Wähler/innnen-Stimmen
    - Bevölkerungsgröße (2017)
    - Relative Bevölkerungszu-/abnahme seit 2011
    - Durchschnittsalter der Bevölkerung
    - Anteil asylbezogener Regelleistungsempfänger/innen
    - Anteil Arbeitslose an allen Erwerbsfähigen
    - Anzahl landwirtschaftlicher Betriebe
    - Entfernung zum nächsten Braunkohletagebau
Wie gehe ich jetzt vor? Bastle ich mehrere Pfaddiagramme, um den Einfluss dieser Variablen auf das Wahlergebnis darzustellen (z.B. Ungültige Stimmen -> Wahlergebnis, Bevölkerungsgröße -> Wahlergebnis, usw.)?
Und was passiert mit den 12 Variablen, die im Regressionsmodell nicht signifikant sind? Diese sind zur Erklärung doch auch irgendwie wichtig, weil durch deren Kontrolle die besagten 8 Variablen ja erst einflussreich werden. Diese darzustellen, wäre aber wohl übertrieben.

Edit: Geht dein Vorschlag in etwa in diese Richtung (Seiten 8-10): https://tu-dresden.de/mn/psychologie/if ... df?lang=de

Auf Seite 7 sieht es so aus, als rechnet er mehrere Regressionsanalysen und nimmt die Beta-Werte für die Abbildungen und die Berechnung. Frage: Wird hier einfach vorausgesetzt, dass die Bedingungen einer lin. mult. Regression nicht verletzt sind, oder ist es gar nicht immer notwendig, alle Bedingungen erfüllt zu haben (z.B. Durbin Watson usw.)?

Auf der Seite 10 spricht er davon, dass die "Korrelationen" zu einem gesamten Einfluss verrechnet werden. Steht das Wort "Korrelationskoeffizient" hier synonym für die Beta-Werte aus der Regressionsanalyse? Oder kann man tatsächlich einfach die bivariaten Korrelationskoeffizienten zwischen allen Variablen für ein solches Kausalmodell verrechnen?



Edit:
Ich habe mir jetzt folgendes überlegt: Ich erstelle für jene Variablen, die sich in der lin. Regression als relevant erwiesen haben, ein Pfadmodell mit zwei Ebenen: a) Welche der 20 Variablen wirkt sich sign. auf die relevanten 8 Variablen aus und b) wie wirken sich die relevanten 8 Variablen auf das Wahlergebnis aus. Dabei nehme ich die Betawerte aus den Regressionen. Also zum Beispiel:

Ergebnis lin. Regression mit AV Durchschnittsalter: Frauenanteil der Bevölkerung wirkt sich auf das Durchschnittsalter der Bevölkerung aus.
Ergebnis lin. Regression mit AV Wahlergebnis: Das Durchschnittsalter der Bevölkerung wirkt sich signifikant auf das Wahlergebnis der Linkspartei aus.

Ich beschreibe also, dass der Frauenanteil sich sign. auf das Durchschnittsalter einer Gemeinde auswirkt und sich dieses Durchschnittsalter wiederum auf das Wahlergebnis auswirkt.

Anschließend erstelle ich mit ausschließlich den 8 relevanten Variablen einen Entscheidungsbaum:
Wie wirken sich die verschiedenen Ausprägungen der Variablen auf das gemittelte Wahlergebnis der Linkspartei aus (z.B. Wahlergebnis in einer Gemeinde mit überdurchschnittlichem Durchschnittsalter x%, während es in einer Gemeinde mit einem unterdurchschnittlichen Alter y% beträgt).

@Dutchie: Siehst du in diesem Vorgehen methodische Probleme, oder würdest du sagen, dass das Vorgehen so okay ist?
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Regressionsergebnis visualisieren

Beitrag von dutchie »

hallo Konkordanz

oh man.. wenn die Variable:
Entfernung zum nächsten Braunkohletagebau
sig wird...ist man dann schlauer..ich würde sagen nein.. was bedeutet das?

wenn du 20 Variablen hast machst du erst mal bevor du regressionsmodelle baust
die bivariaten korrelationen ..jeder mit jeden! das sind 190 korrelationskoeffizienten!
um das handhabbar zu machen macht du mit den 20 variablen eine Faktorenanalyse
und zerlegt das ganze in unabhängige Faktoren...diese tust du in die regression..
erstmal so zu gucken...explorativ..wie groß ist denn N?
warum nicht alle 20 Faktoren...

(das kann man anders und mit anderen Methoden besser machen)
das versucht du dann erstmal inhaltlich, theoretisch zu verstehen
Konkordanz hat geschrieben:Worauf verweist du mich mit dieser Frage? Dass man einerseits bivariate Zusammenhänge über Korrelationen darstellen kann, dies aber kaum Sinn ergibt und ich mich infolge dessen also für Pfaddiagramme mit den beta-Werten entscheiden soll?
das bivariat keinen sinn mach ist falsch! und warum machen die, wenn denn dann keinen Sinnd--> weil die UVs untereinader korreliert sind!
sind sie das nicht, ist die multiple Reg. lediglich ein zusammenzählen bivaraiter korrelationen...

gruß
dutchie
Konkordanz
Beiträge: 81
Registriert: 25.03.2018, 17:56

Re: Regressionsergebnis visualisieren

Beitrag von Konkordanz »

Hallo Dutchie,

naja, über den Sinn und Unsinn der Variable "Entfernung zum Braunkohleabbaugebiet" kann man unterschiedlicher Ansicht sein. Ich denke, dass sie sinnvoll ist. Denn hier - in Sachsen - wird häufig diskutiert, inwiefern gerade die AfD in Gegenden punkten konnte, die vom Braunkohleabbau bzw. vom Braunkohleausstieg betroffen sind. Wieso findest du das fragwürdig?

Die Faktorenanalyse hat kein sinnvolles Ergebnis erzielt. Mein N beträgt 417; praktisch fast alle sächsischen Gemeinden.

Ich bin jetzt wie folgt vorgegangen:
1. Regressionsanalyse mit allen 20 Variablen inkl. Bedingungen prüfen.
2. Visualisierung der Ergebnisse über bivariate Zusammenhänge und die partiellen Regressionsdiagramme.
3. Darstellung und Erläuterung von Baumdiagrammen. In das Baumdiagrammmenü setze ich alle 20 Variablen. Als "erste Variable" setze ich entsprechend diejenigen Merkmale, welche sich in der Regressionsanalyse als relevant erwiesenen haben.

LG
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten