Zusammenhangsanalyse im Zeitverlauf

Beitrag von **Konkordanz** » 11.03.2021, 12:04

Liebes Forum,

ich komme nicht weiter und brauche Rat. In meinem Datensatz habe ich für 419 Gemeinden eines Bundeslandes für jedes Jahr seit 1995 die Bevölkerungsgröße sowie die Anzahl der eingetragenen Vereine. Ich möchte herausfinden, inwiefern die Bevölkerungsentwicklung mit der Entwicklung der Vereinszahlen statistisch miteinander zusammenhängen (ob bspw. die Vereinsanzahl von der Bevölkerungsentw. abhängt). Ich bin mir allerdings unsicher, wie und mit welchem Modell ich vorgehen sollte. Kann mir jemand helfen? Mein bisheriges Vorgehen ist wie folgt:

1. Orientiert habe ich mich an einem Video (Link siehe unten), welches zu einer Linearen Regression rät und vorher den Datensatz ins Long-Format anpasst. Das habe ich gemacht. Jede der 419 Gemeinden kommt in einer einzigen Variable dadurch jeweils 26x vor; quasi für jedes Jahr 1x. Dasselbe gilt praktisch auch für die Bevölkerungs- und Vereinsvariable.
2. Anschließend habe ich für jede Gemeinde eine Dummyvariable erzeugt; dadurch entstehen 419 Variablen, die im Falle der jeweiligen Gemeinde eine 1 enthält und andernfalls eine 0.
3. m letzten Schritt habe ich die Vereinsvariable als AV sowie die Bevölkerungsvariable (UV) und alle Gemeinde-Dummyvariablen (UV; k-1) ins Regressionsmodell gepackt. Ergebnis: R² liegt bei ,979. Die Bevölkerungsvariable zeigt sich signifikant positiv (Regressionskoeffizient ,006); Beta 1,048).

Was bedeutet das aber für die Interpretation? Also, ist das R² nicht enorm hoch? Insgesamt vernachlässige ich beim Interpretieren innerhalb der Koeffizienten-Tabelle die 418 Zeilen für die Gemeinden und fokussiere die Bevölkerungsvariable, korrekt? Wie genau ist diese aber zu interpretieren? Kann ich durch das Ergebnis schlussfolgern, dass die Bevölkerungsentwicklung allgemein einen hochsign. positiven Zusammenhang zur Vereinsentwicklung aufweist? Oder muss die Interpretation ausschließlich in Bezug auf die Referenzgemeinde stattfinden (also auf die weggelassene Variable [k-1])? Und was ist mit einer Zusammenhangsstärke? Ist sie aus dem Ergebnis ableitbar?

Und insgesamt: Was haltet ihr von dem Vorgehen? Habe ich etwas übersehen? Wird das normalerweise anders gehandhabt? Gibt es ein Modell, was hierfür zielführender wäre?

Vielen Dank für Kritik und Unterstützung

Link zum Video: https://www.youtube.com/watch?v=5DJR6J3HDKU

Beitrag von **dutchie** » 12.03.2021, 13:20

Hallo Konkordanz,

R zu hoch? Wovon soll die Vereinsdichte, denn sonst abhängen?

Du hast eine hierarchische Analyse, Regression vor dir.
Mir ist gerade nicht klar, ob du das Modell richtig spezifiziert hast.

..weil du auch die Dummies selber gebaut hast, ich glaube das ist nicht nötig,
wenn du über gemischte Modelle rechnest. Als Faktor eingeben.

Du müsstest viellleicht die Variablen pro Gemeide am jeweiligen Mittelwert zentrieren!

Gemeinde ist ein Moderator, als dummies würde das nur bedeuten dass sich im Mittel
die Vereinszahlen unterscheiden, aber das ist kein Zusammenhang mit der Bevölkerung.

Die Gemeine dürfe vielleicht nicht als dummie in die Analyse eingehen sondern mit dem Bevölkerungmittelwert
vielleicht so:
Anzahl Vereine = a +b * Bevölkerung (zentriert) + c * Bevölkerung (zentriert) * dummies + d * Bevölkerungsdurchschnitt

Die zwei ebenen sind klar, oder?
ebene1: Zeitverlauf pro Gemeinde und
ebene2: Gemeinde

du könntest deine hypo ja auch für jede gemeinde einzeln testen.

siehe da:
https://ibb.co/ZdTHh8n

gruß
dutchie

Beitrag von **Konkordanz** » 22.03.2021, 08:50

Lieber Dutchie, vielen Dank für deine Antwort.

dutchie hat geschrieben: ↑
12.03.2021, 13:20
R zu hoch? Wovon soll die Vereinsdichte, denn sonst abhängen?

Vorsicht: Ich spreche von der Vereinsanzahl, nicht von der Vereinsdichte. Ich könnte auch mit der Vereinsdichte rechnen, befürchte aber, dass diese nicht optimal ist, da hierin ja schon rein rechnerisch die Bevölkerungsentwicklung steckt. Übrigens zeigt sich, dass die Vereinsdichte in Großstädten seit Jahren stagniert/sinkt, weil ihre Bevölkerung stärker steigt als die Vereinszahlen.

dutchie hat geschrieben: ↑
12.03.2021, 13:20
Du hast eine hierarchische Analyse, Regression vor dir.
Mir ist gerade nicht klar, ob du das Modell richtig spezifiziert hast.

..weil du auch die Dummies selber gebaut hast, ich glaube das ist nicht nötig,
wenn du über gemischte Modelle rechnest. Als Faktor eingeben.

Du müsstest viellleicht die Variablen pro Gemeide am jeweiligen Mittelwert zentrieren!

Gemeinde ist ein Moderator, als dummies würde das nur bedeuten dass sich im Mittel
die Vereinszahlen unterscheiden, aber das ist kein Zusammenhang mit der Bevölkerung.

Die Gemeine dürfe vielleicht nicht als dummie in die Analyse eingehen sondern mit dem Bevölkerungmittelwert
vielleicht so:
Anzahl Vereine = a +b * Bevölkerung (zentriert) + c * Bevölkerung (zentriert) * dummies + d * Bevölkerungsdurchschnitt

Die zwei ebenen sind klar, oder?
ebene1: Zeitverlauf pro Gemeinde und
ebene2: Gemeinde

du könntest deine hypo ja auch für jede gemeinde einzeln testen.

Leider verstehe anhand deines Textes überhaupt nicht, was genau du mir empfiehlst. Wahrscheinlich ein Mehrebenenmodell HLM? Also Analysieren>Gemischte Modelle>Linear? Ich habe viel recherchiert, finde aber nichts, was mir das Vorgehen mit Zeitreihen verständlich nahebringt. Könntest du mir nochmal verständlich beschreiben, wie du vorgehen würdest? Sorry!

Ich habe durch einen Freund folgendes Vorgehen vorgeschlagen bekommen:
Für jede Gemeinde errechne ich pro Jahr die Differenz der Bevölkerungszahl gegenüber 2009 (Siehe Screenshot). Also bspw. 2019-2009, 2018-2009 usw; wie weicht also ein jedes Jahr vom Anfangsjahr 2009 ab? Anschließend rechne ich ein lineares Regressionsmodell: Die abhängige Variable ist dann die Vereinszahl und die unabhängigen Variablen ist die Bevölkerungsgröße im Jahr 2009 (Bev_2009) sowie die Differenz gegenüber 2009.

Screenshot: https://ibb.co/ssxQmSk

Was hältst du von dem Vorgehen?
Danke nochmals für deine Unterstützung!

Beitrag von **dutchie** » 23.03.2021, 16:14

Hallo,

Ja ich meine irgendwas hierarchisches über gemischte Modelle.

Konkordanz hat geschrieben: ↑
22.03.2021, 08:50
ich habe viel recherchiert, finde aber nichts, was mir das Vorgehen mit Zeitreihen verständlich nahebringt.

..das ist auch ein endloses Thema

Vereinsdichte, war von mir unglücklich formuliert, wie du sagst erstmal mit der Anzahl rechnen.

Konkordanz hat geschrieben: ↑
22.03.2021, 08:50
Übrigens zeigt sich, dass die Vereinsdichte in Großstädten seit Jahren stagniert/sinkt, weil ihre Bevölkerung stärker steigt als die Vereinszahlen.

..wenn du das weißt, weißt du doch schon das wichtigste.

noch mal zum Verständnis:

Du hast drei Variablen Zeit, Bevölkerung zum Zeitpunkt und Vereinsanzahl zum Zeitpunkt.
Und die drei hängen alle ab voneinander, aber der Zusammenhang ändert sich in Äbhängigkeit von der Zeit.

Vielleicht erstmal nur in Hypothesen denken, egal wie dass dann statistisch mathematisch funktioniert.
Die Statistik findet sich dann schon...

mir klingt das so, dass die Zeit den Zusammenhang von B und V moderiert...
dann ist
AV : V
UV: B
Mod: Zeit

V = a + b * B + c * Z + d * Z * B

Aber die gemeinde spielt dabei keine Rolle!!

Tut sie aber...?

gruß
dutchie

Beitrag von **Konkordanz** » 27.03.2021, 15:56

dutchie hat geschrieben: ↑
23.03.2021, 16:14
Vielleicht erstmal nur in Hypothesen denken, egal wie dass dann statistisch mathematisch funktioniert.
Die Statistik findet sich dann schon...

Hmm, bist du dir sicher? Nach wie vor stehe ich weitgehend auf dem Schlauch, was das statistische Vorgehen betrifft.

dutchie hat geschrieben: ↑
23.03.2021, 16:14
Aber die gemeinde spielt dabei keine Rolle!!

Tut sie aber...?

Ja, tut sie ganz sicher. Vielleicht sollte ich mal mein allgemeines Vorhaben erläutern, sorry:

Jeder Fall im Datensatz ist eine Gemeinde. Mein Plan ist, zu prüfen, welche Faktoren eine lokale Stabilität begünstigen oder eben hemmen. "Stabilität" meint vor allem demografische Stabilität und damit das Gegenteil von Schrumpfung und Überalterung der Bevölkerung. Hierfür habe ich einen additiven Index gebastelt, der die durchschnittliche Entwicklung der vergangenen 15 Jahre anhand mehrerer Punkte zusammenfasst (z.B. Summe der jährlichen Wanderungssalden, geometrisches Mittel der Anteile junger Einwohner usw.) und final aus sieben Stufen besteht (bzw. zusammengefasst aus drei Stufen).

Meines Erachtens wäre es nun ratsam, diese "Schrumpfungsvariable" als abhängige Variable in ein Modell einzubetten. Unabhängige Variablen wären dann weitere Strukturmerkmale wie beispielsweise die Vereinszahlen, die kommunale Verschuldung, die Kriminalität, die Wahlergebnisse usw. Von allen UVs habe ich ebenfalls die jährlichen Zahlen der vergangenen 10-20 Jahre.

Mein Problem ist also nach wie vor:
Ich habe wie gesagt von jeder UV bis zu 20 einzelne Variablen (eine pro Jahr). Diese zeitlichen Entwicklungen sollten in das Modell integriert werden, nur weiß ich nicht wie. Es ist ja auch keine Lösung, alle Variablen aufzunehmen (also z.B. 20 Jahres-Variablen des Kriminalitätsaspekts, 20 Jahres-Variablen des Verschuldungsaspekts usw.). Hast du da einen schlauen Gedanken? Wie würdest du vorgehen?

Beitrag von **dutchie** » 28.03.2021, 15:46

Hallo

Konkordanz hat geschrieben: ↑
27.03.2021, 15:56
Jeder Fall im Datensatz ist eine Gemeinde

Ok, ich dachte du hättest pro Gemeinde mehrere Infos im Zeitverlauf.
Du fasst 15 Jahre zusammen, dann ist das aber keinen Analyse im Zeitverlauf, aber egal.

Konkordanz hat geschrieben: ↑
27.03.2021, 15:56
Mein Plan ist, zu prüfen, welche Faktoren eine lokale Stabilität begünstigen oder eben hemmen.

Sehr ambitioniert, bei so was weiß man gar nicht, wo mit denken anfangen.
z.B bei der AV angefangen: Ein Kommen und Gehen = Stabilität? numerisch ja, an sich nein!
Du brauchst ja erstmal drei Dissertationen um deinen Stabilitätsindex zu begründen,
und ob dieser für deine Thema dienlich ist, ist fraglich, als Label oder INfo aber bestimmmt interessant.

Interpretation:
Ziehen die Leute weg, weil die Kriminalität zu hoch, oder sinkt die Kriminalität, weil die Leute wegziehen.
Du kannst da mit time lags arbeiten AV zu t korrelieren mit UV zu t-1,
oder vielleicht mit cross-lagged panel .

Stehen dir überhaupt die entscheidenden Variablen zur Verfügung? Welche sind das?

Konkordanz hat geschrieben: ↑
27.03.2021, 15:56
Diese zeitlichen Entwicklungen sollten in das Modell integriert werden, nur weiß ich nicht wie. Es ist ja auch keine Lösung, alle Variablen aufzunehmen (also z.B. 20 Jahres-Variablen des Kriminalitätsaspekts, 20 Jahres-Variablen des Verschuldungsaspekts usw.).

Ist jetzt die Fülle der Variablen das Problem oder der Zeitaspekt?
Wohl beides.

Dann mach doch eine Faktorenanlyse zur Datenreduktion, das kannst du in Abhängigkeit von der AV machen (pls oder canonische Korrelation) oder nicht. Dies aber im Zeitverlauf zu machen ist auch wieder tricky.
Du kannst die Zeit konstant lassen und über die Gemeinden analysieren, dann bekommst du soviele
Faktorenanalysen wie Zeitpunkte...googl mal Datenquader...

Explorativ versus confirmatorisch.
ich glaub dass bei deinen Daten explorativ nicht viel Gescheites rauskommt (gut ich weiß nicht was alles vorliegt),
Auch weil die Zahlen alle interagieren und kausal nicht aufzulösen sind!

Fang mit einer UV an,
dann hast du eine AV und diese UV und auch noch die Zeitvariable T und die Gemeinde G
Du hast bei nur einer "erklärenden UV" immer die zwei Moderatoren T und G.
Versuch das erst mal zu handeln...
das erklärt vielleicht nicht viel, wenn du aus der perspektive Grundlagenforschung
operierst, aber bei einer reinen Vorhersageperspektive bringt das was.

gruß
dutchie

Beitrag von **Konkordanz** » 29.03.2021, 12:17

dutchie hat geschrieben: ↑
28.03.2021, 15:46
Ok, ich dachte du hättest pro Gemeinde mehrere Infos im Zeitverlauf.
Du fasst 15 Jahre zusammen, dann ist das aber keinen Analyse im Zeitverlauf, aber egal.

Die Online-Kommunikation ist manchmal eine Hürde. Also, ja, im Ausgangsdatensatz habe ich über 400 Fälle. Jeder Fall ist eine Gemeinde. Und für jede Gemeinde habe ich >1.000 Variablen verschiedenster Themenbereiche (z.B. lokale Verschuldung 2010-2019, Anzahl Vereine 1995-2019 usw). Jedes Jahr ist dabei eine eigene Variable. Beim Thema Kriminalität bspw. sind es u.a. die Straftaten je 10.000 Einwohner/innen von 2009-2019. Das Ziel ist am Ende ein multivariates Modell, in welchem der statistische Zusammenhang zwischen verschiedenen Strukturentwicklungen (=UVs) auf die demografische Stabilität (=AV) zu erkennen ist. Meine Ausgangsfrage (zeitl. Zusammenhang zw. Vereinen und Bev. war also stark verkürzt, um das Problem übersichtlicher schildern zu können

Und da ich mir nicht sicher bin, wie ich Zusammenhänge mehrerer Zeitverläufe berechne, habe ich ebene mehreres probiert:

1. Zusammenfassen von Zeiträumen: Beispielsweise habe ich die Jährlichen Wachstumsraten ggü. Vorjahr geometrisch gemittelt, sodass ich pro Gemeinde und Thema ein durchschnittliches Wachstum im Zeitverlauf habe; alternativ habe ich ganz einfach die relative Veränderung der Vereinsanzahl 2019 ggü. 2005 errechnet. Mein Gedanke war: Ich berechne derartige Zeitverläufe für alle Variablen und kann dadurch zwischen den Themenbereichen Wechselwirkungen aufdecken. Dabei ist mir natürlich klar, dass hier stark vereinfacht wird, weil ich durch diese Zusammenfassung der Zeit-Variablen nicht alle Informationen nutze (gerade bei Vereinen: Hier gab es bis 2010 größere Zunahmen, seitdem eher schwache). Deshalb habe ich ebenfalls probiert, mit welchen Modellen ich quasi alle Jahres-Variablen verwenden kann.

2. Hier habe ich dann eben z.B. das versucht, was ich oben bereits beschrieben hatte. Zudem habe ich das Fixed Effects-Modell berechnet (1); also habe ich von den Vereinszahlen und der Bevölkerungsgröße der Jahre den Mittelwert abgezogen, welcher sich für eine Gemeinde über alle 15 Jahre ergibt (also: Vereinszahl 2005 minus Durchschnitt der Vereinszahlen 2005-2019; usw.). So in etwa wie es im Link (2) auf Seite 41 geschildert wird. Das Problem hier ist jedoch,dass keine Normalverteilung der Residuen vorliegt. Mittels Logarithmierung wird es besser, aber nicht perfekt.

(1) https://www.statistik-nachhilfe.de/ratg ... cts-modell
(2) https://link.springer.com/content/pdf/1 ... 8695-5.pdf

dutchie hat geschrieben: ↑
28.03.2021, 15:46
Du kannst da mit time lags arbeiten AV zu t korrelieren mit UV zu t-1,
oder vielleicht mit cross-lagged panel .

Ja genau, sobald ich die korrekte Berechnungsart gefunden habe, möchte ich Zeitversetzte Zusammenhänge prüfen. Aber das kann ich ja aktuell noch nicht machen, weil ich eben nicht weiß, wie ich überhaupt den Zusammenhang zeitlicher Entwicklungen verschiedener Themen berechne.

dutchie hat geschrieben: ↑
28.03.2021, 15:46
Ist jetzt die Fülle der Variablen das Problem oder der Zeitaspekt?

Das Kernproblem liegt also primär in der Frage, wie ich bspw. eine Regression berechne, in welcher ich Zusammenhänge zwischen Themen herausfinde, welche jeweils aus 15 Jahres-Variablen bestehen. Also zb ein verkürzter und grober Aufbau:
AV = Vereinsanzahl (15 Variablen, jeweils 1x pro Jahr 2005-2019)
UV1 = Bevölkerungsgröße (15 Variablen, jeweils 1x pro Jahr 2005-2019)
UV2 = Kommunale Verschuldung (15 Variablen, jeweils 1x pro Jahr 2005-2019; Grund zB : abnehmende Unterstützung von Vereinen aufgrund wachsender Verschuldung)

Ich weiß nicht, ob ich mein Problem akkurat geschildert habe. Weißt du, worauf ich hinaus möchte?

Beitrag von **dutchie** » 29.03.2021, 16:49

Hallo

Konkordanz hat geschrieben: ↑
29.03.2021, 12:17
Weißt du, worauf ich hinaus möchte?

Erstmal ist diese Statistik Nachhilfe Seite ganz übel, wer das geschrieben hat, hat kein Interesse
daran verstanden zu werden!

Ich versteh nicht ganz! du hast doch im ersten link ein Datenschema in dem
die Zeit nur eine Variable ist (long format). So wie du die 400 Fälle beschreibst
lagen die Daten im wide Format vor, du hast die ins long Format trasformiert! oder?

Konkordanz hat geschrieben: ↑
29.03.2021, 12:17
AV = Vereinsanzahl (15 Variablen, jeweils 1x pro Jahr 2005-2019)

15 Variable? das sind 15 Fälle, die Vereinszahl zu Zeitpunkt
wie im link 1, da hat Haushalt A drei Fälle 2015 -2017 zum Einkommen.

Konkordanz hat geschrieben: ↑
29.03.2021, 12:17
Ja genau, sobald ich die korrekte Berechnungsart gefunden habe, möchte ich Zeitversetzte Zusammenhänge prüfen.

Suchst du nach ARIMA Modellen?
da kannst du den lag einstellen...

Das was du in 2. gemacht hast klingt doch erstmal plausibel.

(Nur kriegts du so nicht alle Gemeindeeffekte aus der Analyse.
also Gemeinde ist immer im Modell! alle Gemeinde Variablen
bilden quasi das zweite level. Schau mal in die sofware HLM.)

Du bekommst aber nur ein Regression in die alle Gemeinden eingehen.
Du hast dann eine Fallzahl von 400 Gemeinden x 15 Zeitpunkte.
richtig?, wenn du die Gemeinde hinzufügst
bekommst du 400 Regressionen mit ja 15 Fälle.

Und noch ein ganz anderes Problem zu Thema:
Wer aus irgendeiner Gemeinde wegzieht, zieht in eine andere Gemeinde hinzu.

gruß
dutchie

Beitrag von **dutchie** » 29.03.2021, 19:01

Man könnte sich auch überlegen die Gemeinden zu clustern.

ist dir folgendes klar:

Du kannst drei regessionen bauen:

1. Zur vorhersage des zeitpnukt 16 aus des 15 vorrauslaufenden zeitpunkten
2. Vorhersage von Gemeinde 401 aus 400 gemeinden
3. 1. in Abhängigkeit von 2.

mach mal folgendes:
ein verlaufsdiagramm mit zeit auf der x achse
und Kriminalität und vereinsdicht auf der y achse
dies unabhängig von der gemeinde
und poste das bild über https://de.imgbb.com/

Beitrag von **Konkordanz** » 09.04.2021, 11:12

Hallo Dutchie,

sorry für die späte Antwort. Über Ostern war viel los, anschließend habe ich noch viel herumgebastelt und gerade wird an Gebäude unserer Wohnung gebaut; in Verbindung mit Homeoffice nicht gerade so einfach

Aber vielen Dank für deine unerbitterliche Hilfe hier im Forum

dutchie hat geschrieben: ↑
29.03.2021, 16:49
Ich versteh nicht ganz! du hast doch im ersten link ein Datenschema in dem
die Zeit nur eine Variable ist (long format). So wie du die 400 Fälle beschreibst
lagen die Daten im wide Format vor, du hast die ins long Format trasformiert! oder?

Genau, die Ursprungsdaten liegen im Wide-Format vor; jede Zeile ist ein Fall, jeder Fall eine Gemeinde. Da ich mehrfach gelesen habe, dass sich für eine Zeitreihenanalyse das Long-Format anbietet, habe ich einen zweiten Datensatz im Long-Format erstellt.

dutchie hat geschrieben: ↑
29.03.2021, 19:01
mach mal folgendes:
ein verlaufsdiagramm mit zeit auf der x achse
und Kriminalität und vereinsdicht auf der y achse
dies unabhängig von der gemeinde
und poste das bild über https://de.imgbb.com/

Ich hab mal zwei Abbildungen erstellt; alle Daten für Sachsen: https://ibb.co/BPXC4YP

dutchie hat geschrieben: ↑
29.03.2021, 16:49
Suchst du nach ARIMA Modellen?
da kannst du den lag einstellen...

Von ARIMA-Modellen habe ich während der Recherche öfter gelesen. Bisher sehe ich aber - abgesehen von den Lags - noch nicht so den Vorteil gegenüber dem fixed-effects-modell. Zudem wirkt es recht komplex.

dutchie hat geschrieben: ↑
29.03.2021, 19:01
Du kannst drei regessionen bauen:

1. Zur vorhersage des zeitpnukt 16 aus des 15 vorrauslaufenden zeitpunkten
2. Vorhersage von Gemeinde 401 aus 400 gemeinden
3. 1. in Abhängigkeit von 2.

Naja, mit der Regression möchte ich nicht primär eine Vorhersage berechnen, sondern schauen, ob zwischen verschiedenen Zeitreihen überhaupt Zusammenhänge vorhanden sind. Das wäre ja dann Regression Nummer 4 denke ich. Also, immer wieder lese ich, dass sich mit Zeitreihen Kausalaussagen eher ermöglicht werden und hier vor allem das Fixed-Effects-Modell und das Random-Fixed-Modell sehr gut passen.

dutchie hat geschrieben: ↑
29.03.2021, 16:49
(Nur kriegts du so nicht alle Gemeindeeffekte aus der Analyse.
also Gemeinde ist immer im Modell! alle Gemeinde Variablen
bilden quasi das zweite level. Schau mal in die sofware HLM.)

Die Software HLM scheint recht teuer zu sein. Ist für mich leider keine Alternative. Also in den letzten Tagen habe ich mich weiter in das Fixed-Effect-Modell eingelesen und ich glaube, irgendwo stand, dass es eine Erweiterung des HLM sei? Naja, jedenfalls habe ich es so verstanden, dass die Unterschiede zwischen den Gruppen durch die Zentrierung um den Gruppenmittelwert herausgenommen wird. Dadurch wird es mir ermöglicht, verschiedene Zeitreihen über alle 419 Gemeinden zu regressieren. Im Endeffekt rechnet das System dadurch 419 einzelne Regressionen und bildet davon den Durchschnitt (o.ä.). Das ist also irgendwie...super cool!

Also, ich glaube, dass dieses Modell tatsächlich das ist, was mir am ehesten hilft (mit ARIMA und HLM habe ich mich noch nicht so beschäftigt, ich weiß also nicht, ob diese vllt sogar noch besser sind. Also eine gute und knappe Beschreibung findest du hier:

https://www.statistik-nachhilfe.de/ratg ... cts-modell

Letztlich ist das Beispiel meinem ja sehr ähnlich.
Ich habe lange recherchiert, bis ich ein Beispiel gefunden habe, welches ich nachrechnen kann (Links siehe unten). Ich will unbedingt wissen, wie das korrekt umgesetzt wird. Leider bekomme ich es einfach nicht hin. Falls du Zeit und Lust hast: Könntest du mal schauen, ob du es hinbekommst und ggf. wo mein Fehler liegt?

Im Buch wird ab Seite 40 die Fixed-Effects-Regression beschrieben. Einleitend wird ein einfaches Beispiel dargestellt, welches ich 1:1 reproduzieren kann. Anschließend wird auf einen Datensatz (lebensz.dta, Link siehe unten) verwiesen und tabellarisch dargestellt, welchen Unterschied es macht, wenn man anstelle einer multiplen linearen Regression eine fixed-effects-regression berechnet (screenshot des Buch-Ergebnisses: https://ibb.co/tP9sFs2). Auf das exakte Ergebnis der linearen Regression komme ich, indem ich eine ganz normale lin. Regression ohne weitere Einstellungen berechne. Das Ergebnis der FE-Regression erhalte ich nicht. Ich hatte zwei unterschiedliche Herangehensweisen:

1. Ich entmittle nur jene Fälle, die in allen Aspekten keine fehlenden Angaben enthielten.
Ich habe also nur bei jenen Person die Kinder-, Bildung-, Gesundheits- und Lebenszufriedenheits-variable entmittelt, welche nicht einen einzigen fehlenden Wert aufwiesen. (Beispiel Person Nr 1343: Da von fünf Zeitpunkten nur das Jahr 2000 eine Angabe zu Bildung enthielt und nur vier zur Kinderzahl, habe hier keinen Mittelwert gebildet und diese Person nicht einbezogen.)
Von der zeitlosen Variable Geschlecht habe ich mit allen Ursprungs-UVs einen Interaktionsterm gebildet (geschlecht*gesund*bildung*anz_kind)
Anschließend habe ich eine lineare Regression gerechnet (analysieren>regression>linear). Mein Ergebnis (Link: https://ibb.co/KXyj7XV) entspricht der Richtung des Buch-Ergebnisses. Allerdings fällt auf, dass sie ein größeres n hatten und die Konstante deutlich größer war.

2. Im zweiten Versuch habe ich auch Personen entmittelt, welche fehlende Werte aufwiesen. Ausgelassen habe ich dann nur jene Zeitpunkte mit fehlenden Werten. Ich habe für jede Person also über alle Zeitpunkte den Mittelwert gebildet (Fehlwerte werden hier ja nicht einberechnet) und diesen nur subtrahiert, wenn es einen Wert in der Ursprungsvariable gab. (Beispiel Person 1343: Hier habe ich den Mittelwert der Bildungsvariable berechnet, weil dieser immerhin für das Jahr 2000 angegeben war. Abgezogen habe ich ihn aber nur für das Jahr 2000, weil 2001-2004 keine Angaben enthielten. Gleiches mit der Kinder-Variable: Durchschnitt über alle Jahre, abgezogen aber nur von 2000-2003. 2004 wies keinen Wert auf. 2004 floss für diese Person also nicht in die Berechnung ein)
Auch hier habe ich schließlich eine lineare Regression gerechnet. Hier das Ergebnis: https://ibb.co/2YrHB2W
Man sieht, dass das R² jenem des Buchs entspricht. Die Werte Koeffizienten zeigen allesamt in die Richtung, in welche auch das Ergebnis des Buches zeigt. Allerdings gibt es hier wieder gewisse Abweichungen. Auch hier ist z.B. wieder die Konstante deutlich von jener im Buch entfernt.

Ich habe dem Autoren des Buchs eine Mail geschrieben. Auf die Frage, wie er sich die Differenzen erklärt, vermutete er, dass ich "Messungen mit fehlenden Werten in den Kovariaten nicht bei der Mittelwertbildung ausgeschlossen" habe. Hmmm...aber habe ich das nicht gemacht? Was meinst du Dutchie? Oder sollte ich keine "lineare Regression" (analysieren>regression>linear) verwenden sondern bspw. Gemischte Modell oder sowas? Schließlich weist sein Ergebnis auch Werte auf, die ich mit einer linearen Regression gar nicht erhalte (z.B. rho, sigma u).

Buch: https://link.springer.com/content/pdf/1 ... yqlnhKZpRI

Datensatz lebensz.dta, der sich auch in SPSS öffnen lässt: http://www.barkhof.uni-bremen.de/~mwindzio/lebensz.dta

Beitrag von **dutchie** » 12.04.2021, 15:24

Hallo Konkordanz

Das Buch
Giesselmann Windzio
"Regressionsmodelle zur Analyse von Paneldaten"
ist ja wohl echt zu kotzen...:

Buch "Die Fixed Effects Regression (FE) ruft das Potenzial von Paneldaten zur Kontrolle zeitkonstanter
Drittvariablen ab, indem sie die Längsschnittinformation durch eine einfache
Subtraktionsprozedur isoliert, bevor die OLS-Technik angewendet wird."

Buch "Da zudem aufgrund der Entmittlung sämtlicher Variablen die Regressionsgerade
durch den Schwerpunkt jeder personenspezifischen Messreihe verläuft,
beträgt die durchschnittliche idiosynkratische Abweichung auf Personenebene
null." sorry, aber

an wen soll sich das Buch richten?

..aber wo steht was die AV ist, oh man.
AV: Lebenszufriedenheit als panel? man beachte, dass das Alter der personen nicht erfasst wurde.

ich komm schon gar nicht mit dem lebensz daten zurecht.
oder lief bei der konvertierung was schief?

Und didaktisch ist auch echt scheiß:

Ich versteh das so:
Jede OLS Regression ist immer auch fixed!!!!
das heißt, dass die Varianz der UV so ist wie sie ist und die Regression nur für diese Varianz gilt!
Ist die UV aber eine Zufallsvariable (etwas das sich mathematisch leicht labern lässt, aber in vivo
schwer zu erfassen ist...ober zu bestimmen ist...letztlich ist das eine Entscheidung der Analyse)
ist die gegebene Varianz der Daten auch nur zufällig, damit alles zufällig und OLS dreht durch.
Das wird mit ML gerechnet. Random effects ist aber weder spezifisch für hierarchisch noch Panelanalyse!!!

das ist der unterschied fixed und random, OLS und fixed bilden kein Gegensatzpaar!
Der klickt das nur über "gemischte Modell", dort muss er, wenn er OLS will das als fixed markieren,
(denk ich mal).

Das problem der datei ist, dass nicht jede Person immer gemessen wurde.
...und was will man, warum mitteln? nur die UV, nur die AV oder beides?
will man über Personen mitteln, über Jahre oder beides?

..schau mal in die Wertelabels , da sind Zahlen als fehlend bescrieben, aber bei mir in SPSS noch nicht definiert,

Buch "Wie bereits erwähnt, weisen zeitkonstante Variablen per Definition keine Variation
zwischen den Messungen einer Person auf. Zur Variable Geschlecht wird
daher bei FE kein Koeffizient ausgewiesen."

...warum dann aber für Bildung, weil die in der Zeit variiert? ja! tut sie wohl.
Anzahl Bildungsjahren, so ein Quatsch, wie will man das von Lebensalter unterscheiden

Es gibt kein gutes deutsches Buch zum Thema!
.. ich versuch das auf Seite 40 zu replizieren, das kann aber dauern!

und gut, dass du dich auch an die Autoren wendest,
die sollen das mal explizieren...

Warum konstruiert man keine übersichtliche Übungsdatei, dank der dann klar wird, was passiert.

...und zu den Vereinen, seh ich das richtig, dass dei Anzahl der Vereine steigt. Wow.
hätte ich nicht gedacht.

gruß
dutchie

Beitrag von **Konkordanz** » 29.04.2021, 05:43

Hey Dutchie,

und, schon Erfolg gehabt?

Nein im ernst, vielleicht ist der Aufwand zu groß, sich da so detailliert in dieses Beispiel einzuarbeiten.

dutchie hat geschrieben: ↑
12.04.2021, 15:24
Buch "Die Fixed Effects Regression (FE) ruft das Potenzial von Paneldaten zur Kontrolle zeitkonstanter
Drittvariablen ab, indem sie die Längsschnittinformation durch eine einfache
Subtraktionsprozedur isoliert, bevor die OLS-Technik angewendet wird."

Buch "Da zudem aufgrund der Entmittlung sämtlicher Variablen die Regressionsgerade
durch den Schwerpunkt jeder personenspezifischen Messreihe verläuft,
beträgt die durchschnittliche idiosynkratische Abweichung auf Personenebene
null." sorry, aber an wen soll sich das Buch richten?

Verstehst du jetzt, wieso ich nicht gerade schnell vorankomme?

Ich meine, gerade durch das tabellarische Beispiel, wie also das Mittelwertabweichungsverfahren umgesetzt werden soll, erhielt ich eine gute Vorstellung davon, was sie da meinen. Dadurch habe ich beim Nachrechnen ja annähernd dasselbe raus wie sie...aber eben mit gewissen Abweichungen.

dutchie hat geschrieben: ↑
12.04.2021, 15:24
Das problem der datei ist, dass nicht jede Person immer gemessen wurde.
...und was will man, warum mitteln? nur die UV, nur die AV oder beides?
will man über Personen mitteln, über Jahre oder beides?

Nach meinem Verständnis muss alles gemittelt werden, also UVs und AV. Ich habe noch einige andere Beispiele gefunden und nachgerechnet und erhalte die abgebildeten Ergebnisse. Interessanterweise hat man übrigens die Wahl, ob man diese Fixed-Effects-Panelanalyse über das Mittelwertabweichungsverfahren rechnet oder über Analysieren>Allgemeine ineare Modelle>Univariat. Hier werden natürlich die nicht entmittelten Variablen reingepackt inkl. der Dummies für die Untersuchungseinheiten. Dort erhält man ein enorm hohes R², aber die selben Regressionskoeffizienten. Ich bevorzuge das Mittelwertabweichungsverfahren.

dutchie hat geschrieben: ↑
12.04.2021, 15:24
...warum dann aber für Bildung, weil die in der Zeit variiert? ja! tut sie wohl.

Ja genau, sie variiert. Das hatte ich auch erst spät festgestellt ^^

dutchie hat geschrieben: ↑
12.04.2021, 15:24
...und zu den Vereinen, seh ich das richtig, dass dei Anzahl der Vereine steigt. Wow.

Ja, ich hatte anfangs auch eine andere Vorstellung von der Vereinsentwicklung. Aber ihre Anzahl steigt nach wie vor (in Sachsen zumindest). Aber: In vielen Gemeinden pendelt das Vereinssaldo seit Jahren an der Nulllinie...es werden also in etwa so viele gelöscht wie neu gegründet werden. Auch in den Großstädten geht das Saldo in Richtung Nulllinie. Scheinbar ist die Vereinszahl an einem Peak angekommen.

dutchie hat geschrieben: ↑
12.04.2021, 15:24
Es gibt kein gutes deutsches Buch zum Thema!

Du hast Recht, in der Tat ist es schwierig, deutsche Bücher, die das Thema nicht enorm mathelastig aufgreifen, zu finden. Allerding habe ich neulich das Buch "Regressionsanalyse in der empirischen Wirtschafts- und Sozialvorschung. Band 2. Komplexe Verfahren" entdeckt (Stoetzer 2020, Link: https://www.springer.com/de/book/9783662614372). Das beschreibt das Thema meiner Meinung nach ganz gut...er geht auf Zeitreihendaten ein und anschließend noch auf Paneldaten. Er beschreibt das Vorgehen und liefert Beispiele, die man nachrechnen kann. Leider entstanden auch hier Fragen im Kopf, die ich vllt noch dem Autor schreibe (z.B. zwecks Umgang mit zeitversetzten Variablen ["Lags"]). Aber hier konnte ich die Ergebnisse jedenfalls gut reproduzieren und erhielt einige Antworten auf meine Fragen.

Wenn du Lust hast, dich mit dem Thema Panelanalyse weiter zu beschäftigen, wären die wenigen Beispiele aus diesem Buch vllt hilfreich. Alternativ könnten wir uns auch ein anderes spannendes Beispiel suchen...bspw. könnte ich mir vorstellen, anhand der öffentlich publizierten Covid-Daten mal zu berechnen, inwiefern die Impfungen in Abhängigkeit zum jeweilgen Staat die gemeldeten Todeszahlen senken.

Statistik-Tutorial Forum

Zusammenhangsanalyse im Zeitverlauf

Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf

Re: Zusammenhangsanalyse im Zeitverlauf