Hallo zusammen,
im Rahmen meiner Bachelorarbeit analysiere ich die Auswirkungen bestimmter Ereignisse auf die Luftqualität.
Dazu habe ich für alle Messstationen (300 Stk) zu jedem Datum einen Messwert, sowie für jede Messstation zu jedem Datum den Status (0-4).
Mein Ziel ist im großen und Ganzen die Stationen mit einem Ereignis zu vergleichen mit jenen ohne Ereignis, im Zeitraum von 2 Jahren vor und nach dem Ereignis.
Wie genau kann ich diese 2 Variablen in SPSS "einspeisen" und anschließend analysieren?
Daten über Zeitraum analysieren
-
- Beiträge: 2734
- Registriert: 01.02.2018, 10:45
Re: Daten über Zeitraum analysieren
Hallo
wenn ich dass richtig sehe, musst du mehrere datenschemen haben,
um das vollständig zu analysieren...
Du gibst die Daten senkrecht ein, untereinander stehend
für jeden messwert baust du die Variable Datum, Status, Station und Messwert,
dann noch eine dichotome Dummy variable für das Eeigniss
0 = vorher und 1 = nachher..
Du kannst auch vergleichen vorher mit nachher!
Die Messstationen sind identisch? was ist der Status?
Das sind auch ziemlich viele daten...
Hast du nicht auch noch die info abstand zum Ereigniss..
mal googln:
Spatial Statistics, Zeitreihe, mixed models (eventuell)
datenschemas long vs wide...
da gäbe es viel zu beachten...
ich würde so anfangen:
Regression Messwert = a + b * Zeit + c * Ereignis + d * Zeit * Ereignis
zeit mit messwert korrelieren plus moderator Ereignis,
....
gruß
dutchie
wenn ich dass richtig sehe, musst du mehrere datenschemen haben,
um das vollständig zu analysieren...
Du gibst die Daten senkrecht ein, untereinander stehend
für jeden messwert baust du die Variable Datum, Status, Station und Messwert,
dann noch eine dichotome Dummy variable für das Eeigniss
0 = vorher und 1 = nachher..
Du kannst auch vergleichen vorher mit nachher!
Die Messstationen sind identisch? was ist der Status?
Das sind auch ziemlich viele daten...
Hast du nicht auch noch die info abstand zum Ereigniss..
mal googln:
Spatial Statistics, Zeitreihe, mixed models (eventuell)
datenschemas long vs wide...
da gäbe es viel zu beachten...
ich würde so anfangen:
Regression Messwert = a + b * Zeit + c * Ereignis + d * Zeit * Ereignis
zeit mit messwert korrelieren plus moderator Ereignis,
....
gruß
dutchie
-
- Beiträge: 8
- Registriert: 09.07.2020, 18:09
Re: Daten über Zeitraum analysieren
Viel Dank für deine Hilfe @dutchie!
Meine Datenstruktur ist nun
Datum Station Messwert Status 1 (0/1) Status 2 (0/1) Status 3 (0/1)
Aufgrund der Tatsache, dass zu jedem Datum mehrere Messwerte (da für jede Station ein Wert) existiert, funktioniert die Lineare Regressionsanalyse mit der Funktion
Messwert = a + b * Zeit + c*Status1 + d*Status2 + e*Status3
so nicht.
Es existieren Stationen, die permanent im Status 0 sind. Die anderen Stationen verändern ihren Status zu unterschiedlichen Zeitpunkten.
Analysiere ich mit o.g. Funktion die Messwerte einer einzelnen Station, erhalte ich ein Ergebnis mit erwarteten Faktoren und auch das korrigierte R² ist auf einem guten Niveau.
Nehme ich wieder alle Stationen hinzu ergeben sich nicht schlüssige Faktoren und auch das R² ist auch einem sehr schwachen Niveau.
Desweiteren habe ich zu Testzwecken nach Stationen mit Statusänderung gefiltert und anstelle des tatsächlichen Datums die alternative Zeitvariable TageSeit1.Statusänderung eingeführt.
Hier ist das R²=0.35, allerdings sind die Signifikanzwerte der Faktoren z.T. sehr hoch (0,7).
Außerdem ist hier natürlich problematisch, dass ich mich auf Stationen mit Statusänderung beschränke.
Momentan sehe ich als Lösung, für jede Station (ca. 300 Stk.) eine Regressionsanalyse durchzuführen und am Ende einen Durchschnitt der Faktoren zu bilden.
Gibt es da einen eleganteren Weg?
Kurz als Hintergrund, worum es geht:
Die Stationen sind an verschiedenen Orten und messen die NOx-Konzentration in der Luft. Ich möchte den Einfluss einer Umweltzone (es gibt verschiedene Stufen) analysieren.
Meine Datenstruktur ist nun
Datum Station Messwert Status 1 (0/1) Status 2 (0/1) Status 3 (0/1)
Aufgrund der Tatsache, dass zu jedem Datum mehrere Messwerte (da für jede Station ein Wert) existiert, funktioniert die Lineare Regressionsanalyse mit der Funktion
Messwert = a + b * Zeit + c*Status1 + d*Status2 + e*Status3
so nicht.
Es existieren Stationen, die permanent im Status 0 sind. Die anderen Stationen verändern ihren Status zu unterschiedlichen Zeitpunkten.
Analysiere ich mit o.g. Funktion die Messwerte einer einzelnen Station, erhalte ich ein Ergebnis mit erwarteten Faktoren und auch das korrigierte R² ist auf einem guten Niveau.
Nehme ich wieder alle Stationen hinzu ergeben sich nicht schlüssige Faktoren und auch das R² ist auch einem sehr schwachen Niveau.
Desweiteren habe ich zu Testzwecken nach Stationen mit Statusänderung gefiltert und anstelle des tatsächlichen Datums die alternative Zeitvariable TageSeit1.Statusänderung eingeführt.
Hier ist das R²=0.35, allerdings sind die Signifikanzwerte der Faktoren z.T. sehr hoch (0,7).
Außerdem ist hier natürlich problematisch, dass ich mich auf Stationen mit Statusänderung beschränke.
Momentan sehe ich als Lösung, für jede Station (ca. 300 Stk.) eine Regressionsanalyse durchzuführen und am Ende einen Durchschnitt der Faktoren zu bilden.
Gibt es da einen eleganteren Weg?
Kurz als Hintergrund, worum es geht:
Die Stationen sind an verschiedenen Orten und messen die NOx-Konzentration in der Luft. Ich möchte den Einfluss einer Umweltzone (es gibt verschiedene Stufen) analysieren.
-
- Beiträge: 2734
- Registriert: 01.02.2018, 10:45
Re: Daten über Zeitraum analysieren
Hallo
Der ganze Vorgang ist mir leider nicht klar. Was bedeutet Status?
ist das nur ein tech Ding? dann ist das wohl egal...
Und wie ist die räumliche Lage der Stationen zur Umweltzone?
Das sieht deshalb stark nach einer hierarchischer Analyse (HLM) aus,
weil die Lage eine Faktor der Station ist der auf die Messung Einfluss hat!
wenn das 300 stück sind gibt es da einen Lageplan...?
Ein Modell mit allen Stationen muss doch möglich sein.
Klar dass die Stationen nicht zeitlich parallel messen, aber warum eigentlich?
Messung alle 6 Stunden...
Wieviel Messungen hast du denn pro Station?
Das mit der alternativen Zeitvariablen ist eine gut idee,
aber was meint Statusänderung???
mit Wochenende Werktags Rushhour, wie schnell Verflüchtig sich NOx?
so weit so gut...
gruß
dutchei
in dem Modell ist die Variable Umweltzone ja/nein gar nicht drin,cash flow hat geschrieben:Messwert = a + b * Zeit + c * Status0 + d*Status1 + e*Status2 + f*Status3
Der ganze Vorgang ist mir leider nicht klar. Was bedeutet Status?
ist das nur ein tech Ding? dann ist das wohl egal...
Und wie ist die räumliche Lage der Stationen zur Umweltzone?
Das sieht deshalb stark nach einer hierarchischer Analyse (HLM) aus,
weil die Lage eine Faktor der Station ist der auf die Messung Einfluss hat!
wenn das 300 stück sind gibt es da einen Lageplan...?
Ein Modell mit allen Stationen muss doch möglich sein.
Klar dass die Stationen nicht zeitlich parallel messen, aber warum eigentlich?
Messung alle 6 Stunden...
Wieviel Messungen hast du denn pro Station?
Das mit der alternativen Zeitvariablen ist eine gut idee,
aber was meint Statusänderung???
aber du hast als Faktor doch nur die Zeit drin, oder was ist mit Tag und Nacht?cash flow hat geschrieben:allerdings sind die Signifikanzwerte der Faktoren z.T. sehr hoch (0,7).
mit Wochenende Werktags Rushhour, wie schnell Verflüchtig sich NOx?
so weit so gut...
gruß
dutchei
-
- Beiträge: 8
- Registriert: 09.07.2020, 18:09
Re: Daten über Zeitraum analysieren
In einer seperaten Recherche habe ich jeder Station das Datum zugeordnet, wann eine Umweltzone (UZ) eingeführt wurde, und wann diese verschärft wurde (es gibt bundesweit 3 Stufen der UZ)
Das habe ich in einen Status zusammengefasst (0=nichts, 1=UZ1, 2=UZ2, 3=UZ3).
Daraus habe ich 3 dummy-Variablen erstellt, dummy_uz1 etc., wobei wenn der Status=3, sind alle 3 dummys auf 1.
Weitere Umwelteinflüsse wie Windstärke und Richtung habe ich momentan nicht im Modell integriert, da die Messreihen über einen sehr langen Zeitraum sind (meist seit dem Jahr 2000).
Die Messwerte habe ich stündlich, allerdings momentan zur schnelleren Berechnung auf einen monatlichen Durchschnitt, sobald das Modell steht werde ich auf einen Tages- oder Wochenschnitt gehen.
Weil das Ziel ist herauszufinden, wie groß der Einfluss der Einführung einer UZ ist, sollte ich auch so ein passables Ergebnis erzielen.
Mit der bereits genannten Methode ist der Einfluss von UZ1 jedoch positiv, was natürlich nicht richtig sein kann, weil dadurch die schlimmen NOx-Emittenten (alte Diesel) vom Verkehr ausgeschlossen sind und der Messwert eigentlich geringer ausfallen sollte.
Ich gehe von einer fehlerhaften Methode aus.
Das habe ich in einen Status zusammengefasst (0=nichts, 1=UZ1, 2=UZ2, 3=UZ3).
Daraus habe ich 3 dummy-Variablen erstellt, dummy_uz1 etc., wobei wenn der Status=3, sind alle 3 dummys auf 1.
Weitere Umwelteinflüsse wie Windstärke und Richtung habe ich momentan nicht im Modell integriert, da die Messreihen über einen sehr langen Zeitraum sind (meist seit dem Jahr 2000).
Die Messwerte habe ich stündlich, allerdings momentan zur schnelleren Berechnung auf einen monatlichen Durchschnitt, sobald das Modell steht werde ich auf einen Tages- oder Wochenschnitt gehen.
Weil das Ziel ist herauszufinden, wie groß der Einfluss der Einführung einer UZ ist, sollte ich auch so ein passables Ergebnis erzielen.
Mit der bereits genannten Methode ist der Einfluss von UZ1 jedoch positiv, was natürlich nicht richtig sein kann, weil dadurch die schlimmen NOx-Emittenten (alte Diesel) vom Verkehr ausgeschlossen sind und der Messwert eigentlich geringer ausfallen sollte.
Ich gehe von einer fehlerhaften Methode aus.