Datenoptimierung für multiple lineare Regression

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
Homer87
Beiträge: 2
Registriert: 21.05.2015, 18:21

Datenoptimierung für multiple lineare Regression

Beitrag von Homer87 »

Guten Tag zusammen,

wie so viele hier möchte ich für mein Abschlussarbeit einer multiple lineare Regression mit SPSS 21 durchführen. Mir geht es bei diesem Thread hauptsächlich um die Modelloptimierung. In meinem konkreten Fall geht es um den Einfluss verschiedener Immobilieneigenschaften auf einen Mietmultipliktor. (In der Praxis wird der Mietmultiplikator mit der Miete multipliziert um den Wert einer Immobilie zu erhalten.)

Ich habe mich schon eine Weile in die Literatur eingelesen und folgende Anforderungen für meine Regression gefunden:
- multiples lineares Modell
- KQ-Schätzung
- Normalverteilung der Residuen (wenn ich das richtig verstehe, impliziert das auch Normalverteilung der Regressoren und des Regressanden)
- möglichst keine Autokorrelation
- möglichst keine Multikollinearität
- möglichst keine Heteroskedastizität

- Außerdem als Empfehlung: Von Modell mit vielen Regressoren ausgehen und dann mittels Signifikanztests reduzieren.

Mein erster Schritt war nun die Nominalvariablen in Dummyvariablen umzuwandeln und dann einfach mal eine lineare Regression auszuprobieren. Wie zu erwarten war, ist die Erklärungskraft dieses Modells noch sehr gering: R²= 0,32 (korrigiertes R²= 0,279). Ich vermute, dass der Zusammenhang zwischen den einzelnen Regressoren und dem Regressanden einerseits nicht linear ist (Literaturrecherche) und andererseits meine Regressoren nicht normalverteilt sind.

Mit Hilfe der deskriptiven Statistik und KS-Tests hat sich die Vermutung der Nicht-Normalverteiltheit bereits bestätigt. Daraufhin habe ich versucht Ausreißer zu eliminieren. Dabei habe ich in der Literatur die Faustregel gefunden, Fälle auszuschließen die 2,5sigma vom Mittelwert abweichen. Dies habe ich für jeden Regressor überprüft und dann meine Stichprobe von 176 Immobilien auf 148 reduziert. Ergebnis: Eine meiner 10 Variablen scheint jetzt normalverteilt zu sein, das neue Regressionsmodell hat sich aber vom Bestimmtheitsmaß her leicht verschlechtert: R²= 0,316 (0,266).

Mein nächster Schritt wäre jetzt meine Daten so umzurechnen, dass ich den Zusammenhang zwischen Regressor und Regressand besser abbilden kann. In der Literatur wird empfohlen, statt den Regressor selbst in die lineare Regression einfließen zu lassen, diesen vorher umzurechnen (beispielsweise logarithmieren). Meine Frage wäre jetzt: Wie mache ich das am einfachsten? Ich habe mir Punktwolken zwischen den einzelnen Regressoren und den Regressanden ausgeben lassen und bei manchen kann ich glaube ich schon gewisse Kurven wiedererkennen. (f(x) = 1/x) Das scheint mir aber von der Vorgehensweise und Optimierung ein wenig beliebig zu sein. Gibt es da eine Möglichkeit die Daten von SPSS automatisch anzupassen oder wie würde man da normalerweise vorgehen? Ich kann ja nicht für 10 verschiedene Variablen einfach auf gut Glück rumprobieren. Ich habe in der Literatur gelesen dass ein ähnliches Regressionsmodell für Immobilienkaufpreise ein Bestimmtheitsmaß von R²= 0,5 - 0,75 erreicht. Ich vermute aber bereits, dass mir ein paar Regressoren in den Daten fehlen.

Außerdem würde mich eure Meinung zu meiner bisherigen Vorgehensweise interessieren?

Vielen Dank fürs lesen!
Homer87
Beiträge: 2
Registriert: 21.05.2015, 18:21

Re: Datenoptimierung für multiple lineare Regression

Beitrag von Homer87 »

PS: Das ist das erste mal, dass ich eine Regression wirklich selbst mache. Ich habe zwar ein wenig Vorwissen aus verschiedenen Vorlesungen, diese Theoriekurse haben mir hier aber bisher wenig geholfen.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten