Hallo,
ich muss diverse Regressionsanalysen zum Thema Einkommensdifferenzen zwischen Frauen und Männern erstellen und hätte, da doch nicht wirklich ein Statistik-Experte, ein paar Fragen:
Allgemeine Fragen:
- Wenn ich als unabhängige Variable bspw. verschiedene Betriebsgrößenklassen einbaue nach Mitarbeiterzahlen, wie sieht das dann mit einer Referenzkategorie aus? Ich habe genau vier Kategorien und hätte diese mit den Werten Eins bis Vier kodiert, jetzt habe ich jedoch irgendwo gelesen, dass man je eine Kategorie als Referenz weglässt? Bin nun etwas verwirrt was richtig ist.
- Ich verwende Paneldaten (SOEP) und möchte die Analyse für vier verschiedene Jahre machen um die zeitliche Entwicklung darzustellen. Oder wäre hier vielleicht eher eine Fixed-Effects-Schätzung angebracht? Diese ist mir jedoch noch nicht so geläufig, soll aber die Informationen von Paneldaten besser nutzen. Bisher habe ich die Daten für ein Jahr jeweils in einem Datensatz, müsste ich dann einen mit allen Beobachtungen basteln?
- In meinen Daten sind viele Beobachtungen die zu einzelnen Variablen entweder Sonstiges oder keine Angabe haben, sollte ich diese Beobachtungen einfach rauswerfen vor den Analysen oder wird dies vom Programm (arbeite mit STATA) automatisch berücksichtigt? Würde ich sie rauswerden würde mein Datensatz doch wesentlich kleiner als Nachteil.
- Ich habe vor für Frauen und Männer jeweils die Gleichungen getrennt zu schätzen um dann bei diesen die Wirkungen der einzelnen Variablen auf den Lohn (bspw. Alter, Ausbildung, Betriebsgröße,…) zu vergleichen. Würdet ihr das anders angehen? In einer gemeinsamen Schätzung könnte man ja Interaktionvariablen einfügen. Ideen?
-In der meisten Literatur habe ich von einer Heckman-Korrektur gelesen, die den Gedanken hat, zu schätzen wie wahrscheinlich ist, dass eine Person in die Stichprobe gelangt der Personen mit Einkommen.Geschätzt wird hierbei eine Arbeitsangebotsfunktion. Dies wird durchgeführt vor der eigentlichen OLS-Schätzung da ohne diese eine OLS-Schätzung verzerrte Schätzer liefert da die Stichprobe nur eine selbst-selektive Auswahl darstellt für die Erwerbsfähigen und man sich für Parameter aller Personen und eben nicht nur der Erwerbsfähigen interessiert. Dies soll mittels eine Probit-Schätzung erfolgen.
in die eigentliche Einkommensgleichung wird dann ein zusätzliche Regressor aufgenommen der die Wahrscheinlichkeit der Erwerbstätigkeit ausdrückt, schätze ich danach dann doch nur mit den Personen die Erwerbstätig sind? Hier würde mir allgemein etwas Info zum Verfahren helfen, so ganz bin ich durch die Literatur noch nicht durchgestiegen.
Ausserdem möchte ich noch einige deskriptive Statistiken erstellen (wie bspw. Lohndurchschnitts durch Berufe) dort habe ich ja auch das Problem dass wenn ich Differenzen ausrechne, diese verzerrt sein sollten, kann ich hier wie bei der Regressionsanalyse auch etwas tun oder hier nicht relevant?
Ja,jede Menge noch anfängliche Fragen umso mehr wäre ich für jegliche Antworten dankbar und bedanke mich schon einmal im Voraus,
Gruß Tim
Hilfe für Anfänger bei Regressionsanalyse, leider dringend
-
- Beiträge: 1
- Registriert: 07.05.2009, 09:15