Lineare Regression - Überprüfung H0-Hypothese

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Lena12
Beiträge: 5
Registriert: 13.06.2012, 19:23

Lineare Regression - Überprüfung H0-Hypothese

Beitrag von Lena12 »

Hallo,

also irgendwie hab ich einfach keinen Durchblick. Ich Werte gerade einen Datensatz mittels linearer Regression aus. Als Signifikanzniveau habe ich in meiner Arbeit 5% angenommen. Die Grundgesamtheit umfasst 204 abhängige und unabhängige Variablen.

Ich besitze mittlerweile 2 SPSS Handbücher, dennoch bin ich mir bei der Interpretation der ANOVA-Tabelle nicht sicher. Bei einer Regressionsanalyse habe ich ein R2 von 9% ermittelt (also sehr gering). In der ANOVA-Tabelle steht Sig. ,000. Wie ist das Ergebnis zu interpretieren?
Gibt es noch weitere Möglichkeiten die H0-Hypothese zu überprüfen (bin auch für jede Literaturempfehlung dankbar!!!)

Ich habe noch eine andere Frage bzgl. der Interpretation der linearen Determination. In einigen Büchern habe ich Skalen gesehen, wie man den Korrelationskoeffizienten nach Pearsen interpretieren kann (bis 0,2 sehr geringe Korrelation). Leider habe ich noch kein einziges Buch gesehen, in dem eine derartige Skala für das Bestimmtheitsmaß R2 angeführt ist. Die Quadratwurzel aus dem Bestimmtheitsmaß entspricht ja dem Korrelationskoeffizienten nach Pearson. Also hab ich mir gedacht, dass ich die Skala für den Korrelationskoeffizienten einfach zum Quadrat rechne, um meine Ergebnisse zu interpretieren. Ist dieser Gedankengang richtig?

Ich bin für jede Antwort dankbar!!!!!
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Die Grundgesamtheit umfasst 204 abhängige und unabhängige Variablen.
Eine Grundgesamtheit beschreibt etwas ganz anderes. Und du wirst wohl auch kaum 204 Variablen im Modell haben. Die Grundgesamtheit wäre z.B. die Bevölkerung eines Landes. Daraus ziehst du eine Stichprobe und möchtest anhand der in dieser Stichprobe entwickelten Regressionsgleichung auf Zusammenhänge in der Grundgesamtheit (z. B. eben die Bevölkerung eines Landes) Rückschlüsse ermitteln.

Bei einer Regressionsanalyse habe ich ein R2 von 9% ermittelt (also sehr gering). In der ANOVA-Tabelle steht Sig. ,000. Wie ist das Ergebnis zu interpretieren?
Das bedeutet, falls die Daten stimmen, dass 9% der Varianz durch das Modell erklärt sind. Das Modell insgesamt ist signifikant, erklärt jedoch sehr wenig.

Gibt es noch weitere Möglichkeiten die H0-Hypothese zu überprüfen (bin auch für jede Literaturempfehlung dankbar!!!)
Das ist doppelt gemoppelt: Der Buchstabe H in H0 bedeutet bereits Hypothese. Daher gibt es nur entweder die H0 oder die Nullhypothese.

Welche Nullhypothese meinst du überhaupt? In der Regressionsanalyse (im Rahmen einer Stichprobe) werden die Regressionskoeffizienten (also Steigungen) der Prädiktoren (unabhängigen Variablen) sowie die Konstante (oder der Intercept) gegen Null getestet. Ein Wert von Null würde nämlich bedeuten, dass die Koeffizienten Null wären, damit die zugehörigen Variablen keinen Einfluss auf die abhängige Variable (das Kriterium) hätten.
drfg2008
Lena12
Beiträge: 5
Registriert: 13.06.2012, 19:23

Beitrag von Lena12 »

Vielen Dank für die umfangreiche Antwort. Leider hatte ich in meinem Studium nur einen einzigen Statistikkurs - daher drücke ich mich wohl sehr unscharf aus.
Eine Grundgesamtheit beschreibt etwas ganz anderes. Und du wirst wohl auch kaum 204 Variablen im Modell haben. Die Grundgesamtheit wäre z.B. die Bevölkerung eines Landes. Daraus ziehst du eine Stichprobe und möchtest anhand der in dieser Stichprobe entwickelten Regressionsgleichung auf Zusammenhänge in der Grundgesamtheit (z. B. eben die Bevölkerung eines Landes) Rückschlüsse ermitteln.
Stimmt Grundgesamtheit ist was anderes. Aber ich bringe heute schon alles durcheinander. Meine Stichprobe umfasst 204 Variablen.
Das ist doppelt gemoppelt: Der Buchstabe H in H0 bedeutet bereits Hypothese. Daher gibt es nur entweder die H0 oder die Nullhypothese. Welche Nullhypothese meinst du überhaupt? In der Regressionsanalyse (im Rahmen einer Stichprobe) werden die Regressionskoeffizienten (also Steigungen) der Prädiktoren (unabhängigen Variablen) sowie die Konstante (oder der Intercept) gegen Null getestet. Ein Wert von Null würde nämlich bedeuten, dass die Koeffizienten Null wären, damit die zugehörigen Variablen keinen Einfluss auf die abhängige Variable (das Kriterium) hätten.
Auch vielen Dank für diesen Hinweis :D. Meine Nullhypothese lautet, dass zwischen Aktienkursen und EBIT-Größen kein Zusammenhang besteht. Ich weiß einfach nicht wie ich die Nullhypothese überprüfen kann.
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

204 Variablen? Oder 204 Fälle.

EBIT: den um Zinsen und Steuern bereinigten Jahresüberschuss bzw. -fehlbetrag ?

Liegen die Daten für 204 Unternehmen vor: EBIT und Aktienkurs je Unternehmen?

(zu welchem Zeitpunkt)?

(...)

Deine Frage lässt sich mit den gegebenen Informationen nicht wirklich beantworten.
drfg2008
Lena12
Beiträge: 5
Registriert: 13.06.2012, 19:23

Beitrag von Lena12 »

204 Variablen? Oder 204 Fälle.
204 Fälle - ich meine ich habe 204 unabhängige und 204 abhängige Variablen pro Jahr.
EBIT: den um Zinsen und Steuern bereinigten Jahresüberschuss bzw. -fehlbetrag ?
Ja, genau. Ich untersuche, ob zwischen dem EBIT je Aktie und dem Aktienkurs ein Zusammenhang besteht. Der Aktienkurs stellt die abhängige Variable dar.
zu welchem Zeitpunkt?

Die Untersuchung erstreckt sich über 10 Jahre
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

EBIT wird wohl einmal jährlich festgestellt und der Aktienkurs jede Sekunde.
drfg2008
Lena12
Beiträge: 5
Registriert: 13.06.2012, 19:23

Beitrag von Lena12 »

Es gibt Datenbanken aus denen man die täglichen Aktienkurs abfragen kann. Vereinfacht wird das geoMittel verwendet.
lauto
Beiträge: 7
Registriert: 14.06.2012, 22:20

Beitrag von lauto »

Also ganz klar ist es mir noch nicht, da du mit den Begriffen "Variablen" und "Fällen" doch etwas um dich schmeißt.

Wie sieht denn deine Tabelle aus? Hast du 204 Wertepaare von EBIT und Aktienkurs? Und möchtest jetzt anhand der Korrelation berechnen, ob ein linearer Zusammenhang zwischen diesen beiden (EBIT und Aktienkurs) Variablen besteht oder nicht?
Oder hast du 204 Prädiktoren und ein Kriterium, das du anhand der Prädiktoren vorhersagen und die Einflussstärke jedes Prädiktors überprüfen möchtest (Also insgesamt eine 205 Spalten *x-Zeilen große Matrix und du vergleichst die vorhergesagten mit den tatsächlichen Werten)?

Für beide Fälle erst einmal allgemein zu Korrelationen: Dass du bei einer Stichprobengröße von n > 200 keine Signifikanz erhältst, ist hoch unwahrscheinlich. Bei dieser Stichprobengröße wird beinahe alles signifikant von null verschieden.
Zusätzlich musst du aufpassen, nicht von Korrelation auf Kausalität zu schließen. Daher ist die Bezeichnung "abhängige und unabhängige Variable" hier schwierig. Ein linearer Zusammenhang, wie die Korrelation sie angibt (und daraus abgeleitete Werte wie R²) sagen nichts über eine Dominanzrichtung aus. Du kannst also nur sagen, dass die beiden Variablen irgendwie linear zusammenhängen, aber nicht, ob (und wenn ja welche) eine Variable die andere [i]kausal[/i] beeinflusst.

Für deine Untersuchung halte ich es also für sinnvoller, nicht mit Signifikanzen zu argumentieren, sondern möglichst nach Quellen Ausschau zu halten, die eine Höhe von [i]relevanten[/i] Korrelationen nennen. Du kannst dir bei deinen Korrelationen (seien sie nun einfache Vergleiche zweier Variablen oder die Prädiktionsleistung einer linearen Regression mit 204 Prädiktoren, was wiederum eigentlich andere weiterführende Verfahren nach sich ziehen sollte) auch das Konfidenzintervall anschauen, um zu sehen, wo die Korrelation voraussichtlich liegt und das mit der entsprechenden Quelle in Beziehung setzen. Solltest du also finden, dass ein Zusammenhang von [i]r[/i] < 0.2 irrelevant ist und die Obergrenze deines Konfidenzintervalls 0.2 unterschreitet, kannst du argumentieren, dass kein relevanter Zusammenhang vorliegt.

Prinzipiell kannst du natürlich auch bei deinem Ansatz bleiben und klassisch ein alpha Fehlerniveau von 5% annehmen und schauen, ob es passt oder nicht. Damit würdest du jedoch keinerlei brauchbare Aussage treffen, da die Nullhypothese in diesem Fall aufgrund der Stichprobengröße mit viel zu hoher Wahrscheinlichkeit verworfen wird. Der Erkenntnisgewinn läge also praktisch bei 0.


Vielleicht schaffst du es ja, deine Daten und dein Vorhaben noch einmal etwas näher zu beschreiben, dann findet sich mit Sicherheit auch eine Lösung für das Problem.


LG,
lauto
Lena12
Beiträge: 5
Registriert: 13.06.2012, 19:23

Beitrag von Lena12 »

hallo lauto,

vielen Dank für deine ausführliche Antwort. Ich versteh schon, dass ich mich etwas unklar ausdrücke - danke trotzdem.
Wie sieht denn deine Tabelle aus? Hast du 204 Wertepaare von EBIT und Aktienkurs? Und möchtest jetzt anhand der Korrelation berechnen, ob ein linearer Zusammenhang zwischen diesen beiden (EBIT und Aktienkurs) Variablen besteht oder nicht?
Oder hast du 204 Prädiktoren und ein Kriterium, das du anhand der Prädiktoren vorhersagen und die Einflussstärke jedes Prädiktors überprüfen möchtest (Also insgesamt eine 205 Spalten *x-Zeilen große Matrix und du vergleichst die vorhergesagten mit den tatsächlichen Werten)?
Genau ich habe 204 Wertepaare.
Für beide Fälle erst einmal allgemein zu Korrelationen: Dass du bei einer Stichprobengröße von n > 200 keine Signifikanz erhältst, ist hoch unwahrscheinlich. Bei dieser Stichprobengröße wird beinahe alles signifikant von null verschieden.
Zusätzlich musst du aufpassen, nicht von Korrelation auf Kausalität zu schließen. Daher ist die Bezeichnung "abhängige und unabhängige Variable" hier schwierig. Ein linearer Zusammenhang, wie die Korrelation sie angibt (und daraus abgeleitete Werte wie R²) sagen nichts über eine Dominanzrichtung aus. Du kannst also nur sagen, dass die beiden Variablen irgendwie linear zusammenhängen, aber nicht, ob (und wenn ja welche) eine Variable die andere kausal beeinflusst.
Ok - das war mir so nicht klar. Ich werde eine kleinere Stichprobe betrachten.

Für deine Untersuchung halte ich es also für sinnvoller, nicht mit Signifikanzen zu argumentieren, sondern möglichst nach Quellen Ausschau zu halten, die eine Höhe von relevanten Korrelationen nennen. Du kannst dir bei deinen Korrelationen (seien sie nun einfache Vergleiche zweier Variablen oder die Prädiktionsleistung einer linearen Regression mit 204 Prädiktoren, was wiederum eigentlich andere weiterführende Verfahren nach sich ziehen sollte) auch das Konfidenzintervall anschauen, um zu sehen, wo die Korrelation voraussichtlich liegt und das mit der entsprechenden Quelle in Beziehung setzen. Solltest du also finden, dass ein Zusammenhang von r < 0.2 irrelevant ist und die Obergrenze deines Konfidenzintervalls 0.2 unterschreitet, kannst du argumentieren, dass kein relevanter Zusammenhang vorliegt.
Das ist ein sehr interessanter Input. Vielleicht finde ich noch Quellen, die die Höhe der relevanten Korrelation nennen.
Prinzipiell kannst du natürlich auch bei deinem Ansatz bleiben und klassisch ein alpha Fehlerniveau von 5% annehmen und schauen, ob es passt oder nicht. Damit würdest du jedoch keinerlei brauchbare Aussage treffen, da die Nullhypothese in diesem Fall aufgrund der Stichprobengröße mit viel zu hoher Wahrscheinlichkeit verworfen wird. Der Erkenntnisgewinn läge also praktisch bei 0.
Sofern ich keine Quellen finde muss bei dieser Vorgehensweise bleiben. Ich hätte eine Frage zum t-Test in SPSS. In der Spalte Sig. wird der p-Wert wiedergegeben. Wenn dieser kleiner als mein festgelegtes Alpha ist, dann kann ich grundsätzlich (natürlich unter Beachtung deiner Anmerkungen) meine Nullhypothese verwerfen, oder? Hab ich das richtig verstanden?

Vielen Dank!!!

leni
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Dass du bei einer Stichprobengröße von n > 200 keine Signifikanz erhältst, ist hoch unwahrscheinlich. Bei dieser Stichprobengröße wird beinahe alles signifikant von null verschieden.

wäre mir neu


zu relevanten Effektgrößen hat Cohen publiziert (Cohen's d). Technische Umsetzung über G*Power.
drfg2008
lauto
Beiträge: 7
Registriert: 14.06.2012, 22:20

Beitrag von lauto »

@ drfg
Zitat:
Dass du bei einer Stichprobengröße von n > 200 keine Signifikanz erhältst, ist hoch unwahrscheinlich. Bei dieser Stichprobengröße wird beinahe alles signifikant von null verschieden.



wäre mir neu


zu relevanten Effektgrößen hat Cohen publiziert (Cohen's d). Technische Umsetzung über G*Power.
Erstes lässt sich sehr einfach nachprüfen. Bei einer Stichprobe von n = 100 bspw. ist eine Korrelation von r ~ 0.20 gerade signifikant (5% alpha). Für n = 1000 reicht eine Korrelation von r ~ 0.05. Für das angegebene Beispiel mit 204 Paaren liegt die Grenze ungefähr bei r ~ 0.13, was wohl in den meisten wissenschaftlichen Disziplinen kaum eine praktisch relevante Höhe darstellt.
Dass Signifikanztests bei steigender Stichprobengröße schneller signifikant werden, liegt in der Natur der Dinge (aufgrund der Uhrzeit spare ich mir hier eine eingehendere Erläuterung).

@ Lena
Ok - das war mir so nicht klar. Ich werde eine kleinere Stichprobe betrachten.
.

Nein, das bitte gerade nicht ;). Je größer die Stichprobe, desto aussagekräftiger die Werte. Ausbleibende Signifikanz bei kleinen Stichproben liegt eine deutlich höhere Fehlervarianz zugrunde. Du schadest der Qualität deiner Daten also, wenn du deine Stichprobe künstlich reduzierst.

Suche lieber nach entsprechenden Quellen oder nutze je nach Kontext Standardgrößen wie 0,2/0,5/0,8.

GPower kann ich dir zum Herumspielen und Veranschaulichen von Effektgrößen, Fehlerarten, Stichprobengrößen, etc. sehr empfehlen. Nicht zuletzt, weil einer meiner ehemaligen Profs bei der Entwicklung beteiligt war/ist :).


LG,
lauto
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Dass Signifikanztests bei steigender Stichprobengröße schneller signifikant werden, liegt in der Natur der Dinge (aufgrund der Uhrzeit spare ich mir hier eine eingehendere Erläuterung).
Vielen Dank für die Belehrung am späten Abend. Hier eine Antwort am frühen Morgen.

Richtig ist zwar, dass ein Zusammenhang besteht zwischen Stichprobengröße und Nachweis einer Effektgröße (je größer N, desto kleiner die Effektgröße, die bei gegebenem Fehler nachweisbar wäre). Daraus lässt sich aber nicht der Umkehrschluss bilden und schon gar nicht die Aussage ableiten, ....
Dass du bei einer Stichprobengröße von n > 200 keine Signifikanz erhältst, ist hoch unwahrscheinlich. Bei dieser Stichprobengröße wird beinahe alles signifikant von null verschieden.
Ein r von 0,2 (siehe Beispiel) wäre bei großen Stichproben nicht mehr so ohne Weiteres zufällig entstanden (von Null verschieden) wie bei kleinen Stichproben. Welche Effektgröße tatsächlich durch die Stichprobe erklärt werden kann, lässt sich anhand der Darstellungen von Cohen berechnen (Berechnungen mit dem kostenlosen Programm G*Power). A priori würde mann den sog. optimalen Stichprobenumfang berechnen (N_opt). Im Nachhinein würde man dann entsprechende Teststärkekurven berechnen. Das ist aber alles andere als eine "Spielerei".
GPower kann ich dir zum Herumspielen und Veranschaulichen von Effektgrößen, Fehlerarten, Stichprobengrößen, etc. sehr empfehlen.

PS Hoffentlich liest dein Prof nicht deinen Beitrag.
drfg2008
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Für das angegebene Beispiel mit 204 Paaren liegt die Grenze ungefähr bei r ~ 0.13, was wohl in den meisten wissenschaftlichen Disziplinen kaum eine praktisch relevante Höhe darstellt.
Praktisch relevant kann das in eigentlich jeder Disziplin sein. Es kommt
auf die jeweilige konkrete Fragestellung an. Und nicht alles muss praktisch
relevant sein. Es gibt gnügend theoretisch orientierte Forschung, und
auch da kommt es auf den konkreten Sachverhalt an.
lauto
Beiträge: 7
Registriert: 14.06.2012, 22:20

Beitrag von lauto »

Schade, dass nun weder auf das Problem des Fragestellers eingegangen noch fachlich richtig argumentiert wird. Es ist mir die Zeit nicht wert, darzustellen, inwiefern wir aneinander vorbeireden, drfg. Da vile solcher Diskussionen folgen würden, werde ich dich in diesem Forum nicht weiter belästigen

@ Generalist: So gesehen hast du Recht. Meine Antwort bezog sich eher auf praktische Anwendungen, wie die Fragestellerin sie ausführte. Letztlich muss sie selbst entscheiden, ob ein für sie praktisch relevanter Zusammenhang besteht, wenn eine Regression rund 2,5% der Varianz erklären kann.

@ Fragestellerin: Ich hoffe, dir wurde hier trotz irreführender Diskussionen weitergeholfen. Mir in diesem Forum leider nicht.


LG,
lauto
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Da vile solcher Diskussionen folgen würden, werde ich dich in diesem Forum nicht weiter belästigen
Du hast uns bislang ja auch erst 7 mal einen Beitrag geschenkt.
drfg2008
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten