lineare oder logistische Regression??

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

ahnungslos hat geschrieben: Missings definiere ich doch nur dann, wenn da Antworten fehlen, oder nicht? Die Antworten sind ja vorhanden, sie sollen nur nicht in die Analyse eingehen. Oder ist das dann Missing? (Oh Gott, meine Blödheit ist echt zu peinlich *seufz*) Ich nutze eigentlich nicht die Syntax, habe jetzt da aber gerade noch 3 als MISSING definiert, ändert aber nichts, dass da immer noch steht: ,00 = 0... s.o.
Hm, vielleicht hab ich dich nciht richtig verstanden - gibt es denn ein Problem damit daß 1 in der log.Reg nicht 1 ist oder geht es darum daß da ,00 statt 0 steht? Das liegt einfach daran daß in SPSS zwei Nachkommastellen Standard sind - und 0,00 ist natürlich auch nur 0 ;)
Ansonsten wird als MISSING (also fehlender Wert) alles das codiert was in einer Auswertung uninteressant ist - und das ist natürlich Interpretationssache. "Weiß nicht" ist aber in der Regel wirklich nicht besonders interessant - das als fehlenden Wert zu definieren ist absolut üblich.
Ach so, meinst Du dieses Vorwärts und Rückwärts und Wald und so? Tja, da blicke ich auch nicht wirklich durch, weil leider in keinem der SPSS-Bücher, die ich mir zugelegt habe, was dazu drinsteht...
Ich meine eigentlich nur Vorwärts und Rückwärts ;). Ansonsten empfehle ich, einfach malk über google nach Erklärungen der log.Reg. zu suchen, da gibts auch einige gute gerade für Sozialwissenschaftler, siehe z.B. hier:
http://www.uni-bamberg.de/fileadmin/uni ... g-BBES.pdf
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Jack Crow hat geschrieben: Hm, vielleicht hab ich dich nciht richtig verstanden - gibt es denn ein Problem damit daß 1 in der log.Reg nicht 1 ist oder geht es darum daß da ,00 statt 0 steht? Das liegt einfach daran daß in SPSS zwei Nachkommastellen Standard sind - und 0,00 ist natürlich auch nur 0 ;)
Schon klar, so blöd bin ich dann auch wieder nicht... ;) Ich war mir nur nicht sicher, ob das jetzt richtig rekodiert ist, weil halt nicht mehr ja/nein da steht, aber ich hab es jetzt mal überprüft, es hat doch funktioniert... Wenigstens etwas :)

Danke für den Link, ich werd mir das mal anschauen. Ich hab mir auch schon einige Sachen runtergeladen, aber irgendwie werd ich da trotzdem nicht draus schlau, weil ich mit den ganzen Angaben nichts anfangen kann. Ich habe meine aV Teilnahmebereitschaft, dann füge ich den Index eines theoretischen Konstrukts hinzu, und dann weiß ich eben nicht, wie ich das interpretieren soll:

Variablen in der Gleichung
RegrkoeffB SE df Sig. Exp(B)
aV 1,154 ,307 1 ,000 3,170
Konstante -4,332 ,989 1 ,000 ,013

(ich hoffe, man kann das ohne Formatierung erkennen...)
Was bedeutet das jetzt für meine Teilnahmebereitschaft (=Konstante)???

Heißt das jetzt, wenn die aV um eine EH steigt, dass dann die Whs einer positiven Teilnahmebereitschaft um das 3,17fache größer ist? Und mit den Regrkoeff. kann ich auch nicht wirklich was anfangen. Das Einzige, wo ich mir sicher zu sein glaube, ist das das Modell signifikant ist... :( Und wenn ich jetzt noch mehr uVs einfüge, bedeutet der Exp(B) dann die Whs-Veränderung ceteris paribus?

:cry:
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

ahnungslos hat geschrieben: Schon klar, so blöd bin ich dann auch wieder nicht... ;) Ich war mir nur nicht sicher, ob das jetzt richtig rekodiert ist, weil halt nicht mehr ja/nein da steht, aber ich hab es jetzt mal überprüft, es hat doch funktioniert... Wenigstens etwas :)
Dann ist ja gut :D Für SPSS sind nein und 0 und ja und 1 einfach dasselbe.
Danke für den Link, ich werd mir das mal anschauen. Ich hab mir auch schon einige Sachen runtergeladen, aber irgendwie werd ich da trotzdem nicht draus schlau, weil ich mit den ganzen Angaben nichts anfangen kann. Ich habe meine aV Teilnahmebereitschaft, dann füge ich den Index eines theoretischen Konstrukts hinzu, und dann weiß ich eben nicht, wie ich das interpretieren soll:

Variablen in der Gleichung
RegrkoeffB SE df Sig. Exp(B)
aV 1,154 ,307 1 ,000 3,170
Konstante -4,332 ,989 1 ,000 ,013

(ich hoffe, man kann das ohne Formatierung erkennen...)
Was bedeutet das jetzt für meine Teilnahmebereitschaft (=Konstante)???
Die Kategorie 1 (also = ja) der Teilnahmebereitschaft als abhängige Variable ist das worauf sich die ausgegebenen Werte beziehen und hat weder was mit der Konstante zu tun noch wird da irgendwas zu angezeigt.
Für jede metrische UV wird ein Regressionskoeffizizient und ein sog. Effekkoeffizient angezeigt. Für ersteres ist aufgrund der Besonderheit der logistischen Funktion nur das Vorzeichen interpretierbar. Die Stärke des Zusammenhangs ergibt sich aus dem exp(B): Er gibt die Steigerung des Wahrscheinlichkeitsverhältnisses an ;). Konkret: Wenn die UV um eine Einheit erhöht wird, steigt (oder sinkt) die Wahrscheinlichkeit, dass ein Fall zur Kategorie 1 der AV zählt, und zwar um den Faktor des exp(B)-Wertes. Ist dieser = 1,000 ändert die UV also gar nichts, bei 2,000 z.B. verdoppelt sich die Wahrscheinlichkeit für Kategorie 1 mit jeder Erhöhung, bei z.B. 0,500 halbiert sie sich (wobei Werte unter 1 schwierig zu interpretieren sind). Diese Werte gelten immer ceteris paribus. Es gibt jedoch einen Weg auch Kombinationen von UVs zu testen: Zur Zuordung eines Falles zur Kategorie 1 buw. 0 der AV berechnet SPSS eine spezifische Wahrscheinlichkeit für 1, die sich als Variable speichern lässt. Liegt diese für einen Fall über 0,5 wird dieser halt als "ja"-Fall interpretiert (ob dies stimmt oder nciht). Je mehr Fälle die Regression korrekt zuordnen kann, desto besser ist das Modell. Man kann dann künstliche "Modellfälle" mit interessierenden Merkmalskombinationen erstellen und diese testen - auf diese Weise kann man genau berechnen lassen wie groß die Wahrscheinlichkeit einer Teilnahme ist wenn bestimmte Antworten gegeben wurden.
Ich find den Fromm-Text eigentlich ziemlich verständlich und er arbeitet ja auch mit SPSS, allerdings benutzt sie nicht die schrittweise Methode!
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Hmm, also wenn ich das, was Du geschrieben hast, richtig verstanden habe, ist meine Interpretation ja richtig gewesen, oder? Bei exp(B) 3,17 heißt das, dass die Whs, zur Teilnahme bereit zu sein, 3,17mal so hoch (oder um 317 % höher) ist, wenn die uV um eine Einheit steigt, oder nicht? (Bitte bitte sag ja, dann hab ich wenigstens etwas kapiert... ;))
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

Ja ;)
Technisch gesehen steigt allerdings nicht die Wahrscheinlichkeit selbst sondern die Wahrscheinlichkeit im Verhältnis zur Kategorie davor.
Ein exp(B) von 3,17 ist auf jeden Fall ziemlich hoch :)
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Jack Crow hat geschrieben:Ja ;)
JUCHU!!! :D
Jack Crow hat geschrieben:Technisch gesehen steigt allerdings nicht die Wahrscheinlichkeit selbst sondern die Wahrscheinlichkeit im Verhältnis zur Kategorie davor.
Was heißt das denn? V.a. zur Kategorie davor? Meinst Du die Referenzkategorie? Und ist es falsch, es so zu sagen, wie ich es geschrieben habe?
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

Nein, keine Angst ;) Die logistische Funktion führt einfach dazu, dass sich die Wahrscheinlichkeit für 1 nicht direkt, sondern sozusagen über einen Umweg interpretieren lässt, eben über den exp(B) (dahinter steckt einfach der RegressionskoeffizientB exponiert zur Eulerschen Zahl, deswegen kann er auch nicht negativ werden). Und dieser kann die Wahrscheinlichkeitssteigerung immer nur im Verhältnis zu etwas angeben, also die Wahrscheinlichkeit ist 3,17mal höher für UV=3 als für UV=2. Wenn UV=4 ist ist die Wahrscheinlichkeit 3,17mal höher als gegenüber UV=3 - im Verhältnis zu UV=2 steigt die Wahrscheinlichkeit bei UV=4 also um 2*3,17 usw. Bei nominalen UVs ist die Interpretation ein bischen einfacher, da wird immer eine Kategorie ins Verhältnis zu einer Referenzkategorie gesetzt, also z.B. wenn UV=weiblich steigt die Wahrscheinlichkeit um soundsoviel gegenüber der Wahrscheinlichkeit wenn UV=männlich.
Das hört sich alles viel komplizierter an als es eigentlich ist, und die mathematischen Grundlagen muss man eigentlich auch nicht wirklich können ;) Am besten ist es du suchst bei google nach einer Arbeit o.ä. die die Technik anwendet, dann wird am Beispiel auch die Logik klarer - ich hab nicht mehr im Kopf wo es sowas gibt aber es gibt es ;)
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Jack Crow hat geschrieben:...dieser kann die Wahrscheinlichkeitssteigerung immer nur im Verhältnis zu etwas angeben, also die Wahrscheinlichkeit ist 3,17mal höher für UV=3 als für UV=2. Wenn UV=4 ist ist die Wahrscheinlichkeit 3,17mal höher als gegenüber UV=3 - im Verhältnis zu UV=2 steigt die Wahrscheinlichkeit bei UV=4 also um 2*3,17 usw. Bei nominalen UVs ist die Interpretation ein bischen einfacher, da wird immer eine Kategorie ins Verhältnis zu einer Referenzkategorie gesetzt, also z.B. wenn UV=weiblich steigt die Wahrscheinlichkeit um soundsoviel gegenüber der Wahrscheinlichkeit wenn UV=männlich.
Schon klar, denn ich dachte, DAS hätte ich damit ausgedrückt, wenn ich sage, dass die Whs für das Eintreten der aV um das Soundsovielfache steigt, wenn die uV um eine EH steigt... Oder nicht? Denn das ist doch dann im Vgl dazu wie es eine EH weniger ist... Dachte ich... :?:

Himmel, ich hasse Statistik ;)
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

Naja, ganz genau ausgedrückt steigt die Wahrscheinlichkeit halt im Verhältnis und nicht absolut, wie es der Koeffizient in der normalen Regression ausdrückt... :twisted:
Umgangssprachlich ist das natürlich dasselbe - es reicht eigentlich in der Arbeit einmal zu betonen daß das halt eine Steigerung im Verhältnis ist (du musst ja wohl eh die Methode kurz beschreiben) und dann schreibt man beim Rest einfach daß die Wahrscheinlichkeit steigt ;). Kommt ein bischen drauf an ob der Prüfer da spitzfindig ist oder überhaupt was davon versteht... :lol:
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Also, jetzt bin ich ja schon wieder verwirrt...

Hatte vor ein paar Tagen schon mal die logistische Regression berechnet, da kamen ja ganz passable Sachen raus. Jetzt hab ich sie nochmal gerechnet und jetzt stehen da völlig andere Sachen, obwohl es derselbe Datensatz ist und ich auch haargenau dieselben Variablen benutzt hab.... :-( Vor allem steht da jetzt so was Unsinniges wie Nagelkerkes R^2 = 1, das KANN doch nicht sein, oder???

Was mich aber noch mehr verwirrt: ich habe mal logistische Regressionen für jede einzelne uV mit aV gerechnet. Z.T. mit super Ergebnissen. Also lasse ich die ns weg, nehme nur die signifikanten auf und was passiert? Es kommt wie gesagt nur noch Schrott raus. Wie kann das sein, dass auf einmal, wenn ich alle uVs in die Regression aufnehme, nur noch Nonsens rauskommt? Und wie kann es sein, dass auf einmal sich die Regression völlig geändert hat im Gegensatz zu vorher??? HILFE!!! Eigentlich sollte doch bei allen sig. uVs, die einzeln gute R^2 hatten, sich auch im Gesamtmodell ähnlich wiederfinden, oder nicht?! Oder ist da ein Denkfehler drin und einzelne Superregressionen heißen nichts oder verschwinden im Gesamtmodell? Denn nichts von den vorher hochsignifikanten Zsh bleibt im Gesamtmodell bestehen... Ich versteh das nicht :cry:

Denn beim ersten Mal hat er ein Ergebnis gefunden, und jetzt sagt er mir immer, die Endlösung (! so steht das da wirklich !) kann nicht gefunden werden, weil die 20 Iterationen erreicht sind. Erhöhen kann ich sie aber auch nicht, dann rechnet er nämlich gar nicht mehr :-(

*schnief*
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

ahnungslos hat geschrieben:Also, jetzt bin ich ja schon wieder verwirrt...

Hatte vor ein paar Tagen schon mal die logistische Regression berechnet, da kamen ja ganz passable Sachen raus. Jetzt hab ich sie nochmal gerechnet und jetzt stehen da völlig andere Sachen, obwohl es derselbe Datensatz ist und ich auch haargenau dieselben Variablen benutzt hab.... :-( Vor allem steht da jetzt so was Unsinniges wie Nagelkerkes R^2 = 1, das KANN doch nicht sein, oder???
Bist du sicher daß du nicht aus Versehen noch einen Filter aktiviert hattest? Ansonsten kann ich damit leider auch nichts anfangen... :(
Was mich aber noch mehr verwirrt: ich habe mal logistische Regressionen für jede einzelne uV mit aV gerechnet. Z.T. mit super Ergebnissen. Also lasse ich die ns weg, nehme nur die signifikanten auf und was passiert? Es kommt wie gesagt nur noch Schrott raus. Wie kann das sein, dass auf einmal, wenn ich alle uVs in die Regression aufnehme, nur noch Nonsens rauskommt? Und wie kann es sein, dass auf einmal sich die Regression völlig geändert hat im Gegensatz zu vorher??? HILFE!!! Eigentlich sollte doch bei allen sig. uVs, die einzeln gute R^2 hatten, sich auch im Gesamtmodell ähnlich wiederfinden, oder nicht?! Oder ist da ein Denkfehler drin und einzelne Superregressionen heißen nichts oder verschwinden im Gesamtmodell? Denn nichts von den vorher hochsignifikanten Zsh bleibt im Gesamtmodell bestehen... Ich versteh das nicht

Daß sich bivariat signifikante Zusammenhänge im multivariaten Modell als insignifikant herausstellen ist normal - deswegen macht man ja die multivariate Rechnung. Wenn UVs stark miteinander korrellieren können sich die Wirkungen aufheben. Es ist z.B. nicht möglich zwei UVs zu integrieren, von denen eine ein Subset der anderen ist, da zwischen letzterer und ersterer ein perfekter Zusammenhang besteht.
Wenn du allerdings nicht völlig absurde Hypothesen aufgestellt hast (;)) sollten sich im Gesamtmodell eigentlich ezumindest ein paar Variablen als robust herausstellen. Vieleicht versuchts du mal anhand deienr theoretischen Annahmen die problematischen Variablen herauszufinden: Du beginnst mit einer bivariaten Regression und fügst dann immer jeweils eine Variable hinzu, u.U. auch in verschjiedener Reihenfolge. Ist natürlich viel Arbeit, aber nur so kann man letztlich die problematischen variablen isolieren.
Ferndiagnostisch ist das allerdings schwer zu bewerten - gibt es bei euch nicht vielleicht irgendwen an der Uni dem du das zeigen und um Hilfe bitten kannst?
"Life is 10% effort and 90% lucky timing"
Scott Adams
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Ne, leider alles auch SPSS-Nullen... Ich (!!!!!) hab noch am meisten Ahnung...

Auf welche Idee ich noch gekommen bin: könnte es sein, dass einfach die Fallzahl viel zu klein ist und deswegen nur noch Quark rauskommt? Denn wie gesagt, einzeln funktioniert es ja... Aber Deinen Vorschlag werd ich trotzdem gleich mal umsetzen.

Mir läuft nur langsam die Zeit davon :-(

Ach ja: gibt es irgendeine Möglichkeit, den Befehl "list variables" ohne Syntax auszuführen? SPSS "erkennt" nämlich auf einmal meine Variablen nicht mehr, dann könnte ich es direkt eingeben, falls es ein Menü dazu gibt.

Aber Jack ansonsten: ich kann Dir gar nicht genug danken, dass Du mir so geduldig hilfst... Ich steh echt am Rande des Nervenzusammenbruchs. Hätte ich mir mal eher Gedanken über das Meßniveau meiner aV gemacht, hätte ich sie anders formuliert und dann eine lineare Regression gerechnet. *hmpf* Davon hab ich wenigstens ein bißchen Ahnung *seufz*
ahnungslos
Beiträge: 32
Registriert: 14.09.2007, 09:29

Beitrag von ahnungslos »

Habe das jetzt mal an einigen ausprobiert; im Grunde passiert das bei so ziemlich jeder hinzugefügten Variable. Nagelkerke ist zwar recht deutlich, meistens so um die 0,5; aber dafür werden die uVs dann insiginifikant. Z.T. nur ein bißchen (z.B. auf 0,07 oder 0,1), manchmal aber auch SEHR deutlich auf 0,9.

Ich fürchte, es liegt an der Fallzahl, kann das sein?
Jack Crow
Beiträge: 146
Registriert: 14.12.2006, 18:41

Beitrag von Jack Crow »

Das ist zumindest ziemlich plausibel... Mehr fällt mir da allerdings so auch nicht zu ein. Im schlimmsten Fall wird dir nichts anderes übrigbleiben als mit deinem Betreuer zu sprechen, dafür ist er ja da. Im Notfall müsstest du dann dein Konzept abspecken und dich vor allem auf die bivariaten Zusammenhänge mit Drittfaktorenkontrolle konzentrieren. Dafür gibst sogar ne' methodisch argumentierte Grundlage: Ray, James (2005): Constructing Multivariate Analyses (of Dangerous Dyads). In: Conflict Management and Peace Science 22, S. 277-292. Thematisch ist das vielleicht nicht dein Bereich, aber eigentlich gehts vor allem darum daß der Autor argumentiert daß umfangreiche multivariate Tests eher verzerren als vernünftige Ergebnisse liefern, und man daher in der beschriebenen Weise vorgehen sollte.
"Life is 10% effort and 90% lucky timing"
Scott Adams
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten