binäre logistische Regression
-
- Beiträge: 10
- Registriert: 25.03.2010, 20:16
binäre logistische Regression
Hallo!
Was bedeutet es denn, wenn beim Hosmer-Lemeshow-Test im Feld der Signifikanz nur ein Punkt und kein Wert angegeben ist?
Ab wann ist denn ein Modell brauchbar? Habe erklärte Varianzen von 28 bis 54%...
Kann man denn anhand der erklärten Varianzen Modelle mit unterschiedlichen Regressoren untereinander vergleichen? Also z.B. Modell A ist besser als Modell B, weil die erklärte varianz höher ist?
Was bedeutet es denn, wenn beim Hosmer-Lemeshow-Test im Feld der Signifikanz nur ein Punkt und kein Wert angegeben ist?
Ab wann ist denn ein Modell brauchbar? Habe erklärte Varianzen von 28 bis 54%...
Kann man denn anhand der erklärten Varianzen Modelle mit unterschiedlichen Regressoren untereinander vergleichen? Also z.B. Modell A ist besser als Modell B, weil die erklärte varianz höher ist?
-
- Beiträge: 165
- Registriert: 05.07.2009, 21:10
Die aufgeklärte Varianz würde ich nicht unbedingt als einziges Gütemaß bei einer logistischen Regression nehmen. Insbesondere weil das Pseudo-Maße sind, die nicht wirklich aufgeklärte Varianz im Sinne einer intervallskalierten Variable messen. Schau dir doch mal die Übereinstimmung der anhand deines Modells vorhergesagten Werte und der tatsächlichen Werte an. Das ist meist recht aufschlussreich.
-
- Beiträge: 10
- Registriert: 25.03.2010, 20:16
Vielen Dank für Deine Antwort!
Du meinst damit doch bestimmt die Klassifizierungstabelle:
Hab hier mal ein beispiel. Könnte man das z.B. so auswerten?:
"Die Ergebnisse der Klassifizierungstabelle zu den vorhergesagten und tatsächlichen Fällen einer Erkrankung lassen auf eine relativ gute Trennfähigkeit des Modells für die Variablen schließen. Die Fälle aus der Gruppe „keine keine Erkrankung“ wurden zu 60,3% und die Fälle mit einer Erkrankung zu 70,0 % richtig klassifiziert. Insgesamt wurden 65,4% aller Fälle von diesem Modell richtig eingeordnet. Für beide Gruppen war die Güte etwa gleich hoch."
Ist eine Vorhersage von 65% denn schon gut?
Du meinst damit doch bestimmt die Klassifizierungstabelle:
Hab hier mal ein beispiel. Könnte man das z.B. so auswerten?:
"Die Ergebnisse der Klassifizierungstabelle zu den vorhergesagten und tatsächlichen Fällen einer Erkrankung lassen auf eine relativ gute Trennfähigkeit des Modells für die Variablen schließen. Die Fälle aus der Gruppe „keine keine Erkrankung“ wurden zu 60,3% und die Fälle mit einer Erkrankung zu 70,0 % richtig klassifiziert. Insgesamt wurden 65,4% aller Fälle von diesem Modell richtig eingeordnet. Für beide Gruppen war die Güte etwa gleich hoch."
Ist eine Vorhersage von 65% denn schon gut?
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
"Ist eine Vorhersage von 65% denn schon gut?"
Das kann man so allgemein nicht beantworten. Wenn beispielsweise 62% einer Stichprobe krank sind, würde man den Status "krank" für die gesamte Stichprobe
vorhersagen und hätte eine Trefferquote von eben 62%. Mit einem mehr oder minder aufwändigen Modell dann eine Verbesserung um 3% zu erzielen, wäre nicht
sehr beeindruckend. Ist das Verhältnis gesund/krank 50% zu 50%, dann erscheint eine Steigerung auf 65% hingegen schon als sehr ordentlich.
Das kann man so allgemein nicht beantworten. Wenn beispielsweise 62% einer Stichprobe krank sind, würde man den Status "krank" für die gesamte Stichprobe
vorhersagen und hätte eine Trefferquote von eben 62%. Mit einem mehr oder minder aufwändigen Modell dann eine Verbesserung um 3% zu erzielen, wäre nicht
sehr beeindruckend. Ist das Verhältnis gesund/krank 50% zu 50%, dann erscheint eine Steigerung auf 65% hingegen schon als sehr ordentlich.
-
- Beiträge: 10
- Registriert: 25.03.2010, 20:16
Sorry, aber das versteh ich leider nicht ganz....
ich habe z.B. ein Modell mit 4 Risikofaktoren. Jeder einzeln betrachtet klassifiziert die Erkrankung zwischen 63 und 72% richtig. Gemeinsam sind es allerdings knapp über 72%. das ist doch eine gute Verbesserung und spricht für das gemeinsame Modell, oder?
ich habe z.B. ein Modell mit 4 Risikofaktoren. Jeder einzeln betrachtet klassifiziert die Erkrankung zwischen 63 und 72% richtig. Gemeinsam sind es allerdings knapp über 72%. das ist doch eine gute Verbesserung und spricht für das gemeinsame Modell, oder?
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
Wie hoch die Trefferquote eines Modells ist, ist nur bedingt relevant. Man muss auch schauen, wie gut man ohne Modell vorhersagen würde. Wenn 90% krank sind und man sagt für jeden Fall "krank" vorher, hat man auch schon ohne eine Regression eine 90% Trefferquote.
Ob eine Steigerung von 55% Trefferquote auf 72% gut ist, dies zu beurteilen liegt bei Dir. Ob eine 72% Trefferquote gut ist, dies zu beurteilen liegt bei Dir.
Ob eine Steigerung von 55% Trefferquote auf 72% gut ist, dies zu beurteilen liegt bei Dir. Ob eine 72% Trefferquote gut ist, dies zu beurteilen liegt bei Dir.
-
- Beiträge: 10
- Registriert: 25.03.2010, 20:16
Ich hab gleich noch eine dringende Frage:
Ich habe in meinem Statistikbuch endlich eine Formel gefunden, mit der ich über den Umweg eines z-Wertes die Wahrscheinlichkeiten und Gruppenzugehörigkeiten für jeden Fall ausrechnen kann...allerdings ist das eine beispielformel und für meine "Methoden" brauch ich ja die "Rohform"... Kannst Du mir vielleicht sagen, wie die Formel heißt oder sogar, wie ich sie in variablenform schreiben kann?
z"tiefgstellt" i= 2,077 - (0,035 x Alter) + (0,204 x syst.RR) - (0,202 x diast.RR)
2,077=Regressionskoeffizient B der Konstante
-0,035= Regressionskoeffizient B des Prädiktors "Alter"
+0,204= Regressionskoeffizient B des Prädiktors "syst.RR"
-0,202= Regressionskoeffizient B des Prädiktors " diast.RR"
dann wird z "tiefgestellt" i in p eingesetzt: p=1/(1+e "hochgestellt" z i)....
Wie heißen denn nur die beiden Formeln und was ist "e"???
Danke!
Ich habe in meinem Statistikbuch endlich eine Formel gefunden, mit der ich über den Umweg eines z-Wertes die Wahrscheinlichkeiten und Gruppenzugehörigkeiten für jeden Fall ausrechnen kann...allerdings ist das eine beispielformel und für meine "Methoden" brauch ich ja die "Rohform"... Kannst Du mir vielleicht sagen, wie die Formel heißt oder sogar, wie ich sie in variablenform schreiben kann?
z"tiefgstellt" i= 2,077 - (0,035 x Alter) + (0,204 x syst.RR) - (0,202 x diast.RR)
2,077=Regressionskoeffizient B der Konstante
-0,035= Regressionskoeffizient B des Prädiktors "Alter"
+0,204= Regressionskoeffizient B des Prädiktors "syst.RR"
-0,202= Regressionskoeffizient B des Prädiktors " diast.RR"
dann wird z "tiefgestellt" i in p eingesetzt: p=1/(1+e "hochgestellt" z i)....
Wie heißen denn nur die beiden Formeln und was ist "e"???
Danke!