Hi
ich hab eine Datenbank in SPSS mit verschiedenen Variablen. Diese sind z.B. Alter, Gender, Tumor_Expression_EGFR (metrische Variable, Werte reichen von 0-200), Beobachtungszeitraum (bis zum Tod), Überlebenstatus (nominal verstorben/lebt) und etc.
ich soll eine Überlebensanalyse mittels Cox-Regression machen.
Wenn ich in SPSS auf Analayse > Überleben > Cox Regression gehe öffnet sich ein Fenster. In Kovariaten kann ich ja jede Variable eingeben von der ich den p-Wert haben möchte auf das Überleben (also z.B. Gender, Alter, Tumor_Expression_EGFR).
Wieso ergeben sich jetzt unterschiedliche p-Werte wenn ich eine Cox-Regression z.B. nur für das Alter durchführe (Das Alter wäre dann nicht statistisch signifikant hinsichtlich des Überlebens). Mach ich nur eine Cox-Regression für Tumor_Expression_EGFR wäre dieses signifikant hinsichtlich des Überlebens
Mach ich eine Cox-Regression für alle Variablen (Alter und Tumor_Expression_EGFR bzw. die anderen Tumor_Expressionswerte) ist plötzlich Alter signifikant hinsichtlich des Überlebens aber nicht die Tumor_Expression.
Welche p-Werte sind die richtigen? Cox-Regression für jede Variable einzeln oder Cox-Regression für alle Variablen auf einmal?
Cox Regression
-
- Beiträge: 2731
- Registriert: 01.02.2018, 10:45
Re: Cox Regression
hallo
die Variablen korrelieren untereinander
stell dir vor : alk und zigaretten..viel Personen habe beide Laster
das korreliert nun. jetzt kannst du eine Lebererkrankung per Korrelation
auf beides zurück führen.. (fälschlicherweise!)
in einer regresssion wird dieser interne zusammenhang aber berücksichtigt..
ja nachdem wie du das Modell baust kommen nun anderen Koeffizienten heraus.
Stichwort : "Kollinear"
aber du kannst die Abhängige Variable nur einmal erklären durch ALK oder durch Zigaretten.
sind die Variablen unkorreliert hat jede Variable nur einen Koeffizient (Gewicht..)
eben unabhängig von den anderen variablen.
zu bedenken wäre aber auch einmöglicher Supressionseffekt (bei COX ? mal gügln)
und natürlich wechelwirkungen zwischen den Variablen...
gruß
dutchie
die Variablen korrelieren untereinander
stell dir vor : alk und zigaretten..viel Personen habe beide Laster
das korreliert nun. jetzt kannst du eine Lebererkrankung per Korrelation
auf beides zurück führen.. (fälschlicherweise!)
in einer regresssion wird dieser interne zusammenhang aber berücksichtigt..
ja nachdem wie du das Modell baust kommen nun anderen Koeffizienten heraus.
Stichwort : "Kollinear"
aber du kannst die Abhängige Variable nur einmal erklären durch ALK oder durch Zigaretten.
sind die Variablen unkorreliert hat jede Variable nur einen Koeffizient (Gewicht..)
eben unabhängig von den anderen variablen.
zu bedenken wäre aber auch einmöglicher Supressionseffekt (bei COX ? mal gügln)
und natürlich wechelwirkungen zwischen den Variablen...
gruß
dutchie
-
- Beiträge: 3
- Registriert: 23.10.2018, 08:55
Re: Cox Regression
Ist nun etwas verständlicher. D.h. um bei deinem Bsp. zu bleiben. Alkohol kann einen Einfluss haben eine Lebererkrankung zu kriegen. Zigarettenkonsum kann einen Einfluss haben eine Lebererankung zu kriegen. Es kann aber auch sein, dass Alkohol NUR in Kombination mit Zigaretten eine Lebererkrankung verursacht.
D.h. eine Cox-Regression wäre für eine einzelne Variable genauso richtig wie für alle Variablen gemeinsam. Hab ich das nun richtig verstanden?
Ich finde die Erklärungen für die Cox-Regression zu kompliziert und habe leider keine einfache, alles umfassende Erklärung gefunden.
Ich habe sehrviele Variablen die nominal sind bzw. stetig sind und möchte gerne deren Einfluss auf das Überleben abschätzen mittels Cox-Regression.
Um nochmal auf mein Bsp. zu kommen. Ich habe 160 Patienten in der Statistik mit jeweils 150 Variablen Tumor_Expression_EGFR (Werte reichen von 0 auf 200) und Kontrolle_Expression_EGFR (Werte reichen von 0 bis 100).
D.h. wenn ich die Cox-Regression berechnen möchte muss die Annahme stimmen dass der Kontroll-EGFR Wert mit dem Tumor-EGFR Wert korreliert. Falls ja dann hab ich das verstanden. Wie kann ich aber Alter oder Gender mit in die Analayse nehmen? Der Kontroll-EGFR-Wert kann zwar mit dem Alter korrelieren nicht aber mit dem Gender.
D.h. eine Cox-Regression wäre für eine einzelne Variable genauso richtig wie für alle Variablen gemeinsam. Hab ich das nun richtig verstanden?
Ich finde die Erklärungen für die Cox-Regression zu kompliziert und habe leider keine einfache, alles umfassende Erklärung gefunden.
Ich habe sehrviele Variablen die nominal sind bzw. stetig sind und möchte gerne deren Einfluss auf das Überleben abschätzen mittels Cox-Regression.
Um nochmal auf mein Bsp. zu kommen. Ich habe 160 Patienten in der Statistik mit jeweils 150 Variablen Tumor_Expression_EGFR (Werte reichen von 0 auf 200) und Kontrolle_Expression_EGFR (Werte reichen von 0 bis 100).
D.h. wenn ich die Cox-Regression berechnen möchte muss die Annahme stimmen dass der Kontroll-EGFR Wert mit dem Tumor-EGFR Wert korreliert. Falls ja dann hab ich das verstanden. Wie kann ich aber Alter oder Gender mit in die Analayse nehmen? Der Kontroll-EGFR-Wert kann zwar mit dem Alter korrelieren nicht aber mit dem Gender.
-
- Beiträge: 2731
- Registriert: 01.02.2018, 10:45
Re: Cox Regression
hallo
aber so hab ich das nicht gemeint: alk macht Lebererkrankung, aber weil alk mit Zigis korreliert ist, kann es so aussehen das die Zigis
fälschlicherweise dafür verantwortilch gemacht werden und Alk in der regessionsgleichung die signifikanz nehmen..
alter und gender sind Moderatoren..(güggln) z.B. alk wirkt nur bei frauen nicht bei männern! geschlecht spielt eine rolle aber nur indem es die wirkung
einer variblen verändert...
normal macht man einen plan wie man die gleichung baut, mit viel theorie...
man kann aber auch den Computer suchen lassen (nicht enter sondern z.B." LL vorwärts" ...)
gruß
dutchie
dann wären zigaretten ein Moderator...Frokon hat geschrieben: Es kann aber auch sein, dass Alkohol NUR in Kombination mit Zigaretten eine Lebererkrankung verursacht.
aber so hab ich das nicht gemeint: alk macht Lebererkrankung, aber weil alk mit Zigis korreliert ist, kann es so aussehen das die Zigis
fälschlicherweise dafür verantwortilch gemacht werden und Alk in der regessionsgleichung die signifikanz nehmen..
alter und gender sind Moderatoren..(güggln) z.B. alk wirkt nur bei frauen nicht bei männern! geschlecht spielt eine rolle aber nur indem es die wirkung
einer variblen verändert...
EGFR ??? versteh ich nicht, kann man das eventuell nicht aggregieren?Frokon hat geschrieben:150 Variablen Tumor_Expression_EGFR
normal macht man einen plan wie man die gleichung baut, mit viel theorie...
man kann aber auch den Computer suchen lassen (nicht enter sondern z.B." LL vorwärts" ...)
gruß
dutchie
-
- Beiträge: 3
- Registriert: 23.10.2018, 08:55
Re: Cox Regression
Erstmal Danke dass du hier im Forum schreibst.
Ich habe 160 Patienten und hab für jeden Patienten einen Immunhistochemie Score (EGFR Tumor, CA19-9 Tumor etc.) aber nur für 150 Patienten. Bei manchen Patienten fehlen einfach ein paar Werte. Ich habe auch noch viele weitere Scores die ich hinsichtlich des Überlebens überprüfen will.
Wenn ich die Cox-Regression mit Alter, Gender und den Scores mache (alle gemeinsam im Feld "Kovariaten") kommt raus, dass lediglich das Alter signifikant ist hinsichtlich des Überlebens.
Mach ich die Cox-Regression für das Alter alleine oder für die Scores jeweils alleine kommt raus dass z.B. die EGFR Tumor Werte hinsichtlich des Überlebens signifikant sind.
Eine Cox-Regression für alle Werte zu machen wäre ja schlecht weil dann wie du sagtest die Signifikanz von anderen in der "Realität" nicht verantwortlichen Variablen übernommen werden kann.
D.h. ich sollte nur die Moderatorvariablen mit jedem einzelnen Score gemeinsam vergleichen und nicht alle Moderatorvariablen mit allen Scores gemeinsam. Also als Bsp.
Cox-Regression mit Gender,Alter und EGFR Tumor
Cox-Regression mit Gender,Alter und CA19-9 Tumor
Cox-Regression mit Gender,Alter und EGFR Kontrolle
usw.
Hab ich das nun richtig verstanden? Würde ich
Cox-Regression mit Gender,Alter und EGFR Tumor + CA19-9 Tumor machen könnte sein dass CA19-9 fälschlicherweise für das Überleben verantwortlich gemacht werden könnte obwohl in der Realität nur EGFR Tumor relevant ist.
Wäre super wenn ich das auch verstehen würde dann wäre meine Statistik endlich komplett!
Ich habe 160 Patienten und hab für jeden Patienten einen Immunhistochemie Score (EGFR Tumor, CA19-9 Tumor etc.) aber nur für 150 Patienten. Bei manchen Patienten fehlen einfach ein paar Werte. Ich habe auch noch viele weitere Scores die ich hinsichtlich des Überlebens überprüfen will.
Wenn ich die Cox-Regression mit Alter, Gender und den Scores mache (alle gemeinsam im Feld "Kovariaten") kommt raus, dass lediglich das Alter signifikant ist hinsichtlich des Überlebens.
Mach ich die Cox-Regression für das Alter alleine oder für die Scores jeweils alleine kommt raus dass z.B. die EGFR Tumor Werte hinsichtlich des Überlebens signifikant sind.
Eine Cox-Regression für alle Werte zu machen wäre ja schlecht weil dann wie du sagtest die Signifikanz von anderen in der "Realität" nicht verantwortlichen Variablen übernommen werden kann.
D.h. ich sollte nur die Moderatorvariablen mit jedem einzelnen Score gemeinsam vergleichen und nicht alle Moderatorvariablen mit allen Scores gemeinsam. Also als Bsp.
Cox-Regression mit Gender,Alter und EGFR Tumor
Cox-Regression mit Gender,Alter und CA19-9 Tumor
Cox-Regression mit Gender,Alter und EGFR Kontrolle
usw.
Hab ich das nun richtig verstanden? Würde ich
Cox-Regression mit Gender,Alter und EGFR Tumor + CA19-9 Tumor machen könnte sein dass CA19-9 fälschlicherweise für das Überleben verantwortlich gemacht werden könnte obwohl in der Realität nur EGFR Tumor relevant ist.
Wäre super wenn ich das auch verstehen würde dann wäre meine Statistik endlich komplett!
-
- Beiträge: 2731
- Registriert: 01.02.2018, 10:45
Re: Cox Regression
hallo
schwierig
moderatoren werden mit den eigentlichen Variablen multipliziert
um die moderation festzustellen..
und alter korreliert mit den variablen die das Immunsytem beschreiben?
Im alk-leber beispiel weiß man ja wie der Hase läuft..
dewegen konnte man den Einfluß von zigaretten bestimmen
glaub nicht...das ist eine auch theoretische entscheidung, wenn bei der regression etwas herauskomm
dass dich überrascht läuft was schief...du überprüfst nur deine Hypothese, ein exploratives Vorgehen ist noch heikler.
Vorgehen:
du korrelierts erst mal alle variablen mit allen, damit du weisst wie die dinger untereinander korrelieren
also nicht primär mit der Hazard rate...dann schaust du dir Verteilung und ausreißer aller variabeln an...
dann gruppierst du deine Variabeln inhaltlich..eventuell mittels Faktorenanalyse und versuchst das ganze
auf Faktoren zurückzuführen die nicht korrelieren, damit sie unterschieden werden können...
Es sollte am ende aber nur eine gleichung da stehen, wenn das mehrere sind so wie du vorschlägt
steht doch immer die frage im raum was wäre wenn ich die zusammenschmeiße...
aber dein vorhaben ist kompliziert,
noch mal ein beispiel:
stell dir vor A und B sind verheiratet, es gibt eine Variabel von beiden putzleidenschaft PL
jetzt gibts 100 paare und die PL von A und B korrelieren, d.h es gibt paare: beide mit hoher PL
und paare beide mit niedrigere PL, paare mit PL bei A hoch und PL bei B niedrig sind selten.
jetzt messen wir als AV die sauberkeit der wohnung...und machen regression
da ist eine INFO (A oder B) überflüssig, aber nicht fälschlicherweise, weil egal ist wer die wohnung geputz hat
(das kann A oder B gewesen sein ist auch egal) und eine saubere Wohnung nicht nochmal geputz werden kann...
Überlege auch ob Alter in der gleichung sinn macht, es gibt ja auch den merkwürdigen zusammenhang: je älter desto gesünder!
vielleich wirkt ja Alter auf CA19-9 und CA19-9 auf die erkrankung, vielleicht putz A weil er B liebt...
Was ich sagen will: Modelle bauen ist ein Akt der Theorie und nicht der Statistik..
so weit, es bleibt aber schwierig...
gruß
dutchie
schwierig
moderatoren werden mit den eigentlichen Variablen multipliziert
um die moderation festzustellen..
und alter korreliert mit den variablen die das Immunsytem beschreiben?
Im alk-leber beispiel weiß man ja wie der Hase läuft..
dewegen konnte man den Einfluß von zigaretten bestimmen
weiß man es bezüglich CA19-9 (was das auch immer sein mag...) wie bei Zigaretten?Frokon hat geschrieben:dass CA19-9 fälschlicherweise für das Überleben verantwortlich gemacht werden könnte
glaub nicht...das ist eine auch theoretische entscheidung, wenn bei der regression etwas herauskomm
dass dich überrascht läuft was schief...du überprüfst nur deine Hypothese, ein exploratives Vorgehen ist noch heikler.
Vorgehen:
du korrelierts erst mal alle variablen mit allen, damit du weisst wie die dinger untereinander korrelieren
also nicht primär mit der Hazard rate...dann schaust du dir Verteilung und ausreißer aller variabeln an...
dann gruppierst du deine Variabeln inhaltlich..eventuell mittels Faktorenanalyse und versuchst das ganze
auf Faktoren zurückzuführen die nicht korrelieren, damit sie unterschieden werden können...
Es sollte am ende aber nur eine gleichung da stehen, wenn das mehrere sind so wie du vorschlägt
steht doch immer die frage im raum was wäre wenn ich die zusammenschmeiße...
ne ne ne!Frokon hat geschrieben:Eine Cox-Regression für alle Werte zu machen wäre ja schlecht weil dann wie du sagtest die Signifikanz von anderen in der "Realität" nicht verantwortlichen Variablen übernommen werden kann.
aber dein vorhaben ist kompliziert,
noch mal ein beispiel:
stell dir vor A und B sind verheiratet, es gibt eine Variabel von beiden putzleidenschaft PL
jetzt gibts 100 paare und die PL von A und B korrelieren, d.h es gibt paare: beide mit hoher PL
und paare beide mit niedrigere PL, paare mit PL bei A hoch und PL bei B niedrig sind selten.
jetzt messen wir als AV die sauberkeit der wohnung...und machen regression
da ist eine INFO (A oder B) überflüssig, aber nicht fälschlicherweise, weil egal ist wer die wohnung geputz hat
(das kann A oder B gewesen sein ist auch egal) und eine saubere Wohnung nicht nochmal geputz werden kann...
Überlege auch ob Alter in der gleichung sinn macht, es gibt ja auch den merkwürdigen zusammenhang: je älter desto gesünder!
vielleich wirkt ja Alter auf CA19-9 und CA19-9 auf die erkrankung, vielleicht putz A weil er B liebt...
Was ich sagen will: Modelle bauen ist ein Akt der Theorie und nicht der Statistik..
so weit, es bleibt aber schwierig...
gruß
dutchie