Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
-
- Beiträge: 29
- Registriert: 05.12.2009, 09:23
Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Hallo!
Wenn ich eine logistische Regressionsanalyse durchführen möchte, ist es dann besser gleich von Vorneherein alle potentiellen Störvariablen/Störfaktoren (Confounder) zu berücksichtigen oder ist es besser, zuerst alle potentiellen Störvariablen daraufhin zu analysieren, ob sie tatsächlich einen merklichen Störeinfluss auf das Ergebniss der logistischen Regression haben, und dann selektiv nur diejenigen zu berücksichtigen, bei denen das der Fall ist. Ist das richtig, dass die Probengröße für die Analyse umso größer sein sollte, umso mehr Variablen in die Analyse miteinfließen?
Welche Methode wäre die beste, um solch eine Vorabselektion von wesentlichen Confoundern duchzuführen?
Hier in dieser Publikation ("Assessing bias: the importance of considering confounding") steht beispielsweise etwas von einer 10%-Regel:
"In general, if the adjusted estimate is different from the crude estimate by approximately 10% or more, the factor should be considered a confounder and the adjusted estimate used as a more reliable indicator of the effect of the exposure, ie, as an estimate of the effect “above and beyond” that is due to the confounder(s)."
Quelle: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3503514/
Wenn ich eine logistische Regressionsanalyse durchführen möchte, ist es dann besser gleich von Vorneherein alle potentiellen Störvariablen/Störfaktoren (Confounder) zu berücksichtigen oder ist es besser, zuerst alle potentiellen Störvariablen daraufhin zu analysieren, ob sie tatsächlich einen merklichen Störeinfluss auf das Ergebniss der logistischen Regression haben, und dann selektiv nur diejenigen zu berücksichtigen, bei denen das der Fall ist. Ist das richtig, dass die Probengröße für die Analyse umso größer sein sollte, umso mehr Variablen in die Analyse miteinfließen?
Welche Methode wäre die beste, um solch eine Vorabselektion von wesentlichen Confoundern duchzuführen?
Hier in dieser Publikation ("Assessing bias: the importance of considering confounding") steht beispielsweise etwas von einer 10%-Regel:
"In general, if the adjusted estimate is different from the crude estimate by approximately 10% or more, the factor should be considered a confounder and the adjusted estimate used as a more reliable indicator of the effect of the exposure, ie, as an estimate of the effect “above and beyond” that is due to the confounder(s)."
Quelle: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3503514/
-
- Beiträge: 2739
- Registriert: 01.02.2018, 10:45
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Hallo,
je größer die Stichprobe, umso größer die Wahrscheinlichkeit eines sig. Ergebnisses
das heißt auch je größer die Stichprobe, desto wichtiger wird die Effektstärke für die
Beurteilung. Statistische Signifikanz versus praktischen Signifikanz. Also ich finde, das 9,5%
auch schon relevant ist.
Der Eindruck über einen Zusammenhang von X und Y, den man über eine bivariate Korrelation
gewinnt, kann sich stark unterscheiden von dem, wenn X teil einer multiplen Regression ist,
Abhängig davon wie stark die UVs und Xe untereinader korrelieren.
Welcher Eindruck ist der wahre?
Je mehr Variablen im Modell, desto größer die Wahrscheinlichkeit eines sig. Ergebnisses.
gruß
dutchie
je größer die Stichprobe, umso größer die Wahrscheinlichkeit eines sig. Ergebnisses
das heißt auch je größer die Stichprobe, desto wichtiger wird die Effektstärke für die
Beurteilung. Statistische Signifikanz versus praktischen Signifikanz. Also ich finde, das 9,5%
auch schon relevant ist.
...die theoretisch fundierteParametriker hat geschrieben: ↑11.07.2024, 12:16Welche Methode wäre die beste, um solch eine Vorabselektion von wesentlichen Confoundern duchzuführen?
Der Eindruck über einen Zusammenhang von X und Y, den man über eine bivariate Korrelation
gewinnt, kann sich stark unterscheiden von dem, wenn X teil einer multiplen Regression ist,
Abhängig davon wie stark die UVs und Xe untereinader korrelieren.
Welcher Eindruck ist der wahre?
Je mehr Variablen im Modell, desto größer die Wahrscheinlichkeit eines sig. Ergebnisses.
gruß
dutchie
-
- Beiträge: 29
- Registriert: 05.12.2009, 09:23
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Das kann ich klar nachvollziehen.
Dem stimme ich absolut zu. Oft wird zu sehr nur auf die statistische Signifikanz geachtet.dutchie hat geschrieben:Statistische Signifikanz versus praktischen Signifikanz. Also ich finde, das 9,5%
auch schon relevant ist.
Das verwirrt mich jetzt etwas. Dann wäre es ja sogar günstig (mit dem Ziel, ein stat. signifkantes Ergebnis zu erhalten), möglichst viele Prädiktorvariablen mit in das Modell aufzunehmen und die nicht nur die wichtigsten/relevantesten.dutchie hat geschrieben:Je mehr Variablen im Modell, desto größer die Wahrscheinlichkeit eines sig. Ergebnisses.
Hier ein paar Auszüge aus dem Artikel "Sample Size Guidelines for Logistic Regression from Observational Studies with Large Population: Emphasis on the Accuracy Between Statistics and Parameters Based on Real Life Clinical Data" (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6422534/):
"Existing rules of thumb for sample size using logistic regression are highly dependent on the number of independent variables."
"Another famous sample size guideline proposed that the minimum required sample size should be based on the rule of event per variable (EPV) (6). According to Concato et al. and Peduzzi et al., the concept of EPV of 10 is acceptable for both logistic regression and cox regression (6–7)."
Hieraus hatte ich geschlossen, dass die minimale Probengröße umso größer sein sollte, je mehr Prädiktorvariablen untersucht werden sollen, weil es mit einer größeren Anzahl an Prädiktorvariablen schwieriger werden würde, ein statistisch signifikantes Ergebnis im Rahmen der logistischen Regressionanalyse zu erhalten.
Im Lehrbuch "Intermediate Statistics Using SPSS" (Knapp) ist folgende Methode angegeben, um die minimale Probengröße für eine logistische Regressionanalyse zu berechnen:
1. Ermittle die Gesamtanzahl an Prädiktorvariablen.
2. Zähle die Anzahl an Kategorien, welche innerhalb von jeder kategorischen Variable enthalten sind und subtrahiere 1 von jeder dieser Anzahlen.
3. Addiere alle diese Zahlen zusammen.
4. Multipliziere die Summe mit 10. Dies ergibt das minimale n, das erforderlich ist, um die logistische Regression durchzuführen.
Auch hier erhöht sich die minimal Probengröße durch die Anzahl der Prädiktorvariablen.
Gruß
Parametriker
-
- Beiträge: 2739
- Registriert: 01.02.2018, 10:45
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Hallo
Erstmal ist das so, da die Fehlervarinaz immer kleiner wird mit jedem Prädiktor, lässt man nicht signifikante
Prädiktoren im Modell ist das auch so, auch wennn der Beitrag zu Klärung der AV nicht sig ist,
so ist er doch nicht NULL und erhöht die Aufklärung.
Nein ES wäre nicht günstig , das nennt man dann data fitting.
Das Modell beschreibt die zufällig vorliegenden Daten nicht die Population.
Das wäre in Artefakt, eine Fehlinterpretation des Modells. Das Ergebnis wäre im Vergleich
zu einer anderen Stichprobe nicht stabil!
Denk dir eine lin Regression, Stichprobe ist N = 2 mit eine Prädiktor
--> R = 1, durch zwei Punkte geht eine Gerade, und zwar immer, völlig egal
ob ein Zusammenhang besteht oder nicht.
minimum n = 3, wenn du jetzt bei n = 3 zwei Prädikoren hast
--> R = 1 durch drei Punkte geht immer ein Fläche. usw.
also N = 4, warum wäre das auch zu wenig, jetzt bestimmt nur eine VP
wo die Fläche liegt...
gruß
Ich hab nicht gesagt, dass die alle sig sind!Parametriker hat geschrieben: ↑12.07.2024, 10:24Das verwirrt mich jetzt etwas. Dann wäre es ja sogar günstig (mit dem Ziel, ein stat. signifkantes Ergebnis zu erhalten), möglichst viele Prädiktorvariablen mit in das Modell aufzunehmen und die nicht nur die wichtigsten/relevantesten
Erstmal ist das so, da die Fehlervarinaz immer kleiner wird mit jedem Prädiktor, lässt man nicht signifikante
Prädiktoren im Modell ist das auch so, auch wennn der Beitrag zu Klärung der AV nicht sig ist,
so ist er doch nicht NULL und erhöht die Aufklärung.
Nein ES wäre nicht günstig , das nennt man dann data fitting.
Das Modell beschreibt die zufällig vorliegenden Daten nicht die Population.
Das wäre in Artefakt, eine Fehlinterpretation des Modells. Das Ergebnis wäre im Vergleich
zu einer anderen Stichprobe nicht stabil!
Erste Teil stimmt die Begründung ist falsch.Parametriker hat geschrieben: ↑12.07.2024, 10:24Hieraus hatte ich geschlossen, dass die minimale Probengröße umso größer sein sollte, je mehr Prädiktorvariablen untersucht werden sollen, weil es mit einer größeren Anzahl an Prädiktorvariablen schwieriger werden würde, ein statistisch signifikantes Ergebnis im Rahmen der logistischen Regressionanalyse zu erhalten
Denk dir eine lin Regression, Stichprobe ist N = 2 mit eine Prädiktor
--> R = 1, durch zwei Punkte geht eine Gerade, und zwar immer, völlig egal
ob ein Zusammenhang besteht oder nicht.
minimum n = 3, wenn du jetzt bei n = 3 zwei Prädikoren hast
--> R = 1 durch drei Punkte geht immer ein Fläche. usw.
also N = 4, warum wäre das auch zu wenig, jetzt bestimmt nur eine VP
wo die Fläche liegt...
gruß
-
- Beiträge: 2739
- Registriert: 01.02.2018, 10:45
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Noch was..
du kennst doch gpower?
Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...
Geht das auch bei log Regression?
du kennst doch gpower?
Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...
Geht das auch bei log Regression?
-
- Beiträge: 2739
- Registriert: 01.02.2018, 10:45
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
-
- Beiträge: 29
- Registriert: 05.12.2009, 09:23
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Das hatte ich auch nicht so verstanden. Sondern lediglich so, dass die Wahrscheinlichkeit steigt, dass zumindest ein Prädiktor statistisch signifikant assoziiert ist mit dem Outcome.dutchie hat geschrieben: ↑12.07.2024, 15:16Ich hab nicht gesagt, dass die alle sig sind!
Erstmal ist das so, da die Fehlervarinaz immer kleiner wird mit jedem Prädiktor, lässt man nicht signifikante
Prädiktoren im Modell ist das auch so, auch wennn der Beitrag zu Klärung der AV nicht sig ist,
so ist er doch nicht NULL und erhöht die Aufklärung.
Ich vermute, das ist dann wahrscheinlich ähnlich, wie wenn man eine hohe Anzahl an Datensätzen jeweils paarweise mit Hypothesentests vergleicht und keine "multiple comparison"-Anpassung vornimmt. Da steigt die Wahrscheinlichkeit ja auch mit der Anzahl der Vergleiche, dass zumindest ein signifikanter Unterschied detektiert wird.
-
- Beiträge: 29
- Registriert: 05.12.2009, 09:23
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Ja, GPower kenne ich. Das geht auch mit logistischer Regression, sofern man zu allen erforderlichen Parametern genaue Angaben oder Schätzungsangaben machen kann.
-
- Beiträge: 29
- Registriert: 05.12.2009, 09:23
Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression
Ja, danke für das Beispiel. Wird hier klar deutlich.dutchie hat geschrieben: ↑12.07.2024, 15:55bei lin Regression:
https://ibb.co/19KzkPT
Anzahl steigt --> N steigt