Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Beitrag von **Parametriker** » 11.07.2024, 12:16

Hallo!

Wenn ich eine logistische Regressionsanalyse durchführen möchte, ist es dann besser gleich von Vorneherein alle potentiellen Störvariablen/Störfaktoren (Confounder) zu berücksichtigen oder ist es besser, zuerst alle potentiellen Störvariablen daraufhin zu analysieren, ob sie tatsächlich einen merklichen Störeinfluss auf das Ergebniss der logistischen Regression haben, und dann selektiv nur diejenigen zu berücksichtigen, bei denen das der Fall ist. Ist das richtig, dass die Probengröße für die Analyse umso größer sein sollte, umso mehr Variablen in die Analyse miteinfließen?
Welche Methode wäre die beste, um solch eine Vorabselektion von wesentlichen Confoundern duchzuführen?

Hier in dieser Publikation ("Assessing bias: the importance of considering confounding") steht beispielsweise etwas von einer 10%-Regel:
"In general, if the adjusted estimate is different from the crude estimate by approximately 10% or more, the factor should be considered a confounder and the adjusted estimate used as a more reliable indicator of the effect of the exposure, ie, as an estimate of the effect “above and beyond” that is due to the confounder(s)."
Quelle: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3503514/

Beitrag von **dutchie** » 11.07.2024, 15:06

Hallo,

je größer die Stichprobe, umso größer die Wahrscheinlichkeit eines sig. Ergebnisses
das heißt auch je größer die Stichprobe, desto wichtiger wird die Effektstärke für die
Beurteilung. Statistische Signifikanz versus praktischen Signifikanz. Also ich finde, das 9,5%
auch schon relevant ist.

Parametriker hat geschrieben: ↑
11.07.2024, 12:16
Welche Methode wäre die beste, um solch eine Vorabselektion von wesentlichen Confoundern duchzuführen?

...die theoretisch fundierte

Der Eindruck über einen Zusammenhang von X und Y, den man über eine bivariate Korrelation
gewinnt, kann sich stark unterscheiden von dem, wenn X teil einer multiplen Regression ist,
Abhängig davon wie stark die UVs und Xe untereinader korrelieren.
Welcher Eindruck ist der wahre?

Je mehr Variablen im Modell, desto größer die Wahrscheinlichkeit eines sig. Ergebnisses.

gruß
dutchie

Beitrag von **Parametriker** » 12.07.2024, 10:24

dutchie hat geschrieben: ↑
11.07.2024, 15:06
je größer die Stichprobe, umso größer die Wahrscheinlichkeit eines sig. Ergebnisses
das heißt auch je größer die Stichprobe, desto wichtiger wird die Effektstärke für die
Beurteilung.

Das kann ich klar nachvollziehen.

dutchie hat geschrieben:Statistische Signifikanz versus praktischen Signifikanz. Also ich finde, das 9,5%
auch schon relevant ist.

Dem stimme ich absolut zu. Oft wird zu sehr nur auf die statistische Signifikanz geachtet.

dutchie hat geschrieben:Je mehr Variablen im Modell, desto größer die Wahrscheinlichkeit eines sig. Ergebnisses.

Das verwirrt mich jetzt etwas. Dann wäre es ja sogar günstig (mit dem Ziel, ein stat. signifkantes Ergebnis zu erhalten), möglichst viele Prädiktorvariablen mit in das Modell aufzunehmen und die nicht nur die wichtigsten/relevantesten.

Hier ein paar Auszüge aus dem Artikel "Sample Size Guidelines for Logistic Regression from Observational Studies with Large Population: Emphasis on the Accuracy Between Statistics and Parameters Based on Real Life Clinical Data" (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6422534/):
"Existing rules of thumb for sample size using logistic regression are highly dependent on the number of independent variables."
"Another famous sample size guideline proposed that the minimum required sample size should be based on the rule of event per variable (EPV) (6). According to Concato et al. and Peduzzi et al., the concept of EPV of 10 is acceptable for both logistic regression and cox regression (6–7)."

Hieraus hatte ich geschlossen, dass die minimale Probengröße umso größer sein sollte, je mehr Prädiktorvariablen untersucht werden sollen, weil es mit einer größeren Anzahl an Prädiktorvariablen schwieriger werden würde, ein statistisch signifikantes Ergebnis im Rahmen der logistischen Regressionanalyse zu erhalten.

Im Lehrbuch "Intermediate Statistics Using SPSS" (Knapp) ist folgende Methode angegeben, um die minimale Probengröße für eine logistische Regressionanalyse zu berechnen:
1. Ermittle die Gesamtanzahl an Prädiktorvariablen.
2. Zähle die Anzahl an Kategorien, welche innerhalb von jeder kategorischen Variable enthalten sind und subtrahiere 1 von jeder dieser Anzahlen.
3. Addiere alle diese Zahlen zusammen.
4. Multipliziere die Summe mit 10. Dies ergibt das minimale n, das erforderlich ist, um die logistische Regression durchzuführen.

Auch hier erhöht sich die minimal Probengröße durch die Anzahl der Prädiktorvariablen.

Gruß
Parametriker

Beitrag von **dutchie** » 12.07.2024, 15:16

Hallo

Parametriker hat geschrieben: ↑
12.07.2024, 10:24
Das verwirrt mich jetzt etwas. Dann wäre es ja sogar günstig (mit dem Ziel, ein stat. signifkantes Ergebnis zu erhalten), möglichst viele Prädiktorvariablen mit in das Modell aufzunehmen und die nicht nur die wichtigsten/relevantesten

Ich hab nicht gesagt, dass die alle sig sind!
Erstmal ist das so, da die Fehlervarinaz immer kleiner wird mit jedem Prädiktor, lässt man nicht signifikante
Prädiktoren im Modell ist das auch so, auch wennn der Beitrag zu Klärung der AV nicht sig ist,
so ist er doch nicht NULL und erhöht die Aufklärung.

Nein ES wäre nicht günstig , das nennt man dann data fitting.
Das Modell beschreibt die zufällig vorliegenden Daten nicht die Population.
Das wäre in Artefakt, eine Fehlinterpretation des Modells. Das Ergebnis wäre im Vergleich
zu einer anderen Stichprobe nicht stabil!

Parametriker hat geschrieben: ↑
12.07.2024, 10:24
Hieraus hatte ich geschlossen, dass die minimale Probengröße umso größer sein sollte, je mehr Prädiktorvariablen untersucht werden sollen, weil es mit einer größeren Anzahl an Prädiktorvariablen schwieriger werden würde, ein statistisch signifikantes Ergebnis im Rahmen der logistischen Regressionanalyse zu erhalten

Erste Teil stimmt die Begründung ist falsch.

Denk dir eine lin Regression, Stichprobe ist N = 2 mit eine Prädiktor
--> R = 1, durch zwei Punkte geht eine Gerade, und zwar immer, völlig egal
ob ein Zusammenhang besteht oder nicht.
minimum n = 3, wenn du jetzt bei n = 3 zwei Prädikoren hast
--> R = 1 durch drei Punkte geht immer ein Fläche. usw.
also N = 4, warum wäre das auch zu wenig, jetzt bestimmt nur eine VP
wo die Fläche liegt...

gruß

Beitrag von **dutchie** » 12.07.2024, 15:26

Noch was..

du kennst doch gpower?

Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...

Geht das auch bei log Regression?

Beitrag von **dutchie** » 12.07.2024, 15:55

dutchie hat geschrieben: ↑
12.07.2024, 15:26
Noch was..

du kennst doch gpower?

Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...

Geht das auch bei log Regression?

bei lin Regression:

https://ibb.co/19KzkPT

Anzahl steigt --> N steigt

Beitrag von **Parametriker** » 12.07.2024, 19:14

dutchie hat geschrieben: ↑
12.07.2024, 15:16
Ich hab nicht gesagt, dass die alle sig sind!
Erstmal ist das so, da die Fehlervarinaz immer kleiner wird mit jedem Prädiktor, lässt man nicht signifikante
Prädiktoren im Modell ist das auch so, auch wennn der Beitrag zu Klärung der AV nicht sig ist,
so ist er doch nicht NULL und erhöht die Aufklärung.

Das hatte ich auch nicht so verstanden. Sondern lediglich so, dass die Wahrscheinlichkeit steigt, dass zumindest ein Prädiktor statistisch signifikant assoziiert ist mit dem Outcome.

Ich vermute, das ist dann wahrscheinlich ähnlich, wie wenn man eine hohe Anzahl an Datensätzen jeweils paarweise mit Hypothesentests vergleicht und keine "multiple comparison"-Anpassung vornimmt. Da steigt die Wahrscheinlichkeit ja auch mit der Anzahl der Vergleiche, dass zumindest ein signifikanter Unterschied detektiert wird.

Beitrag von **Parametriker** » 12.07.2024, 19:15

dutchie hat geschrieben: ↑
12.07.2024, 15:26
Noch was..

du kennst doch gpower?

Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...

Geht das auch bei log Regression?

Ja, GPower kenne ich. Das geht auch mit logistischer Regression, sofern man zu allen erforderlichen Parametern genaue Angaben oder Schätzungsangaben machen kann.

Beitrag von **Parametriker** » 12.07.2024, 19:17

dutchie hat geschrieben: ↑
12.07.2024, 15:55

dutchie hat geschrieben: ↑
12.07.2024, 15:26
Noch was..

du kennst doch gpower?

Damit kann man via Teststärke usw... das minimale N ausrechen
bei gegebener Effektstärke...

Geht das auch bei log Regression?
bei lin Regression:

https://ibb.co/19KzkPT

Anzahl steigt --> N steigt

Ja, danke für das Beispiel. Wird hier klar deutlich.

Statistik-Tutorial Forum

Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression

Re: Berücksichtigung von Störvariablen (Confounder) bei logistischer Regression