5.6 Mere om confounding

I forrige eksempel, var det primære mål, at undersøge om der er en sammenhæng mellem koncentrationen af D-vitamin i blodet og BMD. Så hvorfor inkluderes “rygning” i modellen, når en eventuel sammenhæng mellem rygning og BMD ikke har forskernes interesse i forbindelse med dette forsøg? Svaret på dette spørgsmål er at hvis rygning er korreleret til både den interessante prediktor og til udfaldet, så er der en risiko for at rygning kan “confounde” resultatet. Hvad dette betyder forklares nærmere i det følgende.

For at forstå begrebet “confounding”, kan man prøve at gentage analysen fra forrige side, men uden at inkludere “smoke” i modellen. Gøres dette fås følgende resultat fra R:

df_bmd <- dget("https://statepi.statnoter.dk/data/BMD.robj")
model_bmd <- lm(BMD ~ d.vitamin, df_bmd)
summary(model_bmd)


Call:
lm(formula = BMD ~ d.vitamin, data = df_bmd)

Residuals:
    Min      1Q  Median      3Q     Max 
-396.01 -100.16    4.64   87.58  442.97 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 949.4961    15.8598  59.868  < 2e-16 ***
d.vitamin     0.6767     0.1375   4.921 1.04e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 147.1 on 818 degrees of freedom
Multiple R-squared:  0.02875,   Adjusted R-squared:  0.02756 
F-statistic: 24.21 on 1 and 818 DF,  p-value: 1.042e-06

confint(model_bmd, "d.vitamin")

             2.5 %    97.5 %
d.vitamin 0.406756 0.9465968

Sammenlignes med forrige side, ses flere interessante ting: Med rygning inkluderet i modellen, var effekten af D-vitamin, at BMD steg med 0,49 enheder når D-vitamin steg med 1 mmol/L. Uden rygning i modellen beregnes det at BMD stiger med 0,68 enheder når D-vitamin stiger med 1 mmol/L. Denne forskel er et udtryk for confounding. Hvis analysen ikke tager højde for confounding, som her hvor den potentielle confounder er udeladt, så får det altså den konsekvens at man overvurderer effekten af den interessante faktor (D-vitamin). Eller med andre ord: Det komer til at se ud som om D-vitamin har en større betydning for BMD end det reelt er tilfældet.

I dette eksempel har D-vitamin en effekt på udfaldet (BMD) uanset om man medtager rygning i modellen eller ej. Men man kan sagtens komme ud for eksempler, hvor den interessante prediktor vil have en statistisk signifikant effekt på udfaldet, hvis man laver analysen uden at medtage en potentiel confounder. Men hvor det ved nærmere analyse viser sig, at hele effekten i virkeligheden alene skyldes confounderen.

Det andet man kan observere, når man sammenligner beregningerne med og uden rygning inkluderet i modellen er, at kvadratet på korrelationskoefficienten “Multiple R-squared” er (lidt) højere når rygning inkluderes. Man får altså en (lidt) mere præcis forudsigelse af folks BMD hvis man har kendskab til både deres D-vitamin koncentration og deres rygerstatus. Men da der selvfølgelig stadig er mange andre ting som påvirker BMD - herunder tilfældig variation - så er R² i begge tilfælde temmelig lav.

Hvorfor opstår confounding?

I dette eksempel opstår confounding fordi:

Rygning er korreleret til den interessante prediktor, her D-vitamin.
Rygning har i sig selv en effekt på udfaldet (BMD).

Punkt 1 ovenfor betyder at rygning er ujævnt fordelt i forhold til D-vitamin: I gennemsnit har rygere en lavere koncentration af D-vitamin - blandt personer med et lavt D-vitamin vil der derfor være en større andel af rygere i forhold til personer med et højt D-vitamin. Da rygning samtidig medfører et lavere BMD, betyder det at personer som har et lavere D-vitamin i gennemsnit vil have et lavere BMD. Ikke fordi D-vitamin i sig selv har haft nogen betydning for BMD, men fordi rygning har “confoundet” resultaterne fra forsøget. Grafisk kan det illustreres med nedenstående figur:

confounding

Figur 1: Illustration af begrebet “confounding”

Det er relevant at bemærke at confounderen (rygning) ikke har nogen fysiologisk sammenhæng med hvordan D-vitamin påvirker BMD. Forskellen mellem den (korrekte) effekt der blev beregnet på forrige side, og den “confoundede” effekt der blev beregnet på denne side, er altså alene et udtryk for en matematisk “fejl” i beregningerne. Men netop derfor er det naturligvis vigtigt at være opmærksom på eventuelle confoundere, da man ellers kommer til at rapportere en forkert (typisk forhøjet) effekt af den relevante prediktor.

Hvordan undgås confounding?

I princippet kan confounding undgås på 2 måder:

Den optimale metode, som er at sikre at forsøgsresultaterne slet ikke er påvirket af confounding.
Den knap så optimale metode, som er at korrigere beregningerne for confounding, som gennemgået på denne side.

Begge metoder har naturligvis den svaghed, at man skal kende den potentielle confounder før man kan sikre sig mod den. Den eneste undtagelse herfra er når man kan lave et randomiseret forsøg, hvor man netop sikrer sig mod alle (også ukendte) confoundere. Den metode man anvender til at sikre at forsøget slet ikke påvirkes af en given confounder, er at afbryde den lyseblå pil på figur 1. Dvs. man skal sikre sig at der ikke er nogen korrelation mellem den potentielle confounder og den årsag (prediktor) som man er interesseret i. I eksemplet på denne side ville det betyde, at man skal sikre sig at andelen af rygere er identisk for alle niveauer af D-vitamin. Hvis man kan sikre dette, så har man jo garanteret at confounderen vil påvirke udfaldet (BMD) lige kraftigt for alle niveauer af prediktoren (D-vitamin). Dermed kan en eventuelt effekt af prediktoren ikke længere skyldes confounderen, som derved er effektivt ellimineret - uden at man behøver inkludere den i beregningerne.

Med undtagelse af de situationer hvor man kan lave randomiserede forsøg, kan det desværre være særdeles vanskeligt effektivt at afbryde korrelationen mellem confounder og prediktor.