De to grafer herunder viser en interessant måde at illustrere data fra hhv. træning og BMD-datasættene.
library(ggplot2)
library(ggfortify)
df_bmd <- dget("https://statepi.statnoter.dk/data/BMD.robj")
df_training <- dget("https://statepi.statnoter.dk/data/training.robj")
ggplot(data = df_bmd) + geom_point(aes(x = d.vitamin, y = BMD, color = smoke), size = 0.2) + #lav et punktdiagram
geom_smooth(aes(x = d.vitamin, y = BMD, color = smoke),
method = "lm", se = FALSE, size = 0.5, fullrange = TRUE) + #tilføj to regressionslinjer
geom_smooth(aes(x = d.vitamin, y = BMD), method = "lm", se = FALSE,
size = 0.7, fullrange = TRUE, linetype = "dashed") # tilføj en fælles regressionslinje
`geom_smooth()` using formula = 'y ~ x'
`geom_smooth()` using formula = 'y ~ x'
Figur 1: Sammenhæng mellem BMD og d.vitamin opdelt på rygerstatus. Den stiplede blå linje, viser sammenhængen hvis man analyserer tallene samlet, altså uden at opdele på rygning. Associationsmålet fra den tidligere analyse er blot hældningen af de viste linjer (de to ikke-stiplede linjer, som har samme hældning).
Bemærk: Man kan ikke konkludere noget ud fra det faktum at de to linjer har samme hældning. Modellen er valgt således at de altid vil have samme hældning, uanset hvad data viser. Men denne hældning er korrigeret for evt. confounding forårsaget af rygning (i modsætning til den stiplede linje). Man kan så overveje om modellen er fornuftig, eller man burde have valgt en model der tillod de to hældninger at være forskellige.
ggplot(data = df_training) +
geom_point(aes(x = training, y = weightloss, color = diet), size = 0.2) +
geom_smooth(aes(x = training, y = weightloss, color = diet),
method = lm, se = FALSE, size = 0.5)
`geom_smooth()` using formula = 'y ~ x'
Figur 2: Sammenhæng mellem træningsmængde og vægttab opdelt på om man har fulgt en bestemt diæt.
Figur 1 illustrerer data hvor rygning optræder som “confounder”. Rygning har altså ikke nogen betydning for sammenhængen mellem D-vitamin og BMD, der omtrent er den samme for begge grupper. Men hvis analysen ikke tager højde for rygerstatus, så kan man komme til at overvurdere betydningen af D-vitamin. Dette ses ved at den stiplede blå linje er stejlere end de to ubrudte linjer som illustrerer den korrekte effekt af D-vitamin på BMD. I dette eksempel giver det mening at oplyse en fælles effekt for både rygere og ikke-rygere, idet effekten af D-vitamin i begge tilfælde er, at BMD stiger med 0,5 kg/cm2 for hver gang D-vitamin vokser med 1 måleenhed.
Figur 2 illustrerer derimod data hvor der er tale om effektmodifikation. Dvs. at sammenhængen mellem træning og vægttab modificeres af diæten. Det giver IKKE mening at oplyse et fælles estimat for effekten af træning, da denne effekt faktisk er forskellig for de to grupper med forskellig diæt. Omvendt giver det heller ikke mening at tale om effekten af diæten - da denne effekt jo afhænger af træningsmængden. Hvis man slet ikke træner ses det at diæten stort set ikke har nogen effekt, hvorimod den har en betydelig effekt for dem som træner 5 timer om ugen.
Det er i princippet muligt at definere en lineær normal model, som kan bruges til at undersøge om en bestemt faktor optræder som effektmodifikator. I praksis er det enkleste (og mest intuitive) sandsynligvis at stratificere (opdele) data, og derefter analysere hvert stratum (dvs. gruppe) for sig. Dvs. at en opskrift på at gennemføre en statistisk analyse med en potentiel effektmodifikator eller confounder kan være (der findes mange forskellige opskrifter):
Der kan skrives meget mere confounding og effektmodifikation, end det er muligt at dække med disse noter. Men følgende er et forsøg på at opsummere nogle af de væsentlige pointer:
Svarende til figuren på side 5.6 kan effektmodifikation illustreres
med denne figur: Det er altså selve effekten, dvs. sammenhængen mellem
prediktor og outcome der ændres i tilfældet med effektmodifikation.