I et forsøg har man ønsket at undersøge om en bestemt fysisk træning har medført en vægttab hos en gruppe af overvægtige. Man har derfor registreret hvor mange timers træning deltagerne har lavet pr. uge (0 til 5 timer), og deres vægtændring over en periode på 6 måneder. Resultaterne ses i dette datasæt:

#indlæsning af udvidelsespakker
library(ggfortify)
library(ggplot2)
#indlæs data
df_training <- dget("https://statepi.statnoter.dk/data/training.robj")
head(df_training)
  diet training weightloss
1    0        4        2.9
2    0        1       -0.8
3    1        3        3.9
4    0        2        1.3
5    1        1        2.2
6    1        3        3.4

Ud over træningen har deltagerne haft mulighed for at leve iht. til en bestemt diæt, og det er derfor også registreret om de har valgt at gøre dette.

Det primære spørgsmål er altså om træningen har medført et vægttab, og sekundært om diæten har haft nogen betydning.

Først undersøges en lineær model med “weightloss” som udfald, og “training” og “diet” som prediktorer. Denne model undersøger altså om træningsmængden har en effekt på vægttabet og om diæten har en effekt (uafhængigt af hinanden). Hvis man definerer denne model, og laver de sædvanlige plot til kontrol af forudsætningerne ser det således ud:

model_training <- lm(weightloss ~ diet + training, data = df_training)
autoplot(model_training, which = 1)

autoplot(model_training, which = 2)

autoplot(model_training, which = 3)

Man bemærker umiddelbart at grafen “Residuals vs Fitted” tyder på at der ikke er en lineær sammenhæng mellem træningsmængden og vægttabet. Dette kan indikere at modellen ikke er så enkel som foreslået i første omgang. Altså at vægttabet ikke afhænger af træning og vægttab hver for sig, men også afhænger af kombinationen af de to prediktorer. Det giver altså næppe mening at fortsætte med at foretage beregninger i denne model.

Herefter kan man anvende forskellige metoder. Den intuitivt mest enkle metode er sandsynligvis at stratificere beregningen. Dette er blot et fint ord for “opdeling”. Dvs. at man prøver at undersøge effekten af træningen for dem der fulgt diæten for sig, og for dem der ikke har fulgt diæten. Den nemmeste måde at gøre dette i R er som vist her:

model_training_1 <- lm(weightloss ~ training, data = df_training, subset = diet == 1)

Herved laves beregningerne kun for de personer som har fulgt diæten. Bemærk desuden at “diet” ikke længere indgår i modellen (det ville ikke give mening, da alle elementer i stikprøven nu har samme værdi af “diet”).

Nu ser “Residuals vs Fitted” fra “diagnostics” ud som vist her:

autoplot(model_training_1, which = 1)

Denne gang passer modellen markant bedre, og det giver derfor bedre mening at fortsætte med beregningerne. Bemærk at både ovenstående graf og grafen “Scale-Location” indikerer at variansen ikke er konstant. På ovenstående graf ses det ved at punkterne spreder sig mere for de høje værdier. Analysen er imidlertid ikke voldsomt følsom overfor dette problem, hvorfor det ignoreres.

summary(model_training_1)

Call:
lm(formula = weightloss ~ training, data = df_training, subset = diet == 
    1)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4868 -0.7784 -0.0365  0.6881  3.2965 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03646    0.20104   0.181    0.856    
training     1.41677    0.06705  21.130   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.195 on 97 degrees of freedom
Multiple R-squared:  0.8215,    Adjusted R-squared:  0.8197 
F-statistic: 446.5 on 1 and 97 DF,  p-value: < 2.2e-16

Gennemføres beregningerne ses det at det gennemsnitlige vægttab er 1,42 kg pr. times ugentlig træning. Gennemføres herefter de tilsvarende beregninger for dem som ikke har fulgt diæten ses det at det gennemsnitlige vægttab kun er 0,57 kg pr. times ugentlig træning.

Dvs. at effekten af træningen ændres altså af diæten, og det giver derfor ikke mening blot at spørge til effekten af træningen. Man er nødt til samtidig at specificere om man tænker på dem der har fulgt diæten eller ej. Bemærk: Dette er ikke det samme som at sige at vægttabet påvirkes af diæten. Det er jo ret oplagt - hvis det ellers er en fornuftig diæt. Men det interessante her er, at den effekt (eller betydning) som træningen har for vægttabet, afhænger af om man samtidig følger diæten.

På den følgende side gennemgås nogle mere teoretiske betragtninger om dette eksempel og begrebet effektmodifikation.