4.1 Introduktion til lineære modeller

Et grundlæggende kursus i statistik vil typisk behandle emner som t-test, lineær regression og variansanalyse (ANOVA), m.fl. I et klassisk statistikkursus er dette 3 forskellige emner, som kræver forskellige formler og metoder i f.eks. Excel.

Disse 3 emner kan imidlertid samles under en fælles teori kaldet “lineære normale modeller”, som dette kapitel vil forsøge at redegøre nærmere for (\(\chi^2\)-testen, som også ofte er en del af et grundlæggende statistikkursus, er derimod ikke en lineær model).

Når man designer et forsøg, af den ene eller den anden art, er man typisk interesseret i at undersøge hvilken effekt det har på en bestemt parameter, hvis man varierer en anden parameter. Et eksempel kunne være at man vil undersøge hvilken effekt fedtindholdet har på smagen af is, et andet kunne være at man vil undersøge om der er forskel på de resultater man får med den ene eller den anden analysemetode til f.eks. måling af glukosekoncentration i blodet.

Noget af det første man lærer i denne sammenhæng er, at man skal variere den uafhængige parameter, f.eks. fedtindhold eller analysemetode, og holde alle andre faktorer konstante. Man skal altså f.eks. sørge for at indholdet af sukker i isen ikke varierer samtidig med at man varierer indholdet af fedt. I disse situationer fungerer den basale statistik med konfidensintervaller, t-test (valget mellem analysemetode 1 eller 2) og lineær regression (smagens afhængighed af fedtindhold) fint.

Problemet opstår så snart man ønsker at lave undersøgelser der involverer mennesker. Hvis man eksempelvis vil undersøge om risikoen for blodpropper afhænger af rygevaner, så er det ikke muligt at finde en gruppe mennesker hvor den eneste forskel er deres rygevaner. Der vil samtidig være en lang række andre forskelle (vægt, indkomst, alkoholforbrug med meget mere). Og hvis man ønsker at den statistiske analyse skal kunne tage højde for disse forskelle, så er der behov for nogle værktøjer som er mere generelle end en simpel t-test eller lineær regression. Og her kommer de lineære normale modeller ind i billedet.

I forbindelse med isen kunne man også forestille sig at fedt- og sukkerindholdet påvirker hinanden. Dvs. at man ikke bare kan bestemme det optimale fedtindhold uafhængigt af sukkerindholdet. Der bliver så tale om flere prediktorer (fedt og sukker) som dels har en isoleret indflydelse på det relevante udfald (smag), men hvor samspillet mellem de to også påvirker udfaldet.

Terminologi

I eksemplet med om glukosekoncentrationen afhænger af analysemetode, vil man typisk tale om at man har 2 stikprøver. Dels en stikprøve med målinger af en kontrolprøve på den ene metode, dels en stikprøve med kontrolmålinger på den anden metode. Spørgsmålet er så om middelværdien er signifikant forskellig i disse to stikprøver, og dette spørgsmål kan afgøres med beregning af et konfidensinterval for forskellen mellem de to middelværdier (eller, mindre optimalt, en t-test).

Når man i stedet begynder at tale om linære modeller ændres terminologien lidt. Her vil man tale om et udfald, som er glukosekoncentrationen, og en prediktor-variabel, som i dette tilfælde vil være analysemetoden (dvs. “metode 1” eller “metode 2”). Spørgsmålet er så om denne prediktor-variabel er i stand til at forudsige noget om udfaldet, altså om valget af analysemetode er i stand til at forudsige noget om glukosekoncentrationen (deraf navnet “prediktor”). En anden formulering er “om der er sammenhæng mellem valg af analysemetode og glukosekoncentration” (hvilket der jo helst ikke skal være i dette tilfælde, da vi netop gerne vil have at glukosekoncentrationen ikke afhænger af analysemetode). I andre tilfælde vil man gerne have en sammenhæng, f.eks. hvis man undersøger om en bestemt medicin påvirker en bestemt sygdom. Men under alle omstændigheder bør vores ønsker naturligvis aldrig have nogen betydning for den statistiske analyse.

Man forventer naturligvis ikke nødvendigvis at prediktoren er i stand til at komme med en perfekt forudsigelse om udfaldet - glukosekoncentrationen vil jo stadig afhænge af hvilken person vi måler på - men måske kan prediktoren forudsige en del af variationen i glukosekoncentration.

Fordelen ved at tale om et udfald og en prediktor er, at det bliver meget nemt at tilføje flere forskellige prediktorer. Det kunne jo tænkes at det ikke var analysemetoden alene der påvirkede glukosekoncentrationen, men også f.eks. temperaturen i laboratoriet. Der er stadig tale om ét udfald, men nu er der to prediktor-variable. Og dette kan “nemt” håndteres med en lineær normal model.

Ordet “nemt” skal her forståes i en rent matematisk forstand, hvilket naturligvis forudsætter at man i det hele taget synes at matematik kan være nemt. I den virkelige verden opstår der tit en lang række kompliktioner, når man begynder at arbejde med flere prediktorer.

R i forhold til Excel

Denne ændring i terminologi, fra at tale om to forskellige stikprøver til at tale om et udfald og en prediktor-variabel, afspejles også i den måde R er opbygget på.

Hvis man skal databehandle tal fra metode-forsøget i Excel, vil data typisk opstilles som vist her:

Data i Excel

Mens de tilsvarende data i R vil se ud som vist her:

glucose <- dget("https://statepi.statnoter.dk/data/glucose2.robj")
glucose[c(1:5, 51:55), ] #viser rækkerne 1 til 5 og 51 til 55 fra dataframen

   glucose method
1     5.78      1
2     5.65      1
3     6.26      1
4     5.83      1
5     6.14      1
51    5.80      2
52    5.99      2
53    6.05      2
54    6.25      2
55    5.49      2

I Excel er data altså opstillet som 2 stikprøver, mens de i R er opstillet som et udfald (glucose) og en prediktor-variabel (method). Bemærk at I R, vil det være nemt at tilføje yderligere prediktorvariable, f.eks. en variabel som angiver temperatur. Det er blot at tilføje en ekstra kolonne. I Excel vil dette derimod være mere kompliceret. Naturligvis kan data i Excel opstilles på samme måde som vist i R, men det vil gøre mange almindelige beregninger besværlige at gennemføre i praksis. Især hvis data ikke er så simple som i dette tilfælde.

Andre betegnelser

I disse noter anvendes betegnelserne “udfald” og “prediktor” systematisk. I andre sammenhænge kan man møde betegnelserne “independent variable” og “dependent variable” i samme betydning som “prediktor” hhv. “udfald”.