5.1 Flere lineære modeller

De foregående afsnit har beskæftiget sig med den situation, hvor man har et kontinuert udfald (det er jo derfor det er en lineær normal model, idet ordet “normal” henviser til normalfordelingen, som beskriver kontiunerte udfald) og en binær prediktor. Bemærk at eksemplet brugt i kapitel 4 er helt identisk med at anvende en uparret t-test. Udover den uparrede t-test er der to andre klassiske test som svarer til en lineær normal model med 1 prediktor. Dette er 1-sidet variansanalyse (ANOVA), som svarer til at man har en kategorial prediktor (dvs. med mere end 2 kategorier), og lineær regression som svarer til at man har en kontinuert prediktor.

Den parrede t-test er også en lineær normal model, men med 2 prediktor-variable. Dels en binær variabel svarende til de to stikprøver, dels en kategorial variabel svarende til parrene. Men denne situation er teknisk set det der hedder en mixed effects model, hvilket vi må gemme til en anden god gang.

Kategorial prediktor

Mens overgangen fra t-test (2 kategorier) til variansanalyse (mere end 2 kategorier) kræver at man lærer nye formler mm, så er der stort set ingen forskel på om man har 2 eller flere kategorier, når man laver sine analyser som lineære normale modeller. Dette gælder så længe man kun har 1 prediktor. Alt hvad der er gennemgået i det forrige kapitel kan således gentages selv om man har mere end 2 kategorier i sin prediktor-variabel (dog skal man lige finde p-værdien et andet sted, hvis man vil have den klassiske ANOVA p-værdi - spørg hvis du har behov for dette).

Når man skal til at kigge på lineære normale modeller med mere end 1 prediktor (og især hvis man vil kombinere kontinuerte og kategoriale variable), så komplicerer det imidlertid tingene hvis modellen indeholder kategoriale variable med mere end 2 kategorier. Det er derfor en fordel at tilrettelægge sin undersøgelse/forsøg således at man kun har binære og/eller kontinuerte prediktorer.

1 numerisk prediktor

En lineær model med en kontinuert prediktor og et kontinuert udfald svarer præcist til almindelig lineær regression. Eksemplet på de næste sider er baseret på et datasæt som viser sammenhæng mellem BMI og alder (AGE) for en række personer. I analysen her betragtes BMI som det relevante udfald, mens AGE er prediktor.

Formålet med lineær regression

Der kan generelt være to formål med lineær regression (afhængigt af konteksten):

At bestemme ligningen for den rette linje som bedst beskriver sammenhængen mellem prediktor og udfald,

eller:

At lave en hypotesetest for at afgøre om der er en statistisk signifikant sammenhæng mellem udfald og prediktor - altså om (middel)værdien af udfaldet ændrer sig med stigende værdi af prediktoren, eller med andre ord, om hældningen af den rette linje er forskellig fra nul.

Førstnævnte formål er typisk relevant i forbindelse med f.eks. kalibrering af måleudstyr. Prediktoren kan være f.eks. en målt spænding eller absorbans, og udfaldet kan så være f.eks. en koncentration af et målestof. Her ved man (typisk fra tidligere undersøgelser) at sammenhængen beskrives ret præcist af en ret linje, og har brug for at kende ligningen, for sidenhen at kunne anvende denne sammenhæng til at bestemme koncentrationen af et målestof i f.eks. en blodprøve. I denne sammenhæng er det ikke relevant at lave en test, for at undersøge om hældningen er forskellig fra nul, da der ikke er nogen tvivl om at dette er tilfældet.

Det andet formål er typisk relevant i forbindelse med epidemiologisk forskning hvor man ønsker at undersøge om der er en sammenhæng mellem to parametre - f.eks. alder og BMI. Her har man sjældent brug for at kende den specifikke sammenhæng, men blot for at vide at BMI f.eks. øges med alderen. Og måske er det også anvendeligt med en idé om en omtrentlig størrelse af den gennemsnitlige ændring. Men man kunne naturligvis aldrig finde på at prøve at forudsige en konkret persons BMI som funktion af alderen.

Bemærk at lineær regression i dette tilfælde er den bedst mulige løsning - men ikke nødvendigvis en “god” løsning fra et matematisk synspunkt. Der er næppe nogen speciel grund til at tro at sammenhængen mellem BMI og alder er lineær, og data lever derfor ikke op til de matematiske forudsætninger for at anvende en lineær regression. Men det kan være svært at finde på noget bedre.

Hvis data meget tydeligt afviger fra en ret linje, så kan man naturligvis forsøge sig med diverse transformationer, som kan gøre sammenhængen lineær.