1.1 Introduktion til R

Først og fremmest: Tøv aldrig med at spørge, hvis R driller.

Den første kommando

Prøv om du kan bruge R som lommeregner:

2 + 2

[1] 4

Variable

Nedenstående tager resultatet af en beregning og gemmer i en variabel (som vi kalder ‘x’), som kan tilgås senere. <- betyder “tag objektet til højre og gem i den variabel der er angivet til venstre”.

Prøv at udføre kommandoen, og overvej hvordan output fra kommandoen adskiller sig fra kommandoen i den første celle:

x <- 2 + 2

Bemærk at output nu ikke bliver vist. Det er i stedet gemt i variablen ‘x’, så vi kan genbruge det. Der findes forskellige måder at se indholdet af en variabel. Den simpleste er bare ved at skrive navnet på variablen

[1] 4

Tænk på en “variabel” som en navngivet skuffe, hvor man gemmer et eller andet i. I R kan man have alle de skuffer man har lyst til, og alle skuffer har hver deres navn. Indholdet af skuffen kan tilgås, dvs. printes eller bruges i nye beregninger, blot ved at skrive navnet på skuffen. Variable kan indeholde alt muligt lige fra et tal til en tekststreng eller en komplet graf.

Kommentarer

Noget af det vigtigste, når man laver noget der minder om programmering, er at kunne skrive kommentarer. Hvis man skriver # i en linje opfattes resten af linjen som en kommentar der ignoreres af R

# Her kan jeg skrive alt muligt som ignoreres af R
2 + 2

[1] 4

#og her kan jeg igen skrive alt muligt
3 + 3 #Og man kan også skrive en kommentar på samme linje hvor man har koden

[1] 6

Vektorer

Statistik bliver naturligvis først sjovt når man kan arbejde med flere tal. I R kaldes en liste af tal for en vektor, og defineres som vist her (bemærk at decimaltegnet som i alle programmeringssprog er “.”, mens “,” benyttes til at adskille elementer i en liste eller argumenter til en funktion):

minVektor <- c(1.1, 5, 7, 9.3, 4.0, 8.1) #opret en vektor med 6 tilfældige tal, og gem den i variablen "minVektor". 

minVektor #vis indholdet i minVektor

[1] 1.1 5.0 7.0 9.3 4.0 8.1

Beregninger

Og når man har en vektor, så findes der naturligvis en række funktioner i R, som kan lave beregninger på tallene i vektoren:

mean(minVektor) #beregn middelværdien

[1] 5.75

sd(minVektor) #beregn spredning

[1] 2.997833

t.test(minVektor, conf.level = 0.95) #laver en t-test for den nulhypotese at middelværdien er lig med nul.


    One Sample t-test

data:  minVektor
t = 4.6982, df = 5, p-value = 0.005345
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 2.603968 8.896032
sample estimates:
mean of x 
     5.75

#Det er ikke interessant, 
#men man får samtidig et 95%-konfidensinterval for middelværdien - og det er interessant

Kan du finde konfidensintervallet for middelværdien af minvektor i ovenstående beregning? Bemærk hvor nemt det er at udføre både en t-test og beregning af et konfidensinterval i R (når først man kender den rigtige kode).

Regn mere med variable

Og hvis man har lyst kan, resultatet af en beregning naturligvis også gemmes, så man kan regne videre med det.

Hvis man f.eks. ønsker at beregne standardfejlen på middelværdien:

s <- sd(minVektor) #beregn spredningen af minVektor, og gem resultatet i variablen s
n <- length(minVektor) #find antal tal i minVektor (længden af vektoren) og gem tallet i variablen n
s / sqrt(n) #og beregn til sidst standardfejlen på middelværdien

[1] 1.22386

sd(minVektor) / sqrt(length(minVektor)) #man kan naturligvis også bare lave beregningen direkte - det giver samme resultat

[1] 1.22386