Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Like dokumenter
UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag eksamen 27. februar 2004

EKSAMENSOPPGAVER STAT100 Vår 2011

Løsningsforslag: STK2120-v15.

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Fasit for tilleggsoppgaver

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Fasit og løsningsforslag STK 1110

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVE STA-1001.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk 2014

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

vekt. vol bruk

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Tilleggsoppgaver for STK1110 Høst 2015

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

STK juni 2016

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Løsningsforslag, eksamen statistikk, juni 2015

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Kort overblikk over kurset sålangt

Kapittel 3: Studieopplegg

ECON240 VÅR / 2016 BOKMÅL

Eksamensoppgave i TMA4245 Statistikk

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Løsningsforslag øving 9, ST1301

Forelesning 3 STK3100

Forelesning 7 STK3100

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

TMA4240 Statistikk Høst 2009

Oppgave 1. Kilde SS df M S F Legering Feil Total

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag eksamen 25. november 2003

ST0202 Statistikk for samfunnsvitere

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4240 Statistikk 2014

Eksamensoppgave i TMA4267 Lineære statistiske modeller

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

TMA4240 Statistikk Høst 2007

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Høst 2015

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

UNIVERSITETET I OSLO

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ST0202 Statistikk for samfunnsvitere

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

10.1 Enkel lineær regresjon Multippel regresjon

Eksamensoppgave i TMA4240 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

TMA4240 Statistikk Høst 2016

Oppgave N(0, 1) under H 0. S t n 3

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

EKSAMEN I TMA4255 ANVENDT STATISTIKK

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

Forelesning 8 STK3100/4100

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Verdens statistikk-dag.

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Transkript:

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave. Oppgave 1 a) Legg merke til at X er gamma-fordelt med formparameter 1 og skalaparameter λ. Da er E[X] = 1/λ. Små verdier av X tyder derfor på at λ er stor. Siden vi skal teste H 0 : λ = λ 0 H 1 : λ > λ 0, er det rimelig å tro at H 0 er gal og derfor forkaste H 0 hvis X er liten. Forkastningsområdet har derfor formen {x : x < k} b) Kravet om at nivået til testen er 0.05 betyr at P (forkaste H 0 H 0 sann) = P (X < k λ = λ 0 ) som betyr at eller = k 0 λ 0 exp( λ 0 x)dx = 1 exp( λ 0 k) 0.05 exp( λ 0 k) 0.95 k log(0.95)/λ 0. Alle valg av k som tilfredstiller dette kravet gir en test med riktig nivå. I tillegg ønsker vi stor styrke, nemlig at P (forkaste H 0 H 1 sann) = P (X < k λ > λ 0 ) skal være størst mulig. Siden styrken er voksende i k for alle λ (λ 0, ), velges den verdien av k blant de tillate verdiene som er størst mulig, nemlig k = log(0.95)/λ 0. Det gir testen F orkast H 0 hvis X < log(0.95)/λ 0. c) Styrkefunksjonen er definert som sannsynligheten for å forkaste H 0. Den er definert for alle parameterverdier og er derfor mindre enn nivået for parameterverdier som svarer til H 0. For parameterverdier under alternativet angir den styrken, altså 1 - sannsynligheten for å begå feil av type II. Styrkefunksjonen er altså γ(λ) = P (forkaste H 0 λ) = P (X < k λ) = log(0.95)/λ0 0 λ exp( λx)dx = 1 exp( λ( log(0.95)/λ 0 )) = 1 (0.95) λ/λ 0 1

Siden E[X] = 1/λ, er det rimelig at jo større λ blir, jo større er sannsynligheten for at X < log(0.95)/λ 0, som er det samme som å forkaste H 0. Denne sannsynligheten er som funksjon av λ det samme som styrkefunksjonen, som det derfor er rimelig vokser og nærmer seg 1 når λ vokser. Av uttrykket γ(λ) = 1 (0.95) λ/λ 0 ser vi at det også er tilfelle. d) Feil av type II er sannsynligheten for ikke å forkaste hypotesen nr den er gal. Med andre ord finnes sannsynligheten som 1γ(λ) for verdier av λ under alternativet. Spesielt blir 1 γ(4λ 0 ) = 1 0.95 4 = 0.815 e) Fra utledningen i punkt b) følger det at sannsynligheten for å forkaste H 0 når H 0 er sann, dvs. når λ = λ 0, er lik nivået 0.05. Sannsynligheten for å forkaste H 0 er lik styrkefunksjonen, som vi altså da vet er 0.05 for λ = λ 0. I punkt c) ble det vist at styrkefunksjonen er voksende. Den er altså mindre eller lik enn 0.05 når λ λ 0. Dette betyr at sannsynligheten for å forkaste H 0 når λ λ 0, er mindre eller lik nivået 0.05, altså at testen også har nivå 0.05 for H 0 : λ λ 0. Vi ser også dette direkte fra formen på styrkefunksjonen γ(λ) = 1 (0.95) λ/λ 0. Her er γ(λ 0 ) = 0.05, og γ(λ) 0.05 for λ λ 0. f) Pr. definisjon er P-verdien sannsynligheten under hypotesen for observere noe som er like eller mer ekstremt enn det som er realisert, altså P (X 2 λ 0 = 4) = 1 exp( 4 2) = 1 exp( 8). Dette er også rimelig. E[X] = 1/4 for λ 0 = 4, slik at realisasjonen er mye større enn forventningsverdien, noe som svarer til en stor p-verdi. Oppgave 2 a > krtemp<-read.table("http://www.uio.no/studier/emner/matnat/math/ STK1110/h11/undervisningsmateriale/kroppstemp.txt",header=F,row.names=NULL) # object "data frame", often called "data matrix". > colnames(krtemp)<-c("menn","kvinner") > #a) > postscript((file="fig_opgv2_1.eps")) > boxplot(krtemp$menn,krtemp$kvinner) > dev.off() Boksplottet i figur 4 viser at verdiene gjennomgående er høyere for kvinner, og at fordelingen virker skjevere. Men her skal man huske på at ni observasjoner er lite. 2

36.2 36.4 36.6 36.8 37.0 37.2 37.4 1 2 Figure 1: Boxplott, menn til venstre, kvinner til hyre 3

b) > postscript((file="fig_opgv2_2.eps")) > par(mfrow=c(2,1)) > qqnorm(krtemp$menn) > qqnorm(krtemp$kvinner) > dev.off() Begge linjene i figur 5 ser forholsvis rette ut, noe som indikerer at antagelsen om normalfordeling kan være rimelig. At de i tillegg er nokså paralelle, kan tyde på at variansen er den samme i de to utvalgene. Normal Q Q Plot Sample Quantiles 36.2 36.6 37.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Normal Q Q Plot Sample Quantiles 36.6 36.8 37.0 37.2 37.4 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles Figure 2: Normalfordelingsplott, menn øverst c) La x 1,..., x n være målingene for kvinner og y 1,..., y n være målingene for menn. t-observatoren er x ȳ s p 1 n + 1 m 4

der s 2 p = [(n 1)s 2 x + (m 1)s 2 y]/(n + m 2). > # frst bruk av formlene direkte > k<-krtemp$kvinner > m<-krtemp$menn > xk<-mean(k); > xm<-mean(m); > vark<-var(k); > varm<-var(m); > spsq<-((length(k)-1)*var(k)+(length(m)-1)*var(m))/(length(k)+ length(m)-2); > sp<-sqrt(spsq); > stediff=sp*sqrt((1/length(k))+(1/length(m))); > t1=(xk-xm)/stediff # t-observator, varianser antatt like > t1 [1] 2.468181 > krv1<-qt(0.975,(length(k)+length(m)-2)) > krv1 [1] 2.119905 > ( t1 < -krv1 t1 > krv1)# Forkast H_0? [1] TRUE dvs. forkastning med nivå 95%. p-verdien er2p (t n+m 2 > tobs ) > 2*(1-pt(abs(t1),(length(k)+length(m)-2)))# P-verdi [1] 0.02523665 som altså er mindre enn 0.05. Et 95% konfidensintervall er gitt ved ( x ȳ t 0.025 s p 1 n + 1 m, x ȳ + t 0.975s p 1 n + 1 m ) > lb<-xk-xm-qt(0.975,(length(k)+length(m)-2))*stediff;# nedre grense 95% konfi > ub<-xk-xm+qt(0.975,(length(k)+length(m)-2))*stediff;# vre grense 95% konfint > c(lb,ub)# 95% konf. int [1] 0.04860326 0.64028563 som altså ikke inneholder 0. Utskrift fra t.test() 5

> t.test(k,m,alternative="two.sided",var.equal=t)# antatt lik varians Two Sample t-test data: k and m t = 2.4682, df = 16, p-value = 0.02524 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.04860326 0.64028563 sample estimates: mean of x mean of y 36.94444 36.60000 det vil si: Samme resultat som tidligere. d) test-observatoren er for dette tilfellet x ȳ s 2 x + s2 y n m Når µ X = µ Y, dvs. under nullhypotesen, er den tilnærmet χ 2 fordelt med frihetsgrader gitt ved nærmeste heltall til [ s2 x n + s2 y m ]2 ( s2 x n ) 2 + ( s 2 y n )2 n 1 m 1 > # d) > t2<-(xk-xm)/sqrt((vark/length(k))+(varm/length(m))) > t2 [1] 2.468181 > df2<-((vark/length(k))+(varm/length(m)))^2; > df2<-df2/(((vark/length(k))^2/(length(k)-1))+((varm/length(m))^2/(length(m)- > df2 [1] 15.68791 > krv2<-qt(0.975,df2) > krv2 [1] 2.123338 > ( t2 < -krv2 t2 > krv2)# Forkast H_0 [1] TRUE > 2*pt(-abs(t2), df2)#p-verdi [1] 0.02549096 6

slik at også i dette tilfellet forkastes H 0. p-verdien er > 2*pt(-abs(t2), df2)#p-verdi [1] 0.02549096 Bruk av t.test() gir nå > t.test(k,m,alternative="two.sided",var.equal=f)# ikke antatt lik varians Welch Two Sample t-test data: k and m t = 2.4682, df = 15.688, p-value = 0.02549 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.04812421 0.64076468 sample estimates: mean of x mean of y 36.94444 36.60000 Oppgave 3 a) ˆβ 1 = n (x i x)y i n (x i x) 2, ˆβ0 = ȳ ˆβ 1 x > > snake<-read.table("http://www.uio.no/studier/emner/matnat/math/ STK1110/h11/undervisningsmateriale/snake.txt",header=F,row.names=NULL) # object "data frame", often called "data matrix". > colnames(snake)<-c("sninnhold","vannstand") > n<-length(snake[,2]) > x<-snake[,1]# kovariat > y<-snake[,2]# respons > mod<-lm(vannstand~ Sninnhold, data=snake) > summary(mod) Call: lm(formula = Vannstand ~ Sninnhold, data = snake) 7

Residuals: Min 1Q Median 3Q Max -3.7341-1.4207-0.1391 1.5444 3.3584 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.28001 1.71191 0.164 0.872 Sninnhold 0.50558 0.05508 9.180 8.91e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.943 on 16 degrees of freedom Multiple R-squared: 0.8404, Adjusted R-squared: 0.8305 F-statistic: 84.27 on 1 and 16 DF, p-value: 8.913e-08 > plot(x,y,xlab="sninnhold",ylab="vannstand") > abline(mod$coeff[1],mod$coeff[2]) Koeffesientene virker rimelige, vannstanden øker med snøinnholdet, og konstantleddet er ikke svært stort. Tilpassningen ser også bra ut i figur 6. b) Residualplott: postscript((file="fig_opgv3_1.eps")) par(mfrow=c(2,1)) plot(x,mod$res,xlab="sninnhold",ylab="residualer") plot(mod$fitted,mod$res,xlab="tilpasset",ylab="residualer") dev.off() Normalfordel- Ikke noen spesielle tegn på avvik i residualene i figur 7. ingsplott: > postscript((file="fig_opgv3_3.eps")) > par(mfrow=c(1,1)) > qqnorm(mod$res) > dev.off() Også normalfordelingsplottet i figur 8 virker OK. c) Residualene definert som y i ˆβ o ˆβ 1 x i. En estimator for variansen er S 2 = n (y i ˆβ o ˆβ 1 x i ) 2 /(n 2). Siden V ar( ˆβ 1 ) = σ/ n (x i x) 2 er s ˆβ1 = S/ n (x i x) 2. Et 95% konfidensintervall er derfor ( ˆβ 1 t 0.975,n 2 s ˆβ1, ˆβ 1 t 0.975,n 2 s ˆβ1 ) 8

Vannstand 10 15 20 25 20 30 40 50 Snøinnhold Figure 3: Observasjoner og tilpasset regresjonslinje 9

residualer 4 2 0 1 2 3 20 30 40 50 Snøinnhold residualer 4 2 0 1 2 3 10 15 20 25 Tilpasset Figure 4: Residualplott: residualet mot uavhengig variabel øverst, mot tilpasset verdi nederst > res<-mod$res > sigmahatsq<-sum(res*res)/(n-2) > sigmahatsq [1] 3.774598 > esebeta1hat<-sqrt(sigmahatsq/sum((x-mean(x))*(x-mean(x))))# standardfeil > esebeta1hat [1] 0.05507588 > # beta1hat > beta1hat<-mod$coeff[2] > lb<- beta1hat + qt(0.025,(n-2))*esebeta1hat > ub<- beta1hat + qt(0.975,(n-2))*esebeta1hat 10

Normal Q Q Plot Sample Quantiles 4 3 2 1 0 1 2 3 2 1 0 1 2 Theoretical Quantiles Figure 5: Normalfordelingsplott residualer > c(lb,ub) # 95% konfidensintervall for beta1 0.3888275 0.6223388 d) Siden vi antar at feilleddene er normalfordelte, er også ˆβ 0 normalfordelt. Fra formelsamling STK1100/STK1110 følger at E( ˆβ 0 ) = β 0 og at V ar( ˆβ 0 ) = σ 2 n /n n (x i x) 2 slik at standardfeilen til ˆβ 0 er σ ˆβ0 = V ar( ˆβ 0 ). Hadde σ 2 vært kjent, ville en naturlig testobservator vært ˆβ 0 /σ ˆβ0, og det ville være rimelig å forkaste H 0 for store verdier av denne. Siden σ 2 må estimeres, benytter vi i stedet testobservatoren ˆβ 0 /s ˆβ0, der s ˆβ0 er den estimerte standardfeilen til ˆβ 0. Vi vet at ˆσ 2 og ˆβ 0 er uavhengige, og at (n 2)S 2 /σ 2 χ 2 n 2. Derfor er 11

( ˆβ 0 β 0 )/s ˆβ0 t n 2 fordelt. En 95% test bestå derfor i forkaste hvis ˆβ 0 /s ˆβ0 < t 0.025 eller ˆβ 0 /s ˆβ0 > t 0.975. Signifikansnivået er P (forkasteh 0 H 0 riktig) = P (( ˆβ 0 β 0 )/s ˆβ0 < t 0.025 β 0 = 0) + P (( ˆβ 0 β 0 )/s ˆβ0 > t 0.975 β 0 = 0) = 0.025 + 0.025 = 0.05 og P-verien 2 P (t n 2 < t obs ) e) > beta1hat<- sum((x-mean(x))*y)/sum((x-mean(x))*(x-mean(x))) > beta0hat<-mean(y)-beta1hat*mean(x) > beta0hat [1] 0.2800063 > esebeta0hat<-sqrt((sum(x*x)/n)*sigmahatsq/sum((x-mean(x))*(x-mean(x))))# sta > esebeta0hat [1] 1.711907 > t_obs<-beta0hat/esebeta0hat > t_obs # observert t [1] 0.163564 > qt(0.025,(n-2))# kritisk verdi [1] -2.119905 > (t_obs < qt(0.025,(n-2)) t_obs > qt(0.975,(n-2)))# forkastning [1] FALSE > 2*(1 -pt(abs(t_obs),n-2))# P-verdi [1] 0.8721226 P-verdien er svært høy, så det er ingen grunn til å forkaste hypotesen. Oppgave 4 a) Minste kvadraters estimatet finnes ved å minimere (Y i x i β) 2 I=1 med hensyn på β. Dette er et 2 re grads polynom i β, og verdien av β som gir minimum finnes fra første ordens betingelsen som har løsning n I=1 x i y i / n I=1. ( 2) x i (y i x i β) = 0 I=1 b) Forventningen finnes ved E( ˆβ) ni=1 x i Y i = E( ) = x i E(Y i ) = x i βx i = β = β 12

og siden variablene Y i i = 1,..., n er uavhengige er variansen V ( ˆβ) ni=1 x i Y i = V ( ) = c) Fra andre kvadratsetning er Men V (Y i ) ( n I=1 ) 2 = σ 2 ( n I=1 ) 2 = σ 2 (Y i ˆβx i ) 2 = (Yi 2 2 ˆβY i x i + ˆβ 2 ). 2 ˆβ Y i x i = 2 ˆβ n Y i x i n slik at n (Y i ˆβx i ) 2 = n Y 2 i ˆβ 2 n. = 2 ˆβ 2 n For finne forventningen bruker man for det første at E( Y 2 i ) = E(Y 2 i ) = {V (Y i )+[E(Y i )] 2 } = {σ 2 +β 2 } = nσ 2 +β 2 n. Dessuten er E( ˆβ ni=1 2 x i Y ni=1 i ) = E[( n ) 2 Yi 2 + i j x i Y i x j Y j ] = E[( ( n ]. ) 2 Siden variablene Y i i = 1,..., n er uavhengige, er dette lik n E(Y 2 i ) + i j x i x j E(Y i )E(Y j ) ( n ) 2 = σ 2 n + β 2 ( n x 4 i + i j x 2 j) ( n ) 2 = σ2 n noe som gir n (σ 2 + β 2 ) + i j x i x j (βx i )(βx j ) ( n ) 2 = + β2 ( n ) 2 ( n ) 2 = σ2 n (Y i ˆβx i ) 2 = E( Yi 2 ) E( ˆβ 2 ) = nσ 2 +β 2 n σ 2 β 2 n = (n 1)σ 2 slik at S 2 er forventningerett. + β 2, d) Skriv ˆβ β n = S ˆβ β n x 2 σ i (n 1)S 2 (n 1). 13

Telleren er en lineærkombinasjon av normalfordelte variable og er derfor normalfordelt under antagelsen T2. Fra punkt a) følger at den er normalfordelt med forventning 0 og varians 1. Fra opplysningene etter punkt c), er derfor de tre kravene i definisjonen av en t-fordelt variabel med n 1 frihetsgrader oppfylt: Nevneren er en standard-normalfordelt tilfeldig variabel, telleren er en roten av en χ 2 -fordelt tilfeldig variabel med n 1 frihetsgrader og fordelingen til telleren og nevneren er uavhengige. e) Siden ˆβ er en forventningsrett estimator for β, er det rimelig å forkate for små og store verdier av ˆβ β 0. Dette svarer til små og store verdier av t = ˆβ β 0 n x 2 S i. Siden t er t-fordelt med n 1 frihetsgrader under H 0 : β = β 0, betyr det at testen med forkastningsområde t > t α/2,n 1 har nivå α fordi P H0 (forkaste H 0 ) = P H0 ( t > t α/2,n 1 ) = P H0 (t < t α/2,n 1 ) + P H0 (t > t α/2,n 1 ) = α/2 + α/2 = α 14