Løsningsforslag eksamen 25. november 2003

Like dokumenter
Oppgave N(0, 1) under H 0. S t n 3

Løsningsforslag eksamen 27. februar 2004

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Oppgave 1. Kilde SS df M S F Legering Feil Total

Oppgave 14.1 (14.4:1)

HØGSKOLEN I STAVANGER

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Kp. 9.8 Forskjell mellom to forventninger

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

LØSNINGSFORSLAG ) = Dvs

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

HØGSKOLEN I STAVANGER

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Eksamen desember 2016

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

Eksamensoppgave i TMA4240 Statistikk

Kp. 12 Multippel regresjon

TMA4240 Statistikk Høst 2015

Oppgave 13.1 (13.4:1)

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk 2014

STK Oppsummering

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Oppgave 1. (x i x)(y i Y ) (Y i A Bx i ) 2 er estimator for σ 2 (A er minstek-

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Løsningsforslag, eksamen statistikk, juni 2015

Fasit og løsningsforslag STK 1110

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Høst 2018

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2007

Løsningsforslag: STK2120-v15.

HØGSKOLEN I STAVANGER

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

MOT310 Statistiske metoder 1, høsten 2011

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

TMA4240 Statistikk H2010 (20)

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamensoppgave i TMA4245 Statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

10.1 Enkel lineær regresjon Multippel regresjon

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4255 Anvendt statistikk

i x i

TMA4240 Statistikk Høst 2009

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4240 Statistikk H2010

Løsning eksamen desember 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

TMA4245 Statistikk Eksamen august 2014

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

EKSAMENSOPPGAVER STAT100 Vår 2011

Eksamensoppgåve i TMA4240 Statistikk

UNIVERSITETET I OSLO

ECON240 VÅR / 2016 BOKMÅL

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

TMA4240 Statistikk Høst 2015

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Kapittel 9 og 10: Hypotesetesting

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Løsningsforslag til oppgaver brukt i STA100

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Eksamensoppgave i TMA4255 Anvendt statistikk

Løsningsforslag eksamen STAT100 Høst 2010

Fasit for tilleggsoppgaver

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Transkript:

MOT310 Statistiske metoder 1 Løsningsforslag eksamen 25. november 2003 Oppgave 1 a) Vi har µ D = µ X µ Y. Sangere bruker generelt trapesius-muskelen mindre etter biofeedback dersom forventet bruk av trapesius er større før enn etter biofeedback, dvs dersom µ X > µ Y eller µ D > 0. Dette er påstanden vi skal undersøke, og vi formulerer derfor hypotesetesten: D 1,..., D 24 u.i.f. N(µ D, σ 2 D ). H 0 : µ D = 0 mot H 1 : µ D > 0 Estimator: Z = ˆµ D = D D 0 N(0, 1) under H 0. σ σ 2 D 2 /n D ukjent T = D t n 1 under H 0, der S 2 SD 2 /n D = 1 n (D i n 1 D) 2. i=1 Vi forkaster H 0 dersom T t α,n 1 = t 0.05,23 = 1.714. Observert: 27.0/24 t obs = = 5.30 1 ( 24 124.65)/24 Dvs vi forkaster H 0 på 5% signifikansnivå. Sangere bruker generelt trapesius-muskelen mindre etter biofeedback. b) Vi starter med å se på differansen mellom reduksjonen for en ny sanger, D 0, og gjennomsnittet av reduksjonene for de tidligere målte sangerne, D: D0 D. Antar at D 1,..., D n og D 0 u.i.f. N(µ D, σ 2 D ) E(D 0 D) = E(D 0 ) E( D) = µ D µ D = 0 Var(D 0 D) uavh. = Var(D 0 ) + ( 1) 2 Var( D) = σd 2 + σ2 D n Z = D 0 σ D N(0, 1) 2D + σ2 Dn og T = D 0 D S 1 + 1 n t n 1 P ( t α/2,n 1 D 0 D t α/2,n 1 ) = 1 α S 1 + 1 n ( P D t α/2,n 1 S 1 + 1 n D 0 D + t α/2,n 1 S 1 + 1 ) = 1 α n 1

Dvs et (1 α)100% prediksjonsintervall for D 0 er gitt ved: [ D t α/2,n 1 S 1 + 1 n, D + tα/2,n 1 S 1 + 1 ] n Innsatt: n = 24, d = 27.0/24.0 = 1.125, s 2 = 24.65/23 = 1.01 og t α/2,n 1 = t 0.025,23 = 2.069 gir dette 95% prediksjonsintervall: [ 1.125 2.069 1.01 1 + 1 24, 1.125 + 2.069 1.01 1 + 1 ] = [ 1.07, 3.32] 24 Et prediksjonsintervall er et intervall som med stor sannsynlighet vil inneholde en ny mling - et intervall med både negative og positive verdier betyr at både en økning og en reduksjon i muskelbruken er rimelige utfall for en ny sanger. Dvs selv om vi i punkt a) har påvist at den forventede differansen (gjennomsnittsdifferansen i det lange løp) er positiv vil likevel enkelte sangere komme ut med en negativ differanse (dvs en forverring). c) Her er det umulig å gjøre direkte differansemålinger på samme enhet. Faktoren vi skal undersøke om har betydning her er kjønn, og siden en person bare har ett kjønn kan vi ikke gjøre målinger for ulike kjønn på samme person - vi er nødt til å sammenligne ved å gjøre to uavhengige måleserier. Konfidensintervall for µ X µ Y : µ ˆ X µ ˆ Y = X Ȳ Z = X Ȳ E( X Ȳ ) Var( X = X Ȳ (µ X µ Y ) N(0, 1) Ȳ ) σx 2 n X + σ2 Y n Y Her er σx 2 og σ2 Y ukjente, estimeres ved S2 X = 1 nx n X 1 i=1 (X i X) 2 og SY 2 = 1 ny n Y 1 i=1 (Y i Ȳ ) 2, og når σx 2 og σ2 Y erstattes med S2 X og S2 Y har vi fra pensum at T = X Ȳ (µ X µ Y ) S 2 X nx + S2 Y n Y t ν der det er oppgitt i oppgaveteksten at ν = 14. P ( t α/2,ν T t α/2,ν ) = 1 α P ( t α/2,ν X Ȳ (µ X µ Y ) t α/2,ν) = 1 α SX 2 n X + S2 Y n Y SX 2 P ( t α/2,ν + S2 Y n X n X Ȳ (µ SX 2 X µ Y ) t α/2,ν + S2 Y ) = 1 α Y n X n Y P ( X Ȳ t SX 2 α/2,ν + S2 Y µ X µ Y n X n X Ȳ + t SX 2 α/2,ν + S2 Y ) = 1 α Y n X n Y 2

Dvs med t α/2,ν = t 0.025,14 = 2.145 og de oppgitte dataene får vi følgende 95% konfidensintervall for µ X µ Y : [562/ 643/ 2.145 1741.5/7 + 1335.75/7, 562/ 643/ + 2.145 1741.5/7 + 1335.75/7 ] = [ 26.0, 5.] Siden µ X µ Y = 0 er inneholdt i 95% konfidensintervallet forkaster vi ikke H 0 i hypotesetesten H 0 : µ X µ Y = 0 mot H 1 : µ X µ Y 0. Dvs dataene gir ikke grunnlag for å hevde at det er forskjell mellom mannlige og kvinnelige sangere i bruk av øvre brystkasse. Oppgave 2 a) Y ij = µ i + ε ij, der ε ij uavh. N(0, σ 2 ) der µ i er forventa spenning ved materialtype i og ε ij er feilleddet (tilfeldig variasjon). Alternativt: Y ij = µ + α i + ε ij, der ε ij uavh. N(0, σ 2 ) der µ er gjennomsnittlig forventa spenning, α i er effekten av materialtype i, 4 i=1 α i = 0 og ε ij er feilleddet (tilfeldig variasjon). Kilde SS df M S F Material 16552.7 2 276.4 20.26 Feil 3676.3 9 40.5 Total 20229.0 11 H 0 : µ 1 = µ 2 = µ 3 mot H 1 : minst en ulik Vi forkaster H 0 dersom F f 0.05,2,9 = 4.26. Dvs med de observerte dataene forkaster vi H 0 på 5% nivå. Forventet spenning er ulik ved de ulike materialene. b) Ut fra plottet kan det se ut som at alle materialtyper gir høy spenning ved 50 Fahrenheit, materialtype 2 og 3 ved 65 Fahrenheit og ingen ved 0 Fahrenheit. 1. H 0 : α 1 = α 2 = α 3 = 0 mot H 1 : minst en α i 0 Siden f obs = 2.97 > f 0.05,2,27 = 3.35 forkaster vi H 0. Dvs, temperatur har betydning. 2. H 0 : β 1 = β 2 = β 3 = 0 mot H 1 : minst en β i 0 Siden f obs = 7.91 > f 0.05,2,27 = 3.35 forkaster vi H 0. Dvs, materialtype har betydning. 3. H 0 : (αβ) 11 = = (αβ) 33 = 0 mot H 1 : minst en 0 3

Siden f obs = 3.56 > f 0.05,4,27 = 2.73 forkaster vi H 0. Dvs, det er samspill mellom temperatur og materialtype! (En indikasjon på dette ser vi også fra plottet av dataene, forholdet mellom de ulike materialtypene ser ut til å være ulikt ved de forskjellige temperaturene.) Når vi har påvist et signifikant samspill, som her, så kan dette forkludre tolkningen av testene for hovedeffektene. F.eks. kan et samspill skjule effekter av hovedfaktorene. Et alternativ når man har påvist signifikant samspill er å utføre separate analyse av effekten av en faktor på hvert nivå av den andre faktoren. Siden vi her har påvist signifikante effekter av begge hovedfaktorene kan vi konkludere at de begge har betydning, men siden vi også har påvist signifikant samspill kan vi ikke si noe generelt om hvilken retning effekten av de ulike faktorene går. c) H 0 : σ 2 1 = σ 2 2 = = σ 2 9 mot H 1 : minst en ulik Som nevnt i oppgaveteksten har vi to ulike tester for dette hypotesetestingsproblemet, Cochran-testen og Bartlett-testen. Cochran-testen: Vi forkaster H 0 dersom: G = største S2 i ki=1 S 2 i g α,k,n = g 0.05,9,4 = 0.4027 Observert: g obs = største s2 i 9i=1 s 2 i = 2056.9 6077.1 = 0.33 Vi forkaster ikke H 0 på 5% nivå. Bartlett-testen: Med k = 9 og n 1 = n 2 = = n 9 = n = 4 har vi at vi forkaster H 0 dersom: B = [(S2 1 )(n 1) (S 2 2 )(n 1) (S 2 9 )(n 1) ] 1/(N k) S 2 pooled = [(S2 1 )3 (S 2 2 )3 (S 2 9 )3 ] 1/(27) S 2 pooled = (S2 1 )1/9 (S 2 2 )1/9 (S 2 9 )1/9 S 2 pooled b k (α; n) = b 9 (0.05; 4) = 0.5277 der Spooled 2 = 1 ki=1 N k (n i 1)Si 2 = SSE N k = MSE Observert: b obs = (2056)1/9 (656.3) 1/9 (371.7) 1/9 675.2 Vi forkaster ikke H 0 på 5% nivå. = 543.1 675.2 = 0.0 Dvs konklusjonen av begge testene er at vi ikke har grunnlag for å si at variansen er ulik for de ulike faktorkombinasjonene - vi har med andre ord ikke påvist noe brudd på antagelsen om lik varians. 4

Oppgave 3 a) Fra datautskriften ser vi at vi ikke vil forkaste H 0 : β i = 0 mot H 1 : β i 0 verken for β 4 (p verdi = 0.494), β 5 (p verdi = 0.234) eller for β 6 (p verdi = 0.910) på noe rimelig signifikansnivå. Dette tyder på at minst en, kanskje flere, av disse variablene er overflødige og kan utelates. Ved bakover utvelgelse starter man med en modell som innholder alle forklaringsvariablene, og fjerner så en og en variabel fra modellen om gangen inntil alle gjenværende variable bidrar signifikant til modellen. I hvert steg fjernes den av de gjenværende variablene som bidrar minst til modellen i form av å redusere SSR minst når den tas ut. Når man ikke lenger finner noen variable som gir en ikke-signifikant reduksjon av SSR fjernes ingen flere variable fra modellen. (Om den variabelen som i det jte skritt bidrar minst til modellen skal fjernes fra modellen (dvs om den gir ikke-signifikant bidrag til modellen) avgjøres ved om F = SSR(β j β 0, β 1,..., β j 1 ) S 2 < f α,1,n j der SSR(β j β 0, β 1,..., β j 1 ) = SSR(β 0, β 1,..., β j ) SSR(β 0, β 1,..., β j 1 ) er reduksjon i SSR ved å fjerne variabelen fra modellen, og hvor S 2 er beregnet fra modellen hvor variabelen er tatt med.) b) R 2 = SSR ni=1 SST = (Ŷi Ȳ )2 ni=1 (Y i Ȳ )2 R 2 forteller hvor stor andel av total variasjon (omkring Ȳ ) som er forklart ved regresjonslinja. Ulempen med R 2 som modellvalgskriterium er at R 2 alltid øker når vi tar med flere variable i modellen, skulle vi bruke R 2 alene som modellvalgkriterium ville vi alltid ende opp med modellen med alle variable inkludert - noe som i mange situasjoner slett ikke er den beste modellen. R 2 justert er en forbedret R2 som justerer for problemet med å ukritisk ta med for mange variable. Modell (1) har litt høyere R 2 (siden de to modellen har med like mange variable kan vi bruke R 2 som kriterium i sammenligningen), litt høyere R justert 2 og litt lavere s. Alt dette indikerer at modell (1) er litt bedre enn modell (2) (men forskjellene er ikke store). Videre ser vi at i modell (1) er alle forklaringsvariablene signifikante alene på et 5% nivå, mens i modell (2) er ikke x 4 signifikant alene. Dette går også i favør av modell (1) så konklusjonen blir at modell (1) er den beste modellen. c) Fra den estimerte modellen ŷ = 5.701 0.349x 1 0.001x 2 + 0.995x 3 ser vi at en økning i SO 4 (x 1 )og NO 3 (x 2 ) vil bidra til å senke ph-nivået, mens en økning i Ca (x 3 ) vil heve ph-nivået. e i = y i ŷ i (observert verdi minus estimert regresjonslinje i punktet). e 1 = y 1 (5.701 0.349x 11 0.001x 21 + 0.955x 31 ) = 5.3 5.701 + 0.349 4.9 + 0.001 39 0.955 1.54 = 0.0114 5

Plottene av residualene mot forklaringsvariablene (x-variablene), ŷ og observasjonsnummer, i, ser OK ut siden de er jevnt spredt omkring null med lik variasjon i alle områder og ingen bestemte mønster. Dette tyder på at den tilpassede modellen for forventningsverdien er god, og at antagelsene om at feilleddene (ε 1,..., ε n ) har forventningsverdi null, konstant varians og er uavhengige holder. Punktene i normaplottet ligger noenlunde på en rett linje og dette tyder på at antagelsen om at feilleddene er normalfordelte holder. Dvs alle residualplottene tyder her på at den tilpassede modellen er god. d) Vi kan tenke på β 0 som forventet ph-verdi i et vann som ikke inneholder verken SO 4, NO 3 eller Ca, dvs hvor x 1 = x 2 = x 3 = 0. Vi må da imidlertid ta forbehold om at vi ikke har målinger helt ned mot punktet hvor alle variablene er null og vi må derfor ta høyde for at vi ikke kan være sikre på at modellen virkelig er lineær helt ned mot x 1 = x 2 = x 3 = 0. Alternativt kan vi tenke på β 0 som en justeringsfaktor/konstant som gir oss ei regresjonslinje som ligger på rett nivå i det området vi har data. Estimator: ˆβ0 = B 0 Vi har at Z = B 0 E(B 0 ) Var(B0 ) = B 0 β 0 N(0, 1) Var(B0 ) og med ukjent varians får vi at T = B 0 β 0 = B 0 β 0 Var(B 0 ) ŜD(B 0 ) t n 4 P ( t α/2,n 4 B 0 β 0 ŜD(B 0 ) t α/2,n 4 ) = 1 α P (B 0 t α/2,n 4ŜD(B 0) β 0 B 0 + t α/2,n 4ŜD(B 0)) = 1 α dvs med n = 26 og α = 0.05 som gir t α/2,n 4 = t 0.025,22 = 2.074 og (fra datautskriften) b 0 = 5.701 og ŜD(B 0) = 0.069 får vi følgende 95% konfidensintervall: [5.701 2.074 0.069, 5.701 + 2.074 0.069] = [5.56, 5.4] 6