EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Like dokumenter
EKSAMENSOPPGAVE STA-2004.

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

EKSAMENSOPPGAVE STA-1001.

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. Eksamen i: STA 1002 Statistikk og sannsynlighet 2. Dato: Fredag 1. juni Tid: Kl 09:00 13:00. Sted: Åsgårdvegen 9

UNIVERSITETET I OSLO

vekt. vol bruk

EKSAMENSOPPGAVER STAT100 Vår 2011

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMENSOPPGÅVE. Kalkulator, Rottmanns tabellar og 2 A4 ark med eigne notater (4 sider).

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamensoppgave i TMA4240 Statistikk

EKSAMENSOPPGAVE. Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA Hvis JA: ca. kl.10:00 og 12:00

UNIVERSITETET I OSLO

EKSAMENSOPPGÅVE. Kalkulator, 2 ark (4 sider) med eigne notater og Rottmanns tabeller. Ragnar Soleng

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. Alle skrevne og trykte. Godkjent kalkulator.

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4245 Statistikk Eksamen desember 2016

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4240 Statistikk

Tilleggsoppgaver for STK1110 Høst 2015

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

EKSAMENSOPPGÅVE. Mat-1005, Diskret matematikk. Godkjent kalkulator, Rottmanns tabellar og 2 A4 ark med eigne notater (4 sider).

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler. Oppgaveteksten er på 11 sider.

EKSAMENSOPPGAVE. 4 (1+3) Det er 12 deloppgaver (1abc, 2abcd, 3abc, 4ab) Andrei Prasolov

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMENSOPPGAVE. Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA / NEI Hvis JA: ca. Kl 10.00

UNIVERSITETET I OSLO

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgåve i TMA4255 Anvendt statistikk

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i TMA4245 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

Kvinne Antall Tabell 1a. Antall migreneanfall i året før kvinnene fikk medisin.

UNIVERSITETET I OSLO

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

STK juni 2016

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i TMA4275 Levetidsanalyse

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

ECON240 VÅR / 2016 BOKMÅL

Forelesning 8 STK3100/4100

Eksamensoppgave i TMA4245 Statistikk

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK Lørdag 10. august 2013

EKSAMENSOPPGAVE. INF-1100 Innføring i programmering og datamaskiners virkemåte. Teorifagb, hus 3, og og Adm.bygget, Aud.max og B.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Transkript:

Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004. Dato: Fredag 26. mai 2017. Klokkeslett: 09 13. Sted: Åsgårdvegen 9. Tillatte hjelpemidler: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Rute. 12 Georg Elvebakk Telefon/mobil: 77646532 NB! Det er ikke tillatt å levere inn kladdepapir som del av eksamensbesvarelsen. Hvis det likevel leveres inn, vil kladdepapiret bli holdt tilbake og ikke bli sendt til sensur. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no

VIKTIG: Du kan fritt bruke alle R-utskrifter, tabeller etc. som står bak i oppgavesettet. Merk at i utskriftene kan noen av talla være erstatta av?. Om ikke anna er spesifisert skal signifikansnivået for tester være på 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 En stokastisk variabel har sannsynlighetstettheten { λk f(x) = λ x λ 1, 0 < x < k 0, ellers Her er parameteren λ > 0. Et tilfeldig utvalg på n = 8 fra denne fordelinga gav Nr. 1 2 3 4 5 6 7 8 x i 7 5 6 8 3 2 8 2 Du vil gjerne bruke data til å lage et konfidensintervall for λ. a) Vis at den transformerte variabelen Y = ln(k/x) er eksponensialfordelt med forventning 1/λ. b) Ta utgangspunkt i momentgenererende funksjon for eksponensialfordelinga, og vis at fordelinga av 2λ n i=1 Y i blir ei kikvadratfordeling. Bruk dette til å utlede et 95% konfidensintervall for λ når k = 10, og finn intervallet fra oppgitte data. 2

Oppgave 2 Kristian arrangerer vaffelrekning, og han vil nytte sjansen til å samle inn data over hvor mangevaflersom blirfortærtav studentene. Hangår utfraatantallet vafler hver student spiser er uavhengig av de andre, og følger ei poissonfordeling. Men forventninga i fordelinga trur han er ulik for mannlige og kvinnelige studenter. La X vere antall vafler en mannlig student spiser i løpet av kvelden, og Y være antallet for en kvinnelig student: f X (x;µ) = µx e µ, x = 0,1,... f Y (y;a,µ) = (aµ)y e aµ, y = 0,1,... x! y! Han ønsker å bruke eksperimentet til å finne estimat for parametrene µ og a. Det kom n = 20 mannlige og m = 30 kvinnelige studenter på vaffelrekninga, resultatet blei: 20 30 x i = 100 y i = 75 i=1 a) Hva representerer parametrene µ og a i modellen? Forklar hvorfor sannsynlighetsmaksimeringsfunksjonen (likelihooden) her blir { n } m L(µ,a) = f X (x i ) f Y (y i ) i=1 j=1 Finn likelihooden og log-likelihooden og bruk den til å vise at sannsynlighetsmaksimeringsestimatorene for µ og a blir j=1 ˆµ = X â = Y X Finn estimater fra de oppgitte tallverdiene. Kristian ønsker òg å finne ut hvor nøyaktige disse estimata er, han vil derfor gjerne ha et 95%-konfidensintervall for hver parameter. b) Finn den observerte fisherinformasjonen for disse parametrene, og bruk den til å finne tilnærma 95% Wald-konfidensintervall for hver av parametrene. Vil du ut fra intervallet konkludere at det er forskjell på mannlige og kvinnelige studenter når det gjelder antallet vafler de spiser på vaffelrekninga? Her kan du bruke at [ a b c d ] 1 = [ 1 ad bc d b c a ] 3

Oppgave 3 I denne oppgava skal vi bruke data fra et forsøk basert på Beall, G. (1942). Forsøket prøvde ut k = 6 forskjellige insektgifter (A, B, C, D, E, F) for å sammenlikne hvor effektive de var. Forsøket blei utført ved at en valgte ut 72 små områder som blei tilfeldig allokert til å bli spraya med en type insektgift. Hver insektgift blei brukt på n = 12 slike områder. Responsvariabelen er hvor mange døde insekter som blei funnet på hvert område, resultatet er printa ut i vedlegget, der det òg er gitt visse resultater, plott og analyser. Vi kaller antallet døde insekt på område j med gift i for D ij, i = 1,...,6 og j = 1,...,12. Merk at i R-ustriftene er responsvariabelen D kalt Antall, og giftvariabelen kalt Spray. Det er òg tatt med en kvadratrottransformasjon av responsvariabelen, Y ij = D ij, denne er i utskriftene kalt RotAntall. a) Sett opp en envegs variansanalysemodell (enfaktormodell) for antall døde som funksjon av gifttype, ta med forutsetninger. Ut fra plott og resultat, ser det ut som forutsetningene er oppfylte? Forklar hvorfor det her er rimelig å tru at ettersom D er ei opptelling vil den kvadratrottransformerte variabelen Y bedre oppfylle forutsetningene? Vi vil fra nå bruke den transformerte variabelen Y som responsvariabel. b) Sett opp hypoteser og testobservator, og og utfør en test for om det er forskjeller i respons mellom de ulike insektgiftene. Beskriv F-testobservatoren og forklar kort hvorfor du kan bruke denne til å teste for forskjeller mellom insektgiftene. En alternativ modell for forsøket er modellen med stokastiske effekter, den såkalte randommodellen. Vi vil nå bruke denne modellen: Y ij = µ+a i +ǫ ij, i = 1,...6, j = 1,...,12 Husk at i denne modellen er E(S 2 ) = σ 2 og E(S 2 A ) = σ2 +nσ 2 α. Vi er spesielt interessert i parameteren µ. c) Forklar forutsetningene i modellen, og hvordan forsøket skal være utforma for at randommodellen skal vere det riktige valget. Hva representerer µ i denne modellen? Finn hva som blir forventning og varians av det totale gjennomsnittet Y. Bruk så fordelinga av Y til å finne et 95%-konfidensintervall for µ. 4

Oppgave 4 Vi bruker et datasett over egenskaper ved 32 bilmodeller i 1974. Dataene er fra Motor Trend US Magazine og omfatter følgende variabler for hver biltype. y : Tid (sekund) for å kjøre ei kvart engelsk mil (rundt 400m). x 1 : Antall hestekrefter. x 2 : Motorstørrelse (i kubikktommer) x 3 : Vekt (i 1000 pund). z : Automatgir (indikatorvariabel, 1=automatgirt). Det er R-utskrifter av data og analyser o.l. lengre bak i oppgavesettet. Vi er interessert i å finne hvilke forklaringsvariabler som kan forklare skilnader i tida det tar å tilbakelegge ei kvart engelsk mil. Først vil vi lage en modell med den forklaringsvariabelen vi har mest tru på: Hestekrefter. a) Sett opp en lineær regresjonsmodell for Y med x 1 som forklaringsvariabel. Hva er forutsetingene i modellen? Skriv opp den tilpassa modellen, og gi ei tolking av hva denne uttrykker. Finn SST, SSR og SSE og forklar hva disse måler. Bruk de til å utføre en test for om det er signifikant sammenheng mellom Y og x 1. Vi vil nå innføre indikatorvariabelen for automatgir i modellen: Y i = β 0 +β 1 x 1i +β 2 z i +β 3 (x 1 z) i +ǫ i, i = 1,...,32 Merk at det òg er tatt med samspillsvariabel mellom hestekrefter og automatgir. b) Hva er tolkinga av parameteren β 3? Hva blir de tilpassa modellene for biler med og uten automatgir? Sett opp hypoteser og utfør en test for om det er forskjell mellom biler med og uten automatgir. Vi vil nå prøve å forbedre modellen ved å bruke de andre to forklaringsvariablene i en modell for Y. Det blir derfor utført en stegvis regresjon med mulige forklaringsvariabler x 1, x 2, x 3, z og x 1 z. c) Forklar kort stega i denne iterative prosedyren. R bruker minste AIC for å sammenlikne modellene, kunne de alternativt har brukt for eksempel største R 2? Skriv opp den estimerte sluttmodellen fra prosedyren. Om du (i 1974) kjøper en bilmodell med manuelt gir som har 150 hestekrefter, motor på 250 (kubikktommer) og vekt på 3(1000 pund), innafor hvilket interval kan du med 95% sannsynlighet finne tida for kvartmila? 5

> Insekt # Insektgiftdatasettet. Antall Spray RotAntall 1 10 A 3.162278 2 7 A 2.645751 3 20 A 4.472136 4 14 A 3.741657 5 14 A 3.741657 6 12 A 3.464102 7 10 A 3.162278 8 23 A 4.795832 9 17 A 4.123106 10 20 A 4.472136 11 14 A 3.741657 12 13 A 3.605551 13 11 B 3.316625 14 17 B 4.123106 15 21 B 4.582576 16 11 B 3.316625 17 16 B 4.000000 18 14 B 3.741657 19 17 B 4.123106 20 17 B 4.123106 21 19 B 4.358899 22 21 B 4.582576 23 7 B 2.645751 24 13 B 3.605551 25 0 C 0.000000 26 1 C 1.000000 27 7 C 2.645751 28 2 C 1.414214 29 3 C 1.732051 30 1 C 1.000000 31 2 C 1.414214 32 1 C 1.000000 33 3 C 1.732051 34 0 C 0.000000 35 1 C 1.000000 36 4 C 2.000000 37 3 D 1.732051 38 5 D 2.236068 39 12 D 3.464102 40 6 D 2.449490 41 4 D 2.000000 42 3 D 1.732051 43 5 D 2.236068 44 5 D 2.236068 45 5 D 2.236068 46 5 D 2.236068 47 2 D 1.414214 48 4 D 2.000000 49 3 E 1.732051 50 5 E 2.236068 51 3 E 1.732051 52 5 E 2.236068 53 3 E 1.732051 54 6 E 2.449490 55 1 E 1.000000 56 1 E 1.000000 57 3 E 1.732051 58 2 E 1.414214 59 6 E 2.449490 60 4 E 2.000000 61 11 F 3.316625 62 9 F 3.000000 63 15 F 3.872983 64 22 F 4.690416 65 15 F 3.872983 66 16 F 4.000000 67 13 F 3.605551 68 10 F 3.162278 69 26 F 5.099020 70 26 F 5.099020 71 24 F 4.898979 72 13 F 3.605551 6

For responsvariabel Antall: > tapply(insekt$antall,insekt$spray,mean) # Gjennomsnitt per spraytype. A B C D E F 14.500000 15.333333 2.083333 4.916667 3.500000 16.666667 > tapply(insekt$antall,insekt$spray,var) # Varians per spraytype. A B C D E F 22.272727 18.242424 3.901515 6.265152 3.000000 38.606061 Antall 0 5 10 15 20 25 A B C D E F Spray For responsvariabel Kvadratrot av antall: > tapply(insekt$rotantall,insekt$spray,mean) # Gjennomsnitt per spraytype. A B C D E F 3.760678 3.876631 1.244857 2.164354 1.809461 4.018617 > tapply(insekt$rotantall,insekt$spray,var) # Varians per spraytype. A B C D E F 0.3897796 0.3327953 0.5821802 0.2533516 0.2463827 0.5644176 RotAntall 0 1 2 3 4 5 A B C D E F Spray > summary(aov(rotantall~spray,data=insekt)) Df Sum Sq Mean Sq F value Pr(>F) Spray 5 88.44??? Residuals 66 26.06? 7

> bil # Bildatasettet. Y X1 X2 X3 Z 1 16.46 110 160.0 2.620 1 2 17.02 110 160.0 2.875 1 3 18.61 93 108.0 2.320 1 4 19.44 110 258.0 3.215 0 5 17.02 175 360.0 3.440 0 6 20.22 105 225.0 3.460 0 7 15.84 245 360.0 3.570 0 8 20.00 62 146.7 3.190 0 9 22.90 95 140.8 3.150 0 10 18.30 123 167.6 3.440 0 11 18.90 123 167.6 3.440 0 12 17.40 180 275.8 4.070 0 13 17.60 180 275.8 3.730 0 14 18.00 180 275.8 3.780 0 15 17.98 205 472.0 5.250 0 16 17.82 215 460.0 5.424 0 17 17.42 230 440.0 5.345 0 18 19.47 66 78.7 2.200 1 19 18.52 52 75.7 1.615 1 20 19.90 65 71.1 1.835 1 21 20.01 97 120.1 2.465 0 22 16.87 150 318.0 3.520 0 23 17.30 150 304.0 3.435 0 24 15.41 245 350.0 3.840 0 25 17.05 175 400.0 3.845 0 26 18.90 66 79.0 1.935 1 27 16.70 91 120.3 2.140 1 28 16.90 113 95.1 1.513 1 29 14.50 264 351.0 3.170 1 30 15.50 175 145.0 2.770 1 31 14.60 335 301.0 3.570 1 32 18.60 109 121.0 2.780 1 8

> mod.x1.tilp = lm(y~x1,bil) # Tilpassa modell med X1. > summary(mod.x1.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 20.556354 0.542424 37.897 < 2e-16 *** X1-0.018458 0.003359?? --- Residual standard error: 1.282 on 30 degrees of freedom Multiple R-squared: 0.5016, Adjusted R-squared: 0.485 > anova(mod.x1.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651?? Residuals 30 49.338 1.645 --- > mod.x1_z_x1z.tilp = lm(y~x1+z+x1:z,bil) # Tilpassa modell med X1, Z og X1*Z. > summary(mod.x1_z_x1z.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 22.369283 0.766386 29.188 < 2e-16 *** X1-0.026120 0.004545-5.747 3.62e-06 *** Z -2.711854 0.935659-2.898 0.00721 ** X1:Z 0.008008 0.005779 1.386 0.17674 --- Residual standard error: 1.039 on 28 degrees of freedom Multiple R-squared: 0.6944, Adjusted R-squared: 0.6617 F-statistic: 21.21 on 3 and 28 DF, p-value: 2.271e-07 > anova(mod.x1_z_x1z.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651 45.9554 2.312e-07 *** Z 1 17.011 17.011 15.7453 0.0004578 *** X1:Z 1 2.075 2.075 1.9205 0.1767439 Residuals 28 30.251 1.080 9

> step(lm(y~1,data=bil),scope=y~x1+z+x1:z+x2+x3,direction="both") # Stegvisprosedyre. Start: AIC=38.14 Y ~ 1 + X1 1 49.651 49.338 17.854 + X2 1 18.619 80.369 33.469 <none> 98.988 38.136 + Z 1 5.230 93.758 38.399 + X3 1 3.022 95.966 39.144 Step: AIC=17.85 Y ~ X1 + Z 1 17.011 32.326 6.325 + X3 1 14.893 34.445 8.356 + X2 1 4.229 45.109 16.987 <none> 49.338 17.854 - X1 1 49.651 98.988 38.136 Step: AIC=6.32 Y ~ X1 + Z + X1:Z 1 2.075 30.251 6.202 <none> 32.326 6.325 + X3 1 1.547 30.780 6.756 + X2 1 0.933 31.393 7.387 - Z 1 17.011 49.338 17.854 - X1 1 61.432 93.758 38.399 Step: AIC=6.2 Y ~ X1 + Z + X1:Z + X3 1 2.71376 27.538 5.1942 <none> 30.251 6.2018 - X1:Z 1 2.07489 32.326 6.3246 + X2 1 0.14805 30.103 8.0448 Step: AIC=5.19 Y ~ X1 + Z + X3 + X1:Z + X2 1 2.6137 24.924 4.0030 <none> 27.538 5.1942 - X3 1 2.7138 30.251 6.2018 - X1:Z 1 3.2420 30.780 6.7558 Step: AIC=4 Y ~ X1 + Z + X3 + X2 + X1:Z - X1:Z 1 1.1844 26.108 3.4887 <none> 24.924 4.0030 - X2 1 2.6137 27.538 5.1942 - X3 1 5.1794 30.103 8.0448 Step: AIC=3.49 Y ~ X1 + Z + X3 + X2 <none> 26.108 3.4887 + X1:Z 1 1.1844 24.924 4.0030 - X2 1 4.6713 30.780 6.7558 10

- X3 1 5.2845 31.393 7.3871 - Z 1 5.4857 31.594 7.5915 - X1 1 14.0089 40.117 15.2343 Call: lm(formula = Y ~ X1 + Z + X3 + X2, data = bil) Coefficients: (Intercept) X1 Z X3 X2 19.711592-0.018028-1.302202 1.030478-0.008688 11

> mod.x1_x2_x3_z.tilp = lm(y~x1+x2+x3+z,bil) # Tilpassa modell med X1, X2, X3 og Z. > summary(mod.x1_x2_x3_z.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 19.711592 1.075350 18.330 < 2e-16 *** X1-0.018028 0.004737-3.806 0.000737 *** X2-0.008688 0.003953-2.198 0.036712 * X3 1.030478 0.440802 2.338 0.027061 * Z -1.302202 0.546727-2.382 0.024536 * --- Residual standard error: 0.9834 on 27 degrees of freedom Multiple R-squared: 0.7362, Adjusted R-squared: 0.6972 F-statistic: 18.84 on 4 and 27 DF, p-value: 1.679e-07 > anova(mod.x1_x2_x3_z.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651 51.3460 1.049e-07 *** X2 1 4.229 4.229 4.3733 0.0460484 * X3 1 13.515 13.515 13.9762 0.0008803 *** Z 1 5.486 5.486 5.6730 0.0245364 * Residuals 27 26.108 0.967 --- > X = model.matrix(mod.x1_x2_x3_z.tilp) > solve(t(x)%*%x) (Intercept) X1 X2 X3 Z (Intercept) 1.1958659491 2.752194e-04 1.340969e-03-0.4183537198-0.4145959953 X1 0.0002752194 2.320099e-05-1.197377e-05-0.0001370569-0.0011691275 X2 0.0013409693-1.197377e-05 1.616002e-05-0.0010917115 0.0004905132 X3-0.4183537198-1.370569e-04-1.091711e-03 0.2009419145 0.1079620947 Z -0.4145959953-1.169127e-03 4.905132e-04 0.1079620947 0.3091180477 > x.0 = c(1,150,250,3,0) > t(x.0)%*%solve(t(x)%*%x)%*%x.0 [,1] [1,] 0.1203439 12

Fakultet for naturvitskap og teknologi EKSAMENSOPPGÅVE Eksamen i: STA-2004. Dato: Fredag 26. mai 2017. Klokkeslett: 09 13. Stad: Åsgårdvegen 9. Lovlege hjelpemiddel: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med eigne notat. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Rute. 12 Georg Elvebakk Telefon/mobil: 77646532 NB! Det er ikkje lov å levere inn kladd saman med svaret. Om det likevel leverast inn, vil kladden bli heldt tilbake og ikkje sendt til sensur. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no

VIKTIG: Du kan fritt bruke alle R-utskrifter, tabellar etc. som står bak i oppgåvesettet. Merk at i utskriftene kan nokon av tala vere erstatta av?. Om ikkje anna er spesifisert skal signifikansnivået for testar vere på 5%. Deloppgåvene vil telje likt ved vurderinga. Oppgåve 1 Ein stokastisk variabel har sannsynstettleiken { λk f(x) = λ x λ 1, 0 < x < k 0, elles Her er parameteren λ > 0. Eit tilfeldig utval på n = 8 frå denne fordelinga gav Nr. 1 2 3 4 5 6 7 8 x i 7 5 6 8 3 2 8 2 Du vil gjerne bruke data til å lage eit konfidensintervall for λ. a) Vis at den transformerte variabelen Y = ln(k/x) er eksponensialfordelt med forventing 1/λ. b) Ta utgangspunkt i momentgenererende funksjon for eksponensialfordelinga, og vis at fordelinga av 2λ n i=1 Y i blir ei kikvadratfordeling. Bruk dette til å utleie eit 95% konfidensintervall for λ når k = 10, og finn intervallet frå oppgitte data. 2

Oppgåve 2 Kristian arrangerer vaffelrekning, og han vil nytte sjansen til å samle inn data over kor mange vaflar som blir fortært av studentane. Han går ut frå at talet på vaflar kvar student et er uavhengig av dei andre, og følgjer ei poissonfordeling. Men forventinga i fordelinga trur han er ulik for mannlege og kvinnelege studentar. La X vere talet på vaflar ein mannleg student et i løpet av kvelden, og Y vere talet for ein kvinneleg student: f X (x;µ) = µx e µ, x = 0,1,... f Y (y;a,µ) = (aµ)y e aµ, y = 0,1,... x! y! Han ønskjer å bruke eksperimentet til å finne estimat for parametrane µ og a. Det kom n = 20 mannlege og m = 30 kvinnelege studentar på vaffelrekninga, resultatet blei: 20 30 x i = 100 y i = 75 i=1 a) Kva representerer parametrane µ og a i modellen? Forklar kvifor sannsynsmaksimeringsfunksjonen (likelihooden) her blir j=1 { n } m L(µ,a) = f X (x i ) f Y (y i ) i=1 j=1 Finn likelihooden og log-likelihooden og bruk den til å vise at sannsynsmaksimeringsestimatorane for µ og a blir ˆµ = X â = Y X Finn estimat frå dei oppgitte talverdiane. Kristian ønskjer òg å finne ut kor nøyaktige desse estimata er, han vil derfor gjerne ha eit 95%-konfidensintervall for kvar parameter. b) Finn den observerte fisherinformasjonen for desse parametrane, og bruk den til å finne tilnærma 95% Wald-konfidensintervall for kvar av parametrane. Vil duutfråintervallet konkludereat deter forskjellpåmannlegeogkvinnelege studentar når det gjeld talet på vaflar dei et på vaffelrekninga? Her kan du bruke at [ a b c d ] 1 = [ 1 ad bc d b c a ] 3

Oppgåve 3 I denne oppgava skal vi bruke data frå eit forsøk basert på Beall, G. (1942). Forsøket prøvde ut k = 6 forskjellige insektgifter (A, B, C, D, E, F) for å sammenlikne kor effektive dei var. Forsøket blei utført ved at ein valde ut 72 små område som blei tilfeldig allokert til å bli spraya med ein type insektgift. Kvar insektgift blei brukt på n = 12 slike område. Responsvariabelen er kor mange døde insekt som blei funne på kvart område, resultatet er printa ut i vedlegget, der det òg er gitt visse resultater, plott og analyser. Vi kaller talet på døde insekt på område j med gift i for D ij, i = 1,...,6 og j = 1,...,12. Merk at i R-ustriftene er responsvariabelen D kalt Antall, og giftvariabelen kalt Spray. Det er òg tatt med ein kvadratrottransformasjon av responsvariabelen, Y ij = D ij, denne er i utskriftene kalt RotAntall. a) Set opp ein einvegs variansanalysemodell (einfaktormodell) for talet på døde som funksjon av gifttype, med føresetnader. Ut frå plott og resultat, ser det ut som føresetnadene er oppfylde? Forklar kvifor det her er rimeleg å tru at ettersom D er ei opptelling vil den kvadratrottransformerte variabelen Y betre oppfylle føresetnadene? Vi vil frå no bruke den transformerte variabelen Y som responsvariabel. b) Set opp hypotesar og testobservator, og og utfør ein test for om det er forskjellar i respons mellom dei ulike insektgiftene. Beskriv F-testobservatoren og forklar kort kvifor du kan bruke denne til å teste for forskjellar mellom insektgiftene. Ein alternativ modell for forsøket er modellen med stokastiske effektar, den såkalte randommodellen. Vi vil no bruke denne modellen: Y ij = µ+a i +ǫ ij, i = 1,...6, j = 1,...,12 Hugs at i denne modellen er E(S 2 ) = σ 2 og E(S 2 A ) = σ2 +nσ 2 α. Vi er spesielt interessert i parameteren µ. c) Forklar føresetnadene i modellen, og korleis forsøket skal vere utforma for at randommodellen skal vere det riktige valet. Kva representerer µ i denne modellen? Finn kva som blir forventing og varians av det totale gjennomsnittet Y. Bruk så fordelinga av Y til å finne eit 95%-konfidensintervall for µ. 4

Oppgåve 4 Vi bruker eit datasett over egenskaper ved 32 bilmodellar i 1974. Data er frå Motor Trend US Magazine og omfattar følgjande variablar for kvar biltype. y : Tid (sekund) for å køyre ei kvart engelsk mil (rundt 400m). x 1 : Antall hestekrefter. x 2 : Motorstorleik (i kubikktommar) x 3 : Vekt (i 1000 pund). z : Automatgir (indikatorvariabel, 1=automatgirt). Det er R-utskrifter av data og analyser o.l. lengre bak i oppgåvesettet. Vi er interessert i å finne kva forklaringsvariablar som kan forklare skilnader i tida det tar å tilbakeleggje ei kvart engelsk mil. Først vi vil lage ein modell med den forklaringsvariabelen vi har mest tru på: Hestekrefter. a) Set opp ein lineær regresjonsmodell for Y med x 1 som forklaringsvariabel. Kva er føresetnadene i modellen? Skriv opp den tilpassa modellen, og gi ei tolking av kva denne uttrykkjer. Finn SST, SSR og SSE og forklar kva desse måler. Bruk dei til å utføre ein test for om det er signifikant sammenheng mellom Y og x 1. Vi vil no innføre indikatorvariabelen for automatgir i modellen: Y i = β 0 +β 1 x 1i +β 2 z i +β 3 (x 1 z) i +ǫ i, i = 1,...,32 Merk at det òg er tatt med samspelsvariabel mellom hestekrefter og automatgir. b) Kva er tolkinga av parameteren β 3? Kva blir dei tilpassa modellene for bilar med og utan automatgir? Set opp hypotesar og utfør ein test for om det er forskjell mellom bilar med og utan automatgir. Vi vil no prøve å forbetre modellen ved å bruke dei andre to forklaringsvariablaneiein modell fory. Det blirderforutført ein stegvis regresjon med mulige forklaringsvariablar x 1, x 2, x 3, z og x 1 z. c) Forklar kort stega i denne iterative prosedyren. R bruker minste AIC for å samanlikne modellane, kunne dei alternativt har brukt for eksempel største R 2? Skriv opp den estimerte sluttmodellen frå prosedyren. Om du (i 1974) kjøper ein bilmodell med manuelt gir som har 150 hestekrefter, motor på 250(kubikktommar) og vekt på 3(1000 pund), innafor kva interval kan du med 95% sannsyn finne tida for kvartmila? 5

> Insekt # Insektgiftdatasettet. Antall Spray RotAntall 1 10 A 3.162278 2 7 A 2.645751 3 20 A 4.472136 4 14 A 3.741657 5 14 A 3.741657 6 12 A 3.464102 7 10 A 3.162278 8 23 A 4.795832 9 17 A 4.123106 10 20 A 4.472136 11 14 A 3.741657 12 13 A 3.605551 13 11 B 3.316625 14 17 B 4.123106 15 21 B 4.582576 16 11 B 3.316625 17 16 B 4.000000 18 14 B 3.741657 19 17 B 4.123106 20 17 B 4.123106 21 19 B 4.358899 22 21 B 4.582576 23 7 B 2.645751 24 13 B 3.605551 25 0 C 0.000000 26 1 C 1.000000 27 7 C 2.645751 28 2 C 1.414214 29 3 C 1.732051 30 1 C 1.000000 31 2 C 1.414214 32 1 C 1.000000 33 3 C 1.732051 34 0 C 0.000000 35 1 C 1.000000 36 4 C 2.000000 37 3 D 1.732051 38 5 D 2.236068 39 12 D 3.464102 40 6 D 2.449490 41 4 D 2.000000 42 3 D 1.732051 43 5 D 2.236068 44 5 D 2.236068 45 5 D 2.236068 46 5 D 2.236068 47 2 D 1.414214 48 4 D 2.000000 49 3 E 1.732051 50 5 E 2.236068 51 3 E 1.732051 52 5 E 2.236068 53 3 E 1.732051 54 6 E 2.449490 55 1 E 1.000000 56 1 E 1.000000 57 3 E 1.732051 58 2 E 1.414214 59 6 E 2.449490 60 4 E 2.000000 61 11 F 3.316625 62 9 F 3.000000 63 15 F 3.872983 64 22 F 4.690416 65 15 F 3.872983 66 16 F 4.000000 67 13 F 3.605551 68 10 F 3.162278 69 26 F 5.099020 70 26 F 5.099020 71 24 F 4.898979 72 13 F 3.605551 6

For responsvariabel Antall: > tapply(insekt$antall,insekt$spray,mean) # Gjennomsnitt per spraytype. A B C D E F 14.500000 15.333333 2.083333 4.916667 3.500000 16.666667 > tapply(insekt$antall,insekt$spray,var) # Varians per spraytype. A B C D E F 22.272727 18.242424 3.901515 6.265152 3.000000 38.606061 Antall 0 5 10 15 20 25 A B C D E F Spray For responsvariabel Kvadratrot av antall: > tapply(insekt$rotantall,insekt$spray,mean) # Gjennomsnitt per spraytype. A B C D E F 3.760678 3.876631 1.244857 2.164354 1.809461 4.018617 > tapply(insekt$rotantall,insekt$spray,var) # Varians per spraytype. A B C D E F 0.3897796 0.3327953 0.5821802 0.2533516 0.2463827 0.5644176 RotAntall 0 1 2 3 4 5 A B C D E F Spray > summary(aov(rotantall~spray,data=insekt)) Df Sum Sq Mean Sq F value Pr(>F) Spray 5 88.44??? Residuals 66 26.06? 7

> bil # Bildatasettet. Y X1 X2 X3 Z 1 16.46 110 160.0 2.620 1 2 17.02 110 160.0 2.875 1 3 18.61 93 108.0 2.320 1 4 19.44 110 258.0 3.215 0 5 17.02 175 360.0 3.440 0 6 20.22 105 225.0 3.460 0 7 15.84 245 360.0 3.570 0 8 20.00 62 146.7 3.190 0 9 22.90 95 140.8 3.150 0 10 18.30 123 167.6 3.440 0 11 18.90 123 167.6 3.440 0 12 17.40 180 275.8 4.070 0 13 17.60 180 275.8 3.730 0 14 18.00 180 275.8 3.780 0 15 17.98 205 472.0 5.250 0 16 17.82 215 460.0 5.424 0 17 17.42 230 440.0 5.345 0 18 19.47 66 78.7 2.200 1 19 18.52 52 75.7 1.615 1 20 19.90 65 71.1 1.835 1 21 20.01 97 120.1 2.465 0 22 16.87 150 318.0 3.520 0 23 17.30 150 304.0 3.435 0 24 15.41 245 350.0 3.840 0 25 17.05 175 400.0 3.845 0 26 18.90 66 79.0 1.935 1 27 16.70 91 120.3 2.140 1 28 16.90 113 95.1 1.513 1 29 14.50 264 351.0 3.170 1 30 15.50 175 145.0 2.770 1 31 14.60 335 301.0 3.570 1 32 18.60 109 121.0 2.780 1 8

> mod.x1.tilp = lm(y~x1,bil) # Tilpassa modell med X1. > summary(mod.x1.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 20.556354 0.542424 37.897 < 2e-16 *** X1-0.018458 0.003359?? --- Residual standard error: 1.282 on 30 degrees of freedom Multiple R-squared: 0.5016, Adjusted R-squared: 0.485 > anova(mod.x1.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651?? Residuals 30 49.338 1.645 --- > mod.x1_z_x1z.tilp = lm(y~x1+z+x1:z,bil) # Tilpassa modell med X1, Z og X1*Z. > summary(mod.x1_z_x1z.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 22.369283 0.766386 29.188 < 2e-16 *** X1-0.026120 0.004545-5.747 3.62e-06 *** Z -2.711854 0.935659-2.898 0.00721 ** X1:Z 0.008008 0.005779 1.386 0.17674 --- Residual standard error: 1.039 on 28 degrees of freedom Multiple R-squared: 0.6944, Adjusted R-squared: 0.6617 F-statistic: 21.21 on 3 and 28 DF, p-value: 2.271e-07 > anova(mod.x1_z_x1z.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651 45.9554 2.312e-07 *** Z 1 17.011 17.011 15.7453 0.0004578 *** X1:Z 1 2.075 2.075 1.9205 0.1767439 Residuals 28 30.251 1.080 9

> step(lm(y~1,data=bil),scope=y~x1+z+x1:z+x2+x3,direction="both") # Stegvisprosedyre. Start: AIC=38.14 Y ~ 1 + X1 1 49.651 49.338 17.854 + X2 1 18.619 80.369 33.469 <none> 98.988 38.136 + Z 1 5.230 93.758 38.399 + X3 1 3.022 95.966 39.144 Step: AIC=17.85 Y ~ X1 + Z 1 17.011 32.326 6.325 + X3 1 14.893 34.445 8.356 + X2 1 4.229 45.109 16.987 <none> 49.338 17.854 - X1 1 49.651 98.988 38.136 Step: AIC=6.32 Y ~ X1 + Z + X1:Z 1 2.075 30.251 6.202 <none> 32.326 6.325 + X3 1 1.547 30.780 6.756 + X2 1 0.933 31.393 7.387 - Z 1 17.011 49.338 17.854 - X1 1 61.432 93.758 38.399 Step: AIC=6.2 Y ~ X1 + Z + X1:Z + X3 1 2.71376 27.538 5.1942 <none> 30.251 6.2018 - X1:Z 1 2.07489 32.326 6.3246 + X2 1 0.14805 30.103 8.0448 Step: AIC=5.19 Y ~ X1 + Z + X3 + X1:Z + X2 1 2.6137 24.924 4.0030 <none> 27.538 5.1942 - X3 1 2.7138 30.251 6.2018 - X1:Z 1 3.2420 30.780 6.7558 Step: AIC=4 Y ~ X1 + Z + X3 + X2 + X1:Z - X1:Z 1 1.1844 26.108 3.4887 <none> 24.924 4.0030 - X2 1 2.6137 27.538 5.1942 - X3 1 5.1794 30.103 8.0448 Step: AIC=3.49 Y ~ X1 + Z + X3 + X2 <none> 26.108 3.4887 + X1:Z 1 1.1844 24.924 4.0030 - X2 1 4.6713 30.780 6.7558 10

- X3 1 5.2845 31.393 7.3871 - Z 1 5.4857 31.594 7.5915 - X1 1 14.0089 40.117 15.2343 Call: lm(formula = Y ~ X1 + Z + X3 + X2, data = bil) Coefficients: (Intercept) X1 Z X3 X2 19.711592-0.018028-1.302202 1.030478-0.008688 11

> mod.x1_x2_x3_z.tilp = lm(y~x1+x2+x3+z,bil) # Tilpassa modell med X1, X2, X3 og Z. > summary(mod.x1_x2_x3_z.tilp) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 19.711592 1.075350 18.330 < 2e-16 *** X1-0.018028 0.004737-3.806 0.000737 *** X2-0.008688 0.003953-2.198 0.036712 * X3 1.030478 0.440802 2.338 0.027061 * Z -1.302202 0.546727-2.382 0.024536 * --- Residual standard error: 0.9834 on 27 degrees of freedom Multiple R-squared: 0.7362, Adjusted R-squared: 0.6972 F-statistic: 18.84 on 4 and 27 DF, p-value: 1.679e-07 > anova(mod.x1_x2_x3_z.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 49.651 49.651 51.3460 1.049e-07 *** X2 1 4.229 4.229 4.3733 0.0460484 * X3 1 13.515 13.515 13.9762 0.0008803 *** Z 1 5.486 5.486 5.6730 0.0245364 * Residuals 27 26.108 0.967 --- > X = model.matrix(mod.x1_x2_x3_z.tilp) > solve(t(x)%*%x) (Intercept) X1 X2 X3 Z (Intercept) 1.1958659491 2.752194e-04 1.340969e-03-0.4183537198-0.4145959953 X1 0.0002752194 2.320099e-05-1.197377e-05-0.0001370569-0.0011691275 X2 0.0013409693-1.197377e-05 1.616002e-05-0.0010917115 0.0004905132 X3-0.4183537198-1.370569e-04-1.091711e-03 0.2009419145 0.1079620947 Z -0.4145959953-1.169127e-03 4.905132e-04 0.1079620947 0.3091180477 > x.0 = c(1,150,250,3,0) > t(x.0)%*%solve(t(x)%*%x)%*%x.0 [,1] [1,] 0.1203439 12