STK1000 Obligatorisk oppgave 2 av 2

Like dokumenter
Obligatorisk oppgave 2

STK1000 Obligatorisk oppgave 1 av 2

MAT1140 Strukturer og argumenter

MAT-INF 1100: Obligatorisk oppgave 1

MAT1120. Obligatorisk oppgave 1 av 2. Torsdag 20. september 2018, klokken 14:30 i Devilry (devilry.ifi.uio.no).

MEK1100, vår Obligatorisk oppgave 1 av 2. Torsdag 28. februar 2019, klokken 14:30 i Devilry (devilry.ifi.uio.no).

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

MAT-INF 1100: Obligatorisk oppgave 1

MAT1110. Obligatorisk oppgave 1 av 2

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

MEK1100, vår Obligatorisk oppgave 1 av 2.

MAT-INF 2360: Obligatorisk oppgave 3

MAT-INF 1100: Obligatorisk oppgave 2

STK1000 Innføring i anvendt statistikk

UNIVERSITETET I OSLO

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Eksamensoppgave i TMA4240 Statistikk

HØGSKOLEN I STAVANGER

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

STK1000 Innføring i anvendt statistikk

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

i x i

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk Høst 2016

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

STK2100. Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4245 Statistikk Eksamen desember 2016

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Obligatorisk oppgave 1 MAT1120 H15

Obligatorisk oppgavesett 1 MAT1120 H16

Skoleeksamen i SOS Kvantitativ metode

UNIVERSITETET I OSLO

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4255 Anvendt statistikk

ST0202 Statistikk for samfunnsvitere

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Eksamensoppgave i ST3001

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Regresjon med GeoGebra

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Eksamensoppgave i TMA4245 Statistikk

MAT 1120: Obligatorisk oppgave 1, H-09

Kapittel 9 og 10: Hypotesetesting

MAT-INF 1100: Obligatorisk oppgave 1

Eksamensoppgave i TMA4240 Statistikk

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO Matematisk Institutt

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Oppgaver til Studentveiledning I MET 3431 Statistikk

HØGSKOLEN I STAVANGER

Transkript:

STK1000 Obligatorisk oppgave 2 av 2 Innleveringsfrist Torsdag 16. november 2017, klokken 14:30 i Devilry (https://devilry.ifi.uio.no). Instruksjoner Du velger selv om du skriver besvarelsen for hånd og scanner besvarelsen eller om du skriver løsningen direkte inn på datamaskin (for eksempel ved bruk av LATEX). Besvarelsen skal leveres som én PDF-fil. Scannede ark må være godt lesbare. Besvarelsen skal inneholde navn, emne og oblignummer. Det forventes at man har en klar og ryddig besvarelse med tydelige begrunnelser. Husk å inkludere alle relevante plott og figurer. Studenter som ikke får sin opprinnelige besvarelse godkjent, men som har gjort et reelt forsøk på å løse oppgavene, vil få én mulighet til å levere en revidert besvarelse. Samarbeid og alle slags hjelpemidler er tillatt, men den innleverte besvarelsen skal være skrevet av deg og reflektere din forståelse av stoffet. Er vi i tvil om du virkelig har forstått det du har levert inn, kan vi be deg om en muntlig redegjørelse. Søknad om utsettelse av innleveringsfrist Hvis du blir syk eller av andre grunner trenger å søke om utsettelse av innleveringsfristen, må du ta kontakt med studieadministrasjonen ved Matematisk institutt (e-post: studieinfo@math.uio.no) i god tid før innleveringsfristen. For å få adgang til avsluttende eksamen i dette emnet, må man bestå alle obligatoriske oppgaver i ett og samme semester. For fullstendige retningslinjer for innlevering av obligatoriske oppgaver, se her: www.uio.no/studier/admin/obligatoriske-aktiviteter/mn-math-oblig.html LYKKE TIL! Oppgave 1 Denne oppgaven er en analyse av resultatene på midtveiseksamen H2017. Les først inn resultatene fra midtveiseksamen i RStudio ved følgende kommando: resultater <- c(5,0*(1:2)+6,0*(1:3)+7,0*(1:5)+8,0*(1:3)+9,0*(1:5)+10, 0*(1:4)+11,0*(1:14)+12,0*(1:12)+13,0*(1:12)+14,0*(1:9)+15, 0*(1:17)+16,0*(1:19)+17,0*(1:11)+18,0*(1:11)+19,0*(1:13)+20)

a) Bruk følgende kommandoer til å finne ut hvor mange som tok eksamen, og hvor stor andel av studentene som hadde minst 19 riktige svar. n <- length(resultater) n table(resultater) b) Gi en oppsummering av resultatene, både ved hjelp av en figur, og ved hjelp av passende oppsummeringstall (deskriptiv statistikk). c) Følgende kommandoer kan være nyttige, selv om ikke alle er like relevante. Skriv kommentarer til hver kommando: barplot(table(resultater)) par(mfrow=c(2,1)) hist(resultater,col="grey") boxplot(resultater,horizontal=true,col="grey") summary(resultater) sd(resultater) round(sd(resultater),1) mean(resultater)-2*sd(resultater) mean(resultater)+2*sd(resultater) mean(resultater)-3*sd(resultater) mean(resultater)+3*sd(resultater) La oss anta at studentene som gikk opp til midtveiseksamen i STK1000 er et representativt utvalg fra en uendelig populasjon av STK1000-studenter, og at universitetsledelsen ønsker å vite hva forventet poengsum på en STK1000-midtveiseksamen er. d) Formuler dette som en parameter og gi et estimat for denne parameteren. e) Hva menes med estimeringsfeil (standard error)? Hva er den er for estimatet du regnet ut i forrige oppgave? Bruk gjerne disse kommandoene til å beregne den: se <- sd(resultater)/sqrt(n) se f) Vis hvordan man utleder et 95% konfidensintervall for den forventede poengsummen på en STK1000-midtveiseksamen. g) Bruk følgende kommandoer til å beregne tre ulike 95% konfidensintervaller, kommenter hva som er forskjellen på dem, og forklar hvilken utregning som er riktigst i denne situasjonen (Hint: De to første intervallene er i prinsippet like.) mean(resultater)-1.96*se mean(resultater)+1.96*se mean(resultater)+qnorm(0.025)*se mean(resultater)+qnorm(0.975)*se mean(resultater)+qt(0.025,140)*se

mean(resultater)+qt(0.975,140)*se h) Hvis en student ikke kan noen verdens ting om statistikk og bare gjetter i vei på de 20 delspørsmålene, og vi samtidig antar at delspørsmålene er uavhengige og at det bare er ett riktig svar på hvert delspørsmål, hvilken fordeling har da X = poengsummen til denne studenten? Hva er forventningsverdien i denne fordelingen? i) Hvis du skal sette opp en nullhypotese for µ fra delspørsmål d), f) og g), hvordan vil du formulere H0? (Hint: Den forventningsverdien du fant i delspørsmål h) er nyttig når du skal formulere H0.) Velger du en ensidig eller tosidig hypotese? Hvorfor? t.test og z.test er to kommandoer som løser denne hypotesetestingen for deg. t.test finnes allerede i RStudio og kan brukes direkte. z.test er en funksjon Kathrine har laget for anledningen. For at z.test skal virke, må du kopiere alt mellom de to horisontale strekene inn i RStudio og kjøre det først. z.test <- function(datavektor, test_my, kjent_sigma){ n <- length(datavektor) nedre95pstki <- mean(datavektor)+qnorm(0.025)*kjent_sigma/sqrt(n) ovre95pstki <- mean(datavektor)+qnorm(0.975)*kjent_sigma/sqrt(n) zscore_testobservator <-(mean(datavektor) - test_my)/(kjent_sigma/sqrt(n)) pverdi1sidig <- 1-pnorm(abs(zscore_testobservator)) pverdi2sidig <- 2*(1-pnorm(abs(zscore_testobservator))) cat(c("estimat for my =",round(mean(datavektor),2),'\n', "95% CI = [",round(nedre95pstki,2), ",", round(ovre95pstki,2),"]",'\n', "One-sample z-test ",'\n',"z.obs =",round(zscore_testobservator,2),'\n', "1-sidig p-verdi =",pverdi1sidig,'\n', "2-sidig p-verdi=",pverdi2sidig,'\n'))} Deretter kan du kjøre både z.test og t.test: z.test(resultater, test_my=5,kjent_sigma=10) z.test(resultater, test_my=5,kjent_sigma=sd(resultater)) t.test(resultater, mu=5) t.test(resultater, mu=5,alternative="greater") j) Kommenter hva som er forskjellen på z.test og t.test, og forklar hvilken test som er riktigst å bruke i denne situasjonen. Hva er konklusjonen din? Bruk både p-verdien og konfidensintervallet når du konkluderer. Oppgave 2 Anta at vi har to grupper med målinger, og ønsker å finne ut om forventningsverdiene i de to gruppene er like. Vi vet i utgangspunktet ikke hvilken fordeling målingene i de to gruppene har, eller hvor stor variasjonen er. Vi må altså estimere σ med sd hvis det trengs. To-utvalgs t-test (boka: Ch 7.2) brukes hvis vi skal sammenligne to grupper med målinger, og dataene i hver gruppe er relativt normalfordelte.

To-utvalgs t-test brukes også hvis dataene ikke er normalfordelte, men n1 og n2, antallet i hver gruppe, er store. Wilcoxon rank sum test (boka: Ch 15.1) brukes hvis dataene ikke er normalfordelte og n1 og n2, antallet i hver gruppe, er lite. I t-test sammenlignes gruppene ved å sammenligne gjennomsnittene. I Wilcoxon rank sum test sammenlignes gruppene ved å sammenligne rangeringen av målingene. Les inn resultatene fra midtveiseksamen i 2016 i RStudio ved følgende kommando: resultater2016 <- c(4,6,0*(1:3)+7,0*(1:11)+8,0*(1:7)+9,0*(1:24)+10, 0*(1:21)+11,0*(1:26)+12,0*(1:29)+13,0*(1:31)+14, 0*(1:21)+15,0*(1:19)+16,0*(1:17)+17,0*(1:6)+18,0*(1:4)+19) boxplot(resultater,resultater2016,horizontal =TRUE) a) Hva er forskjellen i gjennomsnittlig poengsum for midtveiseksamen i 2016 og 2017? Er det fornuftig å bruke en t-test her? Hvorfor? Formuler enten hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for t.test, t.test(resultater,resultater2016), eller hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for wilcox.test. wilcox.test(resultater,resultater2016) Hva konkluderer du med? Oppgave 3 Yatzy er et terningspill med fem terninger der målet er å oppnå en høyest mulig poengsum etter 15 runder med inntil tre kast per runde. I hver runde gis det poeng for ulike terningkombinasjoner. Kombinasjonene finner du i poengskjemaet for Yatzy. Hvis man spiller rundene i den rekkefølgen de står på poengskjemaet, kalles det «tvungen», og hvis spilleren selv kan velge hvilken terningkombinasjon han vil satse på i hver runde, kalles det «fri». En bonus på 50 poeng gis til spillere som har en delsum på minst 42 poeng i «tvungen», og minst 63 poeng i «fri». Dataene til denne oppgaven heter yatzy.csv og består av et komplett sett med 629 Yatzypoengsummer for spill av typen «fri» i perioden 26.07.2014-06.08.2017 i familien P, en familie med tre barn. Du finner yatzy.csv på kurssiden. Målet med oppgaven er å bruke tallene til å se på sammenhengen mellom deskriptiv statistikk, spesielt gjennomsnitt, t-test og enkel regresjonsanalyse.

a) Les inn yatzy.csv i RStudio, og bruk kommandoene under til å gi en kort oppsummering (i form av tall og ord) av sluttresultatene i familien P. hist(yatzy$sum2) boxplot(yatzy$sum2,horizontal=true) summary(yatzy$sum2) round(sd(yatzy$sum2),0) OBS: Hvis dette ikke fungerer, prøv å lese inn fila vha kommandoen yatzy <- read.table("~/downloads/yatzy.csv", header=true, quote="",sep=";") Eller følg disse anvisningene:

b) Bruk følgende R-kommandoer til å utforske gjennomsnittet og sammenligne det med konstantleddet i verdens enkleste regresjonsanalyse: median(yatzy$sum2) mean(yatzy$sum2) summary(lm(yatzy$sum2~1)) Hva er gjennomsnittlig poengsum for spillene i datafila? Hva er et estimat for µ, forventet poengsum i et enkelt spill Yatzy? Beregn et 95% konfidensintervall for µ og kommenter. Sett opp ligningen for regresjonsanalysen og finn estimatet for regresjonsparameteren fra utskriften, sammen med 95% konfidensintervall. c) Kan disse resultatene, basert på yatzy-spill av typen «fri» i én familie, generaliseres til samtlige yatzy-spill i universet? Kunne vi gjort det hvis spillene var av type «tvungen»? d) Bruk R-kommandoer til å utforske sammenhengen mellom delsummen (sum1) og sluttsummen (sum2): plot(yatzy$sum1,yatzy$sum2) cor.test(yatzy$sum1,yatzy$sum2) Hva er korrelasjonskoeffisienten mellom delsummen og sluttsummen for dette utvalget? Vi kan bruke korrelasjonskoeffisienten i utvalget til å estimere den ukjente korrelasjonen mellom bonuspoengsummen og sluttsummen i et generelt Yatzy-spill. Vi kaller denne parameteren ρ. Formuler hypotesene om ρ (nullhypotese, H0 og alternative hypotese, Ha) som er utgangspunktet for cor.test. Hva konkluderer du med? Sett også opp regresjonsligningen som er utgangspunktet for følgende regresjonsanalyse, og forklar hvordan regresjonsparameterne kan tolkes: summary(lm(yatzy$sum2~yatzy$sum1)) #oppsummering av regresjonsanalyse #vha linear model, lm Bruk utskriften til å finne estimatene og de tilhørende 95% konfidensintervallene for regresjonsparameterne fra utskriften, og gi en tolkning av dem.

Formuler hypotesene (nullhypotese, H0 og alternative hypotese, Ha) for de to parameterne i regresjonanalysen. Hva konkluderer du med? e) Både korrelasjonsanalyse og regresjonsanalyse forutsetter en lineær sammenheng mellom variablene. Er det riktig å anta her? f) En bedre måte å bruke informasjonen på (hvis lineariteten er diskutabel) kan være å se på sammenhengen mellom om man har fått bonus (bonus01), og sluttsummen (sum2). Bruk disse R-kommandoene til å utforske denne sammenhengen: plot(yatzy$sum1,yatzy$sum2,col=yatzy$bonus01+3) boxplot(yatzy$sum2~yatzy$bonus01,col=c(3,4)) t.test(yatzy$sum2~yatzy$bonus01) wilcox.test(yatzy$sum2~yatzy$bonus01) Hva er forskjellen i gjennomsnittlig poengsum for de som fikk bonus og de som ikke fikk bonus i dette utvalget? Vi kan bruke bruke den til å estimere forskjellen på sluttsummen i et generelt Yatzy-spill for en spiller som får bonus og en spiller som ikke får bonus. Vi er da ute etter et estimat og et tilhørende 95% konfidensintervall for parameterdifferansen 1 0. Finn dette (estimat og 95% KI) fra R-utskriften. Formuler også hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for t.test. Hva konkluderer du med? Sett også opp ligningen for regresjonsanalysen, og forklar hvordan regresjonsparameterne kan tolkes: summary(lm(yatzy$sum2~yatzy$bonus01)) #Regresjonsanalyse Bruk utskriften til å finne estimatene og de tilhørende 95% konfidensintervallene for regresjonsparameterne fra utskriften, og gi en tolkning av dem. Formuler hypotesene (nullhypotese, H0 og alternative hypotese, Ha) for de to parameterne i regresjonanalysen. Hva konkluderer du med? g) Spiller nr 4 og 5 er foreldrene i familie P. Kan en av dem påberope seg å være familiens Yatzy-overhode? Bruk følgende R-kommandoer og forklar hva du gjør, og hvilken konklusjon du trekker. # Vi velger bare spiller nr 4 og 5 (foreldrene) # Kan en av dem påberope seg å være familiens yatzy-overhode? data45 <- yatzy[(yatzy$spillernr==4 yatzy$spillernr==5),] boxplot(data45$sum2~data45$spillernr) t.test(data45$sum2~data45$spillernr) wilcox.test(data45$sum2~data45$spillernr) summary(lm(data45$sum2~data45$spillernr))