Obligatorisk oppgave 2

Like dokumenter
STK1000 Obligatorisk oppgave 2 av 2

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2009

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk H2010 (20)

i x i

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

vekt. vol bruk

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Eksamen desember 2016

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

ST0202 Statistikk for samfunnsvitere

Kapittel 9 og 10: Hypotesetesting

ST0202 Statistikk for samfunnsvitere

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Fasit for tilleggsoppgaver

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Hypotesetesting. mot. mot. mot. ˆ x

Eksamensoppgave i TMA4255 Anvendt statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

STK1000 Obligatorisk oppgave 1 av 2

Kapittel 3: Studieopplegg

6.2 Signifikanstester

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Introduksjon til inferens

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

Regresjon med GeoGebra

UNIVERSITETET I OSLO

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Skoleeksamen i SOS Kvantitativ metode

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Eksamensoppgave i TMA4240 Statistikk

Oppgaver til Studentveiledning I MET 3431 Statistikk

UNIVERSITETET I OSLO Matematisk Institutt

Verdens statistikk-dag.

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk 2014

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk H2010 (22)

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Målenivå: Kjønn: Alle bør kunne se at denne variabelen må plasseres på nominalnivå

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Transkript:

Obligatorisk oppgave 2 Oppgave 1 Denne oppgaven er en analyse av resultatene på midtveiseksamen H2017. Les først inn resultatene fra midtveiseksamen i RStudio ved følgende kommando: resultater <- c(5,0*(1:2)+6,0*(1:3)+7,0*(1:5)+8,0*(1:3)+9,0*(1:5)+10, 0*(1:4)+11,0*(1:14)+12,0*(1:12)+13,0*(1:12)+14,0*(1:9)+15, 0*(1:17)+16,0*(1:19)+17,0*(1:11)+18,0*(1:11)+19,0*(1:13)+20) a) Bruk følgende kommandoer til å finne ut hvor mange som tok eksamen, og hvor stor andel av studentene som hadde minst 19 riktige svar. n <- length(resultater) n table(resultater) b) Gi en oppsummering av resultatene, både ved hjelp av en figur, og ved hjelp av passende oppsummeringstall (deskriptiv statistikk). c) Følgende kommandoer kan være nyttige, selv om ikke alle er like relevante. Skriv kommentarer til hver kommando: barplot(table(resultater)) par(mfrow=c(2,1)) hist(resultater,col="grey") boxplot(resultater,horizontal=true,col="grey") summary(resultater) sd(resultater) round(sd(resultater),1) mean(resultater)-2*sd(resultater) mean(resultater)+2*sd(resultater) mean(resultater)-3*sd(resultater) mean(resultater)+3*sd(resultater) La oss anta at studentene som gikk opp til midtveiseksamen i STK1000 er et representativt utvalg fra en uendelig populasjon av STK1000-studenter, og at universitetsledelsen ønsker å vite hva forventet poengsum på en STK1000-midtveiseksamen er. d) Formuler dette som en parameter og gi et estimat for denne parameteren. e) Hva menes med estimeringsfeil (standard error)? Hva er den er for estimatet du regnet ut i forrige oppgave? Bruk gjerne disse kommandoene til å beregne den: se <- sd(resultater)/sqrt(n) se

f) Vis hvordan man utleder et 95% konfidensintervall for den forventede poengsummen på en STK1000-midtveiseksamen. g) Bruk følgende kommandoer til å beregne tre ulike 95% konfidensintervaller, kommenter hva som er forskjellen på dem, og forklar hvilken utregning som er riktigst i denne situasjonen (Hint: De to første intervallene er i prinsippet like.) mean(resultater)-1.96*se mean(resultater)+1.96*se mean(resultater)+qnorm(0.025)*se mean(resultater)+qnorm(0.975)*se mean(resultater)+qt(0.025,140)*se mean(resultater)+qt(0.975,140)*se h) Hvis en student ikke kan noen verdens ting om statistikk og bare gjetter i vei på de 20 delspørsmålene, og vi samtidig antar at delspørsmålene er uavhengige og at det bare er ett riktig svar på hvert delspørsmål, hvilken fordeling har da X = poengsummen til denne studenten? Hva er forventningsverdien i denne fordelingen? i) Hvis du skal sette opp en nullhypotese for µ fra delspørsmål d), f) og g), hvordan vil du formulere H0? (Hint: Den forventningsverdien du fant i delspørsmål h) er nyttig når du skal formulere H0.) Velger du en ensidig eller tosidig hypotese? Hvorfor? t.test og z.test er to kommandoer som løser denne hypotesetestingen for deg. t.test finnes allerede i RStudio og kan brukes direkte. z.test er en funksjon Kathrine har laget for anledningen. For at z.test skal virke, må du kopiere det gule feltet inn i RStudio og kjøre det først. Deretter kan du kjøre z.test som vist i de to nederste linjene. z.test <- function(datavektor, test_my, kjent_sigma){ n <- length(datavektor) nedre95pstki <- mean(datavektor)+qnorm(0.025)*kjent_sigma/sqrt(n) ovre95pstki <- mean(datavektor)+qnorm(0.975)*kjent_sigma/sqrt(n) zscore_testobservator <- (mean(datavektor) - test_my)/(kjent_sigma/sqrt(n)) pverdi1sidig <- 1-pnorm(abs(zscore_testobservator)) pverdi2sidig <- 2*(1-pnorm(abs(zscore_testobservator))) } cat(c("estimat for my =",round(mean(datavektor),2),'\n', "95% CI = [",round(nedre95pstki,2), ",", round(ovre95pstki,2),"]",'\n', "One-sample z-test ",'\n', "z.obs =",round(zscore_testobservator,2),'\n', "1-sidig p-verdi =",pverdi1sidig,'\n', "2-sidig p-verdi =",pverdi2sidig,'\n')) z.test(resultater, test_my=5,kjent_sigma=10)

z.test(resultater, test_my=5,kjent_sigma=sd(resultater)) t.test(resultater, mu=5) t.test(resultater, mu=5,alternative="greater") j) Kommenter hva som er forskjellen på z.test og t.test, og forklar hvilken test som er riktigst å bruke i denne situasjonen. Hva er konklusjonen din? Bruk både p-verdien og konfidensintervallet når du konkluderer. Oppgave 2 Anta at vi har to grupper med målinger, og ønsker å finne ut om forventningsverdiene i de to gruppene er like. Vi vet i utgangspunktet ikke hvilken fordeling målingene i de to gruppene har, eller hvor stor variasjonen er. Vi må altså estimere σ med sd hvis det trengs. To-utvalgs t-test (boka: Ch 7.2) brukes hvis vi skal sammenligne to grupper med målinger, og dataene i hver gruppe er relativt normalfordelte. To-utvalgs t-test brukes også hvis dataene ikke er normalfordelte, men n1 og n2, antallet i hver gruppe, er store. Wilcoxon rank sum test (boka: Ch 15.1) brukes hvis dataene ikke er normalfordelte og n1 og n2, antallet i hver gruppe, er lite. I t-test sammenlignes gruppene ved å sammenligne gjennomsnittene. I Wilcoxon rank sum test sammenlignes gruppene ved å sammenligne rangeringen av målingene. Les inn resultatene fra midtveiseksamen i 2016 i RStudio ved følgende kommando: resultater2016 <- c(4,6,0*(1:3)+7,0*(1:11)+8,0*(1:7)+9,0*(1:24)+10, 0*(1:21)+11,0*(1:26)+12,0*(1:29)+13,0*(1:31)+14, 0*(1:21)+15,0*(1:19)+16,0*(1:17)+17,0*(1:6)+18,0*(1:4)+19) boxplot(resultater,resultater2016,horizontal =TRUE) a) Hva er forskjellen i gjennomsnittlig poengsum for midtveiseksamen i 2016 og 2017? Er det fornuftig å bruke en t-test her? Hvorfor? Formuler enten hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for t.test, t.test(resultater,resultater2016), eller hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for wilcox.test. wilcox.test(resultater,resultater2016) Hva konkluderer du med?

Oppgave 3 Yatzy er et terningspill med fem terninger der målet er å oppnå en høyest mulig poengsum etter 15 runder med inntil tre kast per runde. I hver runde gis det poeng for ulike terningkombinasjoner. Kombinasjonene finner du i poengskjemaet for Yatzy. Hvis man spiller rundene i den rekkefølgen de står på poengskjemaet, kalles det «tvungen», og hvis spilleren selv kan velge hvilken terningkombinasjon han vil satse på i hver runde, kalles det «fri». En bonus på 50 poeng gis til spillere som har en delsum på minst 42 poeng i «tvungen», og minst 63 poeng i «fri». Dataene til denne oppgaven heter yatzy.csv og består av et komplett sett med 629 Yatzypoengsummer for spill av typen «fri» i perioden 26.07.2014-06.08.2017 i familien P, en familie med tre barn. Du finner yatzy.csv på kurssiden. Målet med oppgaven er å bruke tallene til å se på sammenhengen mellom deskriptiv statistikk, spesielt gjennomsnitt, t-test og enkel regresjonsanalyse. a) Les inn yatzy.csv i Rstudio, og bruk kommandoene under til å gi en kort oppsummering (i form av tall og ord) av sluttresultatene i familien P. hist(yatzy$sum2) boxplot(yatzy$sum2,horizontal=true) summary(yatzy$sum2) round(sd(yatzy$sum2),0) b) Bruk følgende R-kommandoer til å utforske gjennomsnittet og sammenligne det med konstantleddet i verdens enkleste regresjonsanalyse: median(yatzy$sum2) mean(yatzy$sum2) summary(lm(yatzy$sum2~1)) Hva er gjennomsnittlig poengsum for spillene i datafila? Hva er et estimat for µ, forventet poengsum i et enkelt spill Yatzy? Beregn et 95% konfidensintervall for µ og kommenter. Sett opp ligningen for regresjonsanalysen og finn estimatet for regresjonsparameteren fra utskriften, sammen med 95% konfidensintervall. c) Kan disse resultatene, basert på yatzy-spill av typen «fri» i én familie, generaliseres til samtlige yatzy-spill i universet? Kunne vi gjort det hvis spillene var av type «tvungen»? d) Bruk R-kommandoer til å utforske sammenhengen mellom delsummen (sum1) og sluttsummen (sum2): plot(yatzy$sum1,yatzy$sum2) cor.test(yatzy$sum1,yatzy$sum2) Hva er korrelasjonskoeffisienten mellom delsummen og sluttsummen for dette utvalget? Vi kan bruke korrelasjonskoeffisienten i utvalget til å estimere den ukjente korrelasjonen mellom bonuspoengsummen og sluttsummen i et generelt Yatzy-spill. Vi kaller denne parameteren ρ. Formuler hypotesene om ρ (nullhypotese, H0 og alternative hypotese, Ha) som er utgangspunktet for cor.test. Hva konkluderer du med?

Sett også opp regresjonsligningen som er utgangspunktet for følgende regresjonsanalyse, og forklar hvordan regresjonsparameterne kan tolkes: summary(lm(yatzy$sum2~yatzy$sum1)) #oppsummering av regresjonsanalyse #vha linear model, lm Bruk utskriften til å finne estimatene og de tilhørende 95% konfidensintervallene for regresjonsparameterne fra utskriften, og gi en tolkning av dem. Formuler hypotesene (nullhypotese, H0 og alternative hypotese, Ha) for de to parameterne i regresjonanalysen. Hva konkluderer du med? e) Både korrelasjonsanalyse og regresjonsanalyse forutsetter en lineær sammenheng mellom variablene. Er det riktig å anta her? f) En bedre måte å bruke informasjonen på (hvis lineariteten er diskutabel) kan være å se på sammenhengen mellom om man har fått bonus (bonus01), og sluttsummen (sum2). Bruk disse R-kommandoene til å utforske denne sammenhengen: plot(yatzy$sum1,yatzy$sum2,col=yatzy$bonus01+3) boxplot(yatzy$sum2~yatzy$bonus01,col=c(3,4)) t.test(yatzy$sum2~yatzy$bonus01) wilcox.test(yatzy$sum2~yatzy$bonus01) Hva er forskjellen i gjennomsnittlig poengsum for de som fikk bonus og de som ikke fikk bonus i dette utvalget? Vi kan bruke bruke den til å estimere forskjellen på sluttsummen i et generelt Yatzy-spill for en spiller som får bonus og en spiller som ikke får bonus. Vi er da ute etter et estimat og et tilhørende 95% konfidensintervall for parameterdifferansen 1 0. Finn dette (estimat og 95% KI) fra R-utskriften. Formuler også hypotesene (nullhypotese, H0 og alternativ hypotese, Ha) som er utgangspunktet for t.test. Hva konkluderer du med? Sett også opp ligningen for regresjonsanalysen, og forklar hvordan regresjonsparameterne kan tolkes: summary(lm(yatzy$sum2~yatzy$bonus01)) #Regresjonsanalyse Bruk utskriften til å finne estimatene og de tilhørende 95% konfidensintervallene for regresjonsparameterne fra utskriften, og gi en tolkning av dem. Formuler hypotesene (nullhypotese, H0 og alternative hypotese, Ha) for de to parameterne i regresjonanalysen. Hva konkluderer du med? g) Spiller nr 4 og 5 er foreldrene i familie P. Kan en av dem påberope seg å være familiens Yatzy-overhode? Bruk følgende R-kommandoer og forklar hva du gjør, og hvilken konklusjon du trekker. # Vi velger bare spiller nr 4 og 5 (foreldrene) # Kan en av dem påberope seg å være familiens yatzy-overhode? data45 <- yatzy[(yatzy$spillernr==4 yatzy$spillernr==5),] boxplot(data45$sum1~data45$spillernr) t.test(data45$sum2~data45$spillernr) wilcox.test(data45$sum2~data45$spillernr) summary(lm(data45$sum2~data45$spillernr))