HØGSKOLEN I STAVANGER

Like dokumenter
Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Oppgave N(0, 1) under H 0. S t n 3

Løsningsforslag eksamen 25. november 2003

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk 2014

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Løsningsforslag eksamen 27. februar 2004

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

HØGSKOLEN I STAVANGER

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4245 Statistikk

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

TMA4245 Statistikk Eksamen august 2014

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk Høst 2016

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Oppgave 1. Kilde SS df M S F Legering Feil Total

Eksamensoppgave i TMA4240 Statistikk

LØSNINGSFORSLAG ) = Dvs

i x i

UNIVERSITETET I OSLO

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2016

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppgave 14.1 (14.4:1)

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2007

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk H2010 (22)

TMA4240 Statistikk Høst 2009

ECON240 VÅR / 2016 BOKMÅL

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Tilleggsoppgaver for STK1110 Høst 2015

Fasit for tilleggsoppgaver

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010 (20)

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

TMA4245 Statistikk Eksamen desember 2016

vekt. vol bruk

UNIVERSITETET I OSLO

EKSAMEN I TMA4240 Statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Løsning eksamen desember 2016

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

UNIVERSITETET I OSLO

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgåve i TMA4240 Statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Skoleeksamen i SOS Kvantitativ metode

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

Inferens i regresjon

Kort overblikk over kurset sålangt

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamensoppgåve i TMA4245 Statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO

Transkript:

EKSAMEN I: MOT0 STATISTISKE METODER VARIGHET: TIMER DATO:. NOVEMBER 00 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV OPPGAVER PÅ 7 SIDER HØGSKOLEN I STAVANGER TEKNISK- NATURVITEN- SKAPELIGE FAKULTET Oppgave : En bedrift som produserer kulelagre utfører en sammenligning av kvaliteten med tilsvarende kulelagre fra en annen produsent. Det er spesielt kulene i kulelagrene som er av interesse. Disse er laget av herdet stål og bør være så harde som mulig. I tillegg ønsker man selvfølgelig at variansen i hardhet bør være så liten som mulig. Hardheten blir testet for 0 kuler fra egen produksjon og 0 kuler fra konkurrenten sin produksjon. La X,..., X 0 betegne hardheten for de 0 kulene fra egen produksjon og Y,..., Y 0 betegne hardheten for de 0 kulene fra konkurrenten sin produksjon. Resultatet av målingene er gitt i tabellen under. i 6.85 6.0 7. 6.5 6.5 7.0 6.96 7.5 6.69 6.57 y i 6.90 7.0 7.65 7.0 7.6 7.5 7.6 7.0 7.6 7.55 Det oppgis at 0 i= i = 67.7, 0 i= y i = 7., 0 i=( i ) = 0.875 og 0 i=(y i ȳ) = 0.556. Normalplott for de to måleseriene er gitt i figurene under. Normalplott for hardhet til egne kuler. Normalplott for hardhet til konkurrent sine kuler. Hardhet 6. 6.6 6.8 7.0 7. Hardhet 7.0 7. 7. 7.6.5.0 0.5 0.0 0.5.0.5 Kvantil.5.0 0.5 0.0 0.5.0.5 Kvantil Anta at X,..., X 0, Y,..., Y 0 er uavhengige og normalfordelte, X,..., X 0 med ukjent forventningsverdi µ X og ukjent varians σ X og Y,..., Y 0 med ukjent forventningsverdi µ Y og ukjent varians σ Y.

a) Tyder normalplottene på at antagelsene om normalfordeling holder? Kommenter kort. Utled et 95% konfidensintervall for differansen i forventet hardhet, µ X µ Y. Anta her at σ X σ Y. (Du kan bruke uten bevis at den t-fordelte observatoren som inngår i utledningen har tilnærmet ν = 7 frihetsgrader.) Hva kan du ut fra konfidensintervallet si om eventuelle forskjeller i forventet hardhet? Kommenter kort. b) Er det forskjell i variansen i hardhet mellom bedriften og konkurrenten sine kuler? Formuler dette som en hypotesetest og utfør testen på 5% signifikansnivå. (Tips: Husk at for to uavhengige normalfordelte måleserier X,..., X nx og Y,..., Y ny så vil F = S X σ Y være F -fordelt med n SY X og n Y frihetsgrader.) σ X Oppgave : En person kan velge mellom alternative ruter når han skal kjøre til jobb. Han er interessert i å undersøke nærmere om det er systematiske forskjeller i hvor lang tid han bruker ved de ulike rutevalgene. Samtidig ønsker han å undersøke om det er forskjeller i tidsbruk mellom ukedagene, og om det eventuelt er noen forskjeller fra ukedag til ukedag i hvilke ruter som er mest gunstige tidsmessig. For å få informasjon om dette noterer han tidsbruken, i minutter, hver morgen inntil han har prøvd alle kombinasjoner av ukedag og reiserute to ganger. Rekkefølgen på valg av reiserutene trekker han tilfeldig. Resultatene fra undersøkelsen er gitt i tabellen under. Reiserute Ukedag Mandag 6 9 0 7 9 9 Tirsdag 6 6 9 8 8 0 Onsdag 5 7 8 9 9 7 Torsdag 8 5 9 9 Fredag 8 5 5 6 8 6

Et plott av gjennomsnittlig reisetid for hver kombinasjon av ukedag og reiserute er gitt i figuren under. Her angir tallene inne i figuren reiseruten og hvor gjennomsnittet for Gj.sn. reisetid ulike dager og ruter Gj.sn. reisetid 5 0 5 0 5 5 Dag den aktuelle kombinasjonen av reiserute og ukedag ligger. Ukedagene er nummerert fra =mandag til 5=fredag. F.eks. gir mandag og reiserute gjennomsnittet 7.5 osv. a) Sett opp modellen og forutsetningene for toveis variansanlyse. Forklar kort hva det i praksis vil bety dersom man har et samspill i situasjonen vi ser på i denne oppgaven. Deler av variansanalysetabellen (ANOVA) for dataene er gitt under: Kilde SS df M S F Ukedag.9 Reiserute 08.5 Samspill Feil 68.0 0 Total 9. b) Fyll ut resten av variansanlysetabellen. Bruk variansanlysetabellen til å teste på 5% signifikansnivå:. Om reiserute har betydning for reisetiden.. Om ukedag har betydning for reisetiden.. Om det er samspill mellom ukedag og reiserute. Basert på resultatet av disse testene og informasjonen i plottet av dataene, hva kan vi si om tidsbruk ved ulike reiseruter og ulike ukedager? Vil du anbefale noen bestemt reiserute?

Oppgave : I fremstillingen av en metallegering har man gjort en del forsøk med å variere prosentandelen,, av en bestemt tilsetning for å se hva slags innvirkning dette har på hardheten, Y, til metallegeringen. Hardhet måles på en skala som går fra 0 og oppover, og der høye tall betyr høy hardhet. Dataene man fikk fra de utførte forsøkene er vist i tabellen under. i y i i i y i i.7.0. 7.0 9..5.55 8.0.7.0 56.55 9.0 7.0.0 5.7 0.0 5 6.87.0 5 57.7.0 6.7.5 6 55..0 7 7.0 5.0 7.86.0 8.9 5.5 8.5.0 9 7.67 6.0 9 0.8 5.0 0 6.8 6.5 Et plott av disse dataene er gitt i figuren under. 0 0 0 0 50 y 6 8 0 Fra plottet av dataene synes det klart at man ikke vil få noen god tilpasning til dataene ved en enkel lineær regresjonsmodell. Man prøver derfor i stedet modellen Y i = β 0 + β i + β i + ε i () der ε,..., ε n antas uavhengige og normalfordelte med forventning 0 og varians σ. Noe av informasjonen vi får ut når vi bruker et dataprogram til å tilpasse modellen er vist under og på neste side. Sammendrag: Variansanalysetabell (ANOVA): R R R justert s 0.96 0.876 0.860 5.86 Kilde SS df MS F p verdi Regresjon 88. 90.6 56. 5.6 0 8 Feil 550. 6.9 Total.5 8

Koeffisienter: Variabel b i ŜD(B i) t p verdi Konstant -0.0.5 -.6 0.08.88. 9.68. 0 8-0.68 0.08-8.. 0 7 a) Tyder informasjonen i datautskriften på at prosentandelen av tilsetningsstoff,, har betydning for hardheten, Y? Forklar kort. Skriv ned den estimerte regresjonskurven. Vis at den predikerte hardheten, ŷ, er størst når = 9.. Regn ut den predikerte hardheten for = 9.. b) Utled et 90% prediksjonsintervall for hardheten når prosentandelen tilsetningsstoff har verdien 9.. (Det oppgis her at dersom 0 = (, 9., 9. ) T så vil Var(Ŷ0) = σ T 0 (X T X) 0 = 0.σ der Ŷ0 = B 0 + B 9. + B 9. ) Etter å ha jobbet litt med modell () ønsket man å undersøke om man kunne finne enda bedre modeller. Det første man prøvde var å også ta med et tredjegradsledd i modellen slik at man fikk modellen: Y i = β 0 + β i + β i + β i + ε i () Noe av informasjonen vi får ut når vi bruker et dataprogram til å tilpasse denne modellen er vist under. Sammendrag: Variansanalysetabell (ANOVA): Koeffisienter: R R R justert s 0.97 0.98 0.98.9 Kilde SS df MS F p verdi Regresjon 0.7 00.6 9. 7. 0 0 Feil 9.8 5 5. Total.5 8 Variabel b i ŜD(B i) t p verdi Konstant.9.7.0 0.9.8.7.9 0.5 0.899 0.50.57 0.0-0.068 0.05 -.57 0.000 5

c) Gir tredjegradsleddet,, et signifikant bidrag til modellen? Formuler dette spørsmålet som en hypotesetest omkring parameteren β og gi resultatet av testen på 5% signifikansnivå. Hva er den praktiske tolkningen av konstantleddet β 0 i regresjonsmodellene i denne oppgaven? Hvilken av de to modellene gir det mest rimelige estimatet for β 0? Forklar kort. Hvorfor er det generelt bedre å bruke R justert enn R som modellvalgskriterium? Hvilken av de to modellen er best i følge R justert? Plott av de estimert regresjonskurvene og av residualene plottet mot for både modell () og modell () er gitt i figuren under. Data og regresjonskurve, modell Residualene plottet mot, modell y 0 0 0 0 50 Residualer 0 5 0 5 0 6 8 0 6 8 0 Data og regresjonskurve, modell Residualene plottet mot, modell y 0 0 0 0 50 Residualer 0 5 0 5 0 6 8 0 6 8 0 d) Basert på plottene av estimerte regresjonskurver og residualer, hvilken av de to modellene ser ut til å være best? Forklar kort. Hvilke modellantagelser kan vi sjekke ved ulike plott av residualene? Hvilke andre plott av residualene enn det vist i figuren over bør vi i tillegg lage for å få sjekket disse antagelsene? 6

Oppgave : I en medisinsk studie er man interessert i å se nærmere på forekomsten av en bestemt lidelse. Generelt for befolkningen vet man at 5% av alle over 70 år er rammet av lidelsen. I studiet vil man blant annet undersøke om bestemte grupper av de over 70 har høyere forekomst av lidelsen enn befolkningen over 70 generelt. Man har totalt slike grupper hvor man ønsker å undersøke om andelen med lidelsen er større enn 0.5. For å undersøke dette har man samlet inn data for tilfeldige utvalg av personer i hver av de gruppene, og utført en hypotesetest for hver av gruppene. Resultatet av undersøkelsen er oppsummert i tabellen under. Her er n i antall personer man har data for i gruppe i, i er antallet av disse som har lidelsen og ˆp i = i /n i er estimert andel med lidelse i gruppen. I tillegg er det for hver gruppe oppgitt p-verdien for en hypotesetest for å avgjøre om andelen med lidelse er større enn 0.5. Gruppe, i n i i ˆp i p-verdi Gruppe, i n i i ˆp i p-verdi 0 5 0.5 0.7 7 57 9 0.6 0.9 87 0 0. 0.0 8 0 0. 0.059 0.9 0.5 9 8 6 0. 0.75 7 0 0. 0.65 0 60 0.8 0.8 5 7 0.6 0.0 0 0.5 0.00 6 65 0.5 0.0000 a). Se først bare på gruppe. Formuler problemstillingen som skal undersøkes som en hypotesetest. Vis ved utregning hvordan den oppgitte p- verdien for testen fremkommer.. Sammenlign resultatene i gruppe og. Hvordan kan det forklares at man får lavest p-verdi for testen i gruppe selv om estimert andel er høyest i gruppe?. Se på alle testene samlet. Hvilken problematikk må man være oppmerksom på når man ser på så mange hypotesetester som dette samtidig? Forklar kort hvordan man kan kompensere for dette problemet ved å gjøre en Bonferroni-korreksjon. For hvilke grupper vil du her si at det er rimelig å forkaste nullhypotesen og påstå at andelen personer med lidelsen er større enn 0.5? 7