HØGSKOLEN I STAVANGER

EKSAMEN I: MOT0 STATISTISKE METODER VARIGHET: TIMER DATO:. NOVEMBER 00 TILLATTE HJELPEMIDLER: KALKULATOR, TABELLER OG FORMLER I STATISTIKK (TAPIR FORLAG) OPPGAVESETTET BESTÅR AV OPPGAVER PÅ 7 SIDER HØGSKOLEN I STAVANGER TEKNISK- NATURVITEN- SKAPELIGE FAKULTET Oppgave : En bedrift som produserer kulelagre utfører en sammenligning av kvaliteten med tilsvarende kulelagre fra en annen produsent. Det er spesielt kulene i kulelagrene som er av interesse. Disse er laget av herdet stål og bør være så harde som mulig. I tillegg ønsker man selvfølgelig at variansen i hardhet bør være så liten som mulig. Hardheten blir testet for 0 kuler fra egen produksjon og 0 kuler fra konkurrenten sin produksjon. La X,..., X 0 betegne hardheten for de 0 kulene fra egen produksjon og Y,..., Y 0 betegne hardheten for de 0 kulene fra konkurrenten sin produksjon. Resultatet av målingene er gitt i tabellen under. i 6.85 6.0 7. 6.5 6.5 7.0 6.96 7.5 6.69 6.57 y i 6.90 7.0 7.65 7.0 7.6 7.5 7.6 7.0 7.6 7.55 Det oppgis at 0 i= i = 67.7, 0 i= y i = 7., 0 i=( i ) = 0.875 og 0 i=(y i ȳ) = 0.556. Normalplott for de to måleseriene er gitt i figurene under. Normalplott for hardhet til egne kuler. Normalplott for hardhet til konkurrent sine kuler. Hardhet 6. 6.6 6.8 7.0 7. Hardhet 7.0 7. 7. 7.6.5.0 0.5 0.0 0.5.0.5 Kvantil.5.0 0.5 0.0 0.5.0.5 Kvantil Anta at X,..., X 0, Y,..., Y 0 er uavhengige og normalfordelte, X,..., X 0 med ukjent forventningsverdi µ X og ukjent varians σ X og Y,..., Y 0 med ukjent forventningsverdi µ Y og ukjent varians σ Y.

a) Tyder normalplottene på at antagelsene om normalfordeling holder? Kommenter kort. Utled et 95% konfidensintervall for differansen i forventet hardhet, µ X µ Y. Anta her at σ X σ Y. (Du kan bruke uten bevis at den t-fordelte observatoren som inngår i utledningen har tilnærmet ν = 7 frihetsgrader.) Hva kan du ut fra konfidensintervallet si om eventuelle forskjeller i forventet hardhet? Kommenter kort. b) Er det forskjell i variansen i hardhet mellom bedriften og konkurrenten sine kuler? Formuler dette som en hypotesetest og utfør testen på 5% signifikansnivå. (Tips: Husk at for to uavhengige normalfordelte måleserier X,..., X nx og Y,..., Y ny så vil F = S X σ Y være F -fordelt med n SY X og n Y frihetsgrader.) σ X Oppgave : En person kan velge mellom alternative ruter når han skal kjøre til jobb. Han er interessert i å undersøke nærmere om det er systematiske forskjeller i hvor lang tid han bruker ved de ulike rutevalgene. Samtidig ønsker han å undersøke om det er forskjeller i tidsbruk mellom ukedagene, og om det eventuelt er noen forskjeller fra ukedag til ukedag i hvilke ruter som er mest gunstige tidsmessig. For å få informasjon om dette noterer han tidsbruken, i minutter, hver morgen inntil han har prøvd alle kombinasjoner av ukedag og reiserute to ganger. Rekkefølgen på valg av reiserutene trekker han tilfeldig. Resultatene fra undersøkelsen er gitt i tabellen under. Reiserute Ukedag Mandag 6 9 0 7 9 9 Tirsdag 6 6 9 8 8 0 Onsdag 5 7 8 9 9 7 Torsdag 8 5 9 9 Fredag 8 5 5 6 8 6

Et plott av gjennomsnittlig reisetid for hver kombinasjon av ukedag og reiserute er gitt i figuren under. Her angir tallene inne i figuren reiseruten og hvor gjennomsnittet for Gj.sn. reisetid ulike dager og ruter Gj.sn. reisetid 5 0 5 0 5 5 Dag den aktuelle kombinasjonen av reiserute og ukedag ligger. Ukedagene er nummerert fra =mandag til 5=fredag. F.eks. gir mandag og reiserute gjennomsnittet 7.5 osv. a) Sett opp modellen og forutsetningene for toveis variansanlyse. Forklar kort hva det i praksis vil bety dersom man har et samspill i situasjonen vi ser på i denne oppgaven. Deler av variansanalysetabellen (ANOVA) for dataene er gitt under: Kilde SS df M S F Ukedag.9 Reiserute 08.5 Samspill Feil 68.0 0 Total 9. b) Fyll ut resten av variansanlysetabellen. Bruk variansanlysetabellen til å teste på 5% signifikansnivå:. Om reiserute har betydning for reisetiden.. Om ukedag har betydning for reisetiden.. Om det er samspill mellom ukedag og reiserute. Basert på resultatet av disse testene og informasjonen i plottet av dataene, hva kan vi si om tidsbruk ved ulike reiseruter og ulike ukedager? Vil du anbefale noen bestemt reiserute?

Oppgave : I fremstillingen av en metallegering har man gjort en del forsøk med å variere prosentandelen,, av en bestemt tilsetning for å se hva slags innvirkning dette har på hardheten, Y, til metallegeringen. Hardhet måles på en skala som går fra 0 og oppover, og der høye tall betyr høy hardhet. Dataene man fikk fra de utførte forsøkene er vist i tabellen under. i y i i i y i i.7.0. 7.0 9..5.55 8.0.7.0 56.55 9.0 7.0.0 5.7 0.0 5 6.87.0 5 57.7.0 6.7.5 6 55..0 7 7.0 5.0 7.86.0 8.9 5.5 8.5.0 9 7.67 6.0 9 0.8 5.0 0 6.8 6.5 Et plott av disse dataene er gitt i figuren under. 0 0 0 0 50 y 6 8 0 Fra plottet av dataene synes det klart at man ikke vil få noen god tilpasning til dataene ved en enkel lineær regresjonsmodell. Man prøver derfor i stedet modellen Y i = β 0 + β i + β i + ε i () der ε,..., ε n antas uavhengige og normalfordelte med forventning 0 og varians σ. Noe av informasjonen vi får ut når vi bruker et dataprogram til å tilpasse modellen er vist under og på neste side. Sammendrag: Variansanalysetabell (ANOVA): R R R justert s 0.96 0.876 0.860 5.86 Kilde SS df MS F p verdi Regresjon 88. 90.6 56. 5.6 0 8 Feil 550. 6.9 Total.5 8

Koeffisienter: Variabel b i ŜD(B i) t p verdi Konstant -0.0.5 -.6 0.08.88. 9.68. 0 8-0.68 0.08-8.. 0 7 a) Tyder informasjonen i datautskriften på at prosentandelen av tilsetningsstoff,, har betydning for hardheten, Y? Forklar kort. Skriv ned den estimerte regresjonskurven. Vis at den predikerte hardheten, ŷ, er størst når = 9.. Regn ut den predikerte hardheten for = 9.. b) Utled et 90% prediksjonsintervall for hardheten når prosentandelen tilsetningsstoff har verdien 9.. (Det oppgis her at dersom 0 = (, 9., 9. ) T så vil Var(Ŷ0) = σ T 0 (X T X) 0 = 0.σ der Ŷ0 = B 0 + B 9. + B 9. ) Etter å ha jobbet litt med modell () ønsket man å undersøke om man kunne finne enda bedre modeller. Det første man prøvde var å også ta med et tredjegradsledd i modellen slik at man fikk modellen: Y i = β 0 + β i + β i + β i + ε i () Noe av informasjonen vi får ut når vi bruker et dataprogram til å tilpasse denne modellen er vist under. Sammendrag: Variansanalysetabell (ANOVA): Koeffisienter: R R R justert s 0.97 0.98 0.98.9 Kilde SS df MS F p verdi Regresjon 0.7 00.6 9. 7. 0 0 Feil 9.8 5 5. Total.5 8 Variabel b i ŜD(B i) t p verdi Konstant.9.7.0 0.9.8.7.9 0.5 0.899 0.50.57 0.0-0.068 0.05 -.57 0.000 5

c) Gir tredjegradsleddet,, et signifikant bidrag til modellen? Formuler dette spørsmålet som en hypotesetest omkring parameteren β og gi resultatet av testen på 5% signifikansnivå. Hva er den praktiske tolkningen av konstantleddet β 0 i regresjonsmodellene i denne oppgaven? Hvilken av de to modellene gir det mest rimelige estimatet for β 0? Forklar kort. Hvorfor er det generelt bedre å bruke R justert enn R som modellvalgskriterium? Hvilken av de to modellen er best i følge R justert? Plott av de estimert regresjonskurvene og av residualene plottet mot for både modell () og modell () er gitt i figuren under. Data og regresjonskurve, modell Residualene plottet mot, modell y 0 0 0 0 50 Residualer 0 5 0 5 0 6 8 0 6 8 0 Data og regresjonskurve, modell Residualene plottet mot, modell y 0 0 0 0 50 Residualer 0 5 0 5 0 6 8 0 6 8 0 d) Basert på plottene av estimerte regresjonskurver og residualer, hvilken av de to modellene ser ut til å være best? Forklar kort. Hvilke modellantagelser kan vi sjekke ved ulike plott av residualene? Hvilke andre plott av residualene enn det vist i figuren over bør vi i tillegg lage for å få sjekket disse antagelsene? 6

Oppgave : I en medisinsk studie er man interessert i å se nærmere på forekomsten av en bestemt lidelse. Generelt for befolkningen vet man at 5% av alle over 70 år er rammet av lidelsen. I studiet vil man blant annet undersøke om bestemte grupper av de over 70 har høyere forekomst av lidelsen enn befolkningen over 70 generelt. Man har totalt slike grupper hvor man ønsker å undersøke om andelen med lidelsen er større enn 0.5. For å undersøke dette har man samlet inn data for tilfeldige utvalg av personer i hver av de gruppene, og utført en hypotesetest for hver av gruppene. Resultatet av undersøkelsen er oppsummert i tabellen under. Her er n i antall personer man har data for i gruppe i, i er antallet av disse som har lidelsen og ˆp i = i /n i er estimert andel med lidelse i gruppen. I tillegg er det for hver gruppe oppgitt p-verdien for en hypotesetest for å avgjøre om andelen med lidelse er større enn 0.5. Gruppe, i n i i ˆp i p-verdi Gruppe, i n i i ˆp i p-verdi 0 5 0.5 0.7 7 57 9 0.6 0.9 87 0 0. 0.0 8 0 0. 0.059 0.9 0.5 9 8 6 0. 0.75 7 0 0. 0.65 0 60 0.8 0.8 5 7 0.6 0.0 0 0.5 0.00 6 65 0.5 0.0000 a). Se først bare på gruppe. Formuler problemstillingen som skal undersøkes som en hypotesetest. Vis ved utregning hvordan den oppgitte p- verdien for testen fremkommer.. Sammenlign resultatene i gruppe og. Hvordan kan det forklares at man får lavest p-verdi for testen i gruppe selv om estimert andel er høyest i gruppe?. Se på alle testene samlet. Hvilken problematikk må man være oppmerksom på når man ser på så mange hypotesetester som dette samtidig? Forklar kort hvordan man kan kompensere for dette problemet ved å gjøre en Bonferroni-korreksjon. For hvilke grupper vil du her si at det er rimelig å forkaste nullhypotesen og påstå at andelen personer med lidelsen er større enn 0.5? 7