KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. BtG207 EKSAMENSDATO: 11. juni 2007. KLASSE: HIS 05 08. TID: kl. 8.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 5 (innkl. forside) TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. INNFØRING MED PENN, evt. trykkblyant som gir gjennomslag. Ved innlevering skilles hvit og gul besvarelse og legges i hvert sitt omslag. Oppgavetekst, kladd og blå kopi beholder kandidaten. Husk kandidatnummer på alle ark.
Eksamen i Statistikk. 11. juni 2007. 1 Hvert av de 15 bokstavpunktene teller likt ved bedømmelsen. Oppgave 1 (20%) La X være antall minutter som brukes påå skifte et hjul i et bilverksted, og anta at X er normalfordelt med parametre μ =6.0 ogσ =0.8 (som også kanskrivesx N(6.0, 0.8)). a) Regn ut P(5.0 X 7.0), sannsynligheten for at det tar mellom 5 og 7 minutter å skifte et hjul. b) Regn ut P ( 5.0 X 7.0 ), sannsynligheten for at det i gjennomsnitt tar mellom 5 og 7 minutter per hjul når de 4 hjulene på en bil skiftes. c ) Anta at tiden for hvert hjul er stokastisk uavhengig, med samme fordeling. I verkstedet er tiden til forarbeidet til hjulskiftet Y 1 N(9.0, 1.0) og etterarbeidet Y 2 N(5.0, 0.5), slik at samlet tid for å skifte hjul på enbiler W = Y 1 + X 1 + X 2 + X 3 + X 4 + Y 2 der X i N(6.0, 0.8) for i {1, 2, 3, 4} og Y 1,X 1,X 2,X 3,X 4 og Y 2 er stokastisk uavhengige. Regn ut sannsynligheten for at verkstedet bruker mindre enn 40 minutter åskifte hjul på en bil. Oppgave 2 (26.7%) Et bilverksted ville undersøke tiden de tok å skifte et hjul, så de tok tiden på skift av n = 8 hjul og fikk resultatene (i minutter, som desimaltall): a ) b ) {6.0, 7.2, 4.6, 4.9, 4.6, 5.2, 5.9, 7.6} Regn ut empirisk middelverdi x og empirisk standardavvik s for dette datasettet. Anta tiden for skift av et hjul er X i N(μ, σ), med parametrene μ og σ ukjente. De 8 datapunktene i denne oppgaven betraktes dermed som uavhengige observasjoner fra denne fordelingen. Regn ut 95% konfidensintervallet for μ. c) Anta nå X i N(5.0, 0.8) og regn med denne forutsetningen ut p =P ( X>x ) der x er tallet regnet ut for dette i a oppgaven. Betrakt høyresidetesten H 0 : μ =5motH 1 : μ>5 i en modell der vi antar σ =0.8 er kjent. Svar på, med henvisning til p verdien du netopp har regnet ut, om dataene i denne oppgaven medfører at vi forkaster H 0 med signifikansnivå henholdsvis 5% og 1%.
Eksamen i Statistikk. 11. juni 2007. 2 d ) Verkstedet var også interessert i om det var en signifikant forskjell på tiden det tar å bytte hjul på forskjellige bilmerker. De 8 dataene over var fra samme biltype, og vi kaller observasjonene x i, i {1, 2,...8}. Dette skal sammenliknes med 4 målinger fraenannenbiltypeavsammestørrelse,medmåleverdier y i, i {1, 2, 3, 4}. x i 6.0 7.2 4.6 4.9 4.6 5.2 5.9 7.6 y i 5.1 4.5 4.6 5.7 De skal bruke uparet modell (uparet t test, dvs. vi antar X i N(μ x,σ)ogy i N(μ y,σ) alle er uavhengige) og utføre den tosidige testen H 0 : μ x μ y =0motH 1 : μ x μ y, med signifikansnivå α =5%. Sett opp og utfør denne testen. Oppgave 3 (20%) Under de fleste stabile værforhold er det slik at temperaturen y avtar med høyden x over havet, og at dette i moderate høyder er tilnærmet lik en lineær funksjon y = α + βx. Dette kalles Lapse effekten, og en meteorolog undersøkte hvor stor denne var en dag ved å måle temperaturen ved 5 forskjellige høyder. Resultatet (der x er høyden over havet i meter, og y er temperaturen i Celsiusgrader) var: x i 100 300 600 1000 1300 y i 14.7 13.0 11.5 8.6 6.9 a ) b ) c ) Regn ut regresjonslikningen y = a + bx for dette datasettet. Tegn et spredningsplott med regresjonslinja inntegnet. Regn ut korrelasjonen r, og gi en kort tolkning av verdien av denne. Meteorologen har med seg en engelsk kollega som har nøyaktig de samme målingene, men gitt i fot og Fahrenheitgrader. Hvilken korrelasjon finner engelskmannen påsine data. Hint: Fahrenheitgrader er en lineær funksjon av Celsiusgrader. Fot et er en lineær funksjon av meter. Anta lineær modell, det vil si at Y i = α + βx i + E i, i {1, 2, 3, 4} der E i N(0,σ) er stokastisk uavhengige. Parameteren β kan da tolkes som Lapse effekten, det vil si hvor mye temperaturen avtar per høydemeter. Finn et 95% konfidensintervall for β. Advarsel: Formel 3.4.2 og 3.4.3 i formelsamlinga er noe annet enn hva det spørres etter her.
Eksamen i Statistikk. 11. juni 2007. 3 Oppgave 4 (20%) En bedrift utvikler produktet den selvtennende engangsgrillen. De har imidlertid ikke klart å få tennmekanismen god nok. a ) I den første prototypen var sannsynligheten for at tennmekanismen ikke virket hele p =0.25. Regn ut sannsynligheten for at det er 2 eller 3 som svikter hvis de tester 10 griller. Bruk at hvis X = antall svikt så erx Bin (10, 0.25) (binomsik fordelt med parametre n =10 og p =0.25). b ) Anta de isteden tester 300 griller. Hva er da sannsynligheten for at tennmekanismen i 100 eller færre griller ikke virker? c ) Etterhvert har de fått forbedret mekanismen noe. I en test var det x = 79 av 500 testede griller der tennmekanismen sviktet. Vi kan anta at x er en observasjon av X med binomisk fordeling Bin (500,p x ). Deretter gjorde de en liten endring i den kjemiske sammensetningen av tennveska, og ville teste om denne ga mer pålitelig tennmekanisme. De testet 300 griller av denne typen og observerte y = 31 som ikke virket. Dette betrakter vi som en observasjon fra en Bin (300,p y ) fordeling, og hypotesetesten er da H 0 : p x = p y mot H 1 : p x >p y, med signifikansnivå α =5%. Som testobservator kan du bruke W = 1 500 X 1 300 Y, som kan tilnærmes med en normalfordeling (ignorer heltallskorreksjon). Hva er parametrene μ og σ i W N(μ, σ) (uttrykt ved p x og p y )? Fra observasjonene estimerer vi p x til 79/500 og p y til 31/300. Sett inn 79/500 for p x og 31/300 for p y i uttrykket for σ for åfåetfornuftigestimatavσ, og bruk dette som kjent standardavvik i fortsettelsen. Bruk fordelinga til W (med estimert σ som kjent ) når vi antar H 0 er sann til å finne kritisk verdi og sette opp en testprosedyre. Hva blir testens konklusjon med x =79ogy = 31? Oppgave 5 (13.3%) På en vanlig spilleterning er det skrevet nye tall på sidene, slik at to av sidene viser tallet 1, to av sidene tallet 2 og to av sidene tallet 3. Dermed er utfallet av et kast med denne terningen en stokastisk variabel X med punktsannsynlighet f(x) = P(X = x) gittved tabellen x 1 2 3 f(x) 1 3 Denne terningen skal kastes to ganger, og utfallet av første kast kalles X og av andre kast X. Vi registrerer også summen Y = X + X. 1 3 1 3
Eksamen i Statistikk. 11. juni 2007. 4 a ) Regn ut forventningsverdien μ x =E(X) og standardavviket σ x = Var (X). Regn også ut forventningsverdien μ y =E(Y ) og standardavviket σ y = Var (Y ). b) Lag(x, y) =P(X = x Y = y). Det vil si at g er den todimensjonale punktsannsynligheten til (X, Y ). Sett opp tabell over g(x, y) for alle parene (x, y)derx {1, 2, 3} og y {2, 3, 4, 5, 6}. Det vil si at g(x, y) ene i en tabell på følgende form skal erstattes med tall: x\y 2 3 4 5 6 1 g(1, 2) g(1, 3) g(1, 4) g(1, 5) g(1, 6) 2 g(2, 2) g(2, 3) g(2, 4) g(2, 5) g(2, 6) 3 g(3, 2) g(3, 3) g(3, 4) g(3, 5) g(3, 6) Regn ut korrelasjonen ρ mellom X og Y. Siden nåværende versjon av formelsamlinga har lite om korrelasjon, taes her med deler hva som vil stå om dette i neste versjon: La X og Y værer stokastiske variable med E (X) =μ x,var(x) =σ 2 x,e(y )=μ y og Var (Y )=σ 2 y. a) Def. av kovarians Cov (X, Y ) b) Korrelasjon: ρ def = E(X Y ) μ x μ y def Cov (X, Y ) = σ x σ y Hvis X og Y er diskrete er den todimensjonale punktsannsynligheten f til (X, Y )gittvedf(x, y) = P(X = x Y = y). Da kan kovariansen regnes ut ved Cov (X, Y )= xyf(x, y) μ x μ y alle x alle y Lykke til og god sommer!
Løsning, eksamen i Statistikk. 11. juni 2007. 1 Oppgave 1 a) b ) ( ) ( ) 7 6 5 6 P(5.0 X 7.0) = Φ Φ =Φ(1.25) Φ( 1.25) = 0.8 0.8 2Φ (1.25) 1 tab.5.1 = 2 0.8944 1=0.7888 Siden X N(μ, σ/ ( n)=n 6, 0.8/ ) 4 =N(6, 0.4) er ( ) P 5.0 X 7.0 =Φ ( ) 7 6 Φ 0.4 ( ) 5 6 =Φ(2.50) Φ( 2.50) = 0.4 2Φ (2.50) 1 tab.5.1 = 2 0.9938 1=0.9876 c ) Siden W er en lineærkombinasjon av uavhengige normalfordelinger er W selv normalfordelt. Parametrene er E(W )=E(Y 1 )+E(X 1 )+E(X 2 )+E(X 3 )+E(X 4 )+E(Y 1 )=9+4 6+5=38 Var (W )=Var(Y 1 )+Var(X 1 )+Var(X 2 )+Var(X 3 )+Var(X 4 )+Var(Y 1 )= 1.0 2 +4 0.8 2 +0.5 2 =3.81 så standardavviket er 3.81 = 1.95. slik at standardavviket er 2.33 = 1.53. Dermed er ( ) 40 38 P(W 40) = Φ =Φ(1.02) tab.5.1 = 0.8461 1.95 Oppgave 2 a) x =(6.0+7.2+4.6+4.9+4.6+5.2+5.9+7.6)/8 =5.75. 6.0 s = 2 +7.2 2 +4.6 2 +4.9 2 +4.6 2 +5.2 2 +5.9 2 +7.6 2 8 5.75 2 =1.15. 8 1 b ) Siden σ er ukjent brukes envariabel t-intervall, og formelen x t α/2 s/ n, x t α/2 s/ n tab.5.3 er oppgitt i formelsamlinga. t α/2 = t 0.025 = 2.365 når vi har 8 1 = 7 frihetsgrader. Intervaller er da 5.75 2.365 1.15/ 8, 5.75 + 2.365 1.15/ 8 = 4.79, 6.71 c) ( ) p =P X>x ( 5.75 5.0 1 Φ 0.8/ 8 ( =1 P ) ) X x ( ) =1 P X 5.75 = =1 Φ(2.65) tab.5.1 = 1 0.9960 = 0.0040 Sannsynligheten p =0.0040 = 0.4% er p verdien til denne testen. Siden p<5%, kan H 0 forkastes med signifikansnivå 5%. Siden også p<1%, kan H 0 forkastes med signifikansnivå 1%.
Løsning, eksamen i Statistikk. 11. juni 2007. 2 d) T = (X Y ) (μ x μ y ) S p 1 n + 1 m T n+m 2 (Students t fordelt med n + m 2 frihetsgrader) Når H 0 er sann (så μ x μ y =0),ogn =8ogm =4,får vi: T = X Y T 10 S 1 p 8 + 1 4 og denne brukes som testobservator. Siden det er en tosidig test forkastes H 0 om t >t α/2, der t er observert verdi av T. Fra tabell 5.3 finner vi t 0.025 =2.228, så testprosedyren er Forkast H 0 hvis (og bare hvis) t = x y s 1 p 8 + 1 > 2.228 4 x =5.75 og s x =1.15 (dette er x og s fra a oppgaven). y =4.98 og s y =0.55 (regnes ut på samme måte fra dataene i andre rad). 7 1.15 Det polariserte standardavviket er s p = 2 +3 0.55 2 =1.01 slik at 10 t = 5.75 4.98 1.01 1 8 + 1 =1.24 < 2.228 4 Derfor beholdes H 0 (med klar margin), undersøkelsen tyder ikke på at det er forskjell på tiden det tar å skifte hjul på disse to biltypene. Oppgave 3 a ) Regner ut hjelpestørrelsene: x = 660, y =10.94 og s xx = 100 2 + 300 2 + 600 2 + 1000 2 + 1300 2 5 660 2 = 972000 s yy =14.7 2 +13.0 2 +11.5 2 +8.6 2 +6.9 2 5 10.94 2 =40.492 s xy = 100 14.7 + 300 13.0 + 600 11.5 + 1000 8.6 + 1200 6.9 5 660 10.94 = 6262 b = s xy /s xx = 6262/972000 = 0.00644 og a = y b x =10.94 + 0.00644 660 = 15.2. Det vil si at regresjonslikningen er y =15.2 0.00644x. Sammenheng mellom høyde over havet (x) ogtemperatur(y) y C 14 12 10 8 6 4 2 200 400 600 800 1000 1200 x meter
Løsning, eksamen i Statistikk. 11. juni 2007. 3 b) r = s xy / s xx s yy = 6262/ 972000 40.492 = 0.9981 c ) Denne er svært nær 1, så det er veldig god tilpasning til en rett linje for disse dataene. (At r<0 reflekterer at det er avtagende temperaturer for økende høyder.) Lineære omforminger av x ene og y ene endrer ikke korrelasjonen, så engelskmannen finner også r = 0.9981. Mer presist: Det er lineære omforminger på formenx = kx + l med k>0 som ikke endre r. Hvis k < 0på en av datasettene endrer r fortegn. Ta utgangspunkt i fordelingsresultatet T = B β S e / s xx T n 2 (Students t fordelt med n 2 frihetsgrader) der B er estimatoren for β og s e er estimatoren for σ. Med t α/2 = t 0.025 = tab.5.3 = 3.182 (5 2 = 3 frihetsgrader) har vi P ( t α/2 < B β ) S e / <t s α/2 =1 α xx P (B t α/2 S e / s xx <β<b+ t α/2 S e / ) s xx =1 α Ved å sette inn observert verdi b av B og s e av S e får vi grensene i konfidensintervallet. formel3.4.1 s e = s yy b 2 s xx n 2 Dermed er konfidensintervallet = 40.492 0.00644 2 972000 3 =0.245 0.00644 3.182 0.245/ 972000, 0.00644+3.182 0.245/ 972000 = 0.0072, 0.0057. Oppgave 4 a) P(X =2 X =3)= ( ) 10 0.25 2 (1 0.25) 8 + 2 ( ) 10 0.25 3 (1 0.25) 7 = 3 45 0.25 2 0.75 8 + 120 0.25 2 0.75 8 =0.2816 + 0.2503 = 0.5318 b ) c ) Det blir alt for omfattende (og dessuten sterkt utsatt for avrundingsfeil) om vi prøver å regne ut dette eksakt, så vi tinærmer med normalfordeling. Vi har nå X Bin (300, 0.25) med μ = np = 300 0.25 = 75 og σ = np(1 p) = 75 0.75 = 7.5. Ved halvkorrekson får vi da ( ) 100.5 75 P(X 100) Φ =Φ(3.4) tab.5.3 = 0.9997 7.5 Glemmes halvkorrekson blir svaret Φ (3.33) = 0.9996, ingen alvorlig feil. ( Vi tilnærmer X Bin (500,p x )medn 500p x, ) 500p x (1 p x ) og Y Bin (300,p y )med ( ) N 300p y, 300p y (1 p y ). X og Y er stokastisk uavhengige, så lienærkombinasjonen W = 1 500 X 1 300Y er også normalfordelt. Forventningsverdien er μ = 1 500 500p x 1 300 300p y = p x p y.
Løsning, eksamen i Statistikk. 11. juni 2007. 4 Vi må regne sammen standardavviket via variansene: σ 2 = ( ) 1 2 500p x (1 p x )+( 1 ) 2 300p y (1 p y )= 1 500 300 500 p x(1 p x )+ 1 300 p y(1 p y ) 1 σ = 500 p x(1 p x )+ 1 300 p y(1 p y ) Dette gir følgende estimat av σ: s = 1 500 79 500 79 + 1 500 500 300 31 300 31 =0.02398 300 300 Hvis H 0 er sann er p x p y =0så W N(0, 0.02398). Dette normaliseres til Z = W/0.02398 N(0, 1) og forkaster H 0 for store ovservasjoner av W og dermed av Z. tab.5.2 Det vil si at vi forkaster H 0 om w/0.02398 >z 0.05 = 1.645. Dette kan omformes til testprosedyren Forkast H 0 om w>1.645 0.02398 1 500 x 1 300 y 0.0394 Hererheltallskorreksjonignorert. I dette tilfellet er 1 500 x 1 300 y = 79 500 31 300 =0.0547, H 0 forkastes. Det vil si at det er påvist at en forbedring har skjedd, slik at dette er et skritt i riktig retning. La oss likevel håpe de gir seg, det er vel fler enn brannvesenet som har motforestillinger mot at turfolket skal frakte rundt på brannbomber i sekkene sine :) Oppgave 5 a) E(X) = xf(x) =1 1 3 +2 1 3 +3 1 3 =2 alle x Var (X) = x 2 f(x) μ 2 x =12 1 1 1 3 +22 3 +32 3 22 =2/3 så σ x = 2/3 0.8165 alle x Siden X har samme fordeling som X, hardesammeforventningogvarians.x og X er også stokastisk uavhengige så formel 2.6.1b og 2.6.2b gir: E(Y )=E(X)+E ( X ) =2+2=4 Var (Y )=Var(X)+Var ( X ) = 2 3 + 2 3 = 4 3 så σ x = 4 3 1.155
Løsning, eksamen i Statistikk. 11. juni 2007. 5 b) Da x y = x som må være 1, 2 eller 3 er kombinasjonene umulig hvis y x<1 eller y x >3, og for disse parene er f(x, y) = 0. For de mulige kombinasjonene er det ett utfall av X som gir den aktuelle kombinasjonen. For eksempel er f(2, 3) = P (X =2 Y =3)= P(X =2 X =1) uavh. = P(X =2)P(X =1)= 1 3 1 Dette kan da oppsummeres i tabellen Kovariansen er (fra den oppgitte formelen) 3 = 1 9 x \y 2 3 4 5 6 1 1/9 1/9 1/9 0 0 2 0 1/9 1/9 1/9 0 3 0 0 1/9 1/9 1/9 Cov (X, Y )= 1 2 1 9 +1 3 1 9 +1 4 1 9 +1 5 0+1 6 0 + 2 2 0+2 3 1 9 +2 4 1 9 +2 5 1 9 +2 6 0 + 3 2 0+3 3 0+3 4 1 9 +3 5 1 9 +3 6 1 9 2 4= 2 3 Da er ρ = Cov (X, Y ) σ x σ y = 2/3 2/3 4/3 = 2/2 0.7071. Kommentar: At ρ 2 =1/2 reflekterer det faktum at Y er en sum som halveis er bestemt av X, og halveis uavhengig av X (halveis bestemt av X som er uavhengig av X)