KANDIDATNUMMER: EKSAMEN FAGNAVN: FAGNUMMER: Statistikk. REA1081 EKSAMENSDATO: 11. juni 2007. KLASSE: Ingeniørklasser. TID: kl. 9.00 13.00. FAGLÆRER: Hans Petter Hornæs ANTALL SIDER UTLEVERT: 4 (innkl. forside) TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller. INNFØRING MED PENN, evt. trykkblyant som gir gjennomslag. Ved innlevering skilles hvit og gul besvarelse og legges i hvert sitt omslag. Oppgavetekst, kladd og blå kopi beholder kandidaten. Husk kandidatnummer på alle ark.
Eksamen i Statistikk. 11. juni 2007. 1 Hvert av de 13 bokstavpunktene teller likt ved bedømmelsen. Oppgave 1 La X være antall minutter som brukes påå skifte et hjul i et bilverksted, og anta at X er normalfordelt med parametre µ =6.0 ogσ =0.8 (som også kanskrivesx N(6.0, 0.8)). a) Regn ut b ) P(5.0 X 7.0), sannsynligheten for at det tar mellom 5 og 7 minutter å skifte et hjul. I verkstedet er tiden til forarbeidet til hjulskiftet Y 1 N(9.0, 1.0) og etterarbeidet Y 2 N(5.0, 0.5), slik at samlet tid for å skifte hjul på enbiler W = Y 1 + X 1 + X 2 + X 3 + X 4 + Y 2 der X i N(6.0, 0.8) for i {1, 2, 3, 4} og Y 1,X 1,X 2,X 3,X 4 og Y 2 er stokastisk uavhengige. Regn ut sannsynligheten for at verkstedet bruker mindre enn 40 minutter åskifte hjul på en bil. Oppgave 2 Et bilverksted ville undersøke tiden de tok å skifte et hjul, så de tok tiden på skift av n = 8 hjul og fikk resultatene (i minutter, som desimaltall): {6.0, 7.2, 4.6, 4.9, 4.6, 5.2, 5.9, 7.6} a ) Regn ut empirisk middelverdi x og empirisk standardavvik s for dette datasettet. b ) Anta tiden for skift av et hjul er X i N(µ, σ), med parametrene µ og σ ukjente. De 8 datapunktene i denne oppgaven betraktes dermed som uavhengige observasjoner fra denne fordelingen. Regn ut 95% konfidensintervallet for µ. c) Anta nå X i N(5.0, 0.8) og regn med denne forutsetningen ut p =P ( X>x ) der x er tallet regnet ut for dette i a oppgaven. Betrakt høyresidetesten H 0 : µ =5motH 1 : µ>5 i en modell der vi antar σ =0.8 er kjent. Svar på, med henvisning til p verdien du netopp har regnet ut, om dataene i denne oppgaven medfører at vi forkaster H 0 med signifikansnivå henholdsvis 5% og 1%.
Eksamen i Statistikk. 11. juni 2007. 2 Oppgave 3 Under de fleste stabile værforhold er det slik at temperaturen y avtar med høyden x over havet, og at dette i moderate høyder er tilnærmet lik en lineær funksjon y = α + βx. Dette kalles Lapse effekten, og en meteorolog undersøkte hvor stor denne var en dag ved å måle temperaturen ved 5 forskjellige høyder. Resultatet (der x er høyden over havet i meter, og y er temperaturen i Celsiusgrader) var: x i 100 300 600 1000 1300 y i 14.7 13.0 11.5 8.6 6.9 a ) b ) c ) Regn ut regresjonslikningen y = a + bx for dette datasettet. Regn ut korrelasjonen r, og gi en kort tolkning av verdien av denne. Anta lineær modell, det vil si at Y i = α + βx i + E i, i {1, 2, 3, 4} der E i N(0,σ) er stokastisk uavhengige. Parameteren β kan da tolkes som Lapse effekten, det vil si hvor mye temperaturen avtar per høydemeter. Finn et 95% konfidensintervall for β. Advarsel: Formel 3.4.2 og 3.4.3 i formelsamlinga er noe annet enn hva det spørres etter her. Oppgave 4 En bedrift utvikler produktet den selvtennende engangsgrillen. De har imidlertid ikke klart å få tennmekanismen god nok. a ) I den første prototypen var sannsynligheten for at tennmekanismen ikke virket hele p =0.25. Regn ut sannsynligheten for at det er 2 eller 3 som svikter hvis de tester 10 griller. Bruk at hvis X = antall svikt så erx Bin (10, 0.25) (binomsik fordelt med parametre n =10 og p =0.25). b ) Anta de isteden tester 300 griller. Hva er da sannsynligheten for at tennmekanismen i 100 eller færre griller ikke virker? c ) Etterhvert har de fått forbedret mekanismen noe. I en test var det x = 79 av 500 testede griller der tennmekanismen sviktet. Vi kan anta at x er en observasjon av X med binomisk fordeling Bin (500,p x ). Deretter gjorde de en liten endring i den kjemiske sammensetningen av tennveska, og ville teste om denne ga mer pålitelig tennmekanisme. De testet 300 griller av denne typen og observerte y = 31 som ikke virket. Dette betrakter vi som en observasjon fra en Bin (300,p y ) fordeling, og hypotesetesten er da H 0 : p x = p y mot H 1 : p x >p y, med signifikansnivå α =5%. Som testobservator kan du bruke W = 1 500 X 1 300 Y,
Eksamen i Statistikk. 11. juni 2007. 3 som kan tilnærmes med en normalfordeling (ignorer heltallskorreksjon). Hva er parametrene µ og σ i W N(µ, σ) (uttrykt ved p x og p y )? Fra observasjonene estimerer vi p x til 79/500 og p y til 31/300. Sett inn 79/500 for p x og 31/300 for p y i uttrykket for σ for åfåetfornuftigestimatavσ, og bruk dette som kjent standardavvik i fortsettelsen. Bruk fordelinga til W (med estimert σ som kjent ) når vi antar H 0 er sann til å finne kritisk verdi og sette opp en testprosedyre. Hva blir testens konklusjon med x =79ogy = 31? Oppgave 5 På en vanlig spilleterning er det skrevet nye tall på sidene, slik at to av sidene viser tallet 1, to av sidene tallet 2 og to av sidene tallet 3. Dermed er utfallet av et kast med denne terningen en stokastisk variabel X med punktsannsynlighet f(x) = P(X = x) gittved tabellen x 1 2 3 1 1 1 f(x) 3 3 3 Denne terningen skal kastes to ganger, og utfallet av første kast kalles X og av andre kast X. Vi registrerer også summen Y = X + X. a ) Regn ut forventningsverdien µ x =E(X) og standardavviket σ x = Var (X). Regn også ut forventningsverdien µ y =E(Y ) og standardavviket σ y = Var (Y ). b) La g(x, y) =P(X = x Y = y). Det vil si at g er den todimensjonale punktsannsynligheten til (X, Y ). Sett opp tabell over g(x, y) for alle parene (x, y)derx {1, 2, 3} og y {2, 3, 4, 5, 6}. Det vil si at g(x, y) ene i en tabell på følgende form skal erstattes med tall: x \y 2 3 4 5 6 1 g(1, 2) g(1, 3) g(1, 4) g(1, 5) g(1, 6) 2 g(2, 2) g(2, 3) g(2, 4) g(2, 5) g(2, 6) 3 g(3, 2) g(3, 3) g(3, 4) g(3, 5) g(3, 6) Regn ut korrelasjonen ρ mellom X og Y. Siden nåværende versjon av formelsamlinga har lite om korrelasjon, taes her med deler hva som vil stå om dette i neste versjon: La X og Y værer stokastiske variable med E (X) =µ x,var(x) =σx,e(y 2 )=µ y og Var (Y )=σy. 2 a) Def. av kovarians Cov (X, Y ) b) Korrelasjon: ρ def = E(X Y ) µ x µ y def Cov (X, Y ) = σ x σ y Hvis X og Y er diskrete er den todimensjonale punktsannsynligheten f til (X, Y )gittvedf(x, y) = P(X = x Y = y). Da kan kovariansen regnes ut ved Cov (X, Y )= xyf(x, y) µ x µ y alle x alle y Lykke til og god sommer!
Løsning, eksamen i Statistikk. 11. juni 2007. 1 Oppgave 1 a) 7 6 5 6 P(5.0 X 7.0) = Φ Φ =Φ(1.25) Φ( 1.25) = 0.8 0.8 2Φ (1.25) 1 tab.5.1 = 2 0.8944 1=0.7888 b ) Siden W er en lineærkombinasjon av uavhengige normalfordelinger er W selv normalfordelt. Parametrene er E(W )=E(Y 1 )+E(X 1 )+E(X 2 )+E(X 3 )+E(X 4 )+E(Y 1 )=9+4 6+5=38 Var (W )=Var(Y 1 )+Var(X 1 )+Var(X 2 )+Var(X 3 )+Var(X 4 )+Var(Y 1 )= 1.0 2 +4 0.8 2 +0.5 2 =3.81 så standardavviket er 3.81 = 1.95. slik at standardavviket er 2.33 = 1.53. Dermed er 40 38 P(W 40) = Φ =Φ(1.02) tab.5.1 = 0.8461 1.95 Oppgave 2 a) x =(6.0+7.2+4.6+4.9+4.6+5.2+5.9+7.6)/8 =5.75. 6.0 s = 2 +7.2 2 +4.6 2 +4.9 2 +4.6 2 +5.2 2 +5.9 2 +7.6 2 8 5.75 2 =1.15. 8 1 b ) Siden σ er ukjent brukes envariabel t-intervall, og formelen x t α/2 s/ n, x t α/2 s/ n tab.5.3 er oppgitt i formelsamlinga. t α/2 = t 0.025 = 2.365 når vi har 8 1 = 7 frihetsgrader. Intervaller er da 5.75 2.365 1.15/ 8, 5.75 + 2.365 1.15/ 8 = 4.79, 6.71 c) p =P X>x ( 5.75 5.0 1 Φ 0.8/ 8 ( =1 P ) ) X x =1 P X 5.75 = =1 Φ(2.65) tab.5.1 = 1 0.9960 = 0.0040 Sannsynligheten p =0.0344 = 3.44% er p verdien til denne testen. Siden p<5%, kan H 0 forkastes med signifikansnivå 5%. Siden også p<1%, kan H 0 forkastes med signifikansnivå 1%. Oppgave 3 a ) Regner ut hjelpestørrelsene: x = 660, y =10.94 og s xx = 100 2 + 300 2 + 600 2 + 1000 2 + 1300 2 5 660 2 = 972000 s yy =14.7 2 +13.0 2 +11.5 2 +8.6 2 +6.9 2 5 10.94 2 =40.492 s xy = 100 14.7 + 300 13.0 + 600 11.5 + 1000 8.6 + 1200 6.9 5 660 10.94 = 6262 b = s xy /s xx = 6262/972000 = 0.00644 og a = y b x =10.94 + 0.00644 660 = 15.2. Det vil si at regresjonslikningen er y =15.2 0.00644x.2
Løsning, eksamen i Statistikk. 11. juni 2007. 2 b) r = s xy / s xx s yy = 6262/ 972000 40.492 = 0.9981 c ) Denne er svært nær 1, så det er veldig god tilpasning til en rett linje for disse dataene. (At r<0 reflekterer at det er avtagende temperaturer for økende høyder.) Ta utgangspunkt i fordelingsresultatet T = B β S e / s xx T n 2 (Students t fordelt med n 2 frihetsgrader) der B er estimatoren for β og s e er estimatoren for σ. Med t α/2 = t 0.025 = tab.5.3 = 3.182 (5 2 = 3 frihetsgrader) har vi P ( t α/2 < B β ) S e / <t s α/2 =1 α xx P (B t α/2 S e / s xx <β<b+ t α/2 S e / ) s xx =1 α Ved å sette inn observert verdi b av B og s e av S e får vi grensene i konfidensintervallet. formel3.4.1 s e = s yy b 2 s xx n 2 Dermed er konfidensintervallet = 40.492 + 0.00644 2 972000 3 =0.245 0.00644 3.182 0.245/ 972000, 0.00644+3.182 0.245/ 972000 = 0.0072, 0.0057. Oppgave 4 a) P(X =2 X =3)= 10 0.25 2 (1 0.25) 8 + 2 10 0.25 3 (1 0.25) 7 = 3 45 0.25 2 0.75 8 + 120 0.25 2 0.75 8 =0.2816 + 0.2503 = 0.5318 b ) c ) Det blir alt for omfattende (og dessuten sterkt utsatt for avrundingsfeil) om vi prøver å regne ut dette eksakt, så vi tinærmer med normalfordeling. Vi har nå X Bin (300, 0.25) med µ = np = 300 0.25 = 75 og σ = np(1 p) = 75 0.75 = 7.5. Ved halvkorrekson får vi da 100.5 75 P(X 100) Φ =Φ(3.4) tab.5.3 = 0.9997 7.5 Glemmes halvkorrekson blir svaret Φ (3.33) = 0.9996, ingen alvorlig feil. ( Vi tilnærmer X Bin (500,p x )medn 500p x, ) 500p x (1 p x ) og Y Bin (300,p y )med ( ) N 300p y, 300p y (1 p y ). X og Y er stokastisk uavhengige, så lienærkombinasjonen W = 1 500 X 1 300Y er også normalfordelt. Forventningsverdien er µ = 1 500 500p x 1 300 300p y = p x p y. Vi må regne sammen standardavviket via variansene: σ 2 = 1 2 500p x (1 p x )+( 1 ) 2 300p y (1 p y )= 1 500 300 500 p x(1 p x )+ 1 300 p y(1 p y )
Løsning, eksamen i Statistikk. 11. juni 2007. 3 σ = Dette gir følgende estimat av σ: 1 s = 500 1 500 p x(1 p x )+ 1 300 p y(1 p y ) 79 500 79 + 1 500 500 300 31 300 31 =0.02398 300 300 Hvis H 0 er sann er p x p y =0så W N(0, 0.02398). Dette normaliseres til Z = W/0.02398 N(0, 1) og forkaster H 0 for store ovservasjoner av W og dermed av Z. tab.5.2 Det vil si at vi forkaster H 0 om w/0.02398 >z 0.05 = 1.645. Dette kan omformes til testprosedyren Forkast H 0 om w>1.645 0.02398 1 500 x 1 300 y 0.0394 Hererheltallskorreksjonignorert. I dette tilfellet er 1 500 x 1 300 y = 79 500 31 300 =0.0547, H 0 forkastes. Det vil si at det er påvist at en forbedring har skjedd, slik at dette er et skritt i riktig retning. La oss likevel håpe de gir seg, det er vel fler enn brannvesenet som har motforestillinger mot at turfolket skal frakte rundt på brannbomber i sekkene sine :) Oppgave 5 a) Var (X) = alle x E(X) = alle x xf(x) =1 1 3 +2 1 3 +3 1 3 =2 x 2 f(x) µ 2 x =1 2 1 3 +22 1 3 +32 1 3 22 =2/3 så σ x = 2/3 0.8165 Siden X har samme fordeling som X, hardesammeforventningogvarians.x og X er også stokastisk uavhengige så formel 2.6.1b og 2.6.2b gir: E(Y )=E(X)+E ( X ) =2+2=4 Var (Y )=Var(X)+Var ( X ) = 2 3 + 2 3 = 4 3 så σ x = 4 3 1.155 b) Da x y = x som må være 1, 2 eller 3 er kombinasjonene umulig hvis y x<1 eller y x >3, og for disse parene er f(x, y) = 0. For de mulige kombinasjonene er det ett utfall av X som gir den aktuelle kombinasjonen. For eksempel er f(2, 3) = P (X =2 Y =3)= P(X =2 X =1) uavh. = P(X =2)P(X =1)= 1 3 1 Dette kan da oppsummeres i tabellen 3 = 1 9 x \y 2 3 4 5 6 1 1/9 1/9 1/9 0 0 2 0 1/9 1/9 1/9 0 3 0 0 1/9 1/9 1/9
Løsning, eksamen i Statistikk. 11. juni 2007. 4 Kovariansen er (fra den oppgitte formelen) Cov (X, Y )= 1 2 1 9 +1 3 1 9 +1 4 1 9 +1 5 0+1 6 0 + 2 2 0+2 3 1 9 +2 4 1 9 +2 5 1 9 +2 6 0 + 3 2 0+3 3 0+3 4 1 9 +3 5 1 9 +3 6 1 9 2 4= 2 3 Da er ρ = Cov (X, Y ) σ x σ y = 2/3 2/3 4/3 = 2/2 0.7071. Kommentar: At ρ 2 =1/2 reflekterer det faktum at Y er en sum som halveis er bestemt av X, og halveis uavhengig av X (halveis bestemt av X som er uavhengig av X)