Eksamen : ECON0 Statstkk Exam: ECON0 Statstcs UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Eksamensdag: Onsdag. ma 007 Sensur kunngjøres: Onsdag. jun Date of exam: Wednesday, May, 007 Grades wll be gven: Wednesday, June Td for eksamen: kl. 4:0 7:0 Tme for exam: 0:0 p.m. 05:0 p.m. Oppgavesettet er på 8 sder The problem set covers 8 pages Englsh verson on page 5 Tllatte hjelpemdler: Alle trykte og skrevne hjelpemdler, samt kalkulator Resources allowed: All wrtten and prnted resources, as well as calculator Eksamen blr vurdert etter ECTS-skalaen. A-F, der A er beste karakter og E er dårlgste ståkarakter. F er kke bestått. The grades gven: A-F, wth A as the best and E as the weakest passng grade. F s fal. Oppgave A. La begvenhetene ABC,, være slk at A og B er uavhengge mens A og C er dsjunkte. I tllegg vet v at PA ( ) = 0, 4, PB ( ) = 0,, PC ( ) = 0, og PB ( C) = 0,. Fnn sannsynlghetene () PA ( B) () PC ( B ) () PB ( A C) [Hnt: Merk at B ( A C) = ( B A) ( B C) ] B. La ABC,, være som punkt A. Venn-dagrammet fgur vser hvordan A B C er sammensatt av 5 dsjunkte delmengder merket med tallene tl 5. () Uttrykk hver av delmengdene,,,5 ved hjelp av A,B,C og unon, sntt og komplement (for eksempel delmengde kan skrves A B). Fnn også sannsynlgheten for hver av de 5 delmengdene. () Fnn PA ( B C) og sannsynlgheten for at enten B eller C (altså kke begge to) nntreffer.
Fgur B A 4 5 C C. En butkkeer som selger lyspærer skaffer lyspærene fra tre leverandører som v kaller A, A og A. Hun kjøper nn 0% av lyspærene fra A, 45% fra A og 5% fra A. Av erfarng vet hun at ca. % av lyspærene fra A er defekte. Når det gjelder A og A er % fra A og % fra A defekte. En tlfeldg valgt lyspære fra beholdnngen vser seg å være defekt. Hva er sannsynlgheten for at den kommer fra leverandør A? Oppgave I et tlfeldg utvalg på n = 88 ferske mødre fra USA 988, vste det seg at x = hadde røkt regelmessg under svangerskapet. Anta at det USA 988 totalt var en andel 00p% av gravde kvnner som røkte under svangerskapet der p er ukjent. A. La X være antall som røkte under svangerskapet et tlfeldg utvalg på n = 88 ferske mødre. Anta at X er bnomsk fordelt ( np., ) () Ang kort hva som bør være oppfylt for at dette skal være en rmelg antakelse stuasjonen skssert nnlednngen. () Beregn et estmat for p og beskrv kort noen statstske egenskaper ved estmatoren du har brukt. B. Beregn et (tlnærmet) 95% konfdensntervall for p. Forklar kort hva konfdensgraden 95% betyr. Oppgave A. Anta at Z og Z er uavhengge og normalfordelte der Z ~ N (, ) og Z ~ N (, ). () Sett U = Z Z. Forklar hvorfor U ~ N (, 8). () Fnn sannsynlghetene PZ ( < Z), PZ ( = Z), PZ ( > Z) [Hnt: Uttrykk begvenhetene ved hjelp av U.]
B. Innlednng: Det er velkjent at røykng under svangerskapet kan være skadelg for fosteret. Her skal v konsentrere oss om å se på effekten røykng under svangerskapet har på fødselsvekten. Datagrunnlaget er utvalget av ferske mødre fra USA (988) ntrodusert oppgave. Foruten fødselsvekt ble en rekke andre varable observert som v kke skal ta opp her. Dataene er oppsummert tabell som vser gjennomsnttlg fødselsvekt, utvalgsstørrelse og standardavvk for barn av de mødrene som kke hadde røkt under svangerskapet (gruppe ) og for de som hadde røkt (gruppe ). Tabell Fødselsvekt Gruppe : Har kke røkt under svangerskapet Antall 76 Gjennomsntt 404 Gruppe : Har røkt under svangerskapet n = y = (gram) n = x = (gram) 5 Standardavvk s = 574,59 s = 54, 79 La X betegne fødselsvekten for barnet tl en mor som kke har røkt under svangerskapet og Y fødselsvekten for barnet tl en mor som har røkt under svangerskapet. V antar at X, X, K, Xn ( n = 76 ) er uavhengge og normalfordelte med X ~ N ( µ, ). Lkeledes antas at Y, Y, K, Yn ( n = ) er uavhengge (og uavhengg av X -ene) og normalfordelte med Y ~ N ( µ, ). For enkelthets skyld antar v tllegg at populasjons-standardavvket,, har samme verd som er kjent lk 570 de to gruppene. Oppgave: V er speselt nteressert parameteren θ = µ µ som her tolkes som et uttrykk for reduksjonen gjennomsnttlg fødselsvekt populasjonen som kan skyldes røykng under svangerskapet. () Gjør rede for at estmatoren, ˆ θ = X Y er forventnngsrett og normalfordelt som følger ˆ θ ~ N θ, + n n der standardfelen (dvs. standardavvket tl estmatoren) er () Utled og beregn et 95% konfdensntervall for θ. ˆ SE( θ) = +. n n C. Tyder dataene på at fødselsvekten gjennomgående er lavere for barn av mødre som har røkt under svangerskapet enn for de som kke har røkt? Med andre ord: () Test hypotesen H0 : θ 0 mot H: θ > 0 under samme betngelser som punkt B. Bruk sgnfkansnvå 0,0. () Er p-verden for testen dn større eller mndre enn 0,00?.
D. Anta Z, Z, K, Zn er uavhengge og normalfordelte med Z ~ N ( µ, ) for =,, K, n. Både µ og er ukjente, og v ønsker å estmere. La ˆ ( ) n = S = Z Z n = være den vanlge estmatoren (den såkalte sampel- ( n ) S varansen). I følge en regel boka gjelder at er kj-kvadrat-fordelt med n frhetsgrader. I henhold tl defnsjonen av en kj-kvadrat-fordelng boka er forventnngen tl en kj-kvadrat-fordelt varabel lk antall frhetsgrader og varansen lk ganger antall frhetsgrader. Dermed gjelder ( n ) S E = n og ( n ) S Var = ( n ) 4 () Bruk dette tl å vse at E( ˆ ) = og Var( ˆ ) = ( n ). () Verden 570 for brukt punkt B og C er vrkelgheten et estmat basert på estmatoren ˆ ( n ) S + ( n ) S 75 S + S = = n + n 86 der S, S er sampel-varansene for gruppe og henholdsvs. En alternatv estmator er % = ( ) S + S Påvs at begge estmatorene er forventnngsrette og sammenlgn varansene tl dem. Hvlken av de to estmatorene er å foretrekke? [Hnt: Bruk de konkrete verdene for n og n ] 4
Englsh verson Problem A. Let the events ABC,, be such that A and B are ndependent whle A and C are dsjont. In addton we know that PA ( ) = 0, 4, PB ( ) = 0,, PC ( ) = 0,, and PB ( C) = 0,. Fnd the probabltes () PA ( B) () PC ( B ) () PB ( A C) [Hnt: Note that B ( A C) = ( B A) ( B C) ] B. Let ABC,, be as n secton A. The Venn-dagram n fgure shows how A B C s composed by 5 dsjont subsets marked by the numbers to 5. () Express each of the subsets,,,5 by means of A,B,C and unon, ntersecton and complement (for example subset can be wrtten as A B). Fnd also the probablty of each of 5 subsets. (v) Fnd PA ( B C) and the probablty that ether B or C (.e. not both of them) occurs. Fgure B A 4 5 C C. A shopkeeper who sells lght bulbs buys a partcular knd of lght bulbs from three manufacturers called A, A, and A. She buys 0% of the lght bulbs from A, 45% from A and 5% from A. From experence she knows that about % of the lght bulbs from A are faulty, whereas % from A and % from A are faulty. 5
A randomly chosen lght bulb from her stock turned out to be faulty. What s the probablty that t comes from manufacturer A? Problem In a random sample of n = 88 recent mothers from USA n 988, t turned out that x = had smoked regularly durng pregnancy. Suppose that totally 00p% of pregnant women n USA n 988 smoked regularly durng pregnancy, where the value of p s unknown. A. Let X be the number who smoked durng pregnancy n a random sample of n = 88 recent mothers. Suppose that X s bnomally dstrbuted ( np., ) () Descrbe shortly the condtons that ought to be fulflled n order for ths to be a reasonable assumpton for the stuaton descrbed n the ntroducton. () Calculate an estmate of p and descrbe brefly some statstcal propertes of the estmator that you have been usng. B. Calculate an (approxmately) 95% confdence nterval for p. Explan shortly what the confdence level 95% means. Problem A. Suppose that Z and Z are ndependent and normally dstrbuted, where Z ~ N (, ) and Z ~ N (, ). () Put U = Z Z. Explan why U ~ N (, 8). () Fnd the probabltes PZ ( < Z), PZ ( = Z), PZ ( > Z) [Hnt: Express the events by means of U.] B. Introducton. It s well known the smokng durng pregnancy can be harmful to the chld. Here we wll focus on the effect of smokng durng pregnancy on the brth weght. The data are based on the sample of recent mothers from USA (988) ntroduced n problem. Apart from brth weght a number of other varables were observed as well whch we are not gong to dscuss here. The data are summarzed n table that shows mean brth weghts, sample szes, and standard devatons for chldren born by mothers who dd not smoke durng pregnancy (group ) and for those who dd smoke (group ). Table Group : Have not smoked durng pregnancy Sample sze 76 Mean 404 Brth weght Group : Have smoked durng pregnancy n = y = (gram) n = x = (gram) 5 Standard devaton s = 574,59 s = 54, 79 Let X denote the brth weght of the chld of a mother who dd not smoke durng pregnancy, and Y the brth weght of the chld of a mother who dd smoke durng 6
pregnancy. We assume that X, X, K, Xn ( n = 76 ) are ndependent and normally dstrbuted wth X ~ N ( µ, ). Lkewse we assume that Y, Y, K, Yn ( n = ) are ndependent (and ndependent of the X s) and normally dstrbuted wth Y ~ N ( µ, ). For smplcty we assume n addton that the populaton standard devaton,, s known to be 570 and has the same value n the two groups. Queston: We are specally nterested n the parameter θ = µ µ that s nterpreted here as an expresson of the reducton of the average brth weght n the populaton whch may be due to smokng durng pregnancy. () Explan why, ˆ θ = X Y, s unbased and normally dstrbuted as ˆ θ ~ N θ, + n n where the standard error (.e., the standard devaton of the estmator) s SE( ˆ θ) = +. n n () Derve and calculate a 95% confdence nterval for θ. C. Do the data gve evdence that the brth weght n general tends to be lower for chldren of mothers who have smoked durng pregnancy than for those who dd not smoke? Wth other words: () Test the hypothess H0 : θ 0 vs. H: θ > 0 under the same condtons as n secton B. Use the level of sgnfcance 0,0. () Is the p-value of your test larger or smaller than 0,00? D. Suppose that Z, Z, K, Zn are ndependent and normally dstrbuted wth Z ~ N ( µ, ) for =,, K, n. Both µ and are unknown, and we wsh to estmate n. Let ˆ = S = ( Z Z) be the usual estmator (the so called sample n = ( n ) S varance). A rule n the textbook states that s ch-square dstrbuted wth n degrees of freedom. Accordng to the defnton of a ch-square dstrbuton n the book the expectaton of a ch-square dstrbuted random varable s equal to the number of degrees of freedom and the varance s twce the number of degrees of freedom. From ths follows ( n ) S E = n and ( n ) S Var = ( n ) () Use ths to show that E( ˆ ) = and 4 Var( ˆ ) = ( n ). 7
() The value 570 for used n B and C are n fact an estmate based on the estmator ˆ ( n ) S + ( n ) S 75 S + S = = n + n 86 where S, S are the sample-varances for group and respectvely. An alternatve estmator s % = ( ) S + S Check that both estmators are unbased and compare ther varances. Whch of the two estmators s preferable? [Hnt: Use the concrete values for n and n ] 8