TMA445 Statistikk Vår 04 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer, blokk II Oppgave Mediae til et datasett, X, er de midterste verdie. Hvis vi har stokastiske (tilfeldige) variabler X, X,..., X og order dem etter størrelse slik at X () < X () <... < X (), så er mediae defiert som X = { X( + ) hvis er et oddetall, ( ) X ( ) + X ( +) hvis er et partall. Når de stokastiske variablee våre er uavhegige og ormalfordelte med forvetigsverdi µ og varias σ, altså X i N(µ, σ ), og vi har at atallet variabler,, er stort, ka vi ata at variase til mediae er Var( X) = 4 ( f(µ) ), der f(x) er sasylighetstetthete til ormalfordelige. a) For dette tilfellet, vis at der gjeomsittet X = i= X i. Var( X) = π Var( X), X er e forvetigsrett estimator for forvetigsverdie µ. Hvorfor foretrekker vi valigvis X framfor X som estimator for µ? Statistisk setralbyrå har data for høydee til malige orske rekrutter til hære hvert år tilbake til 878. I dee oppgave ka du ata at du vet med sikkerhet at høydee til rekruttee i et hvilket som helst år er ormalfordelte. På Terigmoe leir har løytat Muthe fuet et skjema med høydee på 30 rekrutter som ha meer må være fra 84. Papiret er gulet og blekket har falmet e del, me løytate får e av sie åværede rekrutter til å skrive dataee i i et regeark etter beste eve. Figur viser et histogram av disse dataee. b) For dette datasettet, vil mediae X være større e, midre e eller omtret like stor som gjeomsittet X? Ville du ha brukt mediae eller gjeomsittet til å estimere forvetigsverdie µ her? Begru svaret. ov-oppg-b 9. mars 04 Side
7 6 5 Atall 4 3 0 50 60 70 80 90 00 0 0 30 40 50 Høyde (cm) Figur : Høydee til 30 rekrutter, kaskje fra 84. Oppgave I medisi er det yttig å studere vekte til yfødte som fuksjo av deres termialder (gestatioal age eller tid side ufagelse). Data er her termialder x i (uker) og vekt y i (gram) for i =,..., babyer, og = 4. For dette datasettet har vi i= x iy i = 75 667, i= x i = 35 77, i= x i = 95 og i= y i = 7 94. Ata e lieær regresjosmodell: Y i = β 0 + β x i + ɛ i, i =,...,, der ɛ,..., ɛ atas uavhegige og ormalfordelte med forvetig 0 og varias σ. a) Bruk oppsummerige av tallmateriale gitt over til å rege ut estimatee for skjærigspukt og stigigstallet for regresjosmodelle: ˆβ 0 og ˆβ. Vi reger ut et estimat for σ ved s = i= (y i ˆβ 0 ˆβ x i ) = 94. Reg ut et 95 proset kofidesitervall for stigigstallet. b) Bruk data til å fie et 90 proset prediksjositervall for vekte til e yfødt i termiuke 40. Hvor bredt er 90 proset prediksjositervallet for termiuke 4 sammeliget med det vi fat for uke 40? Figur viser et kryssplott av termiuke og vekt. I dette plottet er data delt i i to grupper: gutter og jeter. Det er b = gutter (ummerert til b ) og jeter (ummerert i = b + til ).
3400 300 Weight 3000 800 600 400 Boys Girls 35 36 37 38 39 40 4 4 Gestatioal age Figur : Kryssplott av termiuke og fødselsvekt for gutter og jeter. Vi foreslår følgede modell for data Y i = β b + β x i + ɛ i, i =,..., b. Y i = β g + β x i + ɛ i, i = b +,...,. der vi fortsatt atar at ɛ,..., ɛ er uavhegige og ormalfordelte med forvetig 0 og varias σ. c) Bruk plottet til å forklare hvorfor dee modelle ka være hesiktsmessig. Forklar videre hvilke elemeter av modelle som ka være uøsket. Reg ut miste kvadratsums estimater (eller maximum likelihood estimater) for parametree i modelle, her beevt ved ˆβ b, ˆβg og ˆβ. I tillegg til summee gitt tidligere i oppgave har vi at b i= y i = 36 58, b i= x i = 460, i= b + y i = 34 936 og i= b + x i = 465. Oppgave 3 Teodor jobber i iskioske ved campige dee sommere. Ha udrer seg over fordelige til itekte i kioske, og hvorda de varierer med temperatur. La x i være temperature kl 4 dag i. Vi ser på dee temperature og itekte Y i for i =,..., ulike dager.
Ata e regresjosmodell Y i = β 0 + β x i + ɛ i, for i =,...,, der ɛ,..., ɛ er uavhegige ormalfordelte støyledd med forvetig 0 og varias τ. Det ka vises at e forvetigsrett estimator for β er gitt ved ˆβ = a) Vis at variase til ˆβ er τ i= (x i x). i= Y i(x i x) i= (x i x). La videre ˆβ 0 være e estimator for β 0. Forklar kort hvorfor s = yttig estimator for τ. Hvorfor deler vi her på? i= (Y i ˆβ 0 ˆβ x i ) er e Itekte ka splittes i salg av fløteiskrem og saftis. Vi defierer disse heholdsvis y f i og yi s. Teodor teker at itekte ka variere ulikt som e fuksjo av temperatur og foreslår følgede modell: Y f i = β f 0 + βf x i + ɛ f i, Y s i = β s 0 + β s x i + ɛ s i i =,...,. Her er ɛ f,..., ɛf, ɛ s,..., ɛs uavhegige ormaldelte støyledd med forvetig 0 og varias σ. b) Utled et 90% kofidesitervall for differase i stigigstall β f βs. Reg ut itervallet år Teodor har = 4 dager med data. Det oppgis her at ˆβ f = 70 og ˆβ s = 44. Videre er i= (x i x) = 60.4, 4 i= (Y f i ˆβ f 0 ˆβ f x i) = 7046 og 4 i= (Y i s ˆβ 0 s ˆβ sx i) = 7300. Merk: Totalt er det 4 parametre som estimeres i regresjoslijee. Figur 3 viser residualee etter tilpasig av regressjoslijer for salg av fløteis og saftis de 4 dagee. c) Bruk plottet i figur 3 til å drøfte atakelsee gjort om feilleddee i modelle i pukt b). Fasit. b) mediae er midre e gjeomsittet. a) -465, 5, [69,6] b) [789,348], 690, 73 c) -587, -747, 0. 3. b) [ 3, 588]
4000 3000 cream limoade 000 000 Residuals 0 000 000 3000 4000 0 4 6 8 0 4 Days Figur 3: Estimerte residualer etter tilpasig av regresjoslijer for salg av fløteis og saftis de 4 dagee.