TMA4240 Statistikk Høst 2016

Like dokumenter
H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

TMA4245 Statistikk Eksamen august 2015

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

TMA4240 Statistikk Høst 2016

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

TMA4245 Statistikk Eksamen mai 2017

TMA4240 Statistikk Høst 2015

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

TMA4245 Statistikk Eksamen 9. desember 2013

TMA4240/4245 Statistikk 11. august 2012

Oppgaver fra boka: X 2 X n 1

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

TMA4240 Statistikk Høst 2016

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

n 2 +1) hvis n er et partall.

Løsningsforslag Oppgave 1

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

0.5 (6x 6x2 ) dx = [3x 2 2x 3 ] 0.9. n n. = n. ln x i + (β 1) i=1. n i=1

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Estimering 1 -Punktestimering

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Kapittel 8: Estimering

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Estimering 1 -Punktestimering

ECON240 Statistikk og økonometri

Kap. 9: Inferens om én populasjon

MOT310 Statistiske metoder 1, høsten 2011

Kap. 9: Inferens om én populasjon

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Econ 2130 Forelesning uke 11 (HG)

TMA4240 Statistikk 2014

TMA4245 Statistikk Vår 2015

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Estimering 2. -Konfidensintervall

LØSNING: Eksamen 28. mai 2015

TMA4240 Statistikk H2010

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Mer om utvalgsundersøkelser

Oversikt over konfidensintervall i Econ 2130

Løsning TALM1005 (statistikkdel) juni 2017

ST1201 Statistiske metoder

Løsningsforslag ST2301 øving 3

Kapittel 7: Noen viktige sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

TMA4240 Statistikk Høst 2015

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Oversikt over konfidensintervall i Econ 2130

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

TMA4245 Statistikk Eksamen 9. desember 2013

Hypotesetesting, del 4

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Løsningsforslag til eksamen i STK desember 2010

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

f(x)dx = F(x) = f(u)du. 1 (4u + 1) du = 3 0 for x < 0, 2 + for x [0,1], 1 for x > 1. = 1 F 4 = P ( X > 1 2 X > 1 ) 4 X > 1 ) =

Kapittel 7: Noen viktige sannsynlighetsfordelinger

MOT310 Statistiske metoder 1, høsten 2012

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

TMA4240 Statistikk Høst 2016

STK1100 våren 2017 Estimering

Oversikt over konfidensintervall i Econ 2130

Forelesning Moment og Momentgenererende funksjoner

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2015

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

Transkript:

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 8 Løsigsskisse Oppgave 1 a) Simuler 1000 datasett i MATLAB. Hvert datasett skal bestå av 100 utfall fra e ormalfordelig med forvetigsverdi 5 og stadardavvik 2. Løsig: sample_size=100; umber_of_samples=1000; mu=5; %forvetig sigma=2; %stadardavvik sample_matrix=ormrd(mu,sigma,sample_size,umber_of_samples); b) Reg ut gjeomsittsverdie av alle de 1000 datasettee. Lag et histogram basert på gjeomsittsverdiee du har reget ut. Mier forme på histogrammet om forme til e ormalfordelig? Var dette forvetet? Forklar. Løsig: sample_matrix_mea=mea(sample_matrix); hist(sample_matrix_mea); xlabel( Gjeomsittsverdier ); ylabel( Frekves ); title( Gjeomsittsverdier fra e ormalfordelig ); figure ormplot(sample_matrix_mea); title( Normal kvatil-kvatil plott for gjeomsittsverdiee ); Fra Figur 3 ser vi at gjeomsittsverdiee mier om e ormalfordelig og dette støttes av kvatil-kvatil plottet i Figur 2. Dette er forvetet side vi vet fra setralgreseteoremet at fordelige til X er N(5; 4/1000) og at e lieær kombiasjo av ormalfordelte variabler også er ormalfordelt. c) Gjør det samme som i a), me å skal utfallee komme fra e biomisk fordelig med parametre N = 5,p = 0.2 og utvalgsstørrelser = 2, 5, 10, 20, 50, 100. Løsig: ab8-lsf-b 26. september 2016 Side 1

250 Gjeomsittsverdier fra e ormalfordelig 200 Frekves 150 100 50 0 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 Gjeomsittsverdier Figur 1: Histogram av gjeomsittsverdiee reget fra 1000 utvalg av størrelse 100 fra ormalfordelige med forvetig 5 og stadardavvik 2 0.999 0.997 0.99 0.98 0.95 0.90 Normal kvatil kvatil plott for gjeomsittsverdiee Probability 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 4.4 4.6 4.8 5 5.2 5.4 5.6 Data Figur 2: Normal kvatil-kvatil plott av gjeomsittsverdiee reget fra 1000 utvalg av størrelse 100 fra ormalfordelige med forvetig 5 og stadardavvik 2 ab8-lsf-b 26. september 2016 Side 2

=[2 5 10 20 50]; umber_of_sizes=legth(); Sample = 1000; N = 5; p = 0.2; for :umber_of_sizes bi_sample_mea = mea(biord(n,p,(i),sample)); samplesize_strig=um2str((i)); figure hist(bi_sample_mea); xlabel( Gjeomsitt ); ylabel( Frekves ); title([ Biomisk fordelig med =,samplesize_strig]); ed d) Hvilke av simulerigee gir et histogram som liger e ormalfordelig? Bruk setralgreseteoremet til å forklare resultatet du får. Løsig: Vi ser fra histogrammee i Figur 4 at de liger på e ormalfordelig allerede ved utvalgsstørrelse = 20. Vi vet fra setralgreseteoremet at hvis utvalgsstã rrelse er stor ok ka vi tilærme fordelige med e ormalfordelig. Vårt resultat her viser at de biomiske fordelige ka tilærmes godt med e ormalfordelig for utvalgsstørrelser så små som 20. R = mea(biord(5,0.2,50,1000)) ormplot(mea(r)) Oppgave 2 a) Variase til utvalgsgjeomsittet er ( ) ( Var( X) 1 ) = Var X i = 1 2 Var X i = 1 2 Var(X i ) = 1 2 σ 2 = 1 2 σ2 = σ2. Sasylighetstetthetsfuksjoe til ormalfordelige er gitt på s. 25 i Tabeller og formler i statistikk som f(x) = 1 ( exp 1 (x µ) 2πσ 2 σ 2, slik at vi har f(µ) = 1 ( exp 1 ) 2πσ 2 0 σ 2 = 1 e 0 = 1. 2πσ 2πσ ab8-lsf-b 26. september 2016 Side 3

Figur 3: Normalkvatilplott av et utvalg med 50 datapukter trukket fra Bi(5,0.2)- fordelige. Dette gir at hvilket skulle vises. Var( X) = 1 4 ( f(µ) ) 2 = 1 ( ) 2 = πσ2 4 1 2 = π Var( X), 2 2πσ Når vi skal velge mellom to estimatorer som begge er forvetigsrette, velger vi alltid de med mist varias. Side π 2 1.57 > 1 har vi Var( X) > Var( X), som betyr at vi foretrekker å bruke X som estimator for µ. b) På gru av de to tydelige outliere på oppside, kommer mediae X til å være midre e utvalgsgjeomsittet X (for disse dataee er X = 171.0 mes X = 175.3). Vi har atatt at rekruttees høyder er ormalfordelte. Utfra histogrammet ser det ut til at gjeomsittet ligger rudt 170 cm. I så fall er sasylighete for at to av de tretti datapuktee er større e 235 cm eglisjerbar, så de ekstreme verdiee til disse to datapuktee skyldes atakelig e feil hos rekrutte som fylte i dataee i regearket ikke spesielt usasylig, gitt det gulede papiret og falmede blekket. Side utvalgsgjeomsittet er følsomt for outliere, mes utvalgsmediae ikke er det, gir mediae et bedre estimat e gjeomsittet i dette tilfellet. Amerkig vedrørede dataee Datasettet i dee oppgave er aturligvis fiktivt. Histogrammet er laget for 28 datapukt trukket tilfeldig fra e ormalfordelig med forvetigsverdi 166 cm (litt lavere ab8-lsf-b 26. september 2016 Side 4

Figur 4: Gjeomsittsverdier for 1000 utvalg fra biomisk fordelig med p = 0.2, N = 5, utvalgsstã rrelser = 2, 5, 10, 20, 50, 100 ab8-lsf-b 26. september 2016 Side 5

e gjeomsittshøyde for 1878, som er 169.5 cm) og stadardavvik 7 cm, og med to outliere på 239 cm og 251 cm (høyde til verdes høyeste ma). Når X N(166, 7 så er P (X 239) = 9 10 26. Oppgave 3 a) For å rege ut P (L A beytter vi regele for sasylighet for komplemetære hedelser: P (L A + P (L A = 1 P (L A = = 1 P (L A = 1 0.2 = 0.8 For å rege ut P (L) bruker vi setige om total sasylighet. Vi vet at A 1, A 2, A 3 er e partisjo av utfallsrommet (det ser vi lett av vediagrammet). P (L) = P (L A 1 ) + P (L A + P (L A 3 ) = P (L A 1 ) P (A 1 ) + P (L A P (A + P (L A 3 ) P (A 3 ) = 0.05 0.1 + 0.2 0.4 + 0.6 0.5 = 0.385 b) Betigelser for at X er biomisk fordelt: Vi spør persoer. For hver perso registerer vi om persoe lyver eller ikke lyver (to komplmetære hedelser). Sasylighete for at e tilfeldig valgt perso lyver er p, og dee er de samme for alle de persoee vi spør. De persoee vi spør svarer uavhegig av hveradre ( uavhegige forsøk). Uder disse 4 betigelsee er X= atall persoer som lyver biomisk fordelt med parametere og p. Dermed er sasylighetsfordelige til X gitt ved puktsasylighete f(x), ( ) f(x) = p x (1 p) x, x = 0, 1,..., x Vi vet at da er forvetige til X E(X) = p og variase Var(X) = p(1 p). Videre: vi har at p = 0.2, og = 20. P (X = 4) fier vi ved å sette i X = 4 i puktsasylighete f(x) over. ( ) 20 P (X = 4) = f(4) = 0.2 4 (1 0.2) 20 4 = 0.218 4 Det er også mulig å fie P (X = 4) ved tabelloppslag (s 17 i formelsamlige), P (X = 4) = P (X 4) P (X 3) = 0.630 0.411 = 0.219 Sasylighete P [(X 2) (X > 5)] fier vi eklest ved tabelloppslag (s 17 i formelsamlige), P [(X 2) (X > 5) = P (X 2) + P (X > 5) = (X 2) + 1 P (X 5) = 0.206 + 1 0.804 = 0.402 ab8-lsf-b 26. september 2016 Side 6

c) Nå er p ukjet. Først forvetig: E(ˆp) = E( X ) = 1 E(X) = 1 p = p E(p X ) = E( 1 ) = 1 1 E(X) = 1 1 p = 1 p Vi ser videre på varias: Var(ˆp) = Var( X ) = 1 2 Var(X) = 1 p(1 p) p(1 p) = 2 Var(p X ) = Var( 1 ) = 1 ( 1) 2 Var(X) = 1 p(1 p) p(1 p) = ( 1) 2 ( 1) 2 E god estimator ˆp er e estimator som er forvetigsrett, dvs. E(ˆp) = p, og har lite varias, dvs. Var(ˆp) er lite. Vi liker veldig godt hvis variase miker år atall observasjoer som estimatore er basert på øker. Sammeliger vi to estimatorer som begge er forvetigsrette velger vi estimatore med mist varias. Sammeliger vi to estimatorer der ku de ee er forvetigsrett, velger vi gjere de estimatore som er forvetigsrett (ofte sjekker vi også at det ikke er veldig stor forskjell på variasee). For å velge mellom ˆp og p ser vi på uttrykkee for forvetig og varias til begge estimatoree. Vi ser at ˆp er forvetigsrett, me det er ikke p. I prisippet ka vi stoppe her og kokluere med at vi foretrekker de forvetigsrette estimatore ˆp. Me, det ka være fit å sjekke at det ikke er stor forskjell på variase til de to estimatoree (hva hvis de ee hadde hatt to gager så stor varias?). Vi ser at Var(ˆp) = ( ( 1) )2 Var(p ), dvs. Var(ˆp) < Var(p ) med e faktor ( 1 )2 i forskjell. For = 20 er dee faktore ( 19 20 )2 = 0.95 2 = 0.9, dvs. Var(ˆp) = 0.9 Var(p ). Dermed har estimatore Var( ˆp) både mist varias og er forvetigsrett. Vi velger derfor estimatore ˆp. Kommetarer: Asymptotisk (år ) vil de to estimatoree være like gode. Vi har i vårt pesum ikke sakket om begrepet kosistete estimatorer, me begge disse estimatoree er kosistete. Oppgave 4 ab8-lsf-b 26. september 2016 Side 7

a) Setig om forvetig til fuksjoer av stokastiske variable gir at E( Y ) = = = 0 0 y 1/2 f(y)dy v 2 v 2 Γ( v y 2 1 e y 2 dy y 1/2 1 1 v+1 0 2 v 2 Γ( v 2 1 e y 2 dy 2 )y = 2 v+1 2 Γ( v+1 1 2 v 2 Γ( v = 2Γ( v+1 Γ( v 0 2 v+1 2 Γ( v+1 y v+1 2 1 e y 2 dy TMA4240 Statistikk side itegrade i est siste uttrykk ovefor er e sasylighetstetthet (til e kjikvadratfordelt variabel med v + 1 frihetsgrader). b) Bruker vi resultatet i forrige pukt med v = 1 følger det at S E 2 ( 1) 1 2Γ( 2 σ 2 = ES = ) σ Γ( 1. Altså er σ 2Γ( ES = 2 ) 1 Γ( 1 slik at S ikke er forvetigsrett for σ. E forvetigsfeilkorrigert, forvetigsrett estimator av σ er dermed ˆσ = S 1 1 Γ( 2Γ( = Γ( 1 2Γ( (X i X) 2. På tilsvarede måte som i pukt a) ka e mediarett estimator for σ utledes med utgagspukt i samme pivotale stã rrelse. Vi vet at ( S ( 1) P < χ 2 1/2, 1 = 1/2. σ 2 Omskrivig av ulikhete gir at ( P S 1 χ 2 1/2, 1 < σ ) = 1/2, som i følge defiisjo av mediaretthet betyr at 1 σ = S χ 2 = 1 1/2, 1 χ 2 1/2, 1 er mediarett for σ. (X i X) 2 ab8-lsf-b 26. september 2016 Side 8