TMA4240 Statistikk Høst 2016

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 11 Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som vil være ormalfordelt med forvetigsverdi E( X) = µ og varias Var( X) = σ 2 /. E rimelig estimator for variase er S 2 = 1 (X i 4 X) 2, som har forvetigsverdi E(S 2 ) = σ 2. Observasjoee x 1,..., x i tabelle gir estimatee x = 1 x i = 4.940 og s 2 = 1 (x i x) = 0.3440. 4 b) For å utlede et kofidesitervall for µ tar vi utgagspukt i de tilfeldige variabele Z = X µ N(0, 1) σ 2 / som er stadard ormalfordelt, side X N(µ, σ 2 /). Når de ukjete variase σ 2 byttes ut med estimatore S 2, får vi observatore T = X µ S 2 / t 4 som er t-fordelt med 1 = 4 frihetsgrader. Vi øsker et 9% kofidesitervall for µ, og treger derfor 0.97-kvatile i t-fordelige med 4 frihetsgrader, som er t 0.02,4 = 2.7764. Kofidesitervallet ka å kostrueres som følger, P ( t 0.02,4 T t 0.02,4 ) = 1 2 0.02 = 0.9 ( P t 0.02,4 X ) µ S 2 / t 0.02,4 = 0.9 ( ) S 2 P X t 0.02,4 µ X S 2 + t 0.02,4 = 0.9. ab11-lsf-b 2. oktober 2016 Side 1

Når tallverdier settes i får vi itervallet x ± t 0.02,4 s 2 = 4.940 ± 2.7764 0.3440 = [4.228,.6822]. Ata at vi skal teste ullhypotese H 0 : µ = µ 0 mot de alterative hypotese H 1 : µ µ 0. Vi bruker testobservatore T 0 = X µ 0 S 2 /, som i likhet med T er t-fordelt med 4 frihetsgrader (for µ 0 = µ har vi T 0 = T ). På sigifikasivå % vil vi beholde H 0 hvis vi observerer t 0.02,4 T 0 t 0.02,4. Ellers forkastes H 0. Akseptasekriteriet for H 0 er dermed t 0.02,4 X µ 0 S 2 / t 0.02,4 eller, om vi isolerer µ 0 i midte, X t 0.02,4 S 2 µ 0 X + t 0.02,4 S 2, som er idetisk med 9% kofidesitervallet over. For e gitt verdi av µ 0 ka altså kofidesitervallet brukes til å teste H 0 mot H 1 på sigifikasivå %, ved å beholde ullhypotese ku dersom µ 0 er ieholdt i itervallet. Oppgave 2 a) µ = populasjosgjeomsitt, dvs. eit gjeomsitt for alle bilae som køyrer på vegstrekige i ei gitt periode. 12 µ = X = X i, S = 1 12 (X i 12 1 X) 2 X = 12 X i 12 = 880 12 = 73.33, S = b) Type 1 feil er å forkaste H 0 år H 0 er rett. 1 11 12 H 0 : µ 77 H 1 : µ < 77 (X i X) 1034.7 2 = = 9.7 11 α = 0.0, forkast om: X 77 S < t 0.0,11 = 1.8 73.33 77 9.7 12 = 1.31 > 1.8 dvs. ikkje grulag for å påstå at farte er blitt lågare på % ivå. ab11-lsf-b 2. oktober 2016 Side 2

c) Type 2 feil er å ikkje forkaste år H 0 er gal. La β = P (type 2 feil). Då er styrke 1 β. ( ) ( ) X 77 X 74 P 10 < 1.64 µ = 74 = P 10 < 1.64 + 3 10 µ = 74 12 ( 12 ) 12 = Φ 1.64 + 3 12 = Φ( 0.61) 10 = 1 0.729 = 0.271 ( ) X 77 P 10 < 1.64 µ = 74 = 0.9 ( ) X 74 P 10 < 1.64 + 3 10 µ = 74 = 0.9 ( Φ 1.64 + 3 ) = 0.9 10 1.64 + 3 10 = 1.28 3 = 1.28 + 1.64 = 2.92 10 = (2.92)2 10 2 3 2 = 9.06 Dvs. vi må måle farte på 96 bilar eller fleir. Oppgave 3 a) Sasylighete for å få kro er P ( kro) = 1 = 1/32 = 0.031. 2 Sasylighete for å få 3 kro er lik puktsasylighete P (X = 3) der X er biomisk fordelt med parametre = og p = 0., altså ( ) P (X = 3) = 0. 3 (1 0.) 3 = 10 0. 3 0. 2 = 0.312. 3 Fire kro på rad ka itreffe på 3 forskjellige måter: Kro på alle kastee, kro på de første 4 kastee, og myt på siste, eller myt på første kast og kro på de 4 siste. Atall mulige utfall av de fem kastee er 2 = 32, og alle er like sasylige, så sasylighete for å få fire kro på rad er P (4 kro på rad) = 3 32 = 0.0938. b) E fuksjo som geererer 30 mytkast og teller opp legste rekke av myt eller kro ka implemeteres på følgede måte i Matlab: ab11-lsf-b 2. oktober 2016 Side 3

fuctio legstesekves = kastmyt() mytkast=rad(1,30); %Vi geererer 30 tall mellom 0 og 1. mytkast=mytkast>0.; %Tallee som er over 0. gjoeres om til 1-tall (kro), %mes tallee uder 0. gjoeres om til 0 (myt). ed %Vi gaar gjeom rekke med mytkast og teller de legste %rekke av myt eller kro: legstesekves=0; %Foreloepig har legste sekves legde lik 0. subsekves=1; %Dee bruker vi til aa telle opp alle midre rekker av %kro/myt i sekvese paa 30. %Vi gaar gjeom de 30 mytkastee og sjekker om forrige elemet i rekka (j-1) er %lik elemet j. for(j=2:30) if mytkast(j)==mytkast(j-1) %Forrige elemet i rekka (j-1) er lik j. Vi har fuet to like %mytkast paa rad og ikremeterer variabele subsekves med 1. subsekves=subsekves+1; else %Forrige elemet i rekka (j-1) er ulik j. E rekke med myt %eller kro er dermed brutt. if subsekves>legstesekves %Hvis subsekvese av myt/kro er stoerre e de legste rekkee %vi tidligere har observert, har vi fuet e y legste %rekke: legstesekves=subsekves ; ed %Setter variabele subsekves til 1 ettersom e rekke med myt eller kro %er brutt. Gaar videre til j+1 og leter etter e y subsekves %med myt eller kro. subsekves=1; ed ed c) Vi kjører fuksjoe vi lagde i forrige deloppgave 1000 gager og lagrer resultatet for hver iterasjo. clc;clear rg(1); %For aa oppaa samme resultater som i loesigsforslaget. N=1000; legsterekke=zeros(1,n); for :N legsterekke(i)=kastmyt(); ed ab11-lsf-b 2. oktober 2016 Side 4

histogram(legsterekke) %Lager histogram over resultatee. xlabel( Legste sekves av kro eller myt ) ylabel( Frekves ) For disse simulerte terigkastee ser histogrammet slik ut TMA4240 Statistikk Vi aslår sasylighete for å få e legste sekves på eller 6 kro eller myt ut fra de simulerte verdiee i Matlab: P6=sum(legsterekke== legsterekke==6)/n Her teller vi altså opp atall gager de legste rekke på kro eller myt er eller 6 på 1000 forsøk. For våre simulerte mytkast får vi estimatet P ( 2700 + 1700 eller 6) = = 0.443. 10000 Merk at estimatet her vil variere avhegig av de simulerte verdiee du har geerert, me de bør være i ærhete av 0.443. d) I Miriams mytkastsekves har de legste uavbrutte sekvese av kro legde 2. For e tilfeldig geerert mytkastsekves av legde 30, vil legde av legste uavbrutte sekves av kro ha e sasylighetsfordelig som er svært lik de i histogrammet i forrige deloppgave. At dee legde er så lav som 2 ser vi er gaske usasylig (se de vertikale lija i histogrammet), og Miriams mytkastsekves er dermed mistekelig. Vi vil teste ullhypotese mot de alterative hypotese H 0 : Sekvese er tilfeldig geerert H 1 : Sekvese er ikke tilfeldig geerert. ab11-lsf-b 2. oktober 2016 Side

Vi atar at uder ullhypotese er legde av legste sammehegede sekves av kro fordelt som i figure. For å avgjøre om ullhypotese skal forkastes eller ikke, reger vi ut p-verdie, altså sasylighete for å observere et like ekstremt eller mer ekstremt utfall. Her er dette lik sasylighete for at legste uavbrutte sekves av kro er 0, 1 eller 2. Vi bruker de simulerte verdiee fra forrige deloppgave til å estimere dee sasylighete i Matlab: P012=sum(legsterekke==0 legsterekke== 1 legsterekke== 2)/N For våre simulerte mytkast blir estimatet P (0, 1 eller 2) = 2 10000 = 0.0020. Dette er e lav p-verdi som tilsier at ullhypotese forkastes f.eks. på sigifikasivå 0.0. Det er altså gru til å hevde at Miriam har fuet på tallee. Oppgave 4 a) Det er mest rimelig med e vestresidig hypotesetest: H 0 : µ = 16, H 1 : µ < 16. Begruelse: forhadlere sier at bile ka forvetes å kjøre mist 16 km pr liter. Vi vil avsløre ev. feil i markedsførige. NB: Hypoteteseteste skal være uavhegig av måligee. E bør altså ikke velge alterativ hypotese på grulag av x. X er ormalfordelt med forvetig µ og varias σ 2 /. Variase er ukjet, derfor kreves T-fordelig med ν = 1 = 19 frihetsgrader. Gjeomfører teste med α = 0.0. Testobservator: T obs = X µ S/. Observert verdi: t obs = x µ s/ 1.6 16 = 0.94/ 20 = 2.093. Fra tabell over kvatiler i T-fordelige; t 0.0,19 = 1.729. Altså: t < t 0.0,19, dermed skal H 0 forkastes. Hvis vi hadde valgt å bruke e ormalfordeligshypotese, ville kvatile z 0.0 = 1.64 gitt samme koklusjo. Imidlertid bør vi da argumetere for at avstade til dee kvatile er så stor at høyere varias i T-fordelige ikke ville påvirket resultatet. Å sammelike med dee kvatile ka ikke reges som fullgodt svar. b) P-verdie fies ved å lete opp verdie på testobservatore fra a) i tabell. For T-fordelig med ν = 19, fier vi t 0.02,19 = 2.093. Ettersom T-fordelige er symmetrisk, har vi at P(T > t α,ν ) = P(T < t α,ν ). Dermed; p = α = 0.02 = 2.%. Testobservatore er ormalfordelt hvis σ = s. Dette bør være tilærmet oppfylt for å bruke ormalfordelig. Hvis e ikke har ekstra iformasjo om σ, er det ikke abefalt å ab11-lsf-b 2. oktober 2016 Side 6

tilærme studet-fordelige med e ormalfordelig år < 30, da s ikke er et godt ok estimat. Uder ormalfordelige får vi p-verdi P(Z 2.09) = Φ( 2.09) = 0.0183. c) Atar H 1 : µ = µ 1 = 1. og σ = s. Teststyrke er sasylighete for å forkaste H 0 uder H 1, dvs ( ) X µ0 P σ/ < 1.64 µ = µ 1 = 1.. For å få e ormalfordelt variabel, flytter vi alt uteom X, som er stokastisk, over på høyre side. Deretter trekker vi fra sa forvetigsverdi µ 1 og dividerer med stadardavviket på begge sider. P(X < 1.64 σ/ + µ 0 ) = P( X µ 1 σ/ 1.64 σ/ + µ0 µ 1 < σ/ ) = P(Z < 0.7338) 0.767. Hvis vi ikke kue bruke ormalfordeligsatakelse, ville teststyrke blitt svakere. Her er det forutsatt at vi er gaske sikre på variase, f.eks. på grulag av data fra produset. Geerelt må atall observasjoer økes for å oppå økt teststyrke. (Dette er fullgodt svar.) Mulig tillegg: Hvis e har mulighet til å gjeomføre forsøket på e måte slik at variase blir midre, f.eks. kjøre bilee uder mer kotrollerte former i et laboratorium, ville også teststyrke økes. Evetuelt ka e øke sigifikasivået α f.eks. til 0.1, og dermed øke teststyrke, me dette er sjelde aktuelt i praksis. Oppgave a) For at X skal være biomisk fordelt må sasylighete P (Z i > Y i ) for å gå raskest i siste ytre være lik p for alle løpere i = 1,...,, og vi må ha uavhegighet mellom hedelsee Z i > Y i for ulike løpere. Gitt at = 20 og p = 0.7 blir P (X 10) = 0.048 (tabell) og P (X 8 X 10) = b) Likelihoodfuksjoe blir og log-likelihoodfuksjoe P (8 X 10) P (X 10) l(p) = l L(p) = = P (X 10) P (X 7) P (X 10) ( ) p x (1 p) x, x ( ) + x l p + ( x) l(1 p). x = 0.048 0.01 0.048 = 0.98. ab11-lsf-b 2. oktober 2016 Side 7

Dee har sitt maksimum der dl dp = 0 x p x 1 p = 0 p = x. SME for p er dermed ˆp = X/. Dee er forvetigsrett side ( ) X E = 1 EX = 1 p = p. Variase blir ( ) X Varˆp = Var = 1 2 VarX = 1 p(1 p) p(1 p) =. 2 c) Vi skal teste om det er e fordel å gå siste ytre. Dette vil i så fall iebære at parametere p > 1/2. Vi lar dette være vår alterative hypotese H 1. Nullhypotese H 0 blir at p = 1/2. Side vi ikke har tabell over biomisk fordelig for = 39 bruker vi testobservatore ˆp 1/2 Z = (1/2)(1 1/2)/39 som er tilærmet stadard ormalfordelt uder H 0. Vi forkaster H 0 hvis Z > z 0.0 = 1.6. Observert verdi av Z blir Z = 24/39 1/2 (1/2)(1 1/2)/39 = 1.44. Vi beholder dermed H 0. Testes p-verdi blir tilærmet P (Z > 1.44) = 0.07. d) Vi atar at differasee D 1, D 2,..., D mellom løpstid med og ute siste ytre til hver ekelt løper er uavhegig N(µ, σ 2 ). Vi øsker å udersøke om siste ytre gir e fordel, altså at EY i < EZ i, som vil iebære at parametere µ = EY i EX i < 0 (alterativ hypotese H 1 ). Nullhypotese H 1 blir µ = 0. Vi lar SD 2 = 1 37 1 (D i D) 2. Ved å bruke at D N(µ, σd 2 /) og at S2 D ( 1)/σ2 D er kji-kvadrat med 1 frihetsgrader, følger det at T = D σ D / S 2 ( 1 /( 1) σd 2 = D S/ uder H 0 er t-fordelt med 1 = 37 1 = 36 3 frihetsgrader. Vi forkaster dermed H 0 hvis T < t 0.0,37 1 = 1.69. ab11-lsf-b 2. oktober 2016 Side 8

Gitt dataee i oppgave får vi d = 2.64/37 = 0.0717, (d i d) 2 = d 2 i d 2 = 1.362, s 2 D = (d i d)/( 1) = 0.0378, og t = 0.0717 0.0378/ 37 = 2.24. Basert på testatakelsee ka vi dermed forkaste H 0 og kokludere med at siste ytre gir e lite fordel (H 1 ). e) For test 1 blir teststyrke for p = 0.64 ˆp p 0 P (Z > z α ) = P ( p0 (1 p 0 )/ > z α) = P (ˆp > p 0 + z α p0 (1 p 0 )/) = 1 φ( p 0 p + z α p0 (1 p 0 )/ p(1 p)/ ) = φ( p p 0 z α p0 (1 p 0 )/ p(1 p)/ ) = φ( 0.14 1.64 0.2/39 0.64 0.36/39 ) = 0.4. Test 1, hvor vi ku beyttet biær iformasjo om hvorvidt siste ytre ga beste tid for hver ekelt løper, ga hverke forkastig eller størst teststyrke sammeliget med Test 2. Dette er forvetet ut i fra at Test 2 er basert på all iformasjo om de observerte løpstidee i motsetig til Test 1. På de ae side bygger Test 2 på et skjevt utvalg side de to løpere som falt er tatt ut av dataee. Dette vil forskyve D mot mer positive verdier (egative verdier gir støtte for H 1 ). At vi da likevel får forkastig tyder da på at det er e reell forskjell. De skjeve utvalget med lage løpstider i siste idre tatt ut av dataee vil kue gjøre at atakelse om ormalfordelig ikke er oppfylt. Me dette vil i eda større grad kue gjelde også før sesurerig. Ut i fra histogrammet av observerte d i ka det vaskelig kokluderes med at dataee avviker fra atakelse om ormalfordelig side utvalgsstørrelse i dette heseede er lite. Fordele med Test 1 er at dee ikke forutsetter ormalfordelig. Totalt sett gir dataee gru for å kokludere med at siste ytre gir e fordel. ab11-lsf-b 2. oktober 2016 Side 9