TMA4240 Statistikk Høst 2016

Like dokumenter
X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen mai 2017

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

TMA4240 Statistikk Høst 2016

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

TMA4240 Statistikk 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

MOT310 Statistiske metoder 1, høsten 2011

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Kap. 9: Inferens om én populasjon

ECON240 Statistikk og økonometri

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Kap. 9: Inferens om én populasjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

TMA4245 Statistikk Vår 2015

Løsningsforslag Oppgave 1

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Kapittel 8: Estimering

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Løsning TALM1005 (statistikkdel) juni 2017

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Estimering 1 -Punktestimering

Løsningsforslag ST2301 øving 3

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

TMA4245 Statistikk Eksamen 9. desember 2013

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4245 Statistikk Eksamen 20. desember 2012

Estimering 1 -Punktestimering

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Econ 2130 Forelesning uke 11 (HG)

Estimering 2. -Konfidensintervall

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Skrivne og trykte hjelpemiddel samt kalkulator er tillate. Ta med all mellomrekning som trengst for å grunngje svaret.

ST1201 Statistiske metoder

Mer om utvalgsundersøkelser

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

STK1100 våren 2017 Estimering

TMA4240 Statistikk Høst 2016

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

MOT310 Statistiske metoder 1, høsten 2012

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Transkript:

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 11 Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som vil være ormalfordelt med forvetigsverdi E( X) = µ og varias Var( X) = σ 2 /. E rimelig estimator for variase er S 2 = 1 (X i 4 X) 2, som har forvetigsverdi E(S 2 ) = σ 2. Observasjoee x 1,..., x i tabelle gir estimatee x = 1 x i = 4.940 og s 2 = 1 (x i x) = 0.3440. 4 b) For å utlede et kofidesitervall for µ tar vi utgagspukt i de tilfeldige variabele Z = X µ N(0, 1) σ 2 / som er stadard ormalfordelt, side X N(µ, σ 2 /). Når de ukjete variase σ 2 byttes ut med estimatore S 2, får vi observatore T = X µ S 2 / t 4 som er t-fordelt med 1 = 4 frihetsgrader. Vi øsker et 9% kofidesitervall for µ, og treger derfor 0.97-kvatile i t-fordelige med 4 frihetsgrader, som er t 0.02,4 = 2.7764. Kofidesitervallet ka å kostrueres som følger, P ( t 0.02,4 T t 0.02,4 ) = 1 2 0.02 = 0.9 ( P t 0.02,4 X ) µ S 2 / t 0.02,4 = 0.9 ( ) S 2 P X t 0.02,4 µ X S 2 + t 0.02,4 = 0.9. ab11-lsf-b 2. oktober 2016 Side 1

Når tallverdier settes i får vi itervallet x ± t 0.02,4 s 2 = 4.940 ± 2.7764 0.3440 = [4.228,.6822]. Ata at vi skal teste ullhypotese H 0 : µ = µ 0 mot de alterative hypotese H 1 : µ µ 0. Vi bruker testobservatore T 0 = X µ 0 S 2 /, som i likhet med T er t-fordelt med 4 frihetsgrader (for µ 0 = µ har vi T 0 = T ). På sigifikasivå % vil vi beholde H 0 hvis vi observerer t 0.02,4 T 0 t 0.02,4. Ellers forkastes H 0. Akseptasekriteriet for H 0 er dermed t 0.02,4 X µ 0 S 2 / t 0.02,4 eller, om vi isolerer µ 0 i midte, X t 0.02,4 S 2 µ 0 X + t 0.02,4 S 2, som er idetisk med 9% kofidesitervallet over. For e gitt verdi av µ 0 ka altså kofidesitervallet brukes til å teste H 0 mot H 1 på sigifikasivå %, ved å beholde ullhypotese ku dersom µ 0 er ieholdt i itervallet. Oppgave 2 a) µ = populasjosgjeomsitt, dvs. eit gjeomsitt for alle bilae som køyrer på vegstrekige i ei gitt periode. 12 µ = X = X i, S = 1 12 (X i 12 1 X) 2 X = 12 X i 12 = 880 12 = 73.33, S = b) Type 1 feil er å forkaste H 0 år H 0 er rett. 1 11 12 H 0 : µ 77 H 1 : µ < 77 (X i X) 1034.7 2 = = 9.7 11 α = 0.0, forkast om: X 77 S < t 0.0,11 = 1.8 73.33 77 9.7 12 = 1.31 > 1.8 dvs. ikkje grulag for å påstå at farte er blitt lågare på % ivå. ab11-lsf-b 2. oktober 2016 Side 2

c) Type 2 feil er å ikkje forkaste år H 0 er gal. La β = P (type 2 feil). Då er styrke 1 β. ( ) ( ) X 77 X 74 P 10 < 1.64 µ = 74 = P 10 < 1.64 + 3 10 µ = 74 12 ( 12 ) 12 = Φ 1.64 + 3 12 = Φ( 0.61) 10 = 1 0.729 = 0.271 ( ) X 77 P 10 < 1.64 µ = 74 = 0.9 ( ) X 74 P 10 < 1.64 + 3 10 µ = 74 = 0.9 ( Φ 1.64 + 3 ) = 0.9 10 1.64 + 3 10 = 1.28 3 = 1.28 + 1.64 = 2.92 10 = (2.92)2 10 2 3 2 = 9.06 Dvs. vi må måle farte på 96 bilar eller fleir. Oppgave 3 a) Sasylighete for å få kro er P ( kro) = 1 = 1/32 = 0.031. 2 Sasylighete for å få 3 kro er lik puktsasylighete P (X = 3) der X er biomisk fordelt med parametre = og p = 0., altså ( ) P (X = 3) = 0. 3 (1 0.) 3 = 10 0. 3 0. 2 = 0.312. 3 Fire kro på rad ka itreffe på 3 forskjellige måter: Kro på alle kastee, kro på de første 4 kastee, og myt på siste, eller myt på første kast og kro på de 4 siste. Atall mulige utfall av de fem kastee er 2 = 32, og alle er like sasylige, så sasylighete for å få fire kro på rad er P (4 kro på rad) = 3 32 = 0.0938. b) E fuksjo som geererer 30 mytkast og teller opp legste rekke av myt eller kro ka implemeteres på følgede måte i Matlab: ab11-lsf-b 2. oktober 2016 Side 3

fuctio legstesekves = kastmyt() mytkast=rad(1,30); %Vi geererer 30 tall mellom 0 og 1. mytkast=mytkast>0.; %Tallee som er over 0. gjoeres om til 1-tall (kro), %mes tallee uder 0. gjoeres om til 0 (myt). ed %Vi gaar gjeom rekke med mytkast og teller de legste %rekke av myt eller kro: legstesekves=0; %Foreloepig har legste sekves legde lik 0. subsekves=1; %Dee bruker vi til aa telle opp alle midre rekker av %kro/myt i sekvese paa 30. %Vi gaar gjeom de 30 mytkastee og sjekker om forrige elemet i rekka (j-1) er %lik elemet j. for(j=2:30) if mytkast(j)==mytkast(j-1) %Forrige elemet i rekka (j-1) er lik j. Vi har fuet to like %mytkast paa rad og ikremeterer variabele subsekves med 1. subsekves=subsekves+1; else %Forrige elemet i rekka (j-1) er ulik j. E rekke med myt %eller kro er dermed brutt. if subsekves>legstesekves %Hvis subsekvese av myt/kro er stoerre e de legste rekkee %vi tidligere har observert, har vi fuet e y legste %rekke: legstesekves=subsekves ; ed %Setter variabele subsekves til 1 ettersom e rekke med myt eller kro %er brutt. Gaar videre til j+1 og leter etter e y subsekves %med myt eller kro. subsekves=1; ed ed c) Vi kjører fuksjoe vi lagde i forrige deloppgave 1000 gager og lagrer resultatet for hver iterasjo. clc;clear rg(1); %For aa oppaa samme resultater som i loesigsforslaget. N=1000; legsterekke=zeros(1,n); for :N legsterekke(i)=kastmyt(); ed ab11-lsf-b 2. oktober 2016 Side 4

histogram(legsterekke) %Lager histogram over resultatee. xlabel( Legste sekves av kro eller myt ) ylabel( Frekves ) For disse simulerte terigkastee ser histogrammet slik ut TMA4240 Statistikk Vi aslår sasylighete for å få e legste sekves på eller 6 kro eller myt ut fra de simulerte verdiee i Matlab: P6=sum(legsterekke== legsterekke==6)/n Her teller vi altså opp atall gager de legste rekke på kro eller myt er eller 6 på 1000 forsøk. For våre simulerte mytkast får vi estimatet P ( 2700 + 1700 eller 6) = = 0.443. 10000 Merk at estimatet her vil variere avhegig av de simulerte verdiee du har geerert, me de bør være i ærhete av 0.443. d) I Miriams mytkastsekves har de legste uavbrutte sekvese av kro legde 2. For e tilfeldig geerert mytkastsekves av legde 30, vil legde av legste uavbrutte sekves av kro ha e sasylighetsfordelig som er svært lik de i histogrammet i forrige deloppgave. At dee legde er så lav som 2 ser vi er gaske usasylig (se de vertikale lija i histogrammet), og Miriams mytkastsekves er dermed mistekelig. Vi vil teste ullhypotese mot de alterative hypotese H 0 : Sekvese er tilfeldig geerert H 1 : Sekvese er ikke tilfeldig geerert. ab11-lsf-b 2. oktober 2016 Side

Vi atar at uder ullhypotese er legde av legste sammehegede sekves av kro fordelt som i figure. For å avgjøre om ullhypotese skal forkastes eller ikke, reger vi ut p-verdie, altså sasylighete for å observere et like ekstremt eller mer ekstremt utfall. Her er dette lik sasylighete for at legste uavbrutte sekves av kro er 0, 1 eller 2. Vi bruker de simulerte verdiee fra forrige deloppgave til å estimere dee sasylighete i Matlab: P012=sum(legsterekke==0 legsterekke== 1 legsterekke== 2)/N For våre simulerte mytkast blir estimatet P (0, 1 eller 2) = 2 10000 = 0.0020. Dette er e lav p-verdi som tilsier at ullhypotese forkastes f.eks. på sigifikasivå 0.0. Det er altså gru til å hevde at Miriam har fuet på tallee. Oppgave 4 a) Det er mest rimelig med e vestresidig hypotesetest: H 0 : µ = 16, H 1 : µ < 16. Begruelse: forhadlere sier at bile ka forvetes å kjøre mist 16 km pr liter. Vi vil avsløre ev. feil i markedsførige. NB: Hypoteteseteste skal være uavhegig av måligee. E bør altså ikke velge alterativ hypotese på grulag av x. X er ormalfordelt med forvetig µ og varias σ 2 /. Variase er ukjet, derfor kreves T-fordelig med ν = 1 = 19 frihetsgrader. Gjeomfører teste med α = 0.0. Testobservator: T obs = X µ S/. Observert verdi: t obs = x µ s/ 1.6 16 = 0.94/ 20 = 2.093. Fra tabell over kvatiler i T-fordelige; t 0.0,19 = 1.729. Altså: t < t 0.0,19, dermed skal H 0 forkastes. Hvis vi hadde valgt å bruke e ormalfordeligshypotese, ville kvatile z 0.0 = 1.64 gitt samme koklusjo. Imidlertid bør vi da argumetere for at avstade til dee kvatile er så stor at høyere varias i T-fordelige ikke ville påvirket resultatet. Å sammelike med dee kvatile ka ikke reges som fullgodt svar. b) P-verdie fies ved å lete opp verdie på testobservatore fra a) i tabell. For T-fordelig med ν = 19, fier vi t 0.02,19 = 2.093. Ettersom T-fordelige er symmetrisk, har vi at P(T > t α,ν ) = P(T < t α,ν ). Dermed; p = α = 0.02 = 2.%. Testobservatore er ormalfordelt hvis σ = s. Dette bør være tilærmet oppfylt for å bruke ormalfordelig. Hvis e ikke har ekstra iformasjo om σ, er det ikke abefalt å ab11-lsf-b 2. oktober 2016 Side 6

tilærme studet-fordelige med e ormalfordelig år < 30, da s ikke er et godt ok estimat. Uder ormalfordelige får vi p-verdi P(Z 2.09) = Φ( 2.09) = 0.0183. c) Atar H 1 : µ = µ 1 = 1. og σ = s. Teststyrke er sasylighete for å forkaste H 0 uder H 1, dvs ( ) X µ0 P σ/ < 1.64 µ = µ 1 = 1.. For å få e ormalfordelt variabel, flytter vi alt uteom X, som er stokastisk, over på høyre side. Deretter trekker vi fra sa forvetigsverdi µ 1 og dividerer med stadardavviket på begge sider. P(X < 1.64 σ/ + µ 0 ) = P( X µ 1 σ/ 1.64 σ/ + µ0 µ 1 < σ/ ) = P(Z < 0.7338) 0.767. Hvis vi ikke kue bruke ormalfordeligsatakelse, ville teststyrke blitt svakere. Her er det forutsatt at vi er gaske sikre på variase, f.eks. på grulag av data fra produset. Geerelt må atall observasjoer økes for å oppå økt teststyrke. (Dette er fullgodt svar.) Mulig tillegg: Hvis e har mulighet til å gjeomføre forsøket på e måte slik at variase blir midre, f.eks. kjøre bilee uder mer kotrollerte former i et laboratorium, ville også teststyrke økes. Evetuelt ka e øke sigifikasivået α f.eks. til 0.1, og dermed øke teststyrke, me dette er sjelde aktuelt i praksis. Oppgave a) For at X skal være biomisk fordelt må sasylighete P (Z i > Y i ) for å gå raskest i siste ytre være lik p for alle løpere i = 1,...,, og vi må ha uavhegighet mellom hedelsee Z i > Y i for ulike løpere. Gitt at = 20 og p = 0.7 blir P (X 10) = 0.048 (tabell) og P (X 8 X 10) = b) Likelihoodfuksjoe blir og log-likelihoodfuksjoe P (8 X 10) P (X 10) l(p) = l L(p) = = P (X 10) P (X 7) P (X 10) ( ) p x (1 p) x, x ( ) + x l p + ( x) l(1 p). x = 0.048 0.01 0.048 = 0.98. ab11-lsf-b 2. oktober 2016 Side 7

Dee har sitt maksimum der dl dp = 0 x p x 1 p = 0 p = x. SME for p er dermed ˆp = X/. Dee er forvetigsrett side ( ) X E = 1 EX = 1 p = p. Variase blir ( ) X Varˆp = Var = 1 2 VarX = 1 p(1 p) p(1 p) =. 2 c) Vi skal teste om det er e fordel å gå siste ytre. Dette vil i så fall iebære at parametere p > 1/2. Vi lar dette være vår alterative hypotese H 1. Nullhypotese H 0 blir at p = 1/2. Side vi ikke har tabell over biomisk fordelig for = 39 bruker vi testobservatore ˆp 1/2 Z = (1/2)(1 1/2)/39 som er tilærmet stadard ormalfordelt uder H 0. Vi forkaster H 0 hvis Z > z 0.0 = 1.6. Observert verdi av Z blir Z = 24/39 1/2 (1/2)(1 1/2)/39 = 1.44. Vi beholder dermed H 0. Testes p-verdi blir tilærmet P (Z > 1.44) = 0.07. d) Vi atar at differasee D 1, D 2,..., D mellom løpstid med og ute siste ytre til hver ekelt løper er uavhegig N(µ, σ 2 ). Vi øsker å udersøke om siste ytre gir e fordel, altså at EY i < EZ i, som vil iebære at parametere µ = EY i EX i < 0 (alterativ hypotese H 1 ). Nullhypotese H 1 blir µ = 0. Vi lar SD 2 = 1 37 1 (D i D) 2. Ved å bruke at D N(µ, σd 2 /) og at S2 D ( 1)/σ2 D er kji-kvadrat med 1 frihetsgrader, følger det at T = D σ D / S 2 ( 1 /( 1) σd 2 = D S/ uder H 0 er t-fordelt med 1 = 37 1 = 36 3 frihetsgrader. Vi forkaster dermed H 0 hvis T < t 0.0,37 1 = 1.69. ab11-lsf-b 2. oktober 2016 Side 8

Gitt dataee i oppgave får vi d = 2.64/37 = 0.0717, (d i d) 2 = d 2 i d 2 = 1.362, s 2 D = (d i d)/( 1) = 0.0378, og t = 0.0717 0.0378/ 37 = 2.24. Basert på testatakelsee ka vi dermed forkaste H 0 og kokludere med at siste ytre gir e lite fordel (H 1 ). e) For test 1 blir teststyrke for p = 0.64 ˆp p 0 P (Z > z α ) = P ( p0 (1 p 0 )/ > z α) = P (ˆp > p 0 + z α p0 (1 p 0 )/) = 1 φ( p 0 p + z α p0 (1 p 0 )/ p(1 p)/ ) = φ( p p 0 z α p0 (1 p 0 )/ p(1 p)/ ) = φ( 0.14 1.64 0.2/39 0.64 0.36/39 ) = 0.4. Test 1, hvor vi ku beyttet biær iformasjo om hvorvidt siste ytre ga beste tid for hver ekelt løper, ga hverke forkastig eller størst teststyrke sammeliget med Test 2. Dette er forvetet ut i fra at Test 2 er basert på all iformasjo om de observerte løpstidee i motsetig til Test 1. På de ae side bygger Test 2 på et skjevt utvalg side de to løpere som falt er tatt ut av dataee. Dette vil forskyve D mot mer positive verdier (egative verdier gir støtte for H 1 ). At vi da likevel får forkastig tyder da på at det er e reell forskjell. De skjeve utvalget med lage løpstider i siste idre tatt ut av dataee vil kue gjøre at atakelse om ormalfordelig ikke er oppfylt. Me dette vil i eda større grad kue gjelde også før sesurerig. Ut i fra histogrammet av observerte d i ka det vaskelig kokluderes med at dataee avviker fra atakelse om ormalfordelig side utvalgsstørrelse i dette heseede er lite. Fordele med Test 1 er at dee ikke forutsetter ormalfordelig. Totalt sett gir dataee gru for å kokludere med at siste ytre gir e fordel. ab11-lsf-b 2. oktober 2016 Side 9