LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011



Like dokumenter
TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag, eksamen statistikk, juni 2015

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

6 x P (X = x) = x=1 = P (X 2 = 6)P (X 2 = 6)P (X 3 = 6) =

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

TMA4240 Statistikk Høst 2016

Løsningsforslag: STK2120-v15.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2016

i x i

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Høst 2016

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG TMA4240 STATISTIKK

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

TMA4240 Statistikk Høst 2015

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen august 2014

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4240 Statistikk Høst 2018

TMA4240 Statistikk H2010

UNIVERSITETET I OSLO

Fasit for tilleggsoppgaver

TMA4240 Statistikk Høst 2007

LØSNINGSFORSLAG ) = Dvs

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2009

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Eksamensoppgave i TMA4245 Statistikk

Kapittel 2: Hendelser

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Eksamensoppgave i TMA4245 Statistikk

Løsningsforslag eksamen 27. februar 2004

Løsning eksamen desember 2017

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Om eksamen. Never, never, never give up!

Eksamensoppgåve i TMA4240 Statistikk

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Eksamensoppgave i TMA4240 Statistikk

Regneøvelse 22/5, 2017

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

HØGSKOLEN I STAVANGER

Om eksamen. Never, never, never give up!

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

HØGSKOLEN I STAVANGER

Løsningsforslag eksamen 25. november 2003

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

FORMELSAMLING TIL STK1100 OG STK1110

ÅMA110 Sannsynlighetsregning med statistikk, våren

EKSAMEN I TMA4240 Statistikk

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk Høst 2008

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

TMA4245 Statistikk Eksamen august 2014

vekt. vol bruk

Kapittel 4: Matematisk forventning

TMA4240 Statistikk H2010 (22)

Fasit og løsningsforslag STK 1110

Oppgave 1: Feil på mobiltelefoner

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Oppgave N(0, 1) under H 0. S t n 3

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

ST0202 Statistikk for samfunnsvitere

La U og V være uavhengige standard normalfordelte variable og definer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Transkript:

Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011 Oppgave 1 Oljeleting a) Siden P(A B) = P(A)+P(B) P(A B) = 0, så er hendelsene disjunkte. Siden P(A B) = 0 0,3 0,3 = P(A)P(B), så er hendelsene ikke uavhengige. b) Hendelsene med sannsynligheter er tegnet inn i Venndiagrammet i Figur 1. Sannsynligheten for olje på felt 1, dvs. hendelsen A, kan beregnes fra lov om total sannsynlighet, P(A) = P(A B)+P(A B C ) = 0,05+0,15 = 0,20. Hendelsen olje på felt 1 gitt olje er funnet på felt 2 kan skrives A B og sannsynligheten beregnes fra Bayes lov, P(A B) = P(A B) P(A B) = P(B) P(B A)+P(B A C ) 0,05 = 0,05+0,1 = 1 3. Her er lov om total sannsynlighet brukt for å beregne P(B). Sannsynligheten for hendelsen ikke olje på felt 2 kan sees fra ligningen over P(B C ) = 1 P(B) = 1 0,15 = 0,85. Dette kan settes inn i Bayes lov for å få sannsynlighet for olje på felt 1 gitt ingen olje funnet på felt 2, P(A B C ) = P(A BC ) P(B C ) = 0,15 0,85 0,176. Fra de tidligere beregningene ser vi at P(A B) P(A B C ), dermed er A og B ikke uavhengige.

Side 2 av 10 A B C 0,15 A B 0,05 A C B 0,10 A C B C 0,70 Figur 1: Venndiagram med hendelsene A B, A B C, A C B og A C B C og tilhørende sannsynligheter påtegnet. c) La F A være den stokastiske variabelen «Fortjeneste fra felt 1». Da er E[F A ] = 400P(A) 100P(A C ) = 400 0,20 100 0,80 = 0. La F A B være den stokastiske variabelen «Fortjeneste fra felt 1 gitt funn på felt 2». Da er E[F A B] = 400P(A B) 100P(A C B) = 400 1 3 1002 3 = 200 3 66,67. Vi begynner med de følgende to observasjonene. Forventningsverdien for hver strategi er bestemt av fortjenesten ved hver av hendelsene A B, A B C, A C B og A C B C, og den beste strategien er å ikke lete noe sted, å begynne å lete på felt 1 eller å begynne å lete på felt 2. Det er dermed tre muligheter vi må vurdere. Første mulighet. Vi leter ingen steder, dette gir umiddelbart forventningsverdi 0. Andre mulighet. Vi begynner med å lete på felt 1. Dette gir oss informasjon om felt 1 og vi kan velge mellom følgende strategier for felt 2. Ikke lete uansett om det er olje på felt 1 eller ikke, lete uansett om det er olje på felt 1 eller ikke, lete hvis og bare hvis vi finner olje på felt 1 eller lete hvis og bare hvis vi ikke finner olje på felt 1. Kall de stokastiske variablene som beskriver fortjenesten ved hver av disse strategiene for henholdsvis F 1,

Side 3 av 10 F 2, F 3 og F 4. Da har vi E[F 1 ] = E[F A ] = 0 E[F 2 ] = 300P(A B C )+1400P(A B)+900P(A C B) 200P(A C B C ) = 65, E[F 3 ] = 300P(A B C )+1400P(A B) 100P(A C B) 100P(A C B C ) = 35, E[F 4 ] = 400P(A B C )+400P(A B)+900P(A C B) 200P(A C B C ) = 30. Tredje mulighet. Vi begynner med å lete på felt 2. Dette gir oss informasjon om felt 2 og vi kan velge mellom følgende strategier for felt 1. Ikke lete uansett om det er olje på felt 2 eller ikke, lete uansett om det er olje på felt 2 eller ikke, lete hvis og bare hvis vi finner olje på felt 2 eller lete hvis og bare hvis vi ikke finner olje på felt 2. Kall de stokastiske variablene som beskriver fortjenesten ved hver av disse strategiene for henholdsvis F 5, F 6, F 7 og F 8. Da har vi E[F 5 ] = 1000P(B) 100P(B C ) = 65 E[F 6 ] = 300P(A B C )+1400P(A B)+900P(A C B) 200P(A C B C ) = 65, E[F 7 ] = 100P(A B C )+1400P(A B)+900P(A C B) 100P(A C B C ) = 75, E[F 8 ] = 300P(A B C )+1000P(A B)+1000P(A C B) 200P(A C B C ) = 55. Utregningene for hver av mulighetene viser at beste strategi er å lete først i felt 2 og så lete videre i felt 1 hvis og bare hvis man finner olje på felt 2. Dette gir en forventet fortjeneste på 75millioner. Oppgave 2 Lønninger a) Vi har kumulativ fordeling F(y) = P(Y y) = P(Y < y) = 1 P(Y y) = 1 Dermed blir sannsynlighetstettheten f(y) = d dy F(y) = d ( ) θ 1 kθ = θk θ 1 dy y yθ+1, y k. Forventningsverdi blir E[Y] = k yf(y)dy = = θk θ [ y θ+1 θ+1 = θ θ 1 k. ] y=k k θk θ 1 y θ dy ( ) θ k, y k. y

Side 4 av 10 Vi starter med å beregne det andre momentet til Y E[Y 2 ] = k y 2 f(y)dy = = θk θ [ y θ+2 θ +2 = θ θ 2 k2. ] y=k Fra dette og middelverdien finner vi k θk θ 1 dy yθ 1 Var[Y] = E[Y 2 ] E[Y] 2 = θ θ 2 θ 2 k2 (θ 1) ( ) 2k2 (θ 1) = k 2 2 θ(θ 2) θ (θ 2)(θ 1) 2 = k 2 θ (θ 1) 2 (θ 2). b) Vi finner rimelighetsfunksjonen L(θ;y 1,y 2,...,y n ) = n θk θ y θ+1 i = θ n k nθ n y θ 1 i. Dette gir l(θ;y 1,y 2,...,y n ) = ln(l(θ;y 1,y 2,...,y n )) = nln(θ)+nθln(k)+( θ 1) n ln(y i ). For å finne sannsynlighetsmaksimeringsestimatoren (SME) må denne funksjonen maksimeres med hensyn på θ. Vi begynner med å finne ekstremalpunktene fra 0 = d dθ l(ˆθ;y 1,y 2,...,y n ) 0 = ṋ n θ +nln(k) ln(y i ) n n ˆθ = ln(y i ) nln(k) ˆθ = n n ln(y i) nln(k).

Side 5 av 10 Dette stemmer med estimatoren oppgitt i oppgaven. [Kommentar: Dette er alltid maksimum av rimelighetsfunksjonen hvis θ kan være i (0, ), men basert på opplysningene i oppgave a) så må θ > 2. Dette medfører at hvis en mindre verdi enn dette oppnås fra ˆθ så finnes ikke SME.] Vi beregner estimatet ˆθ e = 30 174,7 30ln(214,9) 2,21. Dette gir sannsynligheten P(Y < 472,2) = 1 P(Y 472,2) = 1 ( ) 2,21 214,9 0,824. 472,2 c) La µ betegne forventningsverdien av Y. Da ønsker vi å teste om µ har økt til 435 1,036 = 450,7 eller om µ er mindre enn 450,7. Vi formulerer dette som en hypotesetest der det vi ønsker å teste om har skjedd velges som alternativ hypotese. Dette gir H 0 : µ 450,7 H 1 : µ > 450,7. Ettersom fordelingen til Y er vanskelig å jobbe med ønsker vi å gjøre denne testen basert på Ȳ på vanlig måte. For at dette skal være meningsfullt må vi anta Ȳ har en fordeling som er nærme en normalfordeling. Basert på sentralgrenseteoremet er det rimelig at dette vil være en tilstrekkelig tilnærming hvis vi har nok målinger. Vi må dermed anta 30 målinger er nok til at dette skal være en god tilnærming. Under denne antagelsen kan man under nullhypotesen (H 0 ) bruke og E[Ȳ] = 450,7 σ2 Var[Ȳ] = 30 = 5162 30 8875 til å teste på Z = Ȳ 450,7 8875 N(0,1). d) Vi har en ensidig test på signifikansnivå 0,05 og forkaster H 0 hvis vi observerer z > z 0,05 = 1,645.

Side 6 av 10 Fra tallene i oppgavene finner vi ȳ = 13611/30 = 453,7 som gir observert verdi z = 453,7 450,7 8875 = 0,03 < 1,645 = z 0,05. Ergo forkaster vi ikke nullhypotesen. Det er ikke grunnlag for å si at lønnen har steget med 3,6% på signifikansnivå 0,05. Fra figuren virker det som det er betydelig skjevhet (skewness) i fordelingen. På ønsket signifikansnivå må vår ensidige test ha 0,05 sannsynlighet i øvre hale av fordelingen. På grunn av skjevheten i fordelingen virker det klart at den virkelige grensen for testen må være mye lengre mot høyre enn indikert av normalfordelingstilnærmingen. Det virker ikke som utvalgsstørrelsen er stor nok til å bruke sentralgrenseteoremet. Oppgave 3 Gruvedrift a) For å forenkle uttrykkene innfører vi = n (x i x) 2. Variansen til ˆβ 1 er [ n Var[ˆβ 1 ] = Var (x ] i x)y i S [ xx n ] = 1 Var (x Sxx 2 i x)y i = 1 n Var[(x Sxx 2 i x)y i ] = 1 n (x Sxx 2 i x) 2 σ 2 = σ2. Ved andre likhet flyttes konstanten ut, ved tredje likhet brukes uavhengigheten til de ulike Y i, ved fjerde likhet flyttes konstanten ut og Var[Y i ] = σ 2 benyttes.

Side 7 av 10 Forventningsverdien til ˆβ 1 er n E[ˆβ 1 ] = (x i x)e[y i ] S xx n = (x i x)(β 0 +β 1 x i ) = β n 0 (x i x)+β n 1 (x i x)x i = β 0 0+β 1 ( n x2 i n x2 ) = β 1 = β 1. Dermed er ˆβ 1 forventningsrett. b) Fra uttrykket for ˆβ 1 ser vi at ˆβ 1 er en lineærkombinasjon av uavhengige Y i som er normalfordelte. Dette betyr at ˆβ 1 også er normalfordelt, og vi har ˆβ 1 N(β 1,σ 2 / ). Vi kan derfor lage et konfidensintervall basert på den stokastiske variabelen Z = ˆβ 1 β 1 σ/ N(0,1). For et 90% konfidensintervall trenger vi z som er slik at P( z < Z < z) = 0.90. Denne verdien er som kjent z 0,05 = 1,645. Deretter jobber vi oss fra ulikhetene z 0,05 < Z < z 0,05 til et intervall for β 1. Vi får intervallet. z 0,05 < ˆβ 1 β 1 σ/ < z 0,05, σ z 0,05 < ˆβ σ 2 1 β 1 < z 0,05, Sxx σ ˆβ 1 z 0,05 < β 1 < ˆβ σ 1 +z 0,05. Sxx Sxx Vi finner x = 2, = 4 og ˆβ 1 = y 1 y 2 +y 6 +y 7 4 = 2,7 3,1+4,1+5,5 4 = 0,95.

Side 8 av 10 Dermed blir intervallet (0,95 1,645 0,5/2,0,95+1,645 0,5/2) (0,54,1,36). Basert på uttrykket for konfidensintervallet som vi har funnet så er lengden av intervallet bestemt av z 0,05 σ/. Av faktorene i dette uttrykket er det bare vi kan påvirke. Denne faktoren inngår i nevneren slik at jo større er jo mindre er lengden av konfidensintervallet. Med andre ord vil det beste være å gjøre størst mulig under begrensningen at vi skal måle 7 punkter fordelt på bergart 1, 2 og 3. Siden betegner summen av kvadratavvikene virker det rimelig at det beste er å fordele målingene omtrent jevnt i bergart 1 og bergart 3. For 3 prøver i bergart 1, 1 prøve i bergart 2 og 3 prøver i bergart 3 får vi = 6 som er bedre enn punktene brukt i oppgaven. Dette er rimelig siden målingene i bergart 2 ikke hadde noen innvirkning på siden x = 2. For 1 prøve i bergart 1, 5 i bergart 2 og 1 i bergart 3 for vi = 2 som er dårligere enn punktene brukt i oppgaven. Dette er rimelig siden de fleste x-verdiene er lik 2 som ikke har noen påvirkning på når x = 2. Ettersom det er ønskelig med mest mulig spredning lønner det seg å flytte også den siste måling i bergart 2 til noe annet. Med 4 målinger i bergart 1 og 3 målinger i bergart 3 får vi = 6.86. Disse resultatene er rimelige fordi ˆβ 1 er estimatoren til et stigningstall. Når vi skal estimere stigningstallet er vi mindre påvirket av usikkerheten i y-verdiene jo lenger avstand vi har mellom x-punktene. Dette er fordi σ blir mindre relativt til økningen i y. Med liten avstand mellom x-punktene vil det være nærmest umulig å skille en faktisk økning på grunn av β 1 x og en forandring på grunn av usikkerheten i de to punktene vi har målt. Derimot hvis β 1 x er mye større enn σ er målingen av økningen nærmest upåvirket av usikkerheten i y-punktene. I virkelige situasjoner er det ikke nødvendigvis mulig å gjøre avstanden veldig stor i forhold til σ. Et annet viktig punkt er at denne tankegangen krever at man faktisk stoler på at modellen er korrekt. Hvis dette ikke er tilfellet er det bedre å fordele målingene utover de mulige verdiene enn å bare bruke endepunktene. c) La Ŷ0 være prediktoren basert på (x 1,Y 1 ),(x 2,Y 2 ),...,(x 7,Y 7 ) ved x 0, gitt ved og la Ŷ 0 = ˆβ 0 + ˆβ 1 x i, Y 0 = β 0 +β 1 x 0 +ǫ 0, hvor ǫ 0 N(0,σ 2 ), være en ny måling ved x 0 uavhengig av Y 1,Y 2,...,Y 7. Legg merke til at vi umiddelbart har Y 0 N(β 0 + β 1 x 0,σ 2 ). For Ŷ0 setter vi inn ˆβ 0 = Ȳ ˆβ 1 x i Ligning (1), Ŷ 0 = Ȳ + ˆβ 1 (x 0 x). (1)

Side 9 av 10 For å finne prediksjonintervallet har vi lyst til å basere oss på Ŷ0 Y 0, men for å gjøre dette trenger vi forventningsverdi og varians til Ŷ0. Forventningsverdi finner vi ved [ ] 1 7 E[Ŷ0] = E Y i + 7 ˆβ 1 (x 0 x). Her er forventningsverdi til ˆβ 1 kjent og (x 0 x) er en konstant slik at vi får E[Ŷ0] = 1 7 7 E[Y i ]+β 1 (x 0 x) = 1 7 7 (β 0 +β 1 x i )+β 1 (x 0 x) = β 0 +β 1 x+β 1 (x 0 x) = β 0 +β 1 x 0. For å beregne variansen trenger vi å vite at Ȳ og ˆβ 1 er uavhengige, eller vise det ved ( Cov(Ȳ, ˆβ 1 7 7 j=1 1 ) = Cov Y i, (x ) j x)y j 7 S xx = 1 7 7 (x j x)cov(y i,y j ). 7 j=1 Her er Cov(Y i,y j ) = 0 når i j og Cov(Y i,y i ) = Var(Y i ) = σ 2. Dette gir Cov(Ȳ, ˆβ 1 ) = 1 7 7 (x j x)cov(y j,y j ) j=1 = 1 7 σ 2 = 0. 7 (x j x) j=1 Med denne informasjonen kan vi regne ut Var[Ŷ0] = Var[Ȳ +β 1(x 0 x)] = Var[Ȳ]+(x 0 x) 2 Var[ˆβ 1 ] = σ2 7 + (x 0 x) 2 σ 2, hvor vi har brukt at Ȳ og ˆβ 1 er ukorrelerte ved likhet nummer 2. Vi har totalt at E[Ŷ0 Y 0 ] = 0

Side 10 av 10 og at Dermed er Var[Ŷ0 Y 0 ] = Var[Ŷ0]+Var[Y 0 ] = σ2 7 + (x 0 x) 2 σ 2 +σ 2. Z = Ŷ 0 Y 0 σ 1+ 1 + (x 0 x) 2 7 N(0,1), og vi kan gjenta utregningene for konfidensintervallet i b) for å få prediksjonintervallet Ŷ 0 z 0,05 σ 1+ 1 7 + (x 0 x) 2 < Y 0 < S Ŷ0 +z 0,05 σ 1+ 1 xx 7 + (x 0 x) 2. Ved å sette inn tall får vi Ŷ 0 = ȳ ˆβ 1 (x 0 x) = 3,814+0,95(3 2) 4,76. I tillegg har vi z 0,05 σ Dette gir intervallet 1+ 1 7 + (x 0 x) 2 = 1,645 0,5 (4,76 0,97,4,76+0,97) (3,79,5,73). 1+ 1 7 + 12 4 0,97.