TMA4240 Statistikk Høst 2016

Like dokumenter
TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2015

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk 2014

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4245 Statistikk Høst 2016

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

TMA4240 Statistikk H2010

HØGSKOLEN I STAVANGER

i x i

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

x λe λt dt = 1 e λx for x > 0 uavh = P (X 1 v)p (X 2 v) = F X (v) 2 = (1 e λv ) 2 = 1 2e λv + e 2λv = 2 1 λ 1 2λ = 3

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Eksamensoppgave i TMA4240 Statistikk

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4240 Statistikk Høst 2009

Kapittel 2: Hendelser

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

TMA4240 Statistikk Høst 2008

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

TMA4240 Statistikk H2015

Oppgave 1 a) La X være massen til et tilfeldig valgt egg, målt i gram. Sannsynligheten for at et tilfeldig valgt egg veier mer enn 60 g er

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Eksamensoppgave i TMA4245 Statistikk

Forslag til endringar

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Kontinuerlige sannsynlighetsfordelinger.

TMA4240 Statistikk Høst 2018

LØSNINGSFORSLAG ) = Dvs

TMA4240 Statistikk Eksamen desember 2015

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

TMA4240 Statistikk 2014

Om eksamen. Never, never, never give up!

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

FORMELSAMLING TIL STK1100 OG STK1110

Løsningsforslag, eksamen statistikk, juni 2015

TMA4240 Statistikk H2010

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

Gammafordelingen og χ 2 -fordelingen

Norske hoppdommere og Janne Ahonen

Eksamensoppgave i ST0103 Brukerkurs i statistikk

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

6 x P (X = x) = x=1 = P (X 2 = 6)P (X 2 = 6)P (X 3 = 6) =

Om eksamen. Never, never, never give up!

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Oppgave 1 Vi lar X være antall tankskip som ankommer havnen i løpet av en dag. Vi har fått oppgitt at X poisson(λ) med

Oppfriskning av blokk 1 i TMA4240

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsning eksamen desember 2017

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO Matematisk Institutt

Kap. 8: Utvalsfordelingar og databeskrivelse

Kapittel 4.4: Forventning og varians til stokastiske variable

Løsningsforslag til oppgaver brukt i STA100

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk H2010

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4245 Statistikk Eksamen august 2014

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

ÅMA110 Sannsynlighetsregning med statistikk, våren

Løsningsforslag oblig 1 STK1110 høsten 2014

TMA4240 Statistikk Høst 2015

Fasit for tilleggsoppgaver

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Bootstrapping og simulering Tilleggslitteratur for STK1100

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

STK Oppsummering

Medisinsk statistikk Del I høsten 2009:

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Regneøvelse 22/5, 2017

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 9 Løsningsskisse Oppgave 1 a) Vi lar her Y være antall fugler som kolliderer med vindmølla i løpet av den gitte perioden på t = 5 uker. Siden Y er poissonfordelt med intensitet λ = 1 fugl/uke, har Y punktsannsynlighet P (Y = y) = (λt)y e λt = 5y y! y! e 5, y = 0, 1, 2,.... Figur 1 illustrerer denne punktsannsynligheten for verdier av y mellom 0 og 14. Sannsynligheten for at mer enn 10 fugler kolliderer i løpet av vedkommende periode er da P (Y > 10) = 1 P (Y 10) = 1 10 y=0 Sannsynligheten for at færre enn fem fugler kolliderer er P (Y < 5) = P (Y 4) = 0.44, 5 y y! e 5 = 1 0.986 = 0.014. og den betingede sannsynligheten for at ingen fugler kolliderer, gitt at færre enn fem gjør det, er P (Y = 0 Y < 5) = P (Y = 0 Y < 5) P (Y < 5) = P (Y = 0) P (Y < 5) = e 5 0.44 = 0.015. b) Rimelighetsfunksjonen er sannsynligheten for å få Y = 261 med parameter 4 52λ = 208λ. Rimelighetsfunksjonen er en funksjon av parameteren λ. Vi tar logaritmen til rimelighetsfunksjonen for å forenkle utregningene, l(λ) = log P (Y = 261; λ) = 261 log(208λ) log(261!) 208λ Vi finner maksimum ved å derivere med hensyn på λ, Dette gir ˆλ = 261/208 = 1.25. l (λ) = 261 λ 208 = 0 λ = 261 208. anb9-lsf-b 30. september 2016 Side 1

0.2 P(Y = y) 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 y Figur 1: Punktsannsynligheten til den stokastiske variabelen Y, som er poissonfordelt med forventningsverdi µ = λ t = 5. c) Momentgenererende funksjon til en sum av to uavhengige variabler er produktet av de momentgenererende funksjonene for de to variablene. Momengenererende funksjon for en Poisson-fordelt variabel er M X (t) = y=0 ty λy e y! e λ = (e t λ) y e λ = e λ(et 1) (e t λ) y e etλ = e λ(et 1) y! y! y=0 hvor den siste summen er 1 fordi det er en sum over en Poisson-fordelt variabel med parameter e t λ. Da er y=0 M Z (t) = M X (t)m Y (t) = e λ(et 1) e ν(et 1) = e (λ+ν)(et 1) Vi kjenner igjen formen på funksjonen som en momentgenererende funksjon. Dette er momentgenererende funksjon til en Poisson-fordelt tilfeldig variabel med parameter λ + ν. Oppgave 2 a) Sannsynligheten for at ventetiden er lenger enn 2 uker: P (X > 2) = 1 P (X 2) = 1 F (2) = 1 (1 exp( 0.04 2 2 )) = exp( 0.16) = 0.8521. Sannsynligheten for at du må vente minst 5 uker, gitt at du må vente i minst 2 uker: P (X > 5 X > 2) = P (X > 5 X > 2) P (X > 2) = P (X > 5) 1 P (X 5) = P (X > 2) P (X > 2) = 1 F (5) P (X > 2) = 1 (1 exp( 0.04 52 )) = 0.3679 0.8521 0.8521 = 0.4317. Sannsynlighetstettheten til X for x 0 finner vi ved å derivere F (x): f(x) = df (x) dx = 0 ( 2αx exp( αx 2 )) = 2αx exp( αx 2 ), for x 0. anb9-lsf-b 30. september 2016 Side 2

b) SME for α: TMA4240 Statistikk Finner først rimelighetsfunksjonen, som er simultanfordelingen for X 1, X 2,..., X n sett på som funksjon av x i ene og α: L(x 1, x 2,..., x n ; α) = f(x 1, x 2,..., x n ; α) = Tar logaritmen: = n f(x i ; α) n n 2αx i exp( αx 2 i ) = 2 n α n ( x i ) exp( α l(x 1, x 2,..., x n ; α) = ln L(x 1, x 2,..., x n ; α) = nln2 + nlnα + Deriverer med hensyn på α og setter lik 0: n x 2 i ). n lnx i α n x 2 i. l(x 1, x 2,..., x n ; α) α = 0 + n n α + 0 x 2 i = 0 n n α = α = x 2 i n n. x2 i Dvs. SME for α er α = n n, som er ulik ˆα. ˆα er dermed ikke SME for α. x2 i Estimator ˆµ for µ: ˆµ = n π π 2 ˆα = X2 i 2. n 1 Innsatt verdier blir ˆα = 0.029 og estimatet for µ blir ˆµ = π 2 ˆα = π 2 = 5.2 uker. 0.029 c) Sannsynlighetsfordelingen for Y = X 2 finner vi ved å bruke transformasjonsformelen. La Y = u(x) = X 2 slik at X = w(y ) = Y (har at X > 0). Dermed er f Y (y) = f X (w(y)) w (y) = 2α y exp( α( y) 2 1 ) 2 y = α exp( αy). Dette er sannsynlighetstettheten i eksponensialfordelingen med forventning 1/α, og dermed har vi vist at Y er eksponensialfordelt. Forventningsverdi for ˆα: ( ) ( n 1 E(ˆα) = E n = (n 1) E X2 i 1 n X2 i Her har vi brukt resultatet oppgitt i oppgaveteksten. Siden E(ˆα) = α, er ˆα forventningsrett. ) 1 = (n 1) (1/α)(n 1) = n 1 n 1 α = α. anb9-lsf-b 30. september 2016 Side 3

Oppgave 3 TMA4240 Statistikk Scriptet run confds.m simulerer n data x 1,..., x n fra en normalfordeling med forventningsverdi µ = 1 og varians σ 2 = 2 2 ved å trekke n ganger fra en standard normalfordeling y i N(0, 1) og utføre lineærtransformasjonen x i = µ + σ y i, i = 1,..., n Fra uttrykket kan vi greit regne på at da vil x i N(µ, σ 2 ). (I Matlab trekker man fra en standard normalfordeling med funksjonen randn ). Kjører vi scriptet får vi et histogram av n = 10000 simulerte data x 1,..., x n, som f.eks. kan se slik ut Figur 2: Histogram av n = 10000 simulerte data fra N(1, 2 2 ) Histogrammet til høyre er standardisert, altså transformert slik at areal under histogramsøylene blir 1. I plottet er det i grønt også tegnet inn kurven for normalfordelingen med forventning 1 og standardavvik 2. Vi ser at de simulerte dataene overlapper normalfordelingen de kommer fra veldig bra. Dette siden vi simulerer såpass mange datapunkter. Det resulterende gjennomsnittet ˆµ = 1 n n x i = 1.0047 er veldig nærme den sanne forventningsverdien som også ligger innenfor det estimerte konfidensintervalet [0.96591.0434]. Trekker vi stedet n = 100000 data (setter altså parameteren n i scriptet til 100000) kan histogrammet f.eks. se ut som i Fig.2 med estimert forventningsverdi ˆµ = 0.9983 og estimert 95% konfidensinterval [0.9859, 1.0107]. Igjen er estimatet tilnærmet likt sann forventnigsverdi, som ligger innenfor konfidensintervalet, og overlappen mellom dataene og normalkurven er enda bedre. Trekker vi n = 1000 data (setter altså parameteren n i scriptet til 1000) kan histogrammet f.eks. se ut som i Fig.3. med estimert forventningsverdi ˆµ = 0.9594 og estimert 95% konfidensinterval [0.83741.0815]. Estimatet er fortsatt bra, men ikke like nærme som i tilfellene med høyere n. Vi ser også at estimert konfidensinterval er litt bredere, og at overlappen mellom dataene og normalkurven er dårligere (dette er også fordi vi har så liten oppløsning på histogrammet). anb9-lsf-b 30. september 2016 Side 4

Figur 3: Histogram av n = 100000 simulerte data fra N(1, 2 2 ) Figur 4: Histogram av n = 1000 simulerte data fra N(1, 2 2 ) Det estimerte konfidensintervalet er beregnet som [ ˆµ 1.96 ˆσ n, ˆµ + 1.96 ] ˆσ n Når datamengden vokser og estimatet på standardaviket ikke varierer mye ser vi at faktoren ˆσ n går mot 0, altså blir konfidensintervalet smalere jo større datamengden er. Vi merker oss også at vi her har brukt kvantilen z 0.025 = 1.96 fra en normalfordeling selv om vi her bruker estimert varians. Med ukjent varians burde vi egentlig brukt kvantiler fra t-fordeling, men siden datamangden er så stor (n 1000) vil t-fordeling med n 1 frihetsgrader være tilnærmet lik standard normalfordeling. Oppgave 4 a) I dette punktet lar vi X være en bestemt ph-måling, og antar at X er normalfordelt med forventningsverdi µ = 6.8 og varians σ 2 = 0.060 2. Sannsynligheten for at resultatet anb9-lsf-b 30. september 2016 Side 5

av målingen er under 6.74 er da P (X < 6.74) = P ( X 6.8 6.74 6.8 < ) 0.06 0.06 = Φ( 1) = 1 Φ(1) = 1 0.841 = 0.159. Videre er sannsynligheten for at resultatet av målingen ligger mellom 6.74 og 6.86 lik P (6.74 < X < 6.86) = P (X < 6.86) P (X < 6.74) = P ( X 6.8 6.86 6.8 < ) 0.159 0.06 0.06 = Φ(1) 0.159 = 0.841 0.159 = 0.682. Sannsynligheten for at avviket X µ overstiger 0.06 er P ( X µ ) > 0.06) = P (X µ < 0.06) + P (X µ > 0.06) = P ( X µ µ < 1) + P (X 0.06 0.06 > 1) = Φ( 1) + 1 Φ(1) = 2(1 Φ(1)) = 0.318. Den samme sannsynligheten kan også regnes ut som følger: P ( X µ ) > 0.06) = 1 P (6.74 < X < 6.86) = 1 0.682 = 0.318. b) Vi laster opp fila i Matlab og sjekker hvor stor andel av målingene som er lavere enn 6.74. data=load( ph.txt ) N= length(data) %Antall elementer i datasettet. Her: 53. prob1=sum(data<6.74)/n På samme måte undersøker vi hvor stor andel av målingene som er mellom 6.74 og 6.86, og andel målinger der forskjellen mellom målt verdi og µ = 6.8 er større enn 0.06. prob2=sum(data>6.74 & data < 6.86)/N mu=6.8 prob3=sum(abs(data-mu)>0.06)/n Datasettet gir svarene prob1=0.0755, prob2=0.6415 og prob3=0.3396 som de empiriske sannsynlighetene for henholdsvis P (X < 6.74), P (6.74 < X < 6.86) og P ( X µ < 0.06). Datasettet gir sannsynligheter som er i nærheten av det vi fant i oppgave a). Hadde vi hatt enda flere målinger i datasettet, ville vi forventet at datasettet hadde gitt oss sannsynligheter som var enda nærmere de teoretiske verdiene fra a). c) Her er Y gjennomsnittet av de N uavhengige målingene X 1, X 2,..., X N, som alle er normalfordelte med forventningsverdi µ og varians σ 2. Siden Y er en lineærkombinasjon anb9-lsf-b 30. september 2016 Side 6

0.4 0.3 φ(z) 0.2 0.1 2.5% 95% 2.5% 0 z 0.025 z z 0.025 Figur 5: Sannsynlighetstettheten φ(z) til den standard normalfordelte stokastiske variabelen Z. Kvantilene ±z 0.025 = ±1.96 er markert. av normalfordelte tilfeldige variable, vet vi at Y selv er normalfordelt. Forventningsverdien og variansen til Y er henholdsvis ( ) 1 N E(Y ) = E X i = 1 N E(X i ) = 1 N N N Nµ = µ og ( ) 1 N Var(Y ) = Var X i N slik at Y N(µ, σ 2 /N). Den tilfeldige variabelen = 1 N 2 N Z = Y E(Y ) Var(Y ) = Y µ σ 2 /N Var(X i ) = 1 N 2 Nσ2 = σ2 N, er standard normalfordelt, Z N(0, 1). Et 95% konfidensintervall for µ kan konstrueres ved å ta utgangspunkt i et tilsvarende konfidensintervall for Z (se figur 5), og så manipulere dette slik at µ isoleres, 0.95 = 1 2 0.025 = P ( z 0.025 Z z 0.025 ) ( ) = P z 0.025 Y µ σ 2 /N z 0.025 ( ) σ 2 σ = P Y z 0.025 N µ Y + z 2 0.025. N Vi bruker Matlab til å regne ut gjennomsnittet av de 53 målingene i ph.txt og regner ut et konfidensintervall for µ basert på det spesifikke datasettet: anb9-lsf-b 30. september 2016 Side 7

N=53 sigma=0.06 y=mean(data) CI=[y-1.96*sqrt(sigma^2/N),y+1.96*sqrt(sigma^2/N)] TMA4240 Statistikk For dette datasettet er y = 6.8108. Setter vi inn den observerte verdien y = 6.8108, variansen σ 2 = 0.060 2, og 0.025-kvantilen til standard normalfordelingen z 0.025 = 1.96, får vi konfidensintervallet: [ ] [ ] σ 2 σ y z 0.025 N, y + z 2 0.060 2 0.060 2 0.025 = 6.8108 1.96, 6.8108 + 1.96 N 53 53 = [6.7946, 6.8269]. anb9-lsf-b 30. september 2016 Side 8