La U og V være uavhengige standard normalfordelte variable og definer

Like dokumenter
To-dimensjonale kontinuerlige fordelinger

Kapittel 4: Matematisk forventning

Transformasjoner av stokastiske variabler

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Prosjektoppgaver om diusjonsprosesser og diusjonstilnærmelse

HØGSKOLEN I STAVANGER

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Forventning og varians.

FORMELSAMLING TIL STK1100 OG STK1110

Forventning og varians.

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4245 Statistikk Eksamen desember 2016

Gammafordelingen og χ 2 -fordelingen

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4240 Statistikk Høst 2016

Fasit for tilleggsoppgaver

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

FORMELSAMLING TIL STK1100 OG STK1110

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Prosjektoppgaver om diusjonsprosesser og diusjonstilnærmelse

Matematisk evolusjonær genetikk (ST2301)

Eksamensoppgave i TMA4240 Statistikk

statistikk, våren 2011

TMA4240 Statistikk Høst 2015

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Kapittel 2: Hendelser

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Utvalgsfordelinger (Kapittel 5)

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Utvalgsfordelinger (Kapittel 5)

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

TMA4240 Statistikk Eksamen desember 2015

Forelesning 13. mars, 2017

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4245 Statistikk Eksamen desember 2016

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Løsningsforslag, eksamen statistikk, juni 2015

TMA4240 Statistikk Høst 2008

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Foreleses onsdag 8. september 2010

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

Kap. 8: Utvalsfordelingar og databeskrivelse

HØGSKOLEN I STAVANGER

6.5 Normalapproksimasjon til. binomisk fordeling

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk Høst 2018

Forelening 1, kapittel 4 Stokastiske variable

Løsningsforslag til obligatorisk oppgave i ECON 2130

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

Kontinuerlige sannsynlighetsfordelinger.

STK juni 2006

Regneøvelse 22/5, 2017

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Tilleggsoppgaver for STK1110 Høst 2015

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Øving 12, ST1301 A: B:

TMA4240 Statistikk Høst 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Eksamensoppgåve i TMA4240 Statistikk

Oppfriskning av blokk 1 i TMA4240

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010

TMA4240 Statistikk H2017 [15]

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Oppgavesett 5, s. 1. Oppgave 1. Oppgave 2. Oppgave 3

Kapittel 4.4: Forventning og varians til stokastiske variable

Forelesning 27. mars, 2017

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Oppgave 1 a) La X være massen til et tilfeldig valgt egg, målt i gram. Sannsynligheten for at et tilfeldig valgt egg veier mer enn 60 g er

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk Høst 2009

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Løsningsforslag statistikkeksamen desember 2014

Oppgave 1: Feil på mobiltelefoner

STK Oppsummering

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Om eksamen. Never, never, never give up!

Statistikk 1 kapittel 4

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Et lite notat om og rundt normalfordelingen.

EKSAMEN I TMA4240 Statistikk

UNIVERSITETET I OSLO

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Løsningsforslag eksamen 27. februar 2004

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Om eksamen. Never, never, never give up!

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

Transkript:

Binormalfordelingen Definisjon Noe av hensikten med å innføre begrepet betinget sannsynlighet er at kompliserte modeller ofte kan bygges ut fra enkle betingede modeller. Når man spesifiserer betingelser (hendelser som er gitt) får man ofte et enklere utfallrom å arbeide med. Ved hjelp av setninger for betingede sannsynligheter kan kan vi så bygge mer kompliserte modeller. Binormalfordelingen, som er den viktigste to-dimensjonale fordelingen, kan også enklest konstrueres ved å ta utgangspunkt i betingede endimensjonale fordelinger. La U og V være uavhengige standard normalfordelte variable og definer X = U () Y = au + bv (2) hvor a og b er konstanter. Siden Y er en lineær funksjon av U og V er både X og Y her normalfordelte. Variansen til Y vil være lik hvis a 2 + b 2 =. Kovariansen mellom X og Y er lik a, og hvis variansene er så er dette også korrelasjonen mellom X og Y. Ved å velge a = ρ og b = a 2 = ρ 2, dvs. Y = ρu + ρ 2 V (3) blir X og Y standard normalfordelte variable med korrelasjon ρ. Simultanfordelingen til (X, Y ) kan skrives på formen f X,Y (x, y) = f Y X (y x)f X (x) (4)

hvor den betingede fordelinge f Y X (y x) er fordelinen til ρu + ρ 2 V når U er gitt (dvs. X er gitt). Siden U og V er uavhengige vil V være standard normalfordelt selv om U er gitt. Når U er gitt lik x er ρu + ρ 2 V (dvs. Y ) derfor normalfordelt med forventning ρx og varians ρ 2. Ved å sette dette inn i (4) finner vi f(x, y) = 2π( ρ 2 ) e (y ρx) 2 2( ρ 2 ) 2π e x2 2 (5) som kan trekkes sammen til f(x, y) = 2π x 2 2ρxy+y 2 ρ 2 e 2( ρ 2 ). (6) Dette er en standard binormalfordeling med korrelasjon ρ. Vi kan konstruere den generelle binormale fordelingen på en tilsvarende måte ved å redefinere (X, Y ) som X = σ x U + µ x (7) Y = σ y (ρu + ρ 2 V ) + µ y. (8) Da har vi at X er N(µ x, σx), 2 Y er N(µ y, σy) 2 og korrelasjonen mellom X og Y er fremdeles lik ρ. Fordelingen til Y gitt X = x er N(µ y + ρ σy σ x (x µ x ), σy( ρ 2 2 )). Ved igjen å sette inn i (4) og forenkle uttrykket i eksponenten finner vi f(x, y) = 2πσ x σ y ρ 2 e [ 2( ρ 2 (x µx) 2 σ 2 x 2ρ (x µx)(y µy) σxσy ] + (y µy)2 σy 2. (9) Dette er den generelle binormalfordelingen. Marginalfordelingene til X og Y er N(µ x, σ 2 x) og N(µ y, σ 2 y) og vi har sett at den betingede fordelingen til Y gitt X = x er normalfordelingen med forventning og varians 2

E(Y X = x) = µ y + σ y σ x ρ(x µ x ) (0) var(y X = x) = σ 2 y( ρ 2 ). () Siden uttrykket for f(x, y) er symmetrisk i x og y (vi får samme formel om vi bytter om x og y) har vi også E(X Y = y) = µ x + σ x σ y ρ(y µ y ) (2) var(x Y = y) = σ 2 x( ρ 2 ). (3) Det kan også vises at dersom (X, Y ) er binormalfordelt så er også (Z, W ) binormalfordelt når Z og W er lineære uttrykk i X og Y, dvs. Z = cx + dy og W = ex + fy. Sentralgrenseteoremet i to dimensjoner La nå (X i, Y i ), i =, 2,... n være n uavhengige to-dimensjonale stokastiske variable med samme to-dimensjonale fordeling med forventninger µ x og µ y, varianser σ 2 x og σ 2 y og korrelasjon ρ. Sentralgrenseteoremet i en dimensjon sier da at fordelingen til ( X µ x ) n/σ x og (Ȳ µ y) n/σ y vil konvergere mot standard normalfordelingen når n vokser mot uendelig. Ifølge sentralgrenseteoremet i to dimensjoner vil simultanfordelingen til disse to variable konvergere mot standard binormalfordelingen gitt ved likning (6). Siden vilkårlige lineærkombinasjoner av komponentene også er binormalfordelt blir da også ( X, Ȳ ) og ( X i, Y i ) tilnærmet binormalfordelt når n er stor. Eksempel a - Multiplikativ vekst Naturlig vekst, for eksempel individers lengde og vekt, eller vekst i størrelsen til en populasjon, kan ofte uttrykkes med en såkalt multiplikativ modell. La størrelsen ved tid (alder) t = 0 være S 0 og anta modellen 3

S t+ = S t X t, (4) hvor faktorene X t som størrelsen multipliseres med i løpet av en tidsenhet (f. eks et år) antas å være uavhengige med samme fordeling. Ved å løse dette rekursivt finner vi da at S t+ = S 0 X X 2... X t. (5) Ved å ta logaritmen på begge sider finner vi t ln S t+ = ln S 0 + ln X i. (6) i= Det følger da av sentralgrenseteoremet i en dimensjon at ln S t+ er tilnærmet N(ln S 0 + µ t, σ 2 t), hvor µ = E(ln X i ) og σ 2 = var[ln(x i )]. La nå W t være en annen størrelse som vokser og oppfyller tilsvarende modell t ln W t+ = ln W 0 + ln(y i ) i= hvor faktorene Y i her er uavhengige med samme fordeling. Her har vi tilsvarende at ln W t+ er tilnærmet N(ln W 0 + µ 2 t, σ2t), 2 hvor µ 2 = E(ln Y i ) og σ2 2 = var[ln(y i )]. Dersom de to størrelsene vokser i det samme miljøet er det rimelig å tro at X i og Y i vil være avhengige. Da vil (ln S t, ln W t ) være tilnærmet binormalfordelt med korrelasjon ρ = corr(ln X i, ln Y i ). Legg merke til at S t og W t nå vil være tilnærmet lognormalfordelte. Simultanfordelingen til (S t, Y t ), som vi ikke skal utlede her, kalles da en bilognormalfordeling. 4

Eksempel b - Høydefordeling for kvinner og menn Anta at høyden til kvinner og menn er hhv. N(70, 7 2 ) og N(80, 7 2 ) og at andelen kvinner i en stor populasjon er 0.5. Vi betrakter et tilfeldig utvalg av n personer fra populasjonen. Til hver person kan vi knytte en todimensjonal variabel (X, Y ), der X er høyden og Y en indikatorvariabel for kjønn definert slik at Y = for en kvinne og Y = 0 for en mann. Siden populasjonen er stor kan utvalget betraktes som n uavhengige todimensjonale observasjoner (X, Y ), (X 2, Y 2 ),..., (X n, Y n ). Andelen av kvinner i utvalget kan nå uttrykkes som middelverdien Ȳ, mens X er middelhøyden i utvalget. Ifølge sentralgrenseteoremet er da ( X, Ȳ ) tilnærmet binormalfordelt når n er stor. La oss først finne parametrene i denne fordelingen. Vi vet fra før at korrelasjonen mellom middelverdiene generelt er lik korrelasjonen mellom X i og Y i. Forventningen til (X Y ) kan uttrykkes som E(X Y ) = 70Y + 80( Y ). (7) (Sett inn Y = 0 og Y = for å kontrollere at dette er riktig). Setningen om dobbeltforventning gir da EX = 70EY + 80( EY ) = 75 (8) siden EY = 0.5. Vi kan finne EX 2 på samme måten E(X 2 Y ) = (70 2 + 7 2 )Y + (80 2 + 7 2 )( Y ) (9) som gir ubetinget EX 2 = 30699 og var(x) = EX 2 (EX) 2 = 74. Vi ser at den ubetingede variansen til X er mye større enn den betingede variansen som er antatt lik 7 2, fordi den ubetingede også tar hensyn til variasjonen mellom menn og kvinner. Vi har nå at at X er tilnærmet N(75, 74/n). Videre har vi at Y i er bin(n/2, n/4) slik at Ȳ er tilnærmet N(, ). 2 4n Det gjenstår å finne korrelasjonen mellom X og Y. Vi finner da først kovariansen mellom X og Y ved igjen å bruke setningen om dobbeltforventning. 5

Vi ser at E(XY Y ) = 70Y (20) (kontroller for Y = 0 og Y = ). Ubetinget finner vi dermed E(XY ) = EE(XY Y ) = E(70Y ) = 85. Kovariansen blir da cov(x, Y ) = 85 75 2 = 2.5 og korrelasjonen ρ = 2.5/ 74 = 0.582. Dette er da også korrelasjonen mellom X og Ȳ og vi har dermed beregnet alle parametrene i 4 binormaltilnærmelsen. Anta nå at vi har et utvalg av n = 00 personer og har observert X = 73.2. Dette skulle tyde på at det er flere kvinner i utvalget enn menn (fordi observasjonen er mindre enn den ubetingede forventingen 75). Hendelsen {flere kvinner enn menn} kan uttrykkes som {Ȳ > 0.5}. Vi har vist at Ȳ gitt X = 73.2 er normalfordelt med forventning og varians gitt ved likningene (0) og (). Innsatt finner vi at den betingede fordelingen er N(0.5608, 0.04069 2 ). Herav finner vi at P (Ȳ > 0.5 X = 73.2) = Φ( Eksempel c - Arvbarhet 0.5 0.5608 ) = Φ(.494) = 0.933. (2) 0.04069 La P betegne en fenotype, dvs. en kvantitativ størrelse som kan måles på et individ. I kvantitativ genetikk kan denne uttrykkes som P = G + E, der G er avlsverdien ( breeding value ) som er genetisk bestemt, og E er en miljøkomponent som er bestemt av andre ting enn individets gener. Det er vanlig å skalere disse størrelsene (og eventuelt korrigere for forskjeller mellom kjønnene) slik at forventningsverdien er null. Det er ofte realistisk å anta at E er uavhengig av G, som gir var(p ) = σ 2 G + σ 2 E (22) hvor σ 2 G = var(g) og σ 2 E = var(e). Videre er ofte G og E normalfordelte. Ifølge teorien ovenfor blir da (P, G) binormalfordelt. Kovariansen mellom P og G er cov(g + E, G) = σ 2 G og korrelasjonen blir dermed 6

ρ = corr(p, G) = cov(p, G) var(p )var(g) = σ2 G σgσ 2 P 2 = σ G σ P. (23) Ifølge likning (2) har vi da E(G P ) = σ G σ P ρp = σ 2 G P = h 2 P, (24) σg 2 + σe 2 hvor h 2 = σ 2 G/(σ 2 G + σ 2 E) kalles arvbarheten til den kvantitative karakteren vi studerer. Hvis det nå virker en seleksjon på populasjon slik at individene som overlever har fenotypisk middel S vil da den midlere avlsverdien til disse være R = h 2 S. Ifølge den kvantitative genetiske teorien til Fisher vil avkommets avlsverdi i en populasjon (under visse forutsetninger som vi ikke skal diskutere her) være G avkom = 2 (G far + G mor) + ε hvor var(ε) = 2 σ2 G. Vi ser at dette sikrer at var(g avkom ) = σ 2 G slik at variansen ikke endres fra generasjon til generasjon. Fra denne modellen finner vi for eksempel cov(p avkom, Pmor) = 2 σ2 G (25) slik at korrelasjonen mellom P avkom og Pmor blir 2 h2. Siden P avkom og Pmor har samme varians og forventningsverdiene er null finner vi da fra (2) og (3) at E(P avkom Pmor) = 2 h2 Pmor (26) og var(p avkom Pmor) = ( 4 h4 )σ 2 P. (27) 7