TMA4240 Statistikk H2015

TMA4240 Statistikk H2015 Funksjoner av stokastiske variabler (kapittel 7+notat) Fokus på start med kumulativ fordeling 7.2 Funksjon av en SV (inkludert en-entydighet). Fordeling til max/min (fra notat). Mette Langaas Institutt for matematiske fag, NTNU wiki.math.ntnu.no/emner/tma4240/2015h/start/

Problemstillinger Vi kjenner fordelingen til IQ, levetid til en lyspære eller vindhastighet, men ikke til funksjoner av disse: Mensa-medlemskap: tester 20 personer, hva er fordelingen til den maksimale IQ-scoren? Juletrelyskjede i serie: hvert juletrelys har en fordeling for levetid. Kjeden slutter å fungere hvis ett lys slutter å fungere. Hva er fordelingen til levetiden til hele kjeden av juletrelys? Vindmølle: Vi skal konstruere en vindmølle for energiproduksjon. Vindmøllen må tåle kraftige vinder (og produsere maksimal med energi). Hvor kraftige vinder må vindmøllen tåle?

Problemstillinger Vi trenger også å kjenne til teoretiske resultater (til videre bruk når vi skal trekke konklusjoner fra innsamlede data): X er normal (µ, σ), hva er fordelingen til Z = (X µ)/σ? Z er standardnormal, hva er fordelingen til Z 2? Hva er fordelingen til en sum av uavhengige normalfordelte størrelser (binomiske, Poisson, khikvadrat)? Hvorfor så sterkt fokus på fordelingen til?

Løsninger 1. Direkte fra kumulativ fordeling (i dag) Transformasjonsformler [kap. 7.2: Teorem 7.1 og 7.3] : for funksjoner av EN stokastisk variabel. Notat om Ordningsvariabler og ekstremvariabler : for flere uavhengige stokastiske variabler. 2. Ved å gå over i et annen verden (tilsvarende Laplace-transformasjon fra Matematikk 4) (neste forelesning) Momentgenererende funksjoner [kap. 7.3] : for lineærkombinasjoner av flere uavhengige stokastiske variabler.

N(µ, σ) og N(0, 1) Hvis X har fordeling n(x; µ, σ), så vil Z = X µ σ ha fordeling n(z; 0, 1). Og generelt vil ax + b være normalfordelt med forventning E(aX + b) = aµ + b og varians Var(aX + b) = a 2 σ 2. Vi har (i forrige uke: kap 6) brukt dette resulatet til å regne ut sannsynligheter i en generell normalfordeling ved å bruke tabell over kumulativ fordeling for standard normal. 1 2 4 5 0.5

Z er N(0, 1) og Z 2 er khikvadrat med parameter 1 Hvis Z har fordeling n(x; 0, 1), så vil Z 2 ha en (for oss ny) fordeling som heter khikvadrat med parameter 1. Dette kommer til å være et viktig resultat når vi i neste uke (kap 8: utvalgsfordelinger) skal se på fordeling til variansen i et utvalg.

Khikvadrat fordelingen med ν = 1 f (x; ν = 1) = { 1 2π x 1/2 e x/2, x > 0 0 ellers. Kjikvadrat og khikvadrat brukes på norsk. Chi-squared på engelsk. Noteres ofte χ 2 1.

Khikvadrat fordelingen [6.8] En kontinuerlig stokastisk variabel X er khikvadrat fordelt med parameter ν (kalt frihetgrader), hvis sannsynlighetstettheten er gitt ved f (x; ν) = { 1 2 ν/2 Γ(ν/2) x ν/2 1 e x/2, x > 0 0 ellers. hvor ν er et positivt heltall.

7.2 Transformasjoner: u(x) og w(y) y = u(x) er en transformasjon fra x til y. Når y = u(x) er en-til-en, også kalt en-entydig, betyr det at en verdi av x er knyttet til bare en verdi av y (og omvendt). Ønsker å finne x som en funksjon av y: Løser y = u(x). Løsningen kaller vi x = w(y). Vi kaller u(x) og w(y) for inverse (omvendte) funksjoner.

Transformasjon av en kontinuerlig variabel TEO 7.3: Anta at X er en kontinuerlig stokastisk variabel med fordeling f (x). La Y = u(x ) være en en-til-en transformasjon mellom verdiene av X og verdiene av Y, slik at ligningen y = u(x) har en unik løsning, kall den x = w(y). Da er fordelingen til Y gitt som g(y) = f [w(y)] J. der J = w (y) = dw(y) dy kalles Jakobi-determinanten til transformasjonen. Ikke en-entydig: dele opp i områder med en-entydighet og summere (Teorem 7.5).

E(X) = P (X > x)dx. 0 Fra Tabeller og formeler i statistikk (s 34) k-parameter eksponensiell familie f(x; θ) = h(x)c(θ)e k i=1 wi(θ)ti(x). 4 Noen resultater for funksjoner av stokastiske variabler Transformasjonsformelen En variabel: La Y = u(x), der funksjonen u er strengt monoton og deriverbar for alle verdier av argumentet. La X = u 1 (Y ) = w(y ). Hvis X er kontinuerlig fordelt vil ogsåy være det. La f(x) være sannsynlighetstettheten til X og la g(y) være sannsynlighetstettheten til Y. Vi har da sammenhengen g(y) = f(w(y)) w (y). To variabler: La Y 1 = u 1 (X 1, X 2 ) og Y 2 = u 2 (X 1, X 2 ), der funksjonene u 1 og u 2 er strengt monotone og deriverbare for alle verdier av argumentene. La X 1 = w 1 (Y 1, Y 2 ) og X 2 = w 2 (Y 1, Y 2 ). Hvis (X 1, X 2 ) er kontinuerlig fordelt vil også (Y 1, Y 2 ) være det, og vi har g(y 1, y 2 ) = f(w 1 (y 1, y 2 ), w 2 (y 1, y 2 )) J der J er determinanten til Jacobi-matrisen, J = w 1/ y 1 w 1 / y 2 w 2 / y 1 w 2 / y 2. Lineærkombinasjoner La Y = n i=1 a ix i + b. Da er

Transformasjon av en diskret variabel TEO 7.1: Anta at X er en diskret stokastisk variabel med fordeling f (x). La Y = u(x ) være en en-til-en transformasjon mellom verdiene av X og verdiene av Y, slik at ligningen y = u(x) har en unik løsning, kall den x = w(y). Da er fordelingen til Y gitt som Bevis: g(y) = f [w(y)]. g(y) = P(Y = y) = P[u(X ) = y] = P[X = w(y)] = f [w(y)]. Ikke en-entydig: dele opp i områder med en-entydighet og summere.

IQ Poengsummen fra en IQ-test antas ofte å være normalfordelt i en populasjon, og flere av IQ-testene har en forventningsverdi på 100 og et standardavvik på 16. Forrige uke regnet vi ut at man måtte ha IQ-score større eller lik 132.86 for å være blant de 2% med høyest IQ-score i populasjonen. Jeg trekker et sample på 20 tilfeldig valgt personer fra denne populasjonen og lurer på hva er fordelingen til den maksimale IQ-scoren i dette utvalget? Vi trenger fordelingen til X (20) : maximum av 20 målinger!

PDF max IQ score for n=20 fra normal(100,16) fv(v) 0.00 0.01 0.02 0.03 0.04 0.05 100 120 140 160 180 IQ score

Maksimum Uavhengige stokastiske variabler: X 1, X 2,..., X n med kumulativ fordelingsfunksjon F X (x) = P(X x) og fordeling f X (x). V = max(x 1, X 2,..., X n ) Kumulativ fordelingsfunksjon for maksimum: F V (v) = [F X (v)] n Viktig: Hvis maksimum er mindre enn v må alle være mindre enn v. Sannsynlighetstetthet (hvis X -ene er kontinuerlige) f V (v) = n[f X (v)] n 1 f X (v) Eksempler: Parallellsystem. Ventetid til siste gjest ankommer (forlater) festen. Største årlige snølast og vindhastighet.

Kjede med juletrelys Noen kjeder med juletrelys er slik at hvis ett lys går i stykker så slutter hele kjeden å virke (seriesystem). Ofte antar man at levetiden til en lyspære er eksponensialfordelt med en parameter som gir forventet levetid (angitt når du kjøper lyspæren). Men, nå trenger vi fordelingen til X (1) : minimum av 24 målinger!

Julelys, n=1 (rod) max(n=24 (sort)), beta=1000 timer pdf 0.000 0.005 0.010 0.015 0.020 0 200 400 600 800 1000 1200 1400 timer

Eksponentialfordeling Blå (midterst) FX (x), rød (øverst) min F U (x), grønn (nederst) max F V (x).

Minimum Uavhengige stokastiske variabler: X 1, X 2,..., X n med kumulativ fordelingsfunksjon F X (x) = P(X x) og fordeling f X (x). U = min(x 1, X 2,..., X n ) Kumulativ fordelingsfunksjon for minimum F U (v) = 1 [1 F X (u)] n Viktig: Hvis minimum er større enn u, må alle være større enn u. Sannsynlighetstetthet (hvis X -ene er kontinuerlige) f U (u) = n[1 F X (u)] n 1 f X (u) Eksempler: Seriesystem. Ventetid til første heis (av n) mulige kommer. Minimum av eksponensialfordelte størrelser er også eksponensialfordelt. (Ditto for Weibull.)

kte ordningsvariabel Ser på X (k) : F X(k) (x) = P(k eller flere X i -er er x) Vi har en binomisk situasjon: n forsøk i hver forsøk (nummer i) registerer vi om Xi x eller ikke P(Xi x) = F X (x) for alle forsøkene og de n forsøkene er uavhengige. n ( ) n F X(k) (x) = P(k eller flere X i -er er x) = [F X (x)] j [1 F X (x)] n j j j=k Når X -ene er kontinuerlige kan sannsynlighetstettheten finnes ved å derivere m.h.p. x og etter noe mellomregning kan den skrives: ( ) n 1 f X(k) (x) = n [F X (x)] k 1 [1 F X (x)] n k f X (x) k 1

Løsninger 1. Direkte fra kumulativ fordeling (i dag) Transformasjonsformler [kap. 7.2: Teorem 7.1 og 7.3] : for funksjoner av EN stokastisk variabel. Notat om Ordningsvariabler og ekstremvariabler : for flere uavhengige stokastiske variabler. 2. Ved å gå over i et annen verden (tilsvarende Laplace-transformasjon fra Matematikk 4) (neste forelesning) Momentgenererende funksjoner [kap. 7.3] : for lineærkombinasjoner av flere uavhengige stokastiske variabler.