Fordelingsfunktionen. Definition (EH 17.1) Sætning (EH 17.2)

Fordelingsfunktionen Definition (EH 17.1) Hvis ν er et sandsynlighedsmål på (R, B) defineres fordelingsfunktionen for ν som funktionen ( ) F (x) = ν (, x] for x R. Sætning (EH 17.2) Et sandsynlighedsmål på (R, B) er entydigt bestemt af sin fordelingsfunktion. Slide 1/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Karakterisering Sætning (EH 17.3) En fordelingsfunktion F for et sandsynlighedsmål ν på (R, B) har følgende egenskaber 1) F er voksende, 2) F er kontinuert fra højre, 3) F (x) 1 for x, 4) F (x) 0 for x. Sætning (EH 17.4 Lebesgue-Stieltjes sætning) En funktion F, der opfylder betingelserne 1 4 ovenfor, er en fordelingsfunktion for et sandsynlighedsmål på (R, B). Slide 2/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Generaliseret invers For en funktion F med egenskaberne 1 4 ovenfor defineres den generaliserede inverse F : (0, 1) R ved F (q) = inf{y R q F (y)}. Observation: Egenskaberne 3 og 4 sikrer, at F (q) R for q (0, 1). Da F er voksende og højrekontinuert gælder, at F (q) x hvis og kun hvis q F (x). (F ) 1 ((, x]) = {q (0, 1) F (q) x} = {q (0, 1) q F (x)} = (0, F (x)]. Slide 3/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Lebesgue-Stieltjes sætning Bevis: Lad m (0,1) betegne lebesguemålet restringeret til (0, 1). Lad F være en funktion med egenskaberne 1 4, og definer ν = F (m (0,1) ). Så er ν((, x]) = m (0,1) ((F ) 1 ((, x])) = m((0, F (x)] (0, 1)) = F (x). Beviset er baseret på eksistensen af m, og giver sandsynlighedsmålet ν med fordelingsfunktion F ved transformation af m (0,1). Sandsynlighedsmålet m (0,1) kaldes ligefordelingen på (0, 1). Slide 4/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Venstregrænser? Da F er voksende har F grænser fra venstre: ( ) F (x 0) = lim F (y) = ν (, x) y x og funktionen x F (x 0) er kontinuert fra venstre. Observation: Punktsandsynligheder kan udtrykkes i termer af fordelingsfunktionen, ( ) ( ) ( ) ν {x} = ν (, x] ν (, x) = F (x) F (x 0) Observation: Sandsynligheder for intervaller kan udtrykkes i termer af fordelingsfunktionen, ν((a, b]) = F (b) F (a), ν((a, b)) = F (b 0) F (a), ν([a, b]) = F (b) F (a 0), ν([a, b)) = F (b 0) F (a 0). Slide 5/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Springpunkter Lad ν være et sandsynlighedsmål på (R, B) med fordelingsfunktion F. Definition Et punkt x R er et springpunkt for F hvis ν({x}) = F (x) F (x 0) > 0 Mængden af springpunkter betegnes (ν). Bemærk at F er kontinuert hvis og kun hvis (ν) =, og ν omtales i så fald som en kontinuert fordeling. Slide 6/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Støtte Definition Et punkt x R kaldes et tilvækstspunkt for F, hvis F (x + ε) F (x ε) > 0 for alle ε > 0. Mængden af tilvækstspunkter betegnes S(ν), og kaldes også støtten for ν. Sætning (EH 17.9) Støtten, S(ν), for et sandsynlighedsmål ν er den mindste afsluttede delmængde af R med ν-mål 1. Slide 7/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Eksempel Example: Hvis ν = f m, så er fordelingsfunktionen for ν givet ved F (x) = x f (z) dz, F er kontinuert ( (ν) = ), og hvis f er kontinuert er S(ν) = f 1 ((0, )). Eksempel: Hvis ν er et sandsynlighedsmål på Z opfattet som delmængde af R med punktsandsynligheder p(n), så er fordelingsfunktionen F (x) = x n= og (ν) = S(ν) = {n Z p(n) > 0}. Slide 8/28 Niels Richard Hansen MI forelæsninger 11. December, 2013 p(n),

Fraktiler Lad F være fordelingsfunktionen for et sandsynlighedsmål ν på (R, B) og lad p (0, 1). Ide: Hvis F er bijektiv med billede (0, 1) defineres p-fraktilen som F 1 (p). Hvad hvis F ikke er bijektiv? Er F (p) et brugbart valg af p-fraktil? Ja, men andre valg et lige så brugbare: Definition (EH 17.11) For p (0, 1) er p-fraktilerne elementerne i I (p) = {x R F (x 0) p F (x)}. Slide 9/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Fraktiler Lemma (EH 17.12) For alle p (0, 1) er mængden I (p) et ikke-tomt, kompakt interval. Det kan være en et-punktsmængde. Bevis: En analyse viser at for p (0, 1) er {x p F (x)} = [a, ) og {x F (x 0) p} = (, b] for a b. Dvs. I (p) = (, b] [a, ) = [a, b]. F (p) = inf I (p). Lemma (EH 17.13) Hvis p 1 < p 2 er I (p 1 ) I (p 2 ). Slide 10/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Fraktilfunktioner Definition (EH 17.17) Lad ν være et sandsynlighedsmål på (R, B). En fraktilfunktion for ν er en funktion q : (0, 1) R så q(p) er en p-fraktil for alle p. Den generaliserede inverse, F, er en fraktilfunktion. Alle fraktilfunktioner er voksende. Sætning (EH 17.18) Hvis ν er et sandsynlighedsmål på (R, B) med fordelingsfunktion F og q er en fraktilfunktion, så er F (x) = max{sup{p (0, 1) q(p) x}, 0} for alle x R. Slide 11/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

QQ-plots Definition (EH 17.19) Et QQ-plot for to fordelinger på R er et plot af grafen {(q 1 (p), q 2 (p)) R 2 p (0, 1)}, hvor q 1 og q 2 er fraktilfunktioner for fordelingerne. QQ-plots er yderst nyttige for visual sammenligning af to fordelinger. QQ-plottet er særligt nyttigt ved sammenligning af en empirisk fordeling med en teoretisk fordeling. Slide 12/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Den empiriske fordelingsfunktion Eksempel: For reelle tal x 1,..., x n defineres den empiriske fordelingsfunktion som fordelingsfunktionen for det empiriske sandsynlighedsmål, dvs. F (x) = 1 n n 1 [xi, ) (x). i=1 Hvis x (1) < x (2) <... < x (n) (ingen dubletter) betegner de ordnede observationer har vi 0 for x (, x (1) ) 1 n for x [x (1), x (2) ) F (x) =.. n 1 n for x [x (n 1), x (n) ) 1 for x [x (n), ). Slide 13/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Transformationer og fordelingsfunktioner Lad ν være et sandsynlighedsmål på (R, B) med fordelingsfunktion F og fraktilfunktion q. Sætning (EH 17.22) Hvis h : R R er kontinuert og strengt voksende på et interval I, og hvis ν(i ) = 1, har h(ν) fordelingsfunktion G, hvor G(y) = F ( h 1 (y) ) for y h(i ). Korollar (17.28) Hvis ν er en kontinuert fordeling på (R, B) med fordelingsfunktion F, så er F (ν) ligefordelingen på (0, 1). Konsekvens: Hvis ε n betegner det empiriske sandsynlighedsmål for n observationer fra en kontinuert fordeling ν, så er F (ε n ) = 1 n n i=1 δ F (x i ) approksimativt ligefordelingen på (0, 1). Slide 14/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Transformationer og fraktiler Sætning (EH 17.26) Hvis h : R R er målelig og voksende på intervallet I, og hvis ν(i ) = 1, så er h q en fraktilfunktion for h(ν). Korollar (EH 17.29) Hvis ν er et sandsynlighedsmål på (R, B) med fraktilfunktion q, så er ν = q(m (0,1) ). Konsekvens: Enhver fordeling, ν, kan frembringes fra ligefordelingen på (0, 1). Det bruges til simulation af stokastiske variable med fordeling ν ved at transformere ligefordelte variable. Slide 15/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Standard normalfordelingen på R 2 Lad f (x, y) = 1 x 2 +y 2 2π e 2. Vi har så f (x, y) = 1 2π e x2 2 1 2π e y2 2, og ved Tonelli f dm 2 = 1. Ved µ(a) = A f dm 2 defineres et sandsynlighedsmål på R 2 målet µ er kendt som standard normalfordelingen på R 2. Slide 16/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Bundter Bundles (Ω, F, P) X (X, E) Y (X, Y) (Y, K) (X Y, E K) The marginal distributions - the image measures X(P) og Y(P). The joint distribution - the image measure (X, Y)(P). De marginale fordelinger billedmålene X (P) og Y (P).. p.25/40 Den simultane fordeling billedmålet (X, Y )(P). Bemærk at X = ˆX (X, Y ) og Y = Ŷ (X, Y ). Slide 17/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Fra simultan til marginal fordeling Lemma (EH 18.1) Den marginale fordeling af X og Y er givet i termer af den simultane fordeling af X og Y. Bevis: Den simultane fordeling giver os alle sandsynlighederne ( ) P (X, Y ) G for G E K. For A E er den marginale fordeling af X givet ved ( ) P(X A) = P(X A, Y Y) = P (X, Y ) A Y Alternativt formuleret, X (P) = ˆX (X, Y )(P) = ˆX ((X, Y )(P)). Slide 18/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Marginalisering med tætheder Lad (X, E, µ) og (Y, K, ν) være to σ-endelige målrum. Lad X og Y være to stokastiske variable med værdier i hhv. X og Y. Korollar (EH 18.2) Hvis X og Y har simultanfordeling med tæthed f m.h.t. µ ν, dvs. ( ) P (X, Y ) G = f (x, y) dµ ν(x, y) for alle G E K så er hvor G P(X A) = g(x) = A g(x) dµ(x) f (x, y) dν(y) for alle A E for alle x X Slide 19/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Marginaler for standard normalfordelingen Hvis simultanfordelingen af (X, Y ) er standard normalfordelingen på R 2, har den marginale fordeling af X tæthed g(x) = f (x, y) dy = 1 2 +y 2 2π e 2 dy = 1 2π e x2 2 Dvs. X N (0, 1). Ligeledes, Y N (0, 1). I dette tilfælde har vi (X, Y )(P) = f m 2 = (g m) (g m) = X (P) Y (P). Slide 20/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Uafhængighed Lad X og Y være to stokastiske variable defineret på (Ω, F, P) med værdier i hhv. (X, E) og (Y, K). Definition (EH 18.4) Vi siger at X og Y er uafhængige, hvis (X, Y )(P) = X (P) Y (P) Vi skriver ofte X Y, hvis X og Y er uafhængige. Sandsynlighedsteoretisk formulering: P(X A, Y B) = P(X A) P(Y B) for alle A E, B K Slide 21/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

En frekventistisk forklaring på uafhængighed For hændelser A og B, et sandsynlighedsmål ν, og n observationer fra ν har vi ν(a B) ε n (A B) = ε n(a B) ε n (B), ε n (B) hvor ε n er den empiriske fordeling. Brøken (vi antager ε n (B) > 0) ε n (A B) ε n (B) er frekvensen af gange hændelsen A B indtræffer ud af de gange B indtræffer. Hvis det at B er indtruffet ikke ændrer på sandsynligheden for at A indtræffer (A er uafhængig er B) giver frekvensfortolkningen, at ε n (A B) ε n (B) ν(a). Slide 22/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

En frekventistisk forklaring på uafhængighed Definition For hændelser A og B og et sandsynlighedsmål ν med ν(b) > 0 defineres den betingende sandsynlighed for A givet B som ν(a B) = ν(a B). ν(b) Hændelsen A er uafhængig af B, hvis ν(a B) = ν(a). Den symmetriske definition: A og B er uafhængige hvis ν(a B) = ν(a)ν(b) er i overensstemmelse med ovenstående (asymmetriske) definition, og undgår risikoen for division med 0. Ved at se på hændelser (X A) = X 1 (A) og (Y B) = Y 1 (B) på Ω løftes definitionen af uafhængighed til stokastiske variable. Slide 23/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Uafhængighed af flere variable Lad X 1,..., X n være n stokastiske variable defineret på (Ω, F, P) og med værdier i (X 1, E 1 ),..., (X n, E n ). Definition Vi siger at X 1,..., X n er uafhængige, hvis (X 1,..., X n )(P) = X 1 (P)... X n (P) Vi skriver ofte X 1 X 2... X n, hvis X 1,..., X n er uafhængige. Sandsynlighedsteoretiske formulering: X 1,..., X n er uafhængige, hvis n P(X 1 A 1,..., X n A n ) = P(X i A i ) for alle A i E i, i = 1,..., n. i=1 Slide 24/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Adskilte transformationer Lad X 1 og X 2 være to stokastiske variable defineret på (Ω, F, P) med værdier i hhv. (X 1, E 1 ) og (X 2, E 2 ). Lad h 1 : (X 1, E 1 ) (Y 1, K 1 ) og h 2 : (X 2, E 2 ) (Y 2, K 2 ) være målelige afbildninger. Sætning (18.12) Hvis så er X 1 X 2, h 1 (X 1 ) h 2 (X 2 ). Slide 25/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Uafhængighed og frembringere Lad (X, E) og (Y, K) være målbare rum, og lad D og G være fællesmængdestabile frembringere for hhv. E og K. Lad X og Y være stokastiske variable defineret på (Ω, F, P) med værdier i hhv. (X, E) og (Y, K). Sætning (EH 18.7) De stokastiske variable X og Y er uafhængige, hvis P(X A, Y B) = P(X A)P(Y B) for alle A D, B G Sætning (Kapitel 9 version) Hvis λ er et sandsynlighedsmål på (X Y, E K) med marginaler µ = ˆX (λ) og ν = Ŷ (λ), så er λ = µ ν hvis λ(a B) = µ(a)ν(b) for A D, B G Slide 26/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Alternativt bevis Bevis: Per definition er E K σ-algebraen frembragt af ˆX og Ŷ. Da λ(a Y) = µ(a) = µ(a)ν(y) og λ(x B) = ν(b) = µ(x )ν(b), kan vi frit tilføje X til D og Y til G, hvis de ikke allerede er med. Brolægningen D G = {A B A D, B G} er indeholdt i E K og eftersom ˆX 1 (A) = A Y D G og Ŷ 1 (B) = X B D G for A D, B G følger det af Lemma 4.7 at begge projektioner er målelige m.h.t. σ(d G). Vi konkluderer, at σ(d G) = E K, og eftersom frembringeren er stabil overfor fællesmængdedannelse følger det af entydighedssætningen for sandsynlighedsmål, sætning 3.7, at λ = µ ν. Slide 27/28 Niels Richard Hansen MI forelæsninger 11. December, 2013

Uafhængighed Sætning (EH 18.8, 18.9, 18.10) Hvis I 1,..., I r er r disjunkte delmængder af {1,..., n}, og hvis X 1... X m... X n, så er (X i ) i I1... (X i ) i Ir. Slide 28/28 Niels Richard Hansen MI forelæsninger 11. December, 2013