Kapittel 2: Hendelser

Kapittel 2: Hendelser FENOMEN Eksperiment Utfall Utfallsrom Eksperiment. Utfall. Eksperiment Utfall Hendelse Sannsynlighet: egenskaper, gunstige vs. mulige, relativ frekvens Sannsynlighet for mer enn en hendelse P (A B C) = P (A)+P (B)+P (C) P (A B) P (A C) P (B C) + P (A B C) TMA4240: Oppsummering p.1/22

Kapittel 2: Hendelser, betinget Betinget sannsynlighet P (A B) = P (A B) P (B) Uavhengighet P (A B) = P (A) P (B) B4 B3 B5 B6 A B10 B2 B9 B1 B7 B8 S Total sannsynlighet Bayes regel: P (A) = P k i=1 P (B i A) P (B r A) = P (B r)p (A B r ) P ki=1 P (B i )P (A B i ) TMA4240: Oppsummering p.2/22

Kapittel 3: Fordeling Diskret stokastisk variabel Kontinuerlig stokastisk variabel X X Mulige verdier x: Mulige verdier x: Endelig eller tellbart mange Intervall eller hele R Eksempel: Eksempel: {0, 1,..., n} [0, 1] eller [0, ) Sannsynlighetsfordeling: f(x) = P (X = x) for alle mulige x Sannsynlighetsfordeling: f(x) definert for alle reelle x ved P (a < X < b) = R b a f(x)dx Density 0.00 0.05 0.10 0.15 fx 0.0 0.1 0.2 0.3 0.4 2 4 6 8 10 12 x 3 2 1 0 1 2 3 x TMA4240: Oppsummering p.3/22

Kapittel 3: kumulativ fordeling Diskret stokastisk variabel Kontinuerlig stokastisk variabel Kumulativ fordeling: Kumulativ fordeling: F (x) = P (X x) = P t x f(t) F (x) = P (X x) = R x f(t)dt definert for alle reelle x definert for alle reelle x 0.0 0.2 0.4 0.6 0.8 1.0 Fx 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 12 3 2 1 0 1 2 3 P (a < X b) = P x (a,b] f(t) P (a < X b) = R b a f(x)dx = F (b) F (a) = F (b) F (a) Hvis mulige verdier er heltall: Hvis f er kontinuerlig i x: f(x) = F (x) F (x 1) f(x) = F (x) x TMA4240: Oppsummering p.4/22

Kapittel 3: simultan fordeling Funksjonen f(x, y), er simultan sannsynlighetsfordeling for X og Y. Marginalfordelinger: g(x) = P y f(x, y) og h(y) = P x f(x, y) diskret g(x) = R f(x, y)dy og h(y) = R f(x, y)dx kontinuerlig Betingede fordelinger: f(y x) = f(x, y)/g(x), g(x) > 0 f(x y) = f(x, y)/h(y), h(y) > 0 Uavhengighet: X og Y uavhengige hvis og bare hvis f(x, y) = g(x) h(y) for alle (x, y). TMA4240: Oppsummering p.5/22

Simultan fordeling X og Y Vi får oppgitt (X, Y ) f(x, y). Bygg opp en modell for fenomenet Foreslå en marginalfordeling g(x) for X. Foreslå en betinget fordeling f(y x) for Y x. Bruk at f(x, y) = f(y x)g(x). TMA4240: Oppsummering p.6/22

Kapittel 4: Forventing og varians Diskret stokastisk variabel Forventning: Kontinuerlig stokastisk variabel Forventning: µ = E(X) = P x xf(x) µ = E(X) = R xf(x)dx Varians: σ 2 = Var(X) = E[(X µ) 2 ] = E(X 2 ) µ 2 σ 2 = P x (x µ)2 f(x) σ 2 = R (x µ)2 f(x)dx Chebyshevs teorem: P (µ kσ < X < µ + kσ) 1 1 k 2 P x Kovarians: σ XY = Cov(X, Y ) = E[(X µ X )(Y µ Y )] = E(X Y ) µ X µ Y P y (x µ R X)(y µ Y )f(x, y) (x µ X)(y µ Y )f(x, y)dxdy R ρ XY = Korrelasjonskoeffisienten: Cov(X,Y ) Var(X) Var(Y ) = σ XY σ X σ Y TMA4240: Oppsummering p.7/22

Avhengighet Definisjon: Kovarians: Cov(X, Y ) = E[(X µ X )(Y µ Y )] = E(X Y ) µ X µ Y Cov(X,Y ) Korrelasjonskoeffisient: ρ XY = Var(X) Var(Y ) Når bruker vi kovarians og korrelasjon? Mål på lineær avhengighet. Trengs når vi skal finne variansen til en funksjon av avhengige stokastiske variabler: Var(aX + by ) = a 2 Var(X) + b 2 Var(Y ) + 2abCov(X, Y ). Uavhengighet: X og Y uavh. E[XY ] = E[X]E[Y ] Cov[X, Y ] E[XY ] E[X]E[Y ] =0 Hvis X 1,..., X n er uavhengige er ny f(x 1,..., x n ) = f(x 1 ) f(x n ) = f(x i ) i=1 Brukes f.eks. til å finne SME (SannsynlighetsMaksimeringsEstimator). TMA4240: Oppsummering p.8/22

Kapittel 5 og 6: Fordelinger Kapittel 5: Diskrete fordelinger, eget notat med uniform, binomisk, multinomisk, hypergeometrisk, multivariat hypergeometrisk, negativ binomisk, geometrisk, Poisson. Kapittel 6: Kontinuerlige fordelinger, eget notat med uniform, normal (Gaussisk), Gamma (Erlang), eksponential, kji-kvadrat, Student-t, (lognormal). TMA4240: Oppsummering p.9/22

Kapittel 7: Funksjoner av SV Vi antar at vi kjenner sannsynlighetsfordelingene til X 1,..., X n. Hva er da sannsynlighetsfordelingene til Y = max{x 1,..., X n } og Y = min{x 1,..., X n }. Y = ln(x) og Y = ax + b. Y = X 1 + + X n. Hvis vi vet denne, kan vi regne ut viktig informasjon som for eksempel P (a < Y < b) og E[Y ]. TMA4240: Oppsummering p.10/22

Funksjoner av stokastiske variabler Fra kumulativ fordeling: Jobber med kumulativ fordeling P (Y y), og finner derifra fordeling g(y) (derivere eller ta differanse). Gjør dette for ekstremvariabler (når X-ene er uavhengige). Hvis maksimum er mindre enn v må alle være mindre enn v. Hvis minimum er større enn u, må alle være større enn u. Transformasjonsformel La X f(x) være en kontinuerlig stokastisk variabel. En-entydig sammenheng mellom X og Y : Y = u(x) X = w(y ). Da er sannsynlighetstettheten til Y gitt ved g(y) = f(w(y)) w (y). TMA4240: Oppsummering p.11/22

Funksjoner av stokastiske variabler Momentgenererende funksjoner: En transformasjon som tar oss over i et annet rom der er det enkelt å finne fordelingen til Y = lineær kombinasjon av uavhengige stokastiske variabler. DEF: M X (t) = E(e tx ). Regneregel: M ax+b (t) = e bt M X (at) Hvis X 1, X 2,..., X n er uavhengige stokastiske variabler med momentgenererende funksjoner M X1 (t), M X2 (t),..., M Xn (t), og la Y = X 1 + X 2 + X n. Da er M Y (t) = M X1 (t) M X2 (t) M Xn (t) Kan også enkelt finne momenter til Y ; dr M X (t) dt r t=0 = µ r. TMA4240: Oppsummering p.12/22

MGF - Resultater (Formelsamling) La X 1, X 2,..., X n være uavhengige stokastiske variabler Da har vi at for Y = X 1 + + X n : X i n(x; µ i, σ i ) Y n(y; P n i=1 µ i, q Pn i=1 σ2 i ) (Normal). X i b(x; m i, p) X i p(x; µ i ) Y b(y; P n i=1 m i, p) (Binomisk). Y p(y; P n i=1 µ i) (Poisson). X i χ νi Y χ P n i=1 ν i (Kjikvadrat). Samtidig sier Sentralgrenseteoremet at en sum Y av uavhengige stokastiske variabler er tilnærmet normalfordelt når n er stor (uavhengig av fordeling). TMA4240: Oppsummering p.13/22

Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling (parametrisk), og må bygge på et representativt utvalg (u.i.f data). En estimator er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X 2,..., X n ). Vi ønsker at estimatoren skal være forventningsrett, dvs. E( ˆθ) = θ. Vi ønsker en estimator med minst mulig varians, Var(ˆθ), og vi vil at variansen skal avta når antall observasjoner, n, øker. Vi finner estimatorer ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet. I tillegg til punktestimatet kan vi lage et (1 α) 100% konfidensintervall der vi har 95% tillit til at den sanne parameteren ligger. Og et (1 α) 100% prediksjonsintervall der vi har 95% tillit til at en ny observasjon vil ligge. TMA4240: Oppsummering p.14/22

Sentralgrenseteoremet TEO 8.2: Sentralgrenseteoremet La X 1, X 2,..., X n være et tilfeldig utvalg fra en fordeling med forventning µ og varians σ 2. Da har vi at sannsynlighetsfordelingen til Z = X µ σ/ n går mot standard normalfordelingen, n(z; 0, 1), når n. TMA4240: Oppsummering p.15/22

Sentralgrenseteoremet TMA4240: Oppsummering p.16/22

Kji-kvadrat fordelingen f(x; ν) = 8 < : 1 2 ν/2 Γ(ν/2) xν/2 1 e x/2, x > 0 0 ellers. µ = E(X) = ν σ 2 = Var(X) = 2 ν Kjikvadrat 1,5,10,20 0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0 5 10 15 20 TMA4240: Oppsummering p.17/22

Fordeling til S 2 TEO 8.4: Hvis S 2 er empirisk varians til et tilfeldig utvalg av størrelse n tatt fra en normalfordelt populasjon med varians σ 2, vil observatoren V = (n 1)S2 σ 2 = n i=1 (X i X) 2 σ 2 være kjikvadrat-fordelt med ν = n 1 frihetsgrader. TMA4240: Oppsummering p.18/22

T og t-fordeling COR: La X 1, X 2,..., X n være uavhengige stokastiske variabler som alle er normalfordelte med samme forventning µ og samme standardavvik σ. La X = 1 n n i=1 X i og S 2 = 1 n 1 n (X i X) 2 i=1 Da er den stokastiske variablen T = X µ S/ n t-fordelt med ν = (n 1) frihetsgrader. TMA4240: Oppsummering p.19/22

Ett utvalg: test for µ med σ kjent Generell fremgangsmåte Kvalitetskontroll av skruer 0 X 1, X 2,..., X n u.i.f. normal(µ, σ) der σ er kjent. Stikkprøve (utvalg) av n = 10 skruer, antar normalfordeling og kjenner σ =0.1mm. 1 To-sidig test Er grunn til å tro at skruene som produseres ikke er 15 mm lange? H 0 : µ = µ 0 vs. H 1 : µ µ 0 H 0 : µ = 15 vs. H 1 : µ 15 2 Signifikansnivå α bestemmes. Velger α = 0.05 3 Testobservator Z 0 = X µ 0 σ/ n er under H 0 standard normalfordelt Forkast H 0 hvis z 0 > z α 2 eller z 0 < z α 2. 4 z α z 0.05 = 1.96 2 2 Observerer x fra utvalget (stikkprøven) x = 15.05 mm. Beregner z = x µ 0 σ/ n z 0 = 15.05 15 0.1/ 10 = 1.58 Sammenligner z α 2, z 0 og z α 2-1.96<1.58<1.96 Forkast H 0 og konkluder med H 1, eller behold H 0. 5 P -verdi = P(for det vi har observert eller noe verre H 0 er sann) Beholder H 0. Har ikke sterke nok bevis for at µ 15mm. P-verdi=0.11 TMA4240: Oppsummering p.20/22

Lineær regresjon Modell: Y x = α + βx + ε der ε er normalfordelt med E(ε) = 0 og Var(ε) = σ 2. Gitt utvalget {(x i, Y i ); i = 1,..., n}, så er minste kvadratsum estimatorene A og B for koeffisientene α og β gitt som B = P n i=1 (x i x)y i P n i=1 (x i x) 2 A = Ȳ B X En forventningsrett estimator for σ 2 er S 2 = P ni=1 (Y i A Bx i ) 2 n 2 og V = (n 2)S2 σ 2 er kjikvadrat-fordelt med n 2 frihetsgrader. TMA4240: Oppsummering p.21/22

Inferens i linær regresjon A er normalfordelt med E(A) = α og Var(A) = T = A α Ss Pni=1 x 2 i n P n i=1 (x i x) 2 er t-fordelt med n 2 frihetsgrader. σ2 P n i=1 x 2 i n P n i=1 (x i x) 2, slik at B er normalfordelt med E(B) = β og Var(B) = slik at T = B β S q1/ P n i=1 (x i x) σ 2 P ni=1 (x i x) 2 (avhengig av design), 2 er t-fordelt med n 2 frihetsgrader. Konfidensintervall og hypotesetesting for α og β i t-fordelingen. Aktuell hypotese: β = 0 betyr ingen lineær sammenheng mellom E(Y x) og x. Bestemmelseskoeffisienten R 2 gir et mål på hvor godt den lineære modellen passer til et gitt datasett. Konfidensintervall for regresjonslinjen. Prediksjonsintervall for ny observasjon. TMA4240: Oppsummering p.22/22