Kapittel 2: Hendelser

Like dokumenter
FORMELSAMLING TIL STK1100 OG STK1110

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

FORMELSAMLING TIL STK1100 OG STK1110

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Om eksamen. Never, never, never give up!

TMA4240 Statistikk H2010

Om eksamen. Never, never, never give up!

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Notasjon. Løsninger. Problem. Kapittel 7

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

STK Oppsummering

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Foreleses onsdag 8. september 2010

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

TMA4240 Statistikk H2015

Kapittel 4: Matematisk forventning

TMA4240 Statistikk Høst 2007

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

TMA4240 Statistikk H2010

Fasit for tilleggsoppgaver

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Foreleses onsdag 13.oktober, 2010

Eksempel: kast med to terninger

Denne veka. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

TMA4245 Statistikk Eksamen desember 2016

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

DEL 1 GRUNNLEGGENDE STATISTIKK

HØGSKOLEN I STAVANGER

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk H2010

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

TMA4240 Statistikk H2010 (19)

Dagens tekst. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

6.1 Kontinuerlig uniform fordeling

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Løsningsforslag, eksamen statistikk, juni 2015

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

STK Oppsummering

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppfriskning av blokk 1 i TMA4240

To-dimensjonale kontinuerlige fordelinger

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

TMA4240 Statistikk Høst 2009

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk 2014

TMA4245 Statistikk Eksamen august 2014

TMA4240 Statistikk Høst 2015

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

Kapittel 4.4: Forventning og varians til stokastiske variable

TMA4240 Statistikk Høst 2009

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Hypotesetest: generell fremgangsmåte

TMA4245 Statistikk Eksamen desember 2016

Kapittel 3: Stokastiske variable og sannsynlighetsfordelinger

Estimering og hypotesetesting

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs

TMA4240 Statistikk H2010

TMA4240 Statistikk Høst 2015

6.5 Normalapproksimasjon til. binomisk fordeling

Eksamensoppgave i TMA4240 Statistikk

Sum to terninger forts. Eksempel: kast med to terninger. Sum to terninger forts. Kapittel 3. TMA4240 H2006: Eirik Mo

Estimering og hypotesetesting

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger : Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4240 Statistikk H2017 [15]

TMA4240 Statistikk Høst 2008

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistikk og dataanalyse

Stokastisk variabel. Eksempel augefarge

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Forventning og varians.

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

TMA4240 Statistikk Eksamen desember 2015

(utarbeidet av Mette Langaas), TMA4245 V2007

Forventning og varians.

Kontinuerlige sannsynlighetsfordelinger.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Transkript:

Kapittel 2: Hendelser FENOMEN Eksperiment Utfall Utfallsrom Eksperiment. Utfall. Eksperiment Utfall Hendelse Sannsynlighet: egenskaper, gunstige vs. mulige, relativ frekvens Sannsynlighet for mer enn en hendelse P (A B C) = P (A)+P (B)+P (C) P (A B) P (A C) P (B C) + P (A B C) TMA4240: Oppsummering p.1/22

Kapittel 2: Hendelser, betinget Betinget sannsynlighet P (A B) = P (A B) P (B) Uavhengighet P (A B) = P (A) P (B) B4 B3 B5 B6 A B10 B2 B9 B1 B7 B8 S Total sannsynlighet Bayes regel: P (A) = P k i=1 P (B i A) P (B r A) = P (B r)p (A B r ) P ki=1 P (B i )P (A B i ) TMA4240: Oppsummering p.2/22

Kapittel 3: Fordeling Diskret stokastisk variabel Kontinuerlig stokastisk variabel X X Mulige verdier x: Mulige verdier x: Endelig eller tellbart mange Intervall eller hele R Eksempel: Eksempel: {0, 1,..., n} [0, 1] eller [0, ) Sannsynlighetsfordeling: f(x) = P (X = x) for alle mulige x Sannsynlighetsfordeling: f(x) definert for alle reelle x ved P (a < X < b) = R b a f(x)dx Density 0.00 0.05 0.10 0.15 fx 0.0 0.1 0.2 0.3 0.4 2 4 6 8 10 12 x 3 2 1 0 1 2 3 x TMA4240: Oppsummering p.3/22

Kapittel 3: kumulativ fordeling Diskret stokastisk variabel Kontinuerlig stokastisk variabel Kumulativ fordeling: Kumulativ fordeling: F (x) = P (X x) = P t x f(t) F (x) = P (X x) = R x f(t)dt definert for alle reelle x definert for alle reelle x 0.0 0.2 0.4 0.6 0.8 1.0 Fx 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 12 3 2 1 0 1 2 3 P (a < X b) = P x (a,b] f(t) P (a < X b) = R b a f(x)dx = F (b) F (a) = F (b) F (a) Hvis mulige verdier er heltall: Hvis f er kontinuerlig i x: f(x) = F (x) F (x 1) f(x) = F (x) x TMA4240: Oppsummering p.4/22

Kapittel 3: simultan fordeling Funksjonen f(x, y), er simultan sannsynlighetsfordeling for X og Y. Marginalfordelinger: g(x) = P y f(x, y) og h(y) = P x f(x, y) diskret g(x) = R f(x, y)dy og h(y) = R f(x, y)dx kontinuerlig Betingede fordelinger: f(y x) = f(x, y)/g(x), g(x) > 0 f(x y) = f(x, y)/h(y), h(y) > 0 Uavhengighet: X og Y uavhengige hvis og bare hvis f(x, y) = g(x) h(y) for alle (x, y). TMA4240: Oppsummering p.5/22

Simultan fordeling X og Y Vi får oppgitt (X, Y ) f(x, y). Bygg opp en modell for fenomenet Foreslå en marginalfordeling g(x) for X. Foreslå en betinget fordeling f(y x) for Y x. Bruk at f(x, y) = f(y x)g(x). TMA4240: Oppsummering p.6/22

Kapittel 4: Forventing og varians Diskret stokastisk variabel Forventning: Kontinuerlig stokastisk variabel Forventning: µ = E(X) = P x xf(x) µ = E(X) = R xf(x)dx Varians: σ 2 = Var(X) = E[(X µ) 2 ] = E(X 2 ) µ 2 σ 2 = P x (x µ)2 f(x) σ 2 = R (x µ)2 f(x)dx Chebyshevs teorem: P (µ kσ < X < µ + kσ) 1 1 k 2 P x Kovarians: σ XY = Cov(X, Y ) = E[(X µ X )(Y µ Y )] = E(X Y ) µ X µ Y P y (x µ R X)(y µ Y )f(x, y) (x µ X)(y µ Y )f(x, y)dxdy R ρ XY = Korrelasjonskoeffisienten: Cov(X,Y ) Var(X) Var(Y ) = σ XY σ X σ Y TMA4240: Oppsummering p.7/22

Avhengighet Definisjon: Kovarians: Cov(X, Y ) = E[(X µ X )(Y µ Y )] = E(X Y ) µ X µ Y Cov(X,Y ) Korrelasjonskoeffisient: ρ XY = Var(X) Var(Y ) Når bruker vi kovarians og korrelasjon? Mål på lineær avhengighet. Trengs når vi skal finne variansen til en funksjon av avhengige stokastiske variabler: Var(aX + by ) = a 2 Var(X) + b 2 Var(Y ) + 2abCov(X, Y ). Uavhengighet: X og Y uavh. E[XY ] = E[X]E[Y ] Cov[X, Y ] E[XY ] E[X]E[Y ] =0 Hvis X 1,..., X n er uavhengige er ny f(x 1,..., x n ) = f(x 1 ) f(x n ) = f(x i ) i=1 Brukes f.eks. til å finne SME (SannsynlighetsMaksimeringsEstimator). TMA4240: Oppsummering p.8/22

Kapittel 5 og 6: Fordelinger Kapittel 5: Diskrete fordelinger, eget notat med uniform, binomisk, multinomisk, hypergeometrisk, multivariat hypergeometrisk, negativ binomisk, geometrisk, Poisson. Kapittel 6: Kontinuerlige fordelinger, eget notat med uniform, normal (Gaussisk), Gamma (Erlang), eksponential, kji-kvadrat, Student-t, (lognormal). TMA4240: Oppsummering p.9/22

Kapittel 7: Funksjoner av SV Vi antar at vi kjenner sannsynlighetsfordelingene til X 1,..., X n. Hva er da sannsynlighetsfordelingene til Y = max{x 1,..., X n } og Y = min{x 1,..., X n }. Y = ln(x) og Y = ax + b. Y = X 1 + + X n. Hvis vi vet denne, kan vi regne ut viktig informasjon som for eksempel P (a < Y < b) og E[Y ]. TMA4240: Oppsummering p.10/22

Funksjoner av stokastiske variabler Fra kumulativ fordeling: Jobber med kumulativ fordeling P (Y y), og finner derifra fordeling g(y) (derivere eller ta differanse). Gjør dette for ekstremvariabler (når X-ene er uavhengige). Hvis maksimum er mindre enn v må alle være mindre enn v. Hvis minimum er større enn u, må alle være større enn u. Transformasjonsformel La X f(x) være en kontinuerlig stokastisk variabel. En-entydig sammenheng mellom X og Y : Y = u(x) X = w(y ). Da er sannsynlighetstettheten til Y gitt ved g(y) = f(w(y)) w (y). TMA4240: Oppsummering p.11/22

Funksjoner av stokastiske variabler Momentgenererende funksjoner: En transformasjon som tar oss over i et annet rom der er det enkelt å finne fordelingen til Y = lineær kombinasjon av uavhengige stokastiske variabler. DEF: M X (t) = E(e tx ). Regneregel: M ax+b (t) = e bt M X (at) Hvis X 1, X 2,..., X n er uavhengige stokastiske variabler med momentgenererende funksjoner M X1 (t), M X2 (t),..., M Xn (t), og la Y = X 1 + X 2 + X n. Da er M Y (t) = M X1 (t) M X2 (t) M Xn (t) Kan også enkelt finne momenter til Y ; dr M X (t) dt r t=0 = µ r. TMA4240: Oppsummering p.12/22

MGF - Resultater (Formelsamling) La X 1, X 2,..., X n være uavhengige stokastiske variabler Da har vi at for Y = X 1 + + X n : X i n(x; µ i, σ i ) Y n(y; P n i=1 µ i, q Pn i=1 σ2 i ) (Normal). X i b(x; m i, p) X i p(x; µ i ) Y b(y; P n i=1 m i, p) (Binomisk). Y p(y; P n i=1 µ i) (Poisson). X i χ νi Y χ P n i=1 ν i (Kjikvadrat). Samtidig sier Sentralgrenseteoremet at en sum Y av uavhengige stokastiske variabler er tilnærmet normalfordelt når n er stor (uavhengig av fordeling). TMA4240: Oppsummering p.13/22

Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling (parametrisk), og må bygge på et representativt utvalg (u.i.f data). En estimator er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X 2,..., X n ). Vi ønsker at estimatoren skal være forventningsrett, dvs. E( ˆθ) = θ. Vi ønsker en estimator med minst mulig varians, Var(ˆθ), og vi vil at variansen skal avta når antall observasjoner, n, øker. Vi finner estimatorer ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet. I tillegg til punktestimatet kan vi lage et (1 α) 100% konfidensintervall der vi har 95% tillit til at den sanne parameteren ligger. Og et (1 α) 100% prediksjonsintervall der vi har 95% tillit til at en ny observasjon vil ligge. TMA4240: Oppsummering p.14/22

Sentralgrenseteoremet TEO 8.2: Sentralgrenseteoremet La X 1, X 2,..., X n være et tilfeldig utvalg fra en fordeling med forventning µ og varians σ 2. Da har vi at sannsynlighetsfordelingen til Z = X µ σ/ n går mot standard normalfordelingen, n(z; 0, 1), når n. TMA4240: Oppsummering p.15/22

Sentralgrenseteoremet TMA4240: Oppsummering p.16/22

Kji-kvadrat fordelingen f(x; ν) = 8 < : 1 2 ν/2 Γ(ν/2) xν/2 1 e x/2, x > 0 0 ellers. µ = E(X) = ν σ 2 = Var(X) = 2 ν Kjikvadrat 1,5,10,20 0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0 5 10 15 20 TMA4240: Oppsummering p.17/22

Fordeling til S 2 TEO 8.4: Hvis S 2 er empirisk varians til et tilfeldig utvalg av størrelse n tatt fra en normalfordelt populasjon med varians σ 2, vil observatoren V = (n 1)S2 σ 2 = n i=1 (X i X) 2 σ 2 være kjikvadrat-fordelt med ν = n 1 frihetsgrader. TMA4240: Oppsummering p.18/22

T og t-fordeling COR: La X 1, X 2,..., X n være uavhengige stokastiske variabler som alle er normalfordelte med samme forventning µ og samme standardavvik σ. La X = 1 n n i=1 X i og S 2 = 1 n 1 n (X i X) 2 i=1 Da er den stokastiske variablen T = X µ S/ n t-fordelt med ν = (n 1) frihetsgrader. TMA4240: Oppsummering p.19/22

Ett utvalg: test for µ med σ kjent Generell fremgangsmåte Kvalitetskontroll av skruer 0 X 1, X 2,..., X n u.i.f. normal(µ, σ) der σ er kjent. Stikkprøve (utvalg) av n = 10 skruer, antar normalfordeling og kjenner σ =0.1mm. 1 To-sidig test Er grunn til å tro at skruene som produseres ikke er 15 mm lange? H 0 : µ = µ 0 vs. H 1 : µ µ 0 H 0 : µ = 15 vs. H 1 : µ 15 2 Signifikansnivå α bestemmes. Velger α = 0.05 3 Testobservator Z 0 = X µ 0 σ/ n er under H 0 standard normalfordelt Forkast H 0 hvis z 0 > z α 2 eller z 0 < z α 2. 4 z α z 0.05 = 1.96 2 2 Observerer x fra utvalget (stikkprøven) x = 15.05 mm. Beregner z = x µ 0 σ/ n z 0 = 15.05 15 0.1/ 10 = 1.58 Sammenligner z α 2, z 0 og z α 2-1.96<1.58<1.96 Forkast H 0 og konkluder med H 1, eller behold H 0. 5 P -verdi = P(for det vi har observert eller noe verre H 0 er sann) Beholder H 0. Har ikke sterke nok bevis for at µ 15mm. P-verdi=0.11 TMA4240: Oppsummering p.20/22

Lineær regresjon Modell: Y x = α + βx + ε der ε er normalfordelt med E(ε) = 0 og Var(ε) = σ 2. Gitt utvalget {(x i, Y i ); i = 1,..., n}, så er minste kvadratsum estimatorene A og B for koeffisientene α og β gitt som B = P n i=1 (x i x)y i P n i=1 (x i x) 2 A = Ȳ B X En forventningsrett estimator for σ 2 er S 2 = P ni=1 (Y i A Bx i ) 2 n 2 og V = (n 2)S2 σ 2 er kjikvadrat-fordelt med n 2 frihetsgrader. TMA4240: Oppsummering p.21/22

Inferens i linær regresjon A er normalfordelt med E(A) = α og Var(A) = T = A α Ss Pni=1 x 2 i n P n i=1 (x i x) 2 er t-fordelt med n 2 frihetsgrader. σ2 P n i=1 x 2 i n P n i=1 (x i x) 2, slik at B er normalfordelt med E(B) = β og Var(B) = slik at T = B β S q1/ P n i=1 (x i x) σ 2 P ni=1 (x i x) 2 (avhengig av design), 2 er t-fordelt med n 2 frihetsgrader. Konfidensintervall og hypotesetesting for α og β i t-fordelingen. Aktuell hypotese: β = 0 betyr ingen lineær sammenheng mellom E(Y x) og x. Bestemmelseskoeffisienten R 2 gir et mål på hvor godt den lineære modellen passer til et gitt datasett. Konfidensintervall for regresjonslinjen. Prediksjonsintervall for ny observasjon. TMA4240: Oppsummering p.22/22