STK Oppsummering

STK1100 - Oppsummering Geir Storvik 6. Mai 2014

STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens

Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter og usikkerhet Grunnleggende beregningsregler Modeller Hvorfor Matematisk grunnlag for å gjøre statistisk inferens Nyttig også i mange andre sammenhenger Modellering av prosesser med usikkerhet Monte Carlo integrasjon/stokastisk simulering

Sannsynlighetsteori Sannsynlighet av en begivenhet Relativ frekvens av en begivenhet ved uendelig antall repetisjoner Begivenheter: Mengder av utfall Kombinatoriske resonementer: Nyttig for å utlede P(A) Aksiomer 1. For enhver begivenhet A, P(A) 0. 2. P(S) = 1 3. Hvis A 1, A 2, A 3,... er et uendelig set av disjunkte begivenheter så er P(A 1 A 2 A 3 ) = P(A i ) i=1 Kan utifra dette utlede mange resultater

Resultater 1. P(A ) = 1 P(A) 2. P( ) = 0 3. A B P(A) P(B) 4. Addisjonsetningen: P(A B) = P(A) + P(B) P(A B) 5. Betinget sannsynlighet (definisjon): P(A B) = P(A B) P(B) hvis P(B) > 0 6. Total sannsynlighet: Hvis n i=1 B i = S og B i B j = for i j: P(A) = n P(A B i )P(B i ) i=1

Resultater 2 1. Bayes setning (under samme betingelser som ovenfor): P(B j A) = P(A B j )P(B j ) n i=1 P(A B i)p(b i ) 2. Uavhengighet (Definisjon): A og B er uavhengige begivenheter hvis P(A B) = P(A)P(B) 3. A 1,..., A n er uavhengige begivenheter dersom P(A i1 A im ) = P(A i1 )P(A i2 ) P(A im ) for alle delmengder av indekser i 1, i 2,..., i m 4. Produktsetningen: P(A 1 A n ) =P(A 1 )P(A 2 A 1 )P(A 3 A 1 A 2 ) P(A n A 1 A 2 A n 1 )

Tilfeldige variable Tilfeldig (stokastisk) variabel: Regel som assosierer et tall til hvert utfall i S Tenker ofte direkte på variabel uten å relatere til bakenforliggende utfall Numerisk variabel der det er usikkerhet rundt utfallet Diskret eller kontinuerlig utfallsrom

Modeller for tilfeldige variable Diskret Binomisk Poisson Hypergeometrisk/negativ binomisk Kontinuerlig Normal Gamma, eksponensiell, kji-kvadrat Deskriptiv statistikk nyttig for å bestemme modell

Flere tilfeldige variable p(x 1,..., x n ) =P(X 1 = x 1, X 2 = x 2,..., X n = x n ) P(a 1 X 1 b 1,..., a n X n b n ) Diskret = b1 bn f (x 1, x 2,..., x n )dx 1 dx n Kont a 1 a n Marginale/betingede fordelinger Tilfeldig utvalg: X 1,..., X n er UIF (Uavhengig Identisk Fordelte). Sentralt: X Eksakt normalfordeling hvis Xi normalfordelt Tilnærmet normalfordelt ellers (Sentralgrenseteoremet)

Verktøy for beregning av fordeling Relatere til mulige utfall (gunstige/mulige) Bruke F(x) = P(X x) X = h(y ): Transformasjonssetningen f Y (y) = f X (h(y)) h (y). Momentgenererende funksjoner

Egenskaper ved fordelinger Forventning µ X Varians σ 2 X /standard avvik σ X Momenter Persentiler Kovarianser/korrelasjoner Nyttige for å beskrive fordelinger med få parametre For parametriske modeller vil få parametre beskrive hele modellen

Statistisk inferens Populasjon/modell Data f (x; θ)/p(x; θ) X 1,..., X n µ X = E(X) ˆµ = X σx 2 = V (X) ˆσ2 = S 2 S 2 = 1 n 1 σ X n i=1 (X i X) 2 ˆσ = S Ønsker å si noe om populasjon/modell utifra data

Statistisk inferens Generell problemstilling: X1,..., X n tilfeldig utvalg fra f (x; θ). Ønsker å trekke ut informasjon om θ fra data Punktestimat Standard feil Konfidensintervall Hypotesetesting (STK1110) Standard feil/konfidensintervall/hypotesetesting avhenger av sannsynlighetsbaserte modeller og sannsynlighetsregning Deskriptiv statistikk alltid først. STK1100: Kun én populasjon

Deskriptiv statistikk Valg av metoder for statistisk inferens avhenger av struktur i data Deskriptiv statistikk kan brukes til å finne interessante strukturer i data Symmetri/asymmetri Ekstreme observasjoner ( outliers ) Uavhengighet/avhehgighet Identiske fordelinger

Estimatorer ˆθ estimator for θ Ønskelige egenskaper (Tilnærmet) forventningsrett Liten varians/standard feil Konsistent Konstruksjon Bruke fornuft/intuisjon (vanskelig) Momentestimatorer Maksimum likelihood (STK1110)

Egenskaper til estimatorer Av interesse: Sannsynlighetsfordeling Varians/standard feil Hvordan: Noen ganger mulig å beregne eksakt Sentralgrenseteoremet (og generaliseringer) gir ofte at ˆθ er tilnærmet normalfordelt Bootstrapping kan benyttes for å si noe om egenskaper Metode: Tilnærmer ukjent F(x) med F(x) Beregning: Bruker simulering

Konfidensintervaller Intervall med plausible verdier for θ Intervall av typen [l(x 1,..., X n ), u(x 1,..., X n )] P(l(X 1,..., X n ) < θ < u(x 1,..., X n )) = 1 α Tolkning: Ved gjentatt bruk av slike intervaller vil vi treffe i 100(1 α)% av tilfellene Vanligste intervall for µ = E(X): s x ± z α/2 n Eksakt hvis Xi er normalfordelt og s = σ er kjent Tilnærmet riktig ellers Generelt intervall: ˆθ ± z α/2ˆσˆθ

Monte Carlo integrasjon/stokastisk simulering Av interesse: θ = g(x)dx = g(x) f (x) ( ) f (x)dx Kan skrives som θ = E g(x) f (X) der X f (x) Tilnærming: θ = 1 M σ θ = 1 M σ Y M i=1 g(x i ) f (X i ) Generell metode Mange mulige valg av f (x) Vil være svært nyttig i høyere dimensjon Mange metoder for å simulere fra f : Bruke ferdige rutiner Inversjonsmetoden Transformasjonssetningen Forkastningsmetoden (ikke gjennomgått)