STK1110 - Oppsummering Geir Storvik 11. November 2015
STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer Et utvalg To-utvalg Regresjon I alle 3 tilfeller enten kvantitativ eller binær respons
Statistisk inferens Generell problemstilling: X1,..., X n tilfeldig utvalg fra f (x; θ). Ønsker å trekke ut informasjon om θ fra data Punktestimat Standard feil Konfidensintervall Hypotesetesting Standard feil/konfidensintervall/hypotesetesting avhenger av sannsynlighetsbaserte modeller og sannsynlighetsregning
Punktestimator - ønskelige egenskaper (Tilnærmet) forventningsrett Liten varians/standard feil Kan noen ganger regnes ut Kan generelt estimeres ved Bootstrapping Konsistent (varians minker med n) Liten forventet kvadratisk feil E[(ˆθ θ) 2 ] = V (ˆθ) + [E(ˆθ) θ] 2
Punktestimering - prinsipper Momentestimator: Løse likningssystemet (θ = (θ 1,..., θ k )) 1 n n i=1 x j i =E(X j i ) = g j(θ), j = 1,..., k Maksimum likelihood (ML): ˆθ ML = arg max L(θ) θ L(θ) =f (x 1,..., x n ; θ) uavh = n f (x i ; θ) i=1 Momentestimator ofte enklere, ML som regel bedre For n stor: ˆθ ML N(θ, σ ) der = c/n. 2ˆθ σ2ˆθ
Konfidensintervall Intervall med plausible verdier for θ [l, u] = [l(x), u(x)], dvs tilfeldige grenser (avhenger av data) Dekker θ med (tilnærmet) sannsynlighet (1 α)100% hvis vi gjentar eksperimentet mange ganger Vanligste intervall for µ = E(X): x ± s zα/2 n Eksakt hvis Xi er normalfordelt og s = σ er kjent Tilnærmet riktig ellers Generelt intervall: ˆθ ± z α/2ˆσˆθ
Konfidensintervall - konstruksjon Tar utgangspunkt i en (stokastisk) funksjon h(x 1,..., X n ; θ) med kjent fordeling P(a < h(x 1,..., X n ; θ) < b) = 1 α Manipuler ulikehetene til P(l(X 1,..., X n ) < θ < u(x 1,..., X n )) = 1 α Gir [l(x 1,..., x n ), u(x 1,..., x n )] som et (1 α)100% konfidensintervall for θ. Eksempel h(x1,..., X n; θ) = X µ S/ n t n 1 S/ < t n α/2;n 1) = 1 α P(X tα/2;n 1 S/ n < µ < X + t α/2;n 1 S/ n) = 1 α [x ± tα/2;n 1 S/ n] er et (1 α)100% konfidensintervall for µ. P( tα/2;n 1 < X µ
Hypotesetesting Teste H 0 : θ = θ 0 mot H a : θ θ 0 Alternativt H a : θ > θ 0 eller H a : θ < θ 0 Test prosedyre 1. Spesifiser en test observator Prinsipp: Testobservator liten under H 0, stor under H a Eksempel: θ = µ = E(X), T = X µ 0 S/ n 2. Definer et forkastningsområde Prinsipp: Kontroller sannsynlighet for type I feil. Eksempel: T > t α/2;n 1 Generelt prinsipp for å velge testobservator: Likelihood ratio Type I feil: Forkaste H 0 når H 0 er riktig. Type II feil: Ikke forkaste H 0 når H 0 er gal. P-verdi: Mål på bevis mot H 0 (små verdier gir sterk bevisbyrde)
Hypotesetesting og konfidensintervall Ønsker å teste H 0 : θ = θ 0 mot H a : θ θ 0. Anta et 100(1 α)% konfidensintervall for θ er tilgjengelig Testprosedyre: Forkast H 0 hvis θ 0 ikke er med i konfidensintervallet Vil ha sannsynlighet for type I feil lik α Konfidensintervall noen ganger enklere (f.eks vha Bootstrapping) Ensidige alternativer: Konstruer ensidige konfidensintervaller, e.g [l, ).
Bootstrapping Teknikk for inferens når eksakte beregninger er vanskelig. Tar utgangspunkt i at varians, dekningssannsynlighet, sannsynlighet for type I feil er egenskaper ved gjentatte forsøk. Anta ˆθ(X 1,..., X n ) er en estimator for θ. La ˆθ = ˆθ(x 1,..., x n ) være estimatet. Ideelt oppsett: Simuler x 1,..., xn uif F(x; θ) Beregn ˆθ = ˆθ(x 1,..., xn ) Gjenta B ganger som gir ˆθ 1,..., ˆθ B. Varians til ˆθ(X1,..., X n) estimeres ved empirisk varians av ˆθ 1,..., ˆθ B Problem: F(x; θ) ukjent. To muligheter Parametrisk bootstrapping: Bruk F (x; ˆθ) Må bruke spesifike algoritmer for å trekke fra riktig fordeling Ikke-param. bootstrapping: Bruk F(x) = 1 n n i=1 I(x i x) Svarer til å trekke fra data med tilbakelegging
Bootstrapping og inferens Anta Bootstrap simuleringer ˆθ 1,..., ˆθ B er tilgjengelige Estimat på forventningsskjevhet: θ ˆθ, θ = 1 B B b=1 ˆθ b. Estimat på varians: 1 B B b=1 (θ b θ ) 2 Konfidensintervall: Velg l, u slik at 100(1 α)% av θb -ene ligger innenfor l, u Hypotesetesting: Bruk sammenheng mellom testing og konfidensintervall.
Ett utvalg Kvantitativ respons Modell: Xi N(µ, σ 2 ). Av interesse: µ Estimator: ˆµ = X (Test)observator: T = X µ S/ n Konfidensintervall: [x ± tα/2;n 1 S/ n] Binær respons Modell: X Binom(n, p). Av interesse: p Estimator: ˆp = X, ˆq = 1 ˆp n (Test)observator: T = ˆp p ˆpˆq/n Konfidensintervall: Stor n: [ˆp ± z α/2 ˆpˆq/n] ˆpˆq/n+z 2 Moderat n: p ± z α/2 /4n 2 α/2 der p = ˆp+z 2 1+z α/2 2 /n α/n /2n 1+z α/n 2 /n Liten n: Kan bruke Binomisk fordeling direkte (detaljer i 453 ifbm testing)
To utvalg - kvantitativ respons Modell: X i N(µ 1, σ 2 1 ), Y j N(µ 2, σ 2 2 ). Av interesse: = µ 1 µ 2 Estimator: ˆ = X Y (Test)observator: T = X Y ( (µ 1 µ 2 ) 1 Sp 2 m + 1 n X Y (µ 1 µ 2 ) ) t m+n 2 σ 1 = σ 2 S 2 1 m + S2 2 n t ν σ 1 σ 2 Egen F-test for testing av H 0 : σ 1 = σ 2.
Parvise data Målinger i par {(X i, Y i ), i = 1,..., n} Bruker D i = X i Y i og ett-utvalgsmetoder Fordel: V (X i Y i ) = σ 2 1 + σ2 2 2ρσ 1σ 2 og ρ ofte positiv.
To utvalg - binær respons Modell: X Binom(m, p 1 ) og Y Binom(n, p 2 ). Av interesse: = p 1 p 2 Estimator: ˆ = ˆp 1 ˆp 2 = X m Y n (Test)observator: T = ˆp 1 ˆp 2 (p 1 p 2 ) ˆp1 N(0, 1) ˆq 1 m + ˆp 2 ˆq 2 n ˆp Konfidensintervall: ˆp 1 ˆp 2 ± z 1ˆq 1 α/2 m + ˆp 2ˆq 2 n
Lineær regresjon Data: {(y i, x i ), i = 1,..., n}, y i R Modell E[Yi ] = x T i β V (Yi ) = σ 2, dvs samme varians Yi -ene er uavhengige Yi er normalfordeling Vektor form: Y = Xβ + ε Inferens ˆβ = (X T X) 1 X T Y ˆσ 2 = s 2 1 = SSE = 1 (Y n (k+1) n (k+1) Ŷ)T (Y Ŷ) Cov(ˆβ) = σ 2 (X T X) 1 = σ 2 C ˆβ T = j β j t n (k+1) s C jj Basis for konfidensintervall og hypotesetesting.
Lineær regresjon - validering Forklaringsgrad: R 2 = 1 SSE, SST = SSR + SSE Justert forkl.grad: R 2 a = 1 SST n 1 SSE n (k+1) SST Test på om modell er rimelig: H0 : β 1 = β 2 = = β k = 0 F = R 2 /k H 0 (1 R 2 )/(n (k+1)) Fk,n (k+1) Residualer: Vanlige residualer: E = Y Ŷ = (I H)Y Standardiserte residualer: e i = e i Benytt ulike residualplott 1 hii
Logistisk regresjon Data: {(y i, x i ), i = 1,..., n}, y i {0, 1} Modell Yi Binom(1, p i ), p i = ext i β Yi er uavhengige Inferens Maksimum likelihood L(β) = n i=1 1+e xt i β p y i i (1 p i ) 1 y i =, i = 1,..., n n i=1 e y i xt i β 1+e xt i β Ingen analytisk løsning, gode numeriske optimeringsmetoder Gir ut både ˆβj og s ˆβj Generell ML teori: ˆβ j β j s ˆβ j N(0, 1) Konfidensintervall, hypotesetesting på vanlig måte Også mulig å beregne residualer og lage ulike plott.
Veien videre - STK2120 Videregående regresjon Flere kategoriske forklaringsvariable (variansanalyse) Kategoriske responser (flere enn to utvalg) Ikke-lineære modeller Maksimum likelihood Bruk i mer generelle settinger Noe om teorien bak ++++
Veien videre - øvrige kurs STK2130: Markov prosesser: X t {1,..., K } P(X t = k X 1,..., X t 1 ) = P(X t = k X t 1 ) STK3100: Generaliserte lineære modeller Logistisk regresjon Poisson regresjon Gamma regresjon Blandede modeller Prosjektarbeid (STK-MAT2011) Master nivå Matematisk statistikk (STK4011) Tid/Rom-tid modellering (STK4060, STK4150) Bayesiansk statistikk, koble data og a prior viten (STK4021) Statistisk modell valg (STK4160)...