Oppsummering av STK2120 Geir Storvik Vår 2011
Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter
Generelle inferensmetoder Estimering Maksimum likelihood Konfidensintervaller Normaltilnærming Bootstrapping Hypotesetesting Likelihood ratio test Grunnlag: Sannsynlighetsregning
Spesielle modeller/metoder Variansanalyse Regresjon Lineær Ikke-lineær Logistisk Kategoriske data/føyningstest Sjekk av modell-antagelser Transformasjoner
Maksimum likelihood/sannsynlighetsmaksimering y 1,..., y n uif f (y; θ) L(θ; y) = f (y 1,..., y n ; θ) = i f (y i; θ) log L(θ; y) = i log f (y i; θ) ˆθ = argmaxθ L(θ; y) Konsistent, asymptotisk effisient Analyttiske løsninger for lineære/gaussiske modeller Ett-/to- utvalgs modeller, variansanalyse, lineær regresjon Generelt: Numerisk optimering For stor n: ˆθ N(θ, I (ˆθ) 1 ) N(θ, J(ˆθ; y) 1 ) 2 J(θ; y) = log L(θ; y) θ θt I (θ) =E[J(θ; y)] Alltid pos. (semi)definit
Konfidensintervaller Normaltilnærming: ˆθ j ± z α/2 SE(ˆθ j ). SE(ˆθ j ): Normaltilnærming ( p I (θ) jj ) eller bootstrapping Bootstrap intervaller: ˆθ j,1,..., ˆθ j,b bootstrap simuleringer P Normaltilnærming: SE(ˆθj ) = B b=1 (ˆθ j,b ˆθ ) 2 q 1 B Standard bootstrap intervaller: (ˆθj δ U, ˆθ j δ L ) ˆδ L =ˆθ j,(k 1 ) = k 1 minste ˆθ j,b ˆδ U =ˆθ j,(k 2 ) = k 2 minste ˆθ j,b k 1 = B α/2, k 2 = B (1 α/2)
Numerisk optimering Sentrale begreper Likelihood L(θ; y) = f (y; θ) Skår funksjonen s(θ; y) = log L(θ; y) θ Observert informasjon J(θ; y) = log L(θ; y) θθ T Forventet (Fisher) informasjon I (θ) = E[J(θ; y)] Newton-Raphson θ s+1 = θ s + J(θ s ; x) 1 s(θ; x) Scoring: J(θ s ; x) I (θ s ). Mindre hopp Reparametrisering Dimensjonsreduksjon
Bootstrapping Av interesse: Egenskaper til ˆθ = ˆθ(y) ved gjentatt bruk av denne Bootstrap idé: Simuler ˆθ = ˆθ(y ) der y = (y 1,..., y n ) er bootstrap simuleringer av y. Ikke-parametrisk bootstrapping: Trekk y 1,..., y n med tilbakelegging fra {y 1,..., y n }. Parametrisk bootstrapping: Anta y i f (y; θ). Simuler yi Semi-parametrisk bootstrapping: Mellomting Eksempel: Regresjon ε i y i =g(x i ; β) + ε i y i =g(x i ; ˆβ) + ε i trelles med tilbakelegging fra {ˆε 1,..., ˆε n }, ˆε i = y i g(x i ; ˆβ). Forventningsskjevhet, usikkerhet, konfidensintervaller Egenskaper: STK4170 f (y; ˆθ)
Hypotesetesting Antar data y 1,..., y n uif f (y; θ) Ønsker å teste H 0 : θ Ω 0 mot H a : θ Ω a Prosedyre Spesifiser en test-observator Bestem et forkastningsområde for gitt signifikansnivå Beregn test-observator og forkastningsområde numerisk og konkluder Hvis test-observator i forkastningsområde, forkast H0 på det gitte signifikansnivå Ellers, konkluder med at det ikke er grunnlag i data for å forkaste H0 på det gitte signifikansnivå. Merk: Dette er ikke det samme som å påstå at H 0 er riktig! Ofte vanlig å rapportere P-verdi som angir hvor mye bevis det ligger i data. Merk: Bør skille mellom statistisk signifikant og praktisk signifikant Ved mye data kan en ende opp med å forkaste H 0 : θ = θ 0 selv om ˆθ er svært lik θ 0.
Likelihood ratio test Antar data y 1,..., y n uif f (y; θ) Ønsker å teste H 0 : θ Ω 0 mot H a : θ Ω a Neyman-Pearson: H 0 : θ = θ 0 mot H a ; θ = θ a LR = L(θ 0; y) L(θ a ; y) optimal testobservator Generell likelihood ratio LR = max θ Ω 0 L(θ; y) max θ Ω L(θ; y), Ω = Ω 0 Ω a 2 log LR H0 χ 2 df, df = Ω Ω 0 P-verdi: Pr(χ 2 df > 2 log LR) Ofte: LR må beregnes numerisk.
Variansanalyse Enveis variansanalyse Y ij = µ + α i + ε ij α i = 0 i SSTr/(I 1) SSE/I (J 1) H0 : α i = 0, F = Testing av mange hypoteser Tukey s metode Toveis variansanalyse H 0 : α i = α j, ȳ i ȳ j > Q α,i,i (J 1) p MSE/J Y ijk = µ + α i + β j + δ ij + ε ijk H 0 : α i = 0 SSA/(I 1) F = SSE/IJ(K 1) H 0 : β j = 0 SSB/(J 1) F = SSE/IJ(K 1) H 0 : δ ij = 0 SSAB/(I 1)(J 1) F = SSE/IJ(K 1)
Lineær regresjon Modell Y i = β 0 + k j=1 β jx ij + ε i Antagelser E[εi ] = 0 Var[εi ] = σ 2 Uavhengighet Normalfordelte Estimering β b = (X T X) 1 X T Y Forventningsrett COV( β) b = σ 2 [X T X] 1 ˆσ 2 = 1 n k 1 Pi (y i ŷ i ) 2 ŷ = Hy, H = X[X T X] 1 X T Projeksjon ned i plan spent ut av x-ene. Konfidensintervaller β j ± t α/2;n k 1 s bβj
Ikke-lineær regresjon Y i = g(x i ; β) + ε i Vanlige antagelser på {ε i }. Numerisk optimering for å finne ML-estimater Egenskaper/konfidensintervall ved normaltilnærming eller bootstrapping
Logistisk regresjon Respons Y i {0, 1}. Y i Binom(1, p(x i )) p(x) = eβ0+β1x 1 + e β0+β1x Numerisk optimering for å finne ML-estimater Egenskaper/konfidensintervall ved normaltilnærming (eller bootstrapping) Eksempel på Generaliserte lineære modeller, tema i STK3100.
Analyse av kategoriske data Gruppering av data i kategorier, data er antall innen hver kategori Sentral fordeling: Multinomisk fordeling Enveis gruppering Toveis gruppering Test av homogenitet Test av uavhengighet
En-veis gruppering En populasjon, utvalg på n, N i antall i kategori i Antar (N 1,..., N k ) Multinom(n, p 1,..., p k ) H 0 : p i = p i0, i = 1,..., k χ 2 = k i=1 (n i np i0 ) 2 np i0 H 0 χ 2 k 1 H 0 : p i = π i (θ), i = 1,..., k χ 2 = k (n i nπ i (ˆθ)) 2 i=1 ˆθ er ML-estimat. nπ i (ˆθ) H 0 χ 2 k 1 m Kan brukes til testing av fordelingsantagelser
To-veis gruppering Testing av homogenitet I populasjoner, utvalg ni fra populasjon i, n ij fra kateg. j (Ni1,..., N ij ) Multinom(n i ; p i1,..., p ij ), i = 1,..., I. H0 : p ij = p j Pearson s χ 2 test, df = (I 1) (J 1) Testing av uavhengighet 1 populasjon, utvalg n, nij fra kateg. (i, j) (N11,..., N ij,..., N IJ ) Multinom(n; p 11,..., p ij,..., p IJ ). H0 : p ij = p i p j Pearson s χ 2 test, df = (I 1) (J 1)
Veien videre STK2120 dekker de generelle prinsipper. Kan takle mange ulike situasjoner (også mange vi ikke har diskutert!) Mange aspekter som krever mer. Illustrasjon relasjon lengde fisk og alder
Fiske data Oblig: {(l i, a i ), i = 1,..., n} I praksis {(l b,i, a b,i, x b ), b = 1,..,, B, i = 1,..., n b }, b båt. Av interesse: E[l b,i a b,i, x b ], Pr(A b,i = a x b ). Regresjonsmodeller for multinomiske data, tema i STK3100 Pr(A b,i = a) = exp(α a,0 + α a,1 x b ) a exp(α a,0 + α a,1x b ) Fisk fra samme båt likere enn fisk fra forskjellige båter. Mulig modell: l b,i = β 0 + η b + β 1 log(a b,i ) + ε b,i der η b N(0, σ 2 η). η b er en tilfeldig effekt som modellerer korrelasjoner innen båter Tema i STK3100 Også aktuelt å modellere korrelasjoner i fordeling for alder Tema i STK3100 Tidsstrukturer når data er samlet inn over flere år: STK3100/4060/4110
Fiske data l b,i = β 0 + η b + β 1 log(a b,i ) + ε b,i Ofte: Alder mangler, men lengde kan gi informasjon om alder Missing data: Simuleringstilnærming STK4050, andre tilnærminger i andre kurs. Romlig struktur: Båter som fisker i nærheten av hverandre vil ha likere lengde/alder Bygger inn korrelasjoner mellom η b -ene. Romlig statistikk: STK4150 Mange mulige modeller, hvordan velge mellom disse? STK4160 Bootstrapping i kompliserte situasjoner: STK4170 Vet mye om hvordan fisk vokser fra tidligere studier, dvs har gode gjett på β 0, β 1. Apriori informasjon: Bayesiansk statistikk, STK4020 Kompliserte beregninger: Monte Carlo metoder STK4050