Oppsummering av STK2120. Geir Storvik

Like dokumenter
STK Oppsummering

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Ekstraoppgaver for STK2120

STK Oppsummering

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100

Kapittel 2: Hendelser

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

STK juni 2016

FORMELSAMLING TIL STK1100 OG STK1110

Bootstrapping og simulering Tilleggslitteratur for STK1100

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kapittel 10: Hypotesetesting

ST0202 Statistikk for samfunnsvitere

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Kapittel 3: Studieopplegg

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Om eksamen. Never, never, never give up!

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Forelesning 8 STK3100/4100

Bred profil på statistikk?

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Bootstrapping og simulering

STK2100. Obligatorisk oppgave 1 av 2

Statistikk og havressurser

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4245 Statistikk Eksamen desember 2016

Fasit og løsningsforslag STK 1110

ST0202 Statistikk for samfunnsvitere

Om eksamen. Never, never, never give up!

TMA4240 Statistikk Høst 2007

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

TMA4240 Statistikk H2010

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Prøveeksamen STK vår 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Estimering og hypotesetesting

Oppgave 1. Kilde SS df M S F Legering Feil Total

UNIVERSITETET I OSLO

Fasit for tilleggsoppgaver

Prøveeksamen STK2100 (fasit) - vår 2018

Estimering og hypotesetesting

Econ 2130 uke 16 (HG)

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk 2014

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Eksamensoppgave i TMA4255 Anvendt statistikk

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Eksamensoppgave i TMA4240 Statistikk

Statistisk analyse av data fra planlagte forsøk

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Løsningsforslag oblig 1 STK1110 høsten 2014

EKSAMEN I TMA4255 ANVENDT STATISTIKK

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Ekstraoppgaver STK3100 h10

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Oppgave 14.1 (14.4:1)

HØGSKOLEN I STAVANGER

Forelesning 3 STK3100

Løsningsforslag eksamen 25. november 2003

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Statistikk og dataanalyse

Transkript:

Oppsummering av STK2120 Geir Storvik Vår 2011

Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter

Generelle inferensmetoder Estimering Maksimum likelihood Konfidensintervaller Normaltilnærming Bootstrapping Hypotesetesting Likelihood ratio test Grunnlag: Sannsynlighetsregning

Spesielle modeller/metoder Variansanalyse Regresjon Lineær Ikke-lineær Logistisk Kategoriske data/føyningstest Sjekk av modell-antagelser Transformasjoner

Maksimum likelihood/sannsynlighetsmaksimering y 1,..., y n uif f (y; θ) L(θ; y) = f (y 1,..., y n ; θ) = i f (y i; θ) log L(θ; y) = i log f (y i; θ) ˆθ = argmaxθ L(θ; y) Konsistent, asymptotisk effisient Analyttiske løsninger for lineære/gaussiske modeller Ett-/to- utvalgs modeller, variansanalyse, lineær regresjon Generelt: Numerisk optimering For stor n: ˆθ N(θ, I (ˆθ) 1 ) N(θ, J(ˆθ; y) 1 ) 2 J(θ; y) = log L(θ; y) θ θt I (θ) =E[J(θ; y)] Alltid pos. (semi)definit

Konfidensintervaller Normaltilnærming: ˆθ j ± z α/2 SE(ˆθ j ). SE(ˆθ j ): Normaltilnærming ( p I (θ) jj ) eller bootstrapping Bootstrap intervaller: ˆθ j,1,..., ˆθ j,b bootstrap simuleringer P Normaltilnærming: SE(ˆθj ) = B b=1 (ˆθ j,b ˆθ ) 2 q 1 B Standard bootstrap intervaller: (ˆθj δ U, ˆθ j δ L ) ˆδ L =ˆθ j,(k 1 ) = k 1 minste ˆθ j,b ˆδ U =ˆθ j,(k 2 ) = k 2 minste ˆθ j,b k 1 = B α/2, k 2 = B (1 α/2)

Numerisk optimering Sentrale begreper Likelihood L(θ; y) = f (y; θ) Skår funksjonen s(θ; y) = log L(θ; y) θ Observert informasjon J(θ; y) = log L(θ; y) θθ T Forventet (Fisher) informasjon I (θ) = E[J(θ; y)] Newton-Raphson θ s+1 = θ s + J(θ s ; x) 1 s(θ; x) Scoring: J(θ s ; x) I (θ s ). Mindre hopp Reparametrisering Dimensjonsreduksjon

Bootstrapping Av interesse: Egenskaper til ˆθ = ˆθ(y) ved gjentatt bruk av denne Bootstrap idé: Simuler ˆθ = ˆθ(y ) der y = (y 1,..., y n ) er bootstrap simuleringer av y. Ikke-parametrisk bootstrapping: Trekk y 1,..., y n med tilbakelegging fra {y 1,..., y n }. Parametrisk bootstrapping: Anta y i f (y; θ). Simuler yi Semi-parametrisk bootstrapping: Mellomting Eksempel: Regresjon ε i y i =g(x i ; β) + ε i y i =g(x i ; ˆβ) + ε i trelles med tilbakelegging fra {ˆε 1,..., ˆε n }, ˆε i = y i g(x i ; ˆβ). Forventningsskjevhet, usikkerhet, konfidensintervaller Egenskaper: STK4170 f (y; ˆθ)

Hypotesetesting Antar data y 1,..., y n uif f (y; θ) Ønsker å teste H 0 : θ Ω 0 mot H a : θ Ω a Prosedyre Spesifiser en test-observator Bestem et forkastningsområde for gitt signifikansnivå Beregn test-observator og forkastningsområde numerisk og konkluder Hvis test-observator i forkastningsområde, forkast H0 på det gitte signifikansnivå Ellers, konkluder med at det ikke er grunnlag i data for å forkaste H0 på det gitte signifikansnivå. Merk: Dette er ikke det samme som å påstå at H 0 er riktig! Ofte vanlig å rapportere P-verdi som angir hvor mye bevis det ligger i data. Merk: Bør skille mellom statistisk signifikant og praktisk signifikant Ved mye data kan en ende opp med å forkaste H 0 : θ = θ 0 selv om ˆθ er svært lik θ 0.

Likelihood ratio test Antar data y 1,..., y n uif f (y; θ) Ønsker å teste H 0 : θ Ω 0 mot H a : θ Ω a Neyman-Pearson: H 0 : θ = θ 0 mot H a ; θ = θ a LR = L(θ 0; y) L(θ a ; y) optimal testobservator Generell likelihood ratio LR = max θ Ω 0 L(θ; y) max θ Ω L(θ; y), Ω = Ω 0 Ω a 2 log LR H0 χ 2 df, df = Ω Ω 0 P-verdi: Pr(χ 2 df > 2 log LR) Ofte: LR må beregnes numerisk.

Variansanalyse Enveis variansanalyse Y ij = µ + α i + ε ij α i = 0 i SSTr/(I 1) SSE/I (J 1) H0 : α i = 0, F = Testing av mange hypoteser Tukey s metode Toveis variansanalyse H 0 : α i = α j, ȳ i ȳ j > Q α,i,i (J 1) p MSE/J Y ijk = µ + α i + β j + δ ij + ε ijk H 0 : α i = 0 SSA/(I 1) F = SSE/IJ(K 1) H 0 : β j = 0 SSB/(J 1) F = SSE/IJ(K 1) H 0 : δ ij = 0 SSAB/(I 1)(J 1) F = SSE/IJ(K 1)

Lineær regresjon Modell Y i = β 0 + k j=1 β jx ij + ε i Antagelser E[εi ] = 0 Var[εi ] = σ 2 Uavhengighet Normalfordelte Estimering β b = (X T X) 1 X T Y Forventningsrett COV( β) b = σ 2 [X T X] 1 ˆσ 2 = 1 n k 1 Pi (y i ŷ i ) 2 ŷ = Hy, H = X[X T X] 1 X T Projeksjon ned i plan spent ut av x-ene. Konfidensintervaller β j ± t α/2;n k 1 s bβj

Ikke-lineær regresjon Y i = g(x i ; β) + ε i Vanlige antagelser på {ε i }. Numerisk optimering for å finne ML-estimater Egenskaper/konfidensintervall ved normaltilnærming eller bootstrapping

Logistisk regresjon Respons Y i {0, 1}. Y i Binom(1, p(x i )) p(x) = eβ0+β1x 1 + e β0+β1x Numerisk optimering for å finne ML-estimater Egenskaper/konfidensintervall ved normaltilnærming (eller bootstrapping) Eksempel på Generaliserte lineære modeller, tema i STK3100.

Analyse av kategoriske data Gruppering av data i kategorier, data er antall innen hver kategori Sentral fordeling: Multinomisk fordeling Enveis gruppering Toveis gruppering Test av homogenitet Test av uavhengighet

En-veis gruppering En populasjon, utvalg på n, N i antall i kategori i Antar (N 1,..., N k ) Multinom(n, p 1,..., p k ) H 0 : p i = p i0, i = 1,..., k χ 2 = k i=1 (n i np i0 ) 2 np i0 H 0 χ 2 k 1 H 0 : p i = π i (θ), i = 1,..., k χ 2 = k (n i nπ i (ˆθ)) 2 i=1 ˆθ er ML-estimat. nπ i (ˆθ) H 0 χ 2 k 1 m Kan brukes til testing av fordelingsantagelser

To-veis gruppering Testing av homogenitet I populasjoner, utvalg ni fra populasjon i, n ij fra kateg. j (Ni1,..., N ij ) Multinom(n i ; p i1,..., p ij ), i = 1,..., I. H0 : p ij = p j Pearson s χ 2 test, df = (I 1) (J 1) Testing av uavhengighet 1 populasjon, utvalg n, nij fra kateg. (i, j) (N11,..., N ij,..., N IJ ) Multinom(n; p 11,..., p ij,..., p IJ ). H0 : p ij = p i p j Pearson s χ 2 test, df = (I 1) (J 1)

Veien videre STK2120 dekker de generelle prinsipper. Kan takle mange ulike situasjoner (også mange vi ikke har diskutert!) Mange aspekter som krever mer. Illustrasjon relasjon lengde fisk og alder

Fiske data Oblig: {(l i, a i ), i = 1,..., n} I praksis {(l b,i, a b,i, x b ), b = 1,..,, B, i = 1,..., n b }, b båt. Av interesse: E[l b,i a b,i, x b ], Pr(A b,i = a x b ). Regresjonsmodeller for multinomiske data, tema i STK3100 Pr(A b,i = a) = exp(α a,0 + α a,1 x b ) a exp(α a,0 + α a,1x b ) Fisk fra samme båt likere enn fisk fra forskjellige båter. Mulig modell: l b,i = β 0 + η b + β 1 log(a b,i ) + ε b,i der η b N(0, σ 2 η). η b er en tilfeldig effekt som modellerer korrelasjoner innen båter Tema i STK3100 Også aktuelt å modellere korrelasjoner i fordeling for alder Tema i STK3100 Tidsstrukturer når data er samlet inn over flere år: STK3100/4060/4110

Fiske data l b,i = β 0 + η b + β 1 log(a b,i ) + ε b,i Ofte: Alder mangler, men lengde kan gi informasjon om alder Missing data: Simuleringstilnærming STK4050, andre tilnærminger i andre kurs. Romlig struktur: Båter som fisker i nærheten av hverandre vil ha likere lengde/alder Bygger inn korrelasjoner mellom η b -ene. Romlig statistikk: STK4150 Mange mulige modeller, hvordan velge mellom disse? STK4160 Bootstrapping i kompliserte situasjoner: STK4170 Vet mye om hvordan fisk vokser fra tidligere studier, dvs har gode gjett på β 0, β 1. Apriori informasjon: Bayesiansk statistikk, STK4020 Kompliserte beregninger: Monte Carlo metoder STK4050