STK Oppsummering

Like dokumenter
STK Oppsummering

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Oppsummering av STK2120. Geir Storvik

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Ekstraoppgaver for STK2120

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Tilleggsoppgaver for STK1110 Høst 2015

TMA4240 Statistikk H2010

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Kapittel 2: Hendelser

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

Løsningsforslag eksamen 25. november 2003

Bootstrapping og simulering Tilleggslitteratur for STK1100

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

TMA4240 Statistikk Høst 2015

Løsningsforslag oblig 1 STK1110 høsten 2014

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk H2010

TMA4240 Statistikk H2010

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

FORMELSAMLING TIL STK1100 OG STK1110

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Oppgave 1. Kilde SS df M S F Legering Feil Total

Bootstrapping og simulering

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Oppgave N(0, 1) under H 0. S t n 3

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Oppgave 14.1 (14.4:1)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Fasit og løsningsforslag STK 1110

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

DEL 1 GRUNNLEGGENDE STATISTIKK

STK1100 våren 2019 Mere om konfidensintevaller

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ST0202 Statistikk for samfunnsvitere

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

LØSNINGSFORSLAG ) = Dvs

Statistikk og dataanalyse

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

Prøveeksamen STK2100 (fasit) - vår 2018

STK juni 2016

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

ÅMA110 Sannsynlighetsregning med statistikk, våren

Norske hoppdommere og Janne Ahonen

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk H2017 [15]

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Estimering og hypotesetesting

Econ 2130 uke 16 (HG)

Prøveeksamen STK vår 2017

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Bred profil på statistikk?

TMA4240 Statistikk Høst 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Kapittel 3: Studieopplegg

UNIVERSITETET I OSLO

TMA4240 Statistikk Eksamen desember 2015

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Estimering og hypotesetesting

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

Kapittel 10: Hypotesetesting

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Eksponensielle klasser

TMA4240 Statistikk Høst 2016

Transkript:

STK1110 - Oppsummering Geir Storvik 11. November 2015

STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer Et utvalg To-utvalg Regresjon I alle 3 tilfeller enten kvantitativ eller binær respons

Statistisk inferens Generell problemstilling: X1,..., X n tilfeldig utvalg fra f (x; θ). Ønsker å trekke ut informasjon om θ fra data Punktestimat Standard feil Konfidensintervall Hypotesetesting Standard feil/konfidensintervall/hypotesetesting avhenger av sannsynlighetsbaserte modeller og sannsynlighetsregning

Punktestimator - ønskelige egenskaper (Tilnærmet) forventningsrett Liten varians/standard feil Kan noen ganger regnes ut Kan generelt estimeres ved Bootstrapping Konsistent (varians minker med n) Liten forventet kvadratisk feil E[(ˆθ θ) 2 ] = V (ˆθ) + [E(ˆθ) θ] 2

Punktestimering - prinsipper Momentestimator: Løse likningssystemet (θ = (θ 1,..., θ k )) 1 n n i=1 x j i =E(X j i ) = g j(θ), j = 1,..., k Maksimum likelihood (ML): ˆθ ML = arg max L(θ) θ L(θ) =f (x 1,..., x n ; θ) uavh = n f (x i ; θ) i=1 Momentestimator ofte enklere, ML som regel bedre For n stor: ˆθ ML N(θ, σ ) der = c/n. 2ˆθ σ2ˆθ

Konfidensintervall Intervall med plausible verdier for θ [l, u] = [l(x), u(x)], dvs tilfeldige grenser (avhenger av data) Dekker θ med (tilnærmet) sannsynlighet (1 α)100% hvis vi gjentar eksperimentet mange ganger Vanligste intervall for µ = E(X): x ± s zα/2 n Eksakt hvis Xi er normalfordelt og s = σ er kjent Tilnærmet riktig ellers Generelt intervall: ˆθ ± z α/2ˆσˆθ

Konfidensintervall - konstruksjon Tar utgangspunkt i en (stokastisk) funksjon h(x 1,..., X n ; θ) med kjent fordeling P(a < h(x 1,..., X n ; θ) < b) = 1 α Manipuler ulikehetene til P(l(X 1,..., X n ) < θ < u(x 1,..., X n )) = 1 α Gir [l(x 1,..., x n ), u(x 1,..., x n )] som et (1 α)100% konfidensintervall for θ. Eksempel h(x1,..., X n; θ) = X µ S/ n t n 1 S/ < t n α/2;n 1) = 1 α P(X tα/2;n 1 S/ n < µ < X + t α/2;n 1 S/ n) = 1 α [x ± tα/2;n 1 S/ n] er et (1 α)100% konfidensintervall for µ. P( tα/2;n 1 < X µ

Hypotesetesting Teste H 0 : θ = θ 0 mot H a : θ θ 0 Alternativt H a : θ > θ 0 eller H a : θ < θ 0 Test prosedyre 1. Spesifiser en test observator Prinsipp: Testobservator liten under H 0, stor under H a Eksempel: θ = µ = E(X), T = X µ 0 S/ n 2. Definer et forkastningsområde Prinsipp: Kontroller sannsynlighet for type I feil. Eksempel: T > t α/2;n 1 Generelt prinsipp for å velge testobservator: Likelihood ratio Type I feil: Forkaste H 0 når H 0 er riktig. Type II feil: Ikke forkaste H 0 når H 0 er gal. P-verdi: Mål på bevis mot H 0 (små verdier gir sterk bevisbyrde)

Hypotesetesting og konfidensintervall Ønsker å teste H 0 : θ = θ 0 mot H a : θ θ 0. Anta et 100(1 α)% konfidensintervall for θ er tilgjengelig Testprosedyre: Forkast H 0 hvis θ 0 ikke er med i konfidensintervallet Vil ha sannsynlighet for type I feil lik α Konfidensintervall noen ganger enklere (f.eks vha Bootstrapping) Ensidige alternativer: Konstruer ensidige konfidensintervaller, e.g [l, ).

Bootstrapping Teknikk for inferens når eksakte beregninger er vanskelig. Tar utgangspunkt i at varians, dekningssannsynlighet, sannsynlighet for type I feil er egenskaper ved gjentatte forsøk. Anta ˆθ(X 1,..., X n ) er en estimator for θ. La ˆθ = ˆθ(x 1,..., x n ) være estimatet. Ideelt oppsett: Simuler x 1,..., xn uif F(x; θ) Beregn ˆθ = ˆθ(x 1,..., xn ) Gjenta B ganger som gir ˆθ 1,..., ˆθ B. Varians til ˆθ(X1,..., X n) estimeres ved empirisk varians av ˆθ 1,..., ˆθ B Problem: F(x; θ) ukjent. To muligheter Parametrisk bootstrapping: Bruk F (x; ˆθ) Må bruke spesifike algoritmer for å trekke fra riktig fordeling Ikke-param. bootstrapping: Bruk F(x) = 1 n n i=1 I(x i x) Svarer til å trekke fra data med tilbakelegging

Bootstrapping og inferens Anta Bootstrap simuleringer ˆθ 1,..., ˆθ B er tilgjengelige Estimat på forventningsskjevhet: θ ˆθ, θ = 1 B B b=1 ˆθ b. Estimat på varians: 1 B B b=1 (θ b θ ) 2 Konfidensintervall: Velg l, u slik at 100(1 α)% av θb -ene ligger innenfor l, u Hypotesetesting: Bruk sammenheng mellom testing og konfidensintervall.

Ett utvalg Kvantitativ respons Modell: Xi N(µ, σ 2 ). Av interesse: µ Estimator: ˆµ = X (Test)observator: T = X µ S/ n Konfidensintervall: [x ± tα/2;n 1 S/ n] Binær respons Modell: X Binom(n, p). Av interesse: p Estimator: ˆp = X, ˆq = 1 ˆp n (Test)observator: T = ˆp p ˆpˆq/n Konfidensintervall: Stor n: [ˆp ± z α/2 ˆpˆq/n] ˆpˆq/n+z 2 Moderat n: p ± z α/2 /4n 2 α/2 der p = ˆp+z 2 1+z α/2 2 /n α/n /2n 1+z α/n 2 /n Liten n: Kan bruke Binomisk fordeling direkte (detaljer i 453 ifbm testing)

To utvalg - kvantitativ respons Modell: X i N(µ 1, σ 2 1 ), Y j N(µ 2, σ 2 2 ). Av interesse: = µ 1 µ 2 Estimator: ˆ = X Y (Test)observator: T = X Y ( (µ 1 µ 2 ) 1 Sp 2 m + 1 n X Y (µ 1 µ 2 ) ) t m+n 2 σ 1 = σ 2 S 2 1 m + S2 2 n t ν σ 1 σ 2 Egen F-test for testing av H 0 : σ 1 = σ 2.

Parvise data Målinger i par {(X i, Y i ), i = 1,..., n} Bruker D i = X i Y i og ett-utvalgsmetoder Fordel: V (X i Y i ) = σ 2 1 + σ2 2 2ρσ 1σ 2 og ρ ofte positiv.

To utvalg - binær respons Modell: X Binom(m, p 1 ) og Y Binom(n, p 2 ). Av interesse: = p 1 p 2 Estimator: ˆ = ˆp 1 ˆp 2 = X m Y n (Test)observator: T = ˆp 1 ˆp 2 (p 1 p 2 ) ˆp1 N(0, 1) ˆq 1 m + ˆp 2 ˆq 2 n ˆp Konfidensintervall: ˆp 1 ˆp 2 ± z 1ˆq 1 α/2 m + ˆp 2ˆq 2 n

Lineær regresjon Data: {(y i, x i ), i = 1,..., n}, y i R Modell E[Yi ] = x T i β V (Yi ) = σ 2, dvs samme varians Yi -ene er uavhengige Yi er normalfordeling Vektor form: Y = Xβ + ε Inferens ˆβ = (X T X) 1 X T Y ˆσ 2 = s 2 1 = SSE = 1 (Y n (k+1) n (k+1) Ŷ)T (Y Ŷ) Cov(ˆβ) = σ 2 (X T X) 1 = σ 2 C ˆβ T = j β j t n (k+1) s C jj Basis for konfidensintervall og hypotesetesting.

Lineær regresjon - validering Forklaringsgrad: R 2 = 1 SSE, SST = SSR + SSE Justert forkl.grad: R 2 a = 1 SST n 1 SSE n (k+1) SST Test på om modell er rimelig: H0 : β 1 = β 2 = = β k = 0 F = R 2 /k H 0 (1 R 2 )/(n (k+1)) Fk,n (k+1) Residualer: Vanlige residualer: E = Y Ŷ = (I H)Y Standardiserte residualer: e i = e i Benytt ulike residualplott 1 hii

Logistisk regresjon Data: {(y i, x i ), i = 1,..., n}, y i {0, 1} Modell Yi Binom(1, p i ), p i = ext i β Yi er uavhengige Inferens Maksimum likelihood L(β) = n i=1 1+e xt i β p y i i (1 p i ) 1 y i =, i = 1,..., n n i=1 e y i xt i β 1+e xt i β Ingen analytisk løsning, gode numeriske optimeringsmetoder Gir ut både ˆβj og s ˆβj Generell ML teori: ˆβ j β j s ˆβ j N(0, 1) Konfidensintervall, hypotesetesting på vanlig måte Også mulig å beregne residualer og lage ulike plott.

Veien videre - STK2120 Videregående regresjon Flere kategoriske forklaringsvariable (variansanalyse) Kategoriske responser (flere enn to utvalg) Ikke-lineære modeller Maksimum likelihood Bruk i mer generelle settinger Noe om teorien bak ++++

Veien videre - øvrige kurs STK2130: Markov prosesser: X t {1,..., K } P(X t = k X 1,..., X t 1 ) = P(X t = k X t 1 ) STK3100: Generaliserte lineære modeller Logistisk regresjon Poisson regresjon Gamma regresjon Blandede modeller Prosjektarbeid (STK-MAT2011) Master nivå Matematisk statistikk (STK4011) Tid/Rom-tid modellering (STK4060, STK4150) Bayesiansk statistikk, koble data og a prior viten (STK4021) Statistisk modell valg (STK4160)...