j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Like dokumenter
(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

FORMELSAMLING TIL STK1100 OG STK1110

Løsningsforslag: STK2120-v15.

Oppsummering av STK2120. Geir Storvik

Tilleggsoppgaver for STK1110 Høst 2015

STK juni 2016

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

STK Oppsummering

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO

Oppgave 14.1 (14.4:1)

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO

FORMELSAMLING TIL STK1100 OG STK1110

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Forelesning 6 STK3100

Løsningsforslag eksamen 27. februar 2004

EKSTRAOPPGAVER I STK1110 H2017

Kapittel 2: Hendelser

Fasit og løsningsforslag STK 1110

Oppgave 1. Kilde SS df M S F Legering Feil Total

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Eksamen desember 2015

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Forelesning 3 STK3100

Prøveeksamen STK2100 (fasit) - vår 2018

TMA4240 Statistikk H2010

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Om eksamen. Never, never, never give up!

Ridge regresjon og lasso notat til STK2120

LØSNINGSFORSLAG ) = Dvs

Om eksamen. Never, never, never give up!

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Høst 2015

Kp. 12 Multippel regresjon

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Ekstraoppgaver STK3100 h10

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

UNIVERSITETET I OSLO

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

STK Oppsummering

vekt. vol bruk

TMA4245 Statistikk Eksamen desember 2016

Eksponensielle klasser

TMA4240 Statistikk Eksamen desember 2015

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

MOT310 Statistiske metoder 1, høsten 2011

Kp. 14 Flerfaktoreksperiment. Kp. 14: Flerfaktor-eksperiment; oversikt

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

EKSTRAOPPGAVER I STK1110 H2018

Variansanalyse og lineær regresjon notat til STK2120

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Oppgave N(0, 1) under H 0. S t n 3

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i TMA4240 Statistikk

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4245 Statistikk

UNIVERSITETET I OSLO

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

TMA4240 Statistikk Høst 2016

Bootstrapping og simulering Tilleggslitteratur for STK1100

TMA4240 Statistikk Høst 2009

10.1 Enkel lineær regresjon Multippel regresjon

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4267 Lineære statistiske modeller

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Forelesning 4 STK3100

Løsningsforslag oblig 1 STK1110 høsten 2014

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO Matematisk Institutt

Transkript:

FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: i (Y ij Ȳ ) 2 kan skrives som SST = SSE + SST r der innen ( within ) grupper i (Y ij Ȳi ) 2 er kvadratsummen for feil eller kvadratsummen SST r = I J i(ȳi Ȳ ) 2 er kvadratsummen for behandling eller kvadratsummen mellom ( between ) grupper (b) SSE og SST r er uavhengige (c) MSE = SSE/[ I (J i 1)] er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med I (J i 1) frihetsgrader. (d) Hvis alle α i -ene er lik null, er SST r/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis J i = J for i = 1,..., I, så er max i1,i 2 (Ȳi 1 µ i1 ) (Ȳi 2 µ i2 ) / MSE/J fordelt som den studentifiserte variasjonsbredde med parametere I og I(J 1). 2 Toveis variansanalyse Anta at Y ijk = µ + α i + β j + γ ij + ɛ ijk ; k = 1,..., K ; j = 1,..., J ; i = 1,..., I ; der ɛ ijk -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: K k=1 (Y ijk Ȳ ) 2 kan skrives som SST = SSA + SSB + SSAB + SSE der SSA = JK I (Ȳi Ȳ ) 2 SSB = IK (Ȳ j Ȳ ) 2 SSAB = K I (Ȳij Ȳi Ȳ j + Ȳ ) 2 K k=1 (Y ijk Ȳij ) 2 (b) SSA, SSB, SSAB og SSE er uavhengige (c) MSE = SSE/IJ(K 1) er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med IJ(K 1) frihetsgrader. 1

(d) Hvis alle α i -ene er lik null, er SSA/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis alle β j -ene er lik null, er SSB/σ 2 kji-kvadratfordelt med J 1 frihetsgrader (f) Hvis alle γ ij -ene er lik null, er SSAB/σ 2 kji-kvadratfordelt med (I 1)(J 1) frihetsgrader 3 Blokkforsøk (toveis variansanalyse uten gjentak) Anta at Y ij = µ + α i + β j + ɛ ij ; j = 1,..., J ; i = 1,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da har vi at: (Y ij Ȳ ) 2 kan skrives som SST = SSA + SSB + SSE der SSA = J I (Ȳi Ȳ ) 2 SSB = I (Ȳ j Ȳ ) 2 (Y ij Ȳi Ȳ j + Ȳ ) 2 (b) SSA, SSB og SSE er uavhengige (c) MSE = SSE/[(I 1)(J 1)] er en forventningsrett estimator for σ 2. SSE/σ 2 er kji-kvadratfordelt med (I 1)(J 1) frihetsgrader. (d) Hvis alle α i -ene er lik null, er SSA/σ 2 kji-kvadratfordelt med I 1 frihetsgrader (e) Hvis alle β j -ene er lik null, er SSB/σ 2 kji-kvadratfordelt med J 1 frihetsgrader 4 Tabelldata og kji-kvadrattester (a) Anta at (N 1,..., N k ) er multinomisk fordelt med sannsynligheter p i, der k N i = n og k p i = 1. Hvis p i = π i (θ), der θ = (θ 1,..., θ m ), og ˆθ er maksimum likelihood estimatoren for θ, så er k (N i E i ) 2 E i tilnærmet kji-kvadratfordelt med k 1 m frihetsgrader når E i = nπ i (ˆθ) 5 for (nesten) alle i (b) Homogenitetstesting: Anta at for i = 1,..., I er (N i1,..., N ij ) uavhengige og multinomisk fordelt med sannsynligheter p ij, der p ij = 1. Hvis p 1j = = p Ij, så er I J (N ij E ij ) 2 E ij 2

tilnærmet kji-kvadratfordelt med (I 1)(J 1) frihetsgrader når E ij = (N i N j )/N 5 for (nesten) alle i, j (c) Uavhengighetstesting: Anta at (N 11,..., N 1J, N 21,..., N 2J,..., N I1,..., N IJ ) er multinomisk fordelt med sannsynligheter p ij, der I p ij = 1. Hvis p ij = p i p j for alle i, j, så er I (N ij E ij ) 2 E ij tilnærmet kji-kvadratfordelt med (I 1)(J 1) frihetsgrader når E ij = (N i N j )/N 5 for (nesten) alle i, j 5 Multippel lineær regresjon Anta at Y i = β 0 + β 1 x i1 + + β k x i,k + ɛ i ; i = 1, 2,..., n ; der x ij -ene er kjente tall og ɛ i -ene er uavhengige og N(0, σ 2 )-fordelte. På matriseform kan vi skrive modellen som Y = Xβ, der Y = (Y 1,..., Y n ) T og β = (β 0,..., β k ) T er henholdsvis n- og k + 1-dimensjonale vektorer, og X = {x ij } er en n (k + 1)-dimensjonal matrise. Vi har at: (a) Minste kvadraters estimator for β er ˆβ = (X T X) 1 X T Y. (b) La ˆβ = ( ˆβ 0,..., ˆβ k ) T. Da er ˆβ j -ene normalfordelte og forventningsrette, og Var( ˆβ i ) = σ 2 c ii og Cov( ˆβ i, ˆβ j ) = σ 2 c ij der c ij er element (i, j) i (k + 1) (k + 1) matrisen C = (X T X) 1. (c) La Ŷi = ˆβ 0 + ˆβ 1 x i1 + + ˆβ k x i,k, og sett SSE = n (Y i Ŷi) 2. Da er S 2 = SSE/(n (k + 1)) en forventningsrett estimator for σ 2, og (n (k + 1))S 2 /σ 2 χ 2 n (k+1). Videre er S 2 og ˆβ uavhengige. (d) La S 2ˆβi være den variansestimatoren for ˆβ i vi får ved å erstatte σ 2 med S 2 i formlen for Var( ˆβ i ) i punkt b). Da er ( ˆβ i β i )/S ˆβi t n (k+1). 6 Bootstrapping Anta fordelingen til data X er beskrevet ved en fordelingsfunksjon F. La θ = θ(f ) være en egenskap ved F som estimeres ved ˆθ = ˆθ(X). (a) Bootstrapping-idéen er å tilnærme egenskapene til ˆθ ved å anta at et estimat F på F er den sanne fordelingsfunksjonen. 3

(b) Bootstrap estimering av skjevhet til ˆθ: bˆθ = 1 B B θb θ( F ) b=1 (c) Bootstrap estimering av standardavvik til ˆθ: E F [(ˆθ(X ) E F [ˆθ(X )]) 2 ] (d) Standard bootstrap konfidensintervall: (ˆθ δ, ˆθ δ) der δ og δ er nedre og øvre α/2 kvantil i bootstrap fordelingen til = ˆθ θ. 7 Maksimum likelihood metoden Anta at X 1, X 2,..., X n har simultan punktsannsynlighet/sannsynlighetstetthet f(x 1, x 2,..., x n θ), der θ = (θ 1,...., θ p ) er en parametervektor (skalar hvis p = 1). Vi antar at f(x 1, x 2,..., x n θ) tilfredsstiller visse deriverbarhetsbetingelser. (a) Gitt observerte verdier X i = x i ; i = 1,..., n; er likelihood-funksjonen lik(θ) = f(x 1, x 2,..., x n θ) og loglikelihood-funksjonen l(θ) = log(lik(θ)). (b) Maksimum likelihood estimatet er den verdien av θ som maksimerer lik(θ) eller ekvivalent maksimerer l(θ). Hvis vi erstatter de observerte x i -ene med de stokastiske X i -ene, får vi maksimum likelihood estimatoren. (c) Maksimum likelihood estimatet ˆθ = (ˆθ 1,...., ˆθ p ) er en løsning av ligningene s j (θ) = 0; j = 1,..., p; der s j (θ) = ( / θ j )l(θ) er score-funksjonene. Vektoren av scorefunksjoner er s(θ) = (s 1 (θ),..., s p (θ)) T. (d) Den observerte informasjonsmatrisen J(θ) er p p matrisen med element (i, j) gitt ved J ij (θ) = 2 θ i θ j l(θ). Den forventede informasjonsmatrisen (eller Fishers informasjonsmatrise) Ī(θ) er p p matrisen med element (i, j) gitt ved Īij(θ) = E[ J ij (θ)]. For uavhengige og identisk fordelte observasjoner har vi at Ī(θ) = ni(θ) der I(θ) er forventet informasjon til en observasjon. (e) Når ligningene i punkt (c) ikke har en eksplisitt løsning, kan vi finne maksimum likelihood estimatet ved å bruke Newton-Raphsons metode: θ (s+1) = θ (s) + J 1 (θ (s) )s(θ (s) ), ved å bruke Fishers scoringsalgoritme: θ (s+1) = θ (s) + Ī 1 (θ (s) )s(θ (s) ), eller ved passende modifikasjoner av disse. 4

(f) Når vi har tilstrekkelig mye data, er ˆθ i tilnærmet normalfordelt med forventning θ i og med varians lik det i-te diagonalelementet til Ī 1 (θ). Kovariansen mellom ˆθ i og ˆθ j er tilnærmet lik element (i, j) i Ī 1 (θ). Vi kan estimere varianser/kovarianser ved å sette inn ˆθ for θ i Ī 1 (θ) eller i J 1 (θ). 5