SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON. Henrik Dahl *)

Like dokumenter
Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Kapittel 8: Estimering

ECON240 Statistikk og økonometri

TMA4245 Statistikk Eksamen mai 2017

MOT310 Statistiske metoder 1, høsten 2011

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Hypotesetesting, del 4

UNIVERSITETET I OSLO

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Estimering 1 -Punktestimering

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Oversikt over konfidensintervall i Econ 2130

Estimering 1 -Punktestimering

Oversikt over konfidensintervall i Econ 2130

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Estimering 2. -Konfidensintervall

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

UNIVERSITETET I OSLO

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

TMA4240 Statistikk Høst 2009

Løsningsforslag til eksamen i STK desember 2010

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

TMA4240 Statistikk Høst 2015

Oversikt over konfidensintervall i Econ 2130

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

Mer om utvalgsundersøkelser

UNIVERSITETET I OSLO

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Løsningsforslag Oppgave 1

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Kap. 9: Inferens om én populasjon

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

TMA4245 Statistikk Vår 2015

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

H T. Amundsen INNHOLD

TMA4240 Statistikk Høst 2015

Econ 2130 Forelesning uke 11 (HG)

TMA4245 Statistikk Eksamen august 2015

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

n 2 +1) hvis n er et partall.

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Metoder for politiske meningsmålinger

Polynominterpolasjon

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

STK1100 våren 2017 Estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

IO 77/ november 1977 ESTIMERING AV ENGELDERIVERTE PA DATA MED MALEFEIL. Odd Skarstad 1) INNHOLD

Løsningsforslag ST2301 øving 3

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

Kap. 9: Inferens om én populasjon

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Forelesning Moment og Momentgenererende funksjoner

OM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

TMA4245 Statistikk Eksamen 9. desember 2013

Lineær regresjonsanalyse (13.4)

Transkript:

IO 78/8 7. april 978 SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON av Herik Dahl *) INNHOLD Side Sammedrag. Om modeller for biær regresjo 3. Miste kvadraters metode (MKM) 5 3. Sasylighetsmaksimerigsmetode (SMM) 9 4. Sammeligig av MKM og SMM Dette arbeidet er utfort uder studiepermisjo 977/78 og er stottet av NAVF. Forfattere vil takke professor Erlig Sverdrup, som foreslo problemstillige, for rad og kommetarer til arbeidet. Dessute takkes medlemmer av Gruppe for meluder for yttige diskusjoer.

SAMMENDRAG Når e soker å få oversikt over hvorda e biær (0 - ) variabel varierer med e kotiuerlig variabel, -ka det være aturlig å bruke regresjosaalyse med de biære variable som vestresidevariabel og de kotiuerlige variable som høyresidevariabel. I kapittel diskuteres modeller for dee situasjoe. Spesielt diskuteres gyldighetsområdet for de ekleste ("p-lieære") modelle. I kapittel studeres miste kvadraters metode estimator for regresjoskoeffisiete i de "p-lieære modelle", og et asymptotisk uttrykk for variase til dee estimatore utledes. I kapittel 3 studeres sasylighetsmaksimerigsestimatore for regresjoskoeffisiete i de "p-lieære modelle", og et asymptotisk uttrykk for variase til dee estimatore utledes. I kapittel 4 sammeliges miste kvadraters- og sasylighetsmaksimerigsestimatoree for regresjoskoeffisiete i de "p-lieære modelle" ved hjelp av de asymptotiske uttrykkee som er utledet i kapitlee og 3.

3. Om modeller for biær regresjo. Vi har e situasjo der vi for ulike verdier av e "h0yreside variabel" y observerer e "vestreside variabel" X som er biær. Vi Øsker å si oe om hvorda X "i gjeomsitt" varierer med y. Det ka da være aturlig, som de ekleste modell for e slik situasjo, å bruke folgede modell (som i det folgede vil bli hevist til som "de p- lieære modelle"): () I-X. l' X ' s"" X er uavhegige EX.) - pi = P(X.=) = a + (3y., I dee modelle har vi to parametre a og (3. Valigvis vil vi særlig være iteresserte i parametere ß, da dee så å si måler "sammehege" mellom y og X. Modelle () har imidlertid sie klare begresiger. Om itet spesielt er forutsatt om variasjosområdet for y'ee, ser vi at modelle () for y-verdier utefor itervallet r a -al --,--- j vil foreslå sasyligheter utefor [0,]. Dette ka ikke tolereres. De mest ærliggede modifikasjo av modelle (). for å rette på dee skavake, ville være: Sammehege p. = a + ßy, [- yi E _, -al pi = hvis y < pi=lhvis yi fa, a -a gjelder bare for Dee modifiserte modelle vil jeg foretrekke å skrive på forme:ixi (), X,..., X er uavhegige E(Xi ) = pi = P(Xi=) = F(a-f-yi ) hvis x > der F(x) = x hvis 0 <x <. 0 hvis x <

4 Dermed faller de modifiserte modelle () i uder e mer geerell klasse av modeller, som ka beskrives ved: X X..., X er uavhegige (3) E(Xi) = pi = P(Xi=) = F(a +(3 yi ) der F er e kjet fordeligsfuksjo Modelle () fåes som et spesialtilfelle av (3) ved A la F være fordeligsfuksjoe til de rektagulære fordelig over [0,]. Modelle () fortoer seg som e temmelig urimelig modell i og med "kekkpuktee" i sammehege mellom p og y. / Det er vaskelig å teke seg oe kokret situasjo der det fies slike "kekkpukter". E ae sak er at om slike "kekkpukter" skal trekkes i i estimerigsmetoder, mister modelle () mye av si eksistesberettigelse, emlig ekelhete. Morale av dette er at modelle () må oppfattes som e foreklig av e modell av type (3). Modelle () har et gyldighetsområde som begreser seg til et itervall av y-verdier der fordeligsfuksjoe F med rimelig tilærmelse er lieær. Dette iebærer at modelle () bare har iteresse og gyldighet år ytee er slik at: < a 4a/' < ; i =,, - 6 der E og E avheger av fordeligsfuksjoe F. Rimeligvis har fordeligsfuksjoe F e S-form som vist i folgede figur: Lieær tilærmelse til F Ez Fordeligsfuksjoe F Gyldighetsområde for de "p-lieære modelle" ()

De "p-lieære modelle" () har altså bare gyldighet og iteresse for,y-verdier slik at a + f3a, holder seg ua verdiee 0 og. Hvor stort gyldighetsområdet for de " p-lieære modelle" () er, avheger av fordeligsfuksjoe F. Om vi ikke er villige til å begrese oss til gyldighetsområdet for de "p-lieære modelle" (), må vi arbeide i de mer geerelle modelle (3). Om F i (3) velges som stadardormalfordelige, er vi over i probitaaalyse. Om F i (3) velges som de logistiske fordelig, er vi over i logitaalyse. Både probit- og logitaalyse forutsetter at vi har et rimelig atall gjetakelser for hver y-verdi. Prise vi må betale for det større gyldighetsområdet for modelle (3) fremfor modelle (), er altså at vi må ha et rimelig atall gjetakelser for hver y-verdi. Dette ka evetuelt oppåes ved grupperig. Modelle () er altså særlig aktuell i tilfelle hvor det ikke er mulig å få til et rimelig atall gjetakelser for hver y-verdi, og der dette heller ikke ka oppåes ved grupperig.. Miste kvadraters metode (MKM). I modelle () f)((;(*) X ' er uavhegige = p i = P(X i =) = a 4- i =,,..., soker vi miste kvadraters metode (MKM) estimator for parametere E. Selv om a igår som parameter i modelle og -ikke 'a priori atas å være ull, har de forholdsvis midre iteresse e parametere f3. Jeg vil derfor kosetrere meg om estimerige av ß. MKM-estimatore for ß : er gitt ved: E X.(y i - 7) ^ i= = E (y i=

Uder modelle () er forvetigsrett for ß, og vi har folgede uttrykk for variase: E (y.-7) var(xi ) ^ i= var(s) = [ E (Y i -Y) i= Side X i er biær, er: var(xi ) = p.(-p.) = (a+ßyi )(-a-yi ) Altså: E (y i -7) (a4-7 i )(-a-) ^ i - var(ß) = = I El (7 i -:g) Li = Som vi ser avheger var(.3) av regresjosparametree a og (3. Vi ka folgelig ikke uttale oss om var(3) uavhegig av regresjosparametree, slik som i de valige regresjosmodelle. Vi vil seere sammelige MKM-estimatore med sasylighetsmaksimerigsestimatore for 3. For å kue gjeomfore e slik sammeligig vil vi ata at yiee er geerert fra e parametrisk fordeligsklasse. Som evt i., har de "p-lieære modelle" () bare gyldighet og iteresse for y'er slik at 0 < a + 3ar <. Det er derfor aturlig å geerere y'ee fra e fordelig som bare har positiv sasyiighetsmasse for 0 < a + <. E fordeligsklasse som tilfredsstiller dette kravet får vi ved å la: Œ + (3,7i =,,..., være uavhegige og idetisk Betafordelte.

Det ka kaskje syes uderlig å geerere y ee ved hjelp av e fordeligsklasse der a og igår. På de ae side ser vi at dette er ødvedig om e skal sikre seg mot, geereriger slik at a, +. t [0,]. Vi teker oss altså y'ee geerert på folgede måte: zi = a + i3yi = I,, er uavhegige og Betafordelte (a,a). z'ee har altså tetthete: f(z) F(a) a- a- (-z)o < z < r(a) 0 ellers Mer geerelt kue ma brukt e Betafordelig (a,b). (Se helt til slutt.) For å forekle sammeligige i kapittel 4, har jeg latt a = b. Det at a = b svarer til at y'ee har e symmetrisk fordelig og at symmetripuktet svarer til E(X) = 0.5. Uder forutsetige at y'ee er geerert som beskrevet, søker vi: p lim var f3, -000 der "p lim" står. for "grese i sasylighet". -000 var f3 E (Yi-Y) (a+7 )(- a- (37i ) i= L kyi -Y) L i=l IfOrer z. = a + og utytter at y i - y = T(z i -z): E (z-z) z (-z) f3 var i= ß (z-z) ] L Vi bemerker at var ikke avheger av verdie på a. Dette er ituitivt rimelig.

8 "Tellere" omformes: E (z -) z (-z ) i i= i i = E (z. - zzi +z )z i (.-z ) 3 = 7 E z. (-z.) - - E z. (-z.) + z - E z.(-z.) i= i= Ata z z z er uavhegige med samme fordelig som Z. ' Hvis de oppsatte forvetigee eksisterer, gjelder ifolge Khichis setig: (4) p lim - E z (-z ) = E(Z m (-Z) ). im i -400 i= For Z Betafordelt (a,a) har vi at hvis m 0, >, 0, gjelder: (5) E(Zm(-Z)) r (a) F (a+m) F (a+) r (a) r (a+m+) Av dette folger: E(Z) = E(Z 3 (.-Z)) E(Z (- Z)) E(Z(-Z)) = a(a+) 4 (a+) (a+3) a 4(a+) a (a+) var(z) = E(Z ) (E(Z)) = 4 (a+) Ved å bruke disse resultatee, samt Slutskys teorem, får vi: p lim var.(3 a(a+) a+3

Mer geerelt har vi at hvis zyee er Betafordelte (a,b), gjelder: p lim var. -000 a+b)(a+b+)(a b+ab +a +0 -ab) ab(a+b+3)(a+b+) 3. Sasylighetsmaksimerigsmetode (SMM). I modelle: () X X..., X er uavhegige ' (Xi ) = pi = I?(X.=) = a + (37i,,. soker vi sasylighetsmarkerigsmetode (SMM) estimator for parametere SMM-estimatore for ß : fremkommer ved å lose ligigssystemet: x -x E - E i= a * +(3 * yi-a*-eyi x y (-x )y i i E i E i i=l ot * + ey. i= med hesy på e Vi har altså ikke oe sluttet uttrykk for e som vi ka bruke til å studere estimatores egeskaper. Imidlertid ka vi bruke asymptotisk teori for SMMestimatorer. Uder visse regularitetskrav må e kue gå ut fra at det ka vises at e er asymptotisk ormalfordelt med riktig forvetig og varias som fies ved å ivertere iformasjosmatrise. Dette bor udersokes ærmere.

- 0 - fuksjoe: Iformasjosmatrise fies ved å derivere loglikelihood- L(a,a) = E [X 4 (a+yi ) + i= Iformasjosmatrise I er: a aa I vårt tilfelle får vi: E a aa L(a,Ø) 3ß -E ctaal(a,(3), -E--fL(a,) aa = y. ( 7 4 i=l a+.(3, i ( y i E i= + Determiate til I er: D= E ( i= a+ ayi I Y. / -i= cl+ay. Yi -a-ay i jj ( y.; + \a+f3y -a-f3y.) i= i i Altså har vi: Yi -a- ØY ) E i= Yi l-a-ßyi)' E i=l Av dette ka de asymptotiske variase til leses ut som: ( - D i= \a+ay i

Som i studiet av var 3 atar vi også her at z i = a + i =,,..., er uavhegige og idetisk Betafordelte (a,a). * De asymptotiske variase til er altså: E (_ 4. D-z i. = i i ) La K. = L + z. -z. J. Vi har: D = K.)( E (z4- a) K.) ( E (z.- Œ)K. i= i=/ j) 'i= - - [( K K. [\.. )( z K ) = = a( rel ziki) + a ( rel K. i= a( rel K - (Ez.K.) + a( K )( z.k.) K. i= [( A z K ) i i ( E z.k. i = i= i= ) ] Dette viser at de asymptotiske variase for e ikke avheger av verdie på a. Dette er ituitivt rimelig. Uder forutsetige at y'ee er geerert som beskrevet, soker vi: *ID lim var e = p lim fl-4c0-00- E E. = z.. = -z. 3., ' "Nevere" omformes: -D ( +. z (34 i=i z i E z i. -z. Ez i +E i= i= -z = i - ( + - E )]. = -z i

- - Ved å bruke formlee (4) og (5) i. får vi: p lim E -- = E(Z ) -000 i= i a- a-i for a > - a- p lim E = E((-Z) ) -400 -z. a-i for a > p lim E z = E(Z) = -400 i=. z 4 p lim = E 4' = E(Z (-Z) - ) i= a+ (a-) for a > z i - a p lim E = E(Z(-Z) ) = -z a-i -000 i= i for a > Ved å bruke disse resultatee samt Slutskys teorem, får vi: p lim var f3,* - (3 (a - ) -403 Dee utledige gjelder bare for a > i (ellers eksisterer ikke alle de oppsatte forvetigee). Mer geerelt har vi at hvis ziee er Betafordelte (a,b), gjelder: p lim var IS * = a (a 4. b-),-*00 Her må a > og b > for at utledige skal gjelde. 4. Sammeligig av MKM og SMM. uttrykk: Vi har i. og 3. fuet folgede asymptotiske var (ß) a(a+) Q a+3 var(e) (a-l) Som e kue vete, er SMK-estimatore a* bedre e MKMestimatore (3. Dessute ser e at forskjelle i varias er storst for små verdier av a, det vil si år y-verdiee har stor spredig.

- 3 - asymptotisk: Effisiestapet ved å bruke fremfor * er altså - e = - var(3 * ) var(ß) a(a+) Det ka være av iteresse å bruke: a = var(y) = var(z) (3 somparameteristedetfora-sidez.er Betafordelt (a,a), er: var(zi ) = 4(a+) Altså har vi folgede sammeheg mellom a og a: eller: a = 4f3 (a+) a= 8(3 a Uttrykt ved a har vi: - var() 4a +8(3 a var(e) kdi _7-33 4a utledige av det asymptotiske uttrykket for var(e) forutsatte vi a >. Dette svarer til at: a <.f3 For å få e oversikt over folgee av å velge ß fremfor e, ka vi tabellere effisiestapet som fuksjo av a (eller a ):

- 4 - TABELL a Effisiestapet i : 00 30 0f3 3 a(a+) 4.3 83 5.5 44 f3 00(3 49.5 0.06 400 Som vi ser ka effisiestapet bli stort hvis 7yee har stor spredig, mes effisiestapet er eglisjerbart for a-verdier fra ca. 0 og oppover. For å illustrere hva de ulike verdiee av a (eller a ) betyr, har jeg skissert tetthetee til Betafordeligee (a,a) for a =, 3, 5, og 49.5. a= Tetthete 6z (-) a= 3 Tetthete 30z ( -z) 0-5

- 5 - a= --- Tetthete 630 z (-z) 4 Dessute N(0.5, 0.5) 0,5 4 3 A WPM., a = --- Tetthete 64936 z"(-z)" --- Dessute N(0.5, 0.) 0,5 a = 49.5 som er lik N(0.5, 0.05) 0,5