SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON. Henrik Dahl *)

IO 78/8 7. april 978 SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON av Herik Dahl *) INNHOLD Side Sammedrag. Om modeller for biær regresjo 3. Miste kvadraters metode (MKM) 5 3. Sasylighetsmaksimerigsmetode (SMM) 9 4. Sammeligig av MKM og SMM Dette arbeidet er utfort uder studiepermisjo 977/78 og er stottet av NAVF. Forfattere vil takke professor Erlig Sverdrup, som foreslo problemstillige, for rad og kommetarer til arbeidet. Dessute takkes medlemmer av Gruppe for meluder for yttige diskusjoer.

SAMMENDRAG Når e soker å få oversikt over hvorda e biær (0 - ) variabel varierer med e kotiuerlig variabel, -ka det være aturlig å bruke regresjosaalyse med de biære variable som vestresidevariabel og de kotiuerlige variable som høyresidevariabel. I kapittel diskuteres modeller for dee situasjoe. Spesielt diskuteres gyldighetsområdet for de ekleste ("p-lieære") modelle. I kapittel studeres miste kvadraters metode estimator for regresjoskoeffisiete i de "p-lieære modelle", og et asymptotisk uttrykk for variase til dee estimatore utledes. I kapittel 3 studeres sasylighetsmaksimerigsestimatore for regresjoskoeffisiete i de "p-lieære modelle", og et asymptotisk uttrykk for variase til dee estimatore utledes. I kapittel 4 sammeliges miste kvadraters- og sasylighetsmaksimerigsestimatoree for regresjoskoeffisiete i de "p-lieære modelle" ved hjelp av de asymptotiske uttrykkee som er utledet i kapitlee og 3.

3. Om modeller for biær regresjo. Vi har e situasjo der vi for ulike verdier av e "h0yreside variabel" y observerer e "vestreside variabel" X som er biær. Vi Øsker å si oe om hvorda X "i gjeomsitt" varierer med y. Det ka da være aturlig, som de ekleste modell for e slik situasjo, å bruke folgede modell (som i det folgede vil bli hevist til som "de p- lieære modelle"): () I-X. l' X ' s"" X er uavhegige EX.) - pi = P(X.=) = a + (3y., I dee modelle har vi to parametre a og (3. Valigvis vil vi særlig være iteresserte i parametere ß, da dee så å si måler "sammehege" mellom y og X. Modelle () har imidlertid sie klare begresiger. Om itet spesielt er forutsatt om variasjosområdet for y'ee, ser vi at modelle () for y-verdier utefor itervallet r a -al --,--- j vil foreslå sasyligheter utefor [0,]. Dette ka ikke tolereres. De mest ærliggede modifikasjo av modelle (). for å rette på dee skavake, ville være: Sammehege p. = a + ßy, [- yi E _, -al pi = hvis y < pi=lhvis yi fa, a -a gjelder bare for Dee modifiserte modelle vil jeg foretrekke å skrive på forme:ixi (), X,..., X er uavhegige E(Xi ) = pi = P(Xi=) = F(a-f-yi ) hvis x > der F(x) = x hvis 0 <x <. 0 hvis x <

4 Dermed faller de modifiserte modelle () i uder e mer geerell klasse av modeller, som ka beskrives ved: X X..., X er uavhegige (3) E(Xi) = pi = P(Xi=) = F(a +(3 yi ) der F er e kjet fordeligsfuksjo Modelle () fåes som et spesialtilfelle av (3) ved A la F være fordeligsfuksjoe til de rektagulære fordelig over [0,]. Modelle () fortoer seg som e temmelig urimelig modell i og med "kekkpuktee" i sammehege mellom p og y. / Det er vaskelig å teke seg oe kokret situasjo der det fies slike "kekkpukter". E ae sak er at om slike "kekkpukter" skal trekkes i i estimerigsmetoder, mister modelle () mye av si eksistesberettigelse, emlig ekelhete. Morale av dette er at modelle () må oppfattes som e foreklig av e modell av type (3). Modelle () har et gyldighetsområde som begreser seg til et itervall av y-verdier der fordeligsfuksjoe F med rimelig tilærmelse er lieær. Dette iebærer at modelle () bare har iteresse og gyldighet år ytee er slik at: < a 4a/' < ; i =,, - 6 der E og E avheger av fordeligsfuksjoe F. Rimeligvis har fordeligsfuksjoe F e S-form som vist i folgede figur: Lieær tilærmelse til F Ez Fordeligsfuksjoe F Gyldighetsområde for de "p-lieære modelle" ()

De "p-lieære modelle" () har altså bare gyldighet og iteresse for,y-verdier slik at a + f3a, holder seg ua verdiee 0 og. Hvor stort gyldighetsområdet for de " p-lieære modelle" () er, avheger av fordeligsfuksjoe F. Om vi ikke er villige til å begrese oss til gyldighetsområdet for de "p-lieære modelle" (), må vi arbeide i de mer geerelle modelle (3). Om F i (3) velges som stadardormalfordelige, er vi over i probitaaalyse. Om F i (3) velges som de logistiske fordelig, er vi over i logitaalyse. Både probit- og logitaalyse forutsetter at vi har et rimelig atall gjetakelser for hver y-verdi. Prise vi må betale for det større gyldighetsområdet for modelle (3) fremfor modelle (), er altså at vi må ha et rimelig atall gjetakelser for hver y-verdi. Dette ka evetuelt oppåes ved grupperig. Modelle () er altså særlig aktuell i tilfelle hvor det ikke er mulig å få til et rimelig atall gjetakelser for hver y-verdi, og der dette heller ikke ka oppåes ved grupperig.. Miste kvadraters metode (MKM). I modelle () f)((;(*) X ' er uavhegige = p i = P(X i =) = a 4- i =,,..., soker vi miste kvadraters metode (MKM) estimator for parametere E. Selv om a igår som parameter i modelle og -ikke 'a priori atas å være ull, har de forholdsvis midre iteresse e parametere f3. Jeg vil derfor kosetrere meg om estimerige av ß. MKM-estimatore for ß : er gitt ved: E X.(y i - 7) ^ i= = E (y i=

Uder modelle () er forvetigsrett for ß, og vi har folgede uttrykk for variase: E (y.-7) var(xi ) ^ i= var(s) = [ E (Y i -Y) i= Side X i er biær, er: var(xi ) = p.(-p.) = (a+ßyi )(-a-yi ) Altså: E (y i -7) (a4-7 i )(-a-) ^ i - var(ß) = = I El (7 i -:g) Li = Som vi ser avheger var(.3) av regresjosparametree a og (3. Vi ka folgelig ikke uttale oss om var(3) uavhegig av regresjosparametree, slik som i de valige regresjosmodelle. Vi vil seere sammelige MKM-estimatore med sasylighetsmaksimerigsestimatore for 3. For å kue gjeomfore e slik sammeligig vil vi ata at yiee er geerert fra e parametrisk fordeligsklasse. Som evt i., har de "p-lieære modelle" () bare gyldighet og iteresse for y'er slik at 0 < a + 3ar <. Det er derfor aturlig å geerere y'ee fra e fordelig som bare har positiv sasyiighetsmasse for 0 < a + <. E fordeligsklasse som tilfredsstiller dette kravet får vi ved å la: Œ + (3,7i =,,..., være uavhegige og idetisk Betafordelte.

Det ka kaskje syes uderlig å geerere y ee ved hjelp av e fordeligsklasse der a og igår. På de ae side ser vi at dette er ødvedig om e skal sikre seg mot, geereriger slik at a, +. t [0,]. Vi teker oss altså y'ee geerert på folgede måte: zi = a + i3yi = I,, er uavhegige og Betafordelte (a,a). z'ee har altså tetthete: f(z) F(a) a- a- (-z)o < z < r(a) 0 ellers Mer geerelt kue ma brukt e Betafordelig (a,b). (Se helt til slutt.) For å forekle sammeligige i kapittel 4, har jeg latt a = b. Det at a = b svarer til at y'ee har e symmetrisk fordelig og at symmetripuktet svarer til E(X) = 0.5. Uder forutsetige at y'ee er geerert som beskrevet, søker vi: p lim var f3, -000 der "p lim" står. for "grese i sasylighet". -000 var f3 E (Yi-Y) (a+7 )(- a- (37i ) i= L kyi -Y) L i=l IfOrer z. = a + og utytter at y i - y = T(z i -z): E (z-z) z (-z) f3 var i= ß (z-z) ] L Vi bemerker at var ikke avheger av verdie på a. Dette er ituitivt rimelig.

8 "Tellere" omformes: E (z -) z (-z ) i i= i i = E (z. - zzi +z )z i (.-z ) 3 = 7 E z. (-z.) - - E z. (-z.) + z - E z.(-z.) i= i= Ata z z z er uavhegige med samme fordelig som Z. ' Hvis de oppsatte forvetigee eksisterer, gjelder ifolge Khichis setig: (4) p lim - E z (-z ) = E(Z m (-Z) ). im i -400 i= For Z Betafordelt (a,a) har vi at hvis m 0, >, 0, gjelder: (5) E(Zm(-Z)) r (a) F (a+m) F (a+) r (a) r (a+m+) Av dette folger: E(Z) = E(Z 3 (.-Z)) E(Z (- Z)) E(Z(-Z)) = a(a+) 4 (a+) (a+3) a 4(a+) a (a+) var(z) = E(Z ) (E(Z)) = 4 (a+) Ved å bruke disse resultatee, samt Slutskys teorem, får vi: p lim var.(3 a(a+) a+3

Mer geerelt har vi at hvis zyee er Betafordelte (a,b), gjelder: p lim var. -000 a+b)(a+b+)(a b+ab +a +0 -ab) ab(a+b+3)(a+b+) 3. Sasylighetsmaksimerigsmetode (SMM). I modelle: () X X..., X er uavhegige ' (Xi ) = pi = I?(X.=) = a + (37i,,. soker vi sasylighetsmarkerigsmetode (SMM) estimator for parametere SMM-estimatore for ß : fremkommer ved å lose ligigssystemet: x -x E - E i= a * +(3 * yi-a*-eyi x y (-x )y i i E i E i i=l ot * + ey. i= med hesy på e Vi har altså ikke oe sluttet uttrykk for e som vi ka bruke til å studere estimatores egeskaper. Imidlertid ka vi bruke asymptotisk teori for SMMestimatorer. Uder visse regularitetskrav må e kue gå ut fra at det ka vises at e er asymptotisk ormalfordelt med riktig forvetig og varias som fies ved å ivertere iformasjosmatrise. Dette bor udersokes ærmere.

- 0 - fuksjoe: Iformasjosmatrise fies ved å derivere loglikelihood- L(a,a) = E [X 4 (a+yi ) + i= Iformasjosmatrise I er: a aa I vårt tilfelle får vi: E a aa L(a,Ø) 3ß -E ctaal(a,(3), -E--fL(a,) aa = y. ( 7 4 i=l a+.(3, i ( y i E i= + Determiate til I er: D= E ( i= a+ ayi I Y. / -i= cl+ay. Yi -a-ay i jj ( y.; + \a+f3y -a-f3y.) i= i i Altså har vi: Yi -a- ØY ) E i= Yi l-a-ßyi)' E i=l Av dette ka de asymptotiske variase til leses ut som: ( - D i= \a+ay i

Som i studiet av var 3 atar vi også her at z i = a + i =,,..., er uavhegige og idetisk Betafordelte (a,a). * De asymptotiske variase til er altså: E (_ 4. D-z i. = i i ) La K. = L + z. -z. J. Vi har: D = K.)( E (z4- a) K.) ( E (z.- Œ)K. i= i=/ j) 'i= - - [( K K. [\.. )( z K ) = = a( rel ziki) + a ( rel K. i= a( rel K - (Ez.K.) + a( K )( z.k.) K. i= [( A z K ) i i ( E z.k. i = i= i= ) ] Dette viser at de asymptotiske variase for e ikke avheger av verdie på a. Dette er ituitivt rimelig. Uder forutsetige at y'ee er geerert som beskrevet, soker vi: *ID lim var e = p lim fl-4c0-00- E E. = z.. = -z. 3., ' "Nevere" omformes: -D ( +. z (34 i=i z i E z i. -z. Ez i +E i= i= -z = i - ( + - E )]. = -z i

- - Ved å bruke formlee (4) og (5) i. får vi: p lim E -- = E(Z ) -000 i= i a- a-i for a > - a- p lim E = E((-Z) ) -400 -z. a-i for a > p lim E z = E(Z) = -400 i=. z 4 p lim = E 4' = E(Z (-Z) - ) i= a+ (a-) for a > z i - a p lim E = E(Z(-Z) ) = -z a-i -000 i= i for a > Ved å bruke disse resultatee samt Slutskys teorem, får vi: p lim var f3,* - (3 (a - ) -403 Dee utledige gjelder bare for a > i (ellers eksisterer ikke alle de oppsatte forvetigee). Mer geerelt har vi at hvis ziee er Betafordelte (a,b), gjelder: p lim var IS * = a (a 4. b-),-*00 Her må a > og b > for at utledige skal gjelde. 4. Sammeligig av MKM og SMM. uttrykk: Vi har i. og 3. fuet folgede asymptotiske var (ß) a(a+) Q a+3 var(e) (a-l) Som e kue vete, er SMK-estimatore a* bedre e MKMestimatore (3. Dessute ser e at forskjelle i varias er storst for små verdier av a, det vil si år y-verdiee har stor spredig.

- 3 - asymptotisk: Effisiestapet ved å bruke fremfor * er altså - e = - var(3 * ) var(ß) a(a+) Det ka være av iteresse å bruke: a = var(y) = var(z) (3 somparameteristedetfora-sidez.er Betafordelt (a,a), er: var(zi ) = 4(a+) Altså har vi folgede sammeheg mellom a og a: eller: a = 4f3 (a+) a= 8(3 a Uttrykt ved a har vi: - var() 4a +8(3 a var(e) kdi _7-33 4a utledige av det asymptotiske uttrykket for var(e) forutsatte vi a >. Dette svarer til at: a <.f3 For å få e oversikt over folgee av å velge ß fremfor e, ka vi tabellere effisiestapet som fuksjo av a (eller a ):

- 4 - TABELL a Effisiestapet i : 00 30 0f3 3 a(a+) 4.3 83 5.5 44 f3 00(3 49.5 0.06 400 Som vi ser ka effisiestapet bli stort hvis 7yee har stor spredig, mes effisiestapet er eglisjerbart for a-verdier fra ca. 0 og oppover. For å illustrere hva de ulike verdiee av a (eller a ) betyr, har jeg skissert tetthetee til Betafordeligee (a,a) for a =, 3, 5, og 49.5. a= Tetthete 6z (-) a= 3 Tetthete 30z ( -z) 0-5

- 5 - a= --- Tetthete 630 z (-z) 4 Dessute N(0.5, 0.5) 0,5 4 3 A WPM., a = --- Tetthete 64936 z"(-z)" --- Dessute N(0.5, 0.) 0,5 a = 49.5 som er lik N(0.5, 0.05) 0,5