H T. Amundsen INNHOLD

Transkript

1 Itere otater STATISTISK SENTRALBYRÅ. oktober 1980 KORRELASJONSKOEFFISIENTEN - ENDA ENGANG Av H T. Amudse INNHOLD 1. Iledig *****..... * 0 1. Produktmametkorrelasjoskoeffisiete og sammehege med lieær regresjo. ***** De multiple korrelasjoskoeffisiete Teoretiske korrelasjoskoeffisieter. Sigifikas Korrelasjo år x-ee (de hoyresidevariable)er biære (dummies) Korrelasjo år y er biær, me ikke x 7. Både y og x-ee biære variable Korrelasjo år x, y, eller begge er ordigsvariable Observasjoer med tilfeldige feil Sammedrag 31 Litt eratur... ******* Side

2 KORRELASJONSKOEFFISIENTEN - ENDA EN GANG "Disse variablee forklarer 6 proset av forskjelle mellom ma og kvie". (Ikke fuet i Byråets publikasjoer.) 1. Iledig E stor del av de problemee Vi søker å belyse ved hjelp av statistiske observasjosmaterialer gar ut på a udersøke om det er samvariasjo mellom to eller flere variable. Hva er sammehege, gjeomsittlig sett, mellom utgiftee til mat i e husholdig og husholdiges størrelse, des itekt osv.? Hvorda varierer måedslø med yrkesgruppe, utdaelse, kjø, alder m.m.? I bladt øyer vi oss ikkemed a sette opp observasjosmaterialet i tabellform, me forsøker a uttrykke og aalysere de evetuelle samvariasjoe ved kvatitative metoder, f.eks. ved regresjosaalyse. Det er blitt ekelt a kjøre ut regresjoslikiger i mage variable, problemet er A tolke resultatee. I våre forsøk på å forekle det kompliserte griper vi ofte til ett ekelt tall som uttrykk for de multiple sammehege, og da gjere verdie av (de multiple) korrelasjoskoeffisiete, som EDB-programmet gir som et av beregigsresultatee. Mal som i e viss forstad er beslektet med de multiple korrelasjoskoeffisiete brukes også ved adre dataaalyseprogrammer, f.eks. i Multiple Classificatio Aalysis (MCA) og Automatic Iteractio Detectio (AID). Navet determiasjoskoeffisiet er mer betegede i slike tilfeller. Når vi forsøker a forekle beskrivelse av e komplisert sammeheg så drastisk at vi bare bruker ett ekelt statistisk mål, så er det viktig A were klar over hva det er mulig å få frem ved hjelp av dette målet. Bl.a ka tolkige av resultatet være ulik for forskjellige problemstilliger og forutsetiger om de variable vi aalyserer. Vi vil oppdage at korrelasjos = koeffisiete bare belyser 6 side av sake, og at vi i de fleste situasjoer bør bruke adre kriterier i tillegg til de eller istedefor de, år vi skal legge frem resultatee av e statistisk aalyse. Som hjelpemiddel uder beregigee ka vi imidlertid ha ytte av de ulike typer av korrelasjoskoeffisieter, eller kovariaser.

3 dette otatet skal vi forsoke a se helt elemetært på hva de valige korrelasjoskoeffisiete, de såkalte produktmometkorrelasjos - koeffisiete, ka gi uttrykk for. Vi ma i dee sammeheg også trekke i litt regresjosaalyse, me bare som bakgru for korrelasjoe. Vi behadler et observasjosmateriale for to variable i avsitt. Noe'av det vi kommer fram til der, gjelder også for de multiple korrelasjos koeffisiete som vi ellers ser på i avsitt 3. I. avsitt 4 tar vi opp de to valige ekle teoretiske modellee som ofte postuleres ved regresjos/ korrelasjosaalyse. Dette gir ødvedig bakgru for testig av koeffisietee. reste av otatet ser vi på situasjoer der e eller flere variable er av spesiell karakter, som biære variable, ordigsvariable eller variable observert med feil. Med et par utak ever vi ikke adre typer samvariasjosmål, side hesikte i dette otatet primært er a se på korrelasjos= koeffisiete. I siste avsitt forsøker vi e kortfattet oppsummerig av resultatee. E kort litteraturliste, som det vises til i tekste, star til slutt. Vi blir ofte skuffet år vi får e korrelasjoskoeffisiet som ikke ligger meget ær 1 (eller -1). Vi ma imidlertid være klar over at korrelasjo ær I er et meget stregt krav: observasjospuktee skal este ligge på e rett lije i spredigsdiagrammet for to variable, eller i et pla (3 variable), respektive hyperpla (flere variable). For biære variable fier vi tilsvarede at korrelasjo ær I krever at observasjoee er sterkt kosetrert om visse pukter. Vi ma teke etter om det virkelig er dette vi vil ha et mål for. De regresjoe vi har valgt, ka være både foruftig og yttig selv om de multiple korrelasjoskoeffisiete ikke er så stor. De parametree vi er iteressert i, ka likevel være godt estimert. Som evt, ma vi i almielighet bruke adre kriterier e bare e ekelt koeffisiet for A bedømme situasjoe. Hvilke, ma vi avgjøre ut fra det spesielle problemet vi behadler.. Produktmometkorrelasjoskoeffisiete Ata at vi har et materiale som består av observasjospar, (x 1,y 1 ), (x,y ),...(K,y ). Både x og y er kvatitative variable malt i valig forholdstallskala, slik at både differaser og forholdstall har god meig. I tabell J. har vi et 1,,,,ostruert) eksem:pel. fra tidsyttiugsudersokelse, der x. er timetall pr. dag brukt til itektsgivede arbeid og y i er timetall brukt til egearbeid, begge for perso r.

4 Tabell 1. Korrelasjo mellom x: atall timer brukt til itektsgivede arbeid, og y: atall timer brukt til egearbeid, for =5 observasjospar fra e befolkigsgruppe Perso Observerte Avvik fra gj.sitt Avviksprodukt Kvadrerte avvik r. i timer x. y. 1 x1 -x y 1 -y ( -x) (y1-y) (xi-x) (Yi-Y) 1 3, ,5 1 1,0-1 -1, ,0 0, , ,0 3-0,5 1-0,5 0,5 1 5,5 4-1,0 -,0 1 4 Sum 17, ,5, sum 3, ,7 0,5 5 Vi fier her det aritmetiske gjeomsittet for x-ee: x = - E x. = - 17,5 = 3.i 5,,, 1=1 og tilsvarede for y-ee: 1 1 y = E y. = 10 =. 5 Sš fier vi det empiriske stadardavviket for x-ee som s x = og for y-ee:. E (x.- x = 1=1 i - r -,5 = VT7= 0,707, = ii E fi=l i Y,_3,-) 10 = 1-7= 1,414. Videre fier vi de empiriske kovariase (produktmometet) mellom x-ee og y-ee ved xy. E ( = x) (y - 37) = - 5-3,5) = Edelig får vi de empiriske korrelasjoskoeffisiete produktmomet-) r, eller kortere, r = xy xy -0,7 s s ,414 x y - -0,7. (.1)

5 4 Formele for r forutsetter at både s x > 0 og s y >0, dvs. at det fies mist to ulike x-verdier og to ulike y-verdier bladt observasjoee. Vi skal forutsette dette i det følgede hvis itet aet sies. I alle tilfelle ka vi imidlertid si at x--ee og y-ee er ukorrelert hvis s = O. xy Noe merkader: Det er e tilfeldighet at r=s i dette eksemplet. xy Vi bruker betegelse "empirisk" for a skille disse storrelsee vi reger ut i observasjosmaterialet fra de tilsvarede teoretiske storrelsee vi skal se på i avsitt 4. Vi har brukt og ikke (-1) som divisor i stadardavvikee. Hvis vi bruker (-1), ma vi også bruke (-1) i s for at r skal bli xy riktig defiert. Oppstillige i tabellee er valgt for å illustrere sammehegee, selve beregigee ka oftest gjores mer praktisk på ae måte. I dette eksemplet har vi egativ korrelasjo mellom x- og y-verdiee. Det fremgår av tabelle hva dette kommer av. Tallee er her ordet etter stigede verdier av de ee variable, emlig y. Vi ser at bortsett fra forste observasjo, så avtar x-ee år y-ee stiger. Dette forer til at de fleste avvikee (x.-x) får motsatt forteg av si tilsvarede(y 4 -y) og dermed blir de fleste produktee (x 1-)(y-) egative. Summe av dem blir egativ og det gjor også s xy og r. Negativ korrelasjo betyr at det er e tedes til at verdiee av de ee variable avtar år de adre Oker, eller omvedt. letaeteksempelderx. -verdiee gjeomgåede stiger med stigede y.-verdier vil de fleste avviksparee ha samme forteg, ete begge egative eller begge positive. Da blir de fleste produktee positive og det samme gjelder s xy og r. Vi har da positiv korrelasjo mellom de to variable, jfr. tabell edefor. I oe eksempler ka det tekes at f.eks. ett stort positivt produkt oppveier e rad av egative (eller omvedt). Da ka vi fa e s ær ull. xy Det får vi også hvis det er lite tedes til samvariasjo mellom x-ee og T-ee,dvs-atprodukterle(x. -x) (y.-y) har skiftede forteg, og dermed e tedes til 'a oppveie hveradre ved suiumerige. Det er lite korrelasjo i materialet. Vi ka avbilde observasjoee som pukter i et spredigsdiagram, idet 'vi avsette x. lags de varette akse,ogy. lags de loddrette. Tai I verdie på r heger ye samme med hvor godt puktee samler seg om e rett lije i diagrammet. Vi skal her se på miste kvadraters regresjoslije for y m.h.p. X.

6 Vi skriver lijes likig på forme y = a+bx. Her er a og b kostater gom vi bestemmer ut fra observasjosmaterialet på e slik mate at kvadratsumme qe i=1. -a-bx.) Y 1 (.) blir mist mulig. Løsige av dette gir s b - x-y - s 0, og a = y-bx = = 6,9, dvs. vi har y=st- b (x-r). Lije har altså likige y = 6,9-1,4x, = -1,4(x-3,5). Spredigsdiagram 1. Puktee fra tabell 1 avmerket med sirkler, regresjoslije er heltrukket. Detedredepuktet (5,0) er merket med e trekat, og regresjoslije er streket opp for dette adre eksemplet. Videre er miste kvadraters lije ute kostatledd stiplet i. Eksemplet i tabell 3 er agitt ved kryssee Øverst til høyre.

7 Regresjoskoeffisiete b har altså samme forteg som s og r. xy Vi bruker ofte restavviket (residualavviket) s som et mål for observasjospuktees spredig rudt regresjoslije. Vi defierer restvariase s ved s 1 q o (.3) der q o er miimum av q, dvs. de verdie vi får år vi setter de fue a- og b-verdiee i i uttrykket for q. Det viser seg at vi ka forekle dette uttrykket, så vi får s T=7. = s (1-r ), dvs. s = s (.4) Side hverke s eller s ka være egative tall, så viser dette at r ikke ka være storre e 1, dvs. at vi alltid ma ha -1 r 1. Hvis r = 1 eller r = -1, så er s,og lik ull, dvs. at alle puktee o' (xi, yi) ligger på de rette lije. Hvis r er ær 1, så ma s were lite i forhold til s, og puktee ligger ær lije. Y I eksemplet fier vi s = (1-0,49) = 1,0 og s = 1,01. Puktee ligger okså ær regresjoslije. Hvis vi edrer eksemplet slik at x 1 = 5, mes alle de adre tallee er uedret, så fier vi at alle puktee ligger meget ær regresjoslije, som å blir y = 7,74-1,51x, jfr. diagrammet. Vi far.i dette eksmplet x = 3,8, s = 0,86, s xy = -1,3, r = -0,99, x b =-1,51, a = 7,74, s = 0,035 og s = 0,187. Hvis r = 0, så er s = s og lije har b = 0, dvs. de går varett: - y = y for alle x. Av uttrykket (.4) set vi at vi også ka skrive s -s Y r = 1 - (.5) s s I e del lærebøker og EDB-programmer blir "korrelasjoskoeffisiete" defiert ved uttrykket til høyre. I yere litteratur kalles dette for determiasjoskoeffisiete (coefficiet of determiatio). Vi må imidlertid være oppmerksom på at r og (s -s )is ikke behøver a falle samme hvis regresjosligige er e ae e y=a+bx, eller fuet på ae mate e ved å miimere kvadratsumme q i (.) (vi kue trukket lije paoyemål, f.eks.)

8 Sam eksempel på e ae ligig e y = bx, Vil vi foye e lije ute kostatledd til data i tabell 1. Lije har da ligige y = cx, og vi bestemmer c ved å miimere kvadratsumme u = E 1=1 Da fier vi og 1 5 i Dette gir C Ey.x. i 31,5 = 0,49, 63,75 Ex. (y. -0,49x.,887. S -s -,887-0,44, som ikke har oe med kvadratet av r å gjore, me som selvsagt idikerer at e lije ute kostatledd passer temmelig dårlig til våre data, jfr. diagram 1. Vi skal vise tilkytige mellom r og miste kvadraters regresjoslijepåedaeraåte- Forhvsrobservertx. -verdi ka vi rege ut de y-verdie, y., som vi far ved a sette i x. i regresjoslikige. For 1=1 har vi f.eks. i vårt forste eksempel: yl = 6,9-1,4 3,5 =,0, osv., som i tabell. Så vil vi fie produktmometkorrelasjoe mellom y.- og yi- verdiee. Tabe ]A-.Korrelasiomellomobservertey. -vercaerogberegede. Yi-verdier ut fra regresjoslikige. Perso * -* -* * -* r. i y y. Yi. -Y)(Yi-Y (Y.-Y) - Yi '(Ya. (Y-Y 1 ) , , ,7 1 5 / 4 3,4 Sum 10 10,0 0 1,4 0 0,7,8 4 4, ,96 0 0, ,49 1,96 4,90 sum 0,98 0,98 -* 9 Vi fier gjeomsittet y,s * O 98 s *=0,98 og Ỳ Y,Y s * y,y s s * Y Y 0,98,414 0,

9 De kvadrerte korrelasjoskoeffisiete er altså 0,49 = r. Vi ka vise at dette gjelder geerelt: korrelasjoe mellom yi- og yi-verdiee er aldri egativ og har samme tallverdi som r. xy Vi ka vise at sammehegee -* -7, * > y =y, srs y-s og s =s -s.0, Y'Y Y gjelder geerelt ar yi er bereget ut fra miste kvadraters regresjoslikige (A.II, s.188). Dette gjelder også for regresjoer med flere x-er (multippel regresjo, se avsitt 3). Det er viktig å merke seg at det er tedese til lieær sammeheg mellom x og y vi evetuelt ka si oe om ved hjelp av r. I eksemplet i tabell 3 ligger alle puktee på kurve y = (x-6).4-5 dvs. at år x er gitt, så ka vi rege ut y Oyaktig, det er fuksjoell avtiegishetmeoix.og yi Likevel skal vi se at r=0. Jfr. diagram 1. (.6) Tabell 3. Ikke-lieær samvariasjo. Korrelasjo mellom x og y år y=(x-6) + 5 for x = 5, 5,5, 6, 6,S, 7. Perso x. Y i x.-x Y.-Y (x.-37)(y--y) i r. i ,5-0,5 5,5 5,5-0,5-0,5 0, , ,5 5,5 0,5-0,5-0, ,5 0,5 Sum 30 7, sum 6 5,5 0 5 Vi har s =0 xy og dermed r=0 og b=0 samt a=y=5,5. Hvis vi i eksemplet istede hadde hatt verdier for x = 3,4,5,5,5 og 6, ville vi fått e egativ r. Med verdier fra x = 6 og oppover, ville vi fått e positiv r (me vi ka ikke få r =1). Hvis vi i dette eksemplet bruker y = som regresjoskurve, blir s = 0 og dermed (s -s )/s = 1, )1 Y fordi puktee ligger på kurve. Uttrykket (s -s )/s kalles altså determiasjoskoeffisiete. Det gir jo de relative forskjelle mellom de opprielige variase, s ' for y-ee og variase s malt rudt Y

10 regresjoslije(-kurve). Teker vi på x som e "forklarigsvariabel" for y, så syes vi at x "forklarer" mye av variasjoe i y hvis s er lite, mes "forklarige" er dårlig år s er ær s. For valig lieær regresjo viser Y (.4) at s er lite år r er ær 1 ogs er ær s y år r er lite, og omvedt. E ser ofte utsag som at "x forklarer 100 r proset av variasjoe i Dette betyrda at variase for y-ee er redusert med 100 r proset. Me vi måler jo gjere variasjoe i stadardavvik, tek f.eks. på utsag som "gjeomsittet+ stadardavvik". Hvis vi vil se på hvor mye av stadardavviket s som er "forklart" ved regresjoe, så ma vi se på S - y s y "T 77 S -s Yl-r = Y Y = - /117 Dee reduksjoe er alltid midre e r år 0<r < f tabell 4. Tabell 4. Forholdsvis reduksjo i stadardavviket for y for ulike verdier av r, (eller (s -s )/s 0,80 Tallverdi 1 0,995 0,975 0,95 0,90 0,70 0,50 0,40 0,30 r 1 0,99 0,95 0,90 0,81 0,64 0,49 0,5 0,16 0,09 - -r 1 0,90 0,78 0,68 0,56 0,40 0,9 0, ,05 Vi ser at reduksjoe i stadardavviket ka være okså moderat selv for store tallverdier av r. I eksemplet i tabell 1 fier vi 1 = 0,9. I det modererte eksemplet med x 1 =5 fier vi 1 - V1-0,985 = 0,87. Både disse tallee og eksemplet med ikke-lieær samvariasjo sier a vel oe om hvor mye det skal til for å "forklare" variasjoe i e variabel ved hjelp av e ae, eller for a påvise "god" samvariasjo mellom to variable, i de forstad at r skal være ær 1 i tallverdi. pa de ae side så ka samvariasjoe være av betydig selv om de ikke er så sterk. Me her kommer vi på gygede gru. Hittil har vi bare sett på og "beskrevet" observasjosmaterialet på ymse vis. Hvis hesikte med aalyse er a trekke slutiger om samvarisjo mellom de variable ut over dette observasjosmaterialet, så er det ikke ok a legge fram de tallee som vi har fuet. Vi må også udersøke hvilke usikkerheter som hefter ved dem år vi vil tolke dem

11 10 som estimater for tilsvarede teoretiske storrelser, eller parametre, i de modell vi velger a stille opp for sammehege mellom våre variable. Vi skal se litt på dette i avsitt 4. FOrst skal vi i avsitt 3 se på de multiple korrelasjoskoeffisiete.. De multiple korrelasjoskoeffisiete Vi har ofte et materiale med observasjoer av flere e to variable for hver observasjosehet. For perso r. i ka vi i eksemplet fora ha observasjoe y i, x ii,...,xki, der y i er atall timer brukt til egearbeid, x er atall timer brukt til itektsgivede arbeid, x er atall bar i * 0 xki er alder, f.eks. tabell 5 har vi utvidet det kostruerte eksemplet i tabell 1. Vi har k = 4, med x3i for bosted (1 for by, 0 for lad) og x4i for aldersgruppe (1 for 40 år og over, 0 for uder 40 ar). Tabell 5 Kostruert eksempel for = 5 observasjossett fra e befolkiigsgruppe y: atall timer brukt til egearbeid x 1 : atall timer brukt til itekts = givede arbeid X: atall bar X3: bosted x 4' aldersgruppe Observasjoer Perso r. i Yi X. X. X. x li 4i 01 3, , , , ,5 1 0 Gj.sitt 3,5 0,8 0,4 0, Varias 0,5 0,56 0,4 0,16-0,7 s yxj r. yxj T0'7 O 0 For a kue berege regresjos- og korrelas oskoeffisietee treger vi variasee og kovariasee for x-ee,

12 11 stist 5 7 (x..-tc.xx ) for j = 1,,3,4 og t = 1,,3,4. ti t samler dem i kovariasmatrise rs 11 s 1 s 13 s 171 r- 0,5-0,4-0, 0,1 s s ,4 0,56 0,08 0,04 31 s 3 s 33 s 34-0, 0,08 0,4-0,08 L.5 s s ,1 0,04-0,08 0,16 På tilsvarede mate som for to variable ka vi berege miste kvadraters regresjosligige for y m.h.p. xl, x,..,xk. Dvs. vi bestemmer kostatee a, bl, b,..,bklikige y=a+bx +bx + x 1 1 k k (3.1) slik at vi miimerer kvadratsumme Q = E (37. -x i=1 1 k xki Restvariase ka vi også her sette lik s --Q ' der Q er miimum av Q. o Regresjoe for y mhp x 1 og x (altså k = ) blir for tallee i tabell 5: y = 0,3 + 0,067x 1 + 1,833x, med restvarias 0 33 samt R = 0,89 og R = 0,945. Se edefor om R. Regresjoe mhp x 1,x og x blir: y = 3,3-0,6x 1 + 1,5x x 3' med restvarias 0,08 samt R = 0,96 og R =,98 Og regresjoe mhp xx'x3 og x 4 blir: y= 1 4. Oxi + x -x 3 - x4, med restvarias 0, samt R = R = 1. Bortsett fra helt spesielle tilfeller av ukorrelerthet mellom y og x-ee, vil vi alltid få s = 0 og R = 1 år vi har like mage koeffisieter i likige som vi har observasjossett (her 5). Ellers ser vi i dette eksemplet hvorda koeffisiete til x 1 edrer seg ettersom vi trekker i fler variable. I de siste regresjoe har x,x 3 og x4 "overtatt hele forklarige" fra xl. Dette er spesielt for dette eksemplet (og er vel et ikke urimelig resultat med de tolkige vi har gitt de variable), Hvis vi bereger regresjoe for y mhp x ' x 3 og x 4 alee, fier vi her

13 1 y = 1 -I- x - x3 - x4, med restvarias Q og R = 1 dvs. at år x, x3 og x4 er gitt, ka vi berege y øyaktig (slik tallee i tabell 5 er). For å bedomme hvor "god" e regresjo er, ka vi se på restvariase, me det valige er jo a se på de mutiple korrelasjoskoeffisiete, R, Dee ka vi bestemme ved å g å frem som i tabell fora. Vi ka rege ut y- ver- 1 dier ved a sette i (x x.,..,,x.) i regresjoslikige (3.1), og så ka vi berege produktmametkorrelasjoe r 1 k' populært kalt R, som y... blir (jfr. merkadee etter tabell fora): R = r y k s yy * s s Y Y s -s - Y Ys ly s (3.) Vi har altså R 0, og s y-s R =, eller s = s (1-R ) s (3.3) også i dette tilfelle. Vi får som i avsitt at likhete i (3.) gjelder årerdiee og s er bereget ut fra miste kvadraters regresjoe (3.1). Det eeste som skiller R fra e "valig" korrelasjoskoeffisiet er at de ikke ka bli egativ. Ellers blir "tolkige" av R og s som i avsitt R = 1, dvs. s=0, år alle observasjossettee passer i likige (3.1), slik som i eksemplet år både x ' x 3 og x 4 er med. Rærl,sarO,riardetersiadivergesermelloly.og Yi.ved isettig av xli, xi,...,x i (3.1), som i eksemplet der x og x 3 me - ikke 4' er med. R = 0, s = sy, år likige blir y = y, dvs. alle b-ee 1 lik ull, da blir--q = s Dette får vi et eksempel o Y. på ved å berege regresjoe for y mhp x3 og x4, som gir y =. Vi ser at eda x 3 og x 4 både hver for seg og samme er ukorrelert med y, så bidrar de til redusert varias, og øketmultipel korrelasjo y år de kommer i i regresjoe samme med xl og/eller x. Dette heger samme med at x-ee er ibyrdes korrelert. Dee ibyrdes korrelasjoe er også grue til at regresjoskoeffisiete til x 1 edrer seg ettersom flere variable trekkes i.

14 13 Av (3.) ser vi at tolkige av R som de relative reduksjo i variase for y, er som i avsitt og vi ka bedømme reduksjoe i stadardavviket på akkurat samme mate. Elvis vi måler s ut fra e ae likig e (3.1), vil vi derimot ikke ute videre kue tolke determiasjoskoeffisiete (3.4) som de multiple korrelasjoskoeffisiete'mellom y på de ee side og settet (xl, x,...,xk) på de ae. Med s bereget ut fra dee adre likige, ka vi selvsagt ytte (3.4) eller (S -S)/S som et mål for redusert usikkerhet hvis vi Øsker det, me vi ml i tilfelle udersøke ærmere om det er mulig a tolke (3.4) som e korrelasjoskoeffisiet mellom observerte og beregede y-verdier (hvis det er av iteresse). Det er blitt valig å berege flere multiple regresjoer for y m.h.p. ulike sett av x-variable fra samme observasjosmateriale for å fie det x-settet som "best forklarer" variasjoe i y-ee. E velger da det x-settet som gir størst verdi av de multiple korrelasjoskeffisiete (dvs. det som gir mist restvarias). I tillegg til spørsmålet om usikkerhet (jfr. avsitt 4), og om det har meig ut fra vårt problem å velge x-ee slik, så er det også oe algebraiske sammeheger å være oppmerksom pa. Sett at vi bereger folgede regresjoer etter tur, og kaller restvariasee heholdsvis s i, s,...,s k og koeffisietee Ri, R,...Rk. Regresjoe for y er altså haholdsvisxl og x og x 1 ' x l ' x 3' Da er, som vi også ser i eksemplet ovefor, og s s s s 1 = = 3 =- k R < R < v 1 = =, x. 1, x ' x.. xk 3 Vi får altså i almielighet bedre tilpassig jo flere "forklarigsvariable" vi tar med (se A.II.s.190). (I ekelte dataprogrammer ser det ut som om ulikhetee ikke holder. Det Qo skyldes gjere at er brukt istedefor s Side evere da avtar --1 k 11 år k vokser, ka vi få stigede restvariaser hvis Q blir lite eller ikke o redusert år vi trekker i flere x-er i regresjoe.) Vi ser av eksemplet at vi ikke ka bedømme "godhete" av de multiple regresjoe (3.1) ved å se på korrelasjoskoeffisietee mellom y og hver ekelt av de x-variable. La oss kalle dem r yl for y og x r for y og x osv. r for y og xk y ' yk Vi ka da vise at, R = r y ryl +r +...+rr yk

15 14 Likhetsteget gjelder år og bare år alle x-variablee er parvis ukorrelert med hveradre. Hvis de er det, så vil "virkige" av dem være additiv i de forstad at R =r +r + + r yk. yl y Dette vil meget sjelde være tilfelle i praksis, medmidre vi trasformerer de variable så vi får e såkalt ortogoal regresjo. I eksemplet har vi + r +r r +r = 0,49 + 0, = 1,3 Yl Y Y3 Y4 Det er e spesiell fare ved å sammelike regresjoer fra ulike observasjosmaterialer ved hjelp av R-verdiee, dette forsoker vi å forklare i avsitt 4b edefor. 4. Er koeffisietee sigifikate? Når vi vil trekke slutiger om samvariasjo mellom de variable ut over observasjosmaterialet, må vi bygge på e modell. For å kue bedomme usikkerhete ved våre utsag tyr vi til sasylighets- (stokastiske) modeller. Vi ka ikke gi oe iførig i regresjosteorie her, me viser til læreboker, som f.eks. AI, kap.7 (for to variable) og All, kap. 1. Vi skal bare atyde visse gruleggede trekk i teorie. Vitekerossathvery.er e observasjo av e teoretisk variabel som har e sasylighetsfordelig. Dee fordelige ka ha visse parametre, f.eks. teoretisk gjeomsitt (forvetig) og teoretisk varias, respektive p og a, Y som bestemmer de ærmere. Disse parametree ka valigvis tolkes som tall som heholdsvis y og s vil ærme seg mot ved beregig ut fra stadig flere observasjoer, år modelle gjelder. Videre vil vi her være iteressert i om fordelige for y ka avhege av x-ee, vi teker oss f.eks. at x-ee ka være parametre i fordelige. Vi skal her bare se på de valige, ekle regresjosmodelle, dvs. at forvetig og varias for y for gitte x-er ka skrives py ixi,x,...,xk = a + ßixi + ß x + $kxk (4.1a) var(y i xi, x,...xk) = a,(dvs. de samme for ehver x-kombiasjo). (4.1b) Forutsatt at ikke oe aet folger av de måte observasjoee er kommet frampå, vil vi dessute postulere at fordelige for hver yi er uavhegig av de adre y-ee vi har med, og at (4.1) gjelder for hver av dem.

16 15 Når det gjelder x-ee ka vi ha to ulike situasjoer (ellere kotithiasjo) - x-ee ka betraktes som ikke-stokastiske, de opptrer som observerbare parametre i problemet. Dvs0 at x-ee på e eller ae mate ka betraktes som "forutbestemt", ete av oss selv eller av adre, år y-ee (og x-ee) observeres. - x-ee ka betraktes som stokastiske. Da har vi for hver i at settet (y i, x li, xi,...,xki ) er observert fra e simulta (k+l-dimesjoal) sasylighetsfordelig. Dette behøver ikke være så vaskelig som det høres ut, for vi postulerer også her at (4.1) gjelder (å som såkalt betiget forvetig og varias). Det er først og fremst (401a) som iteresserer oss år vi vil fram til utsag om samvariasjoe mellom y og x-ee. I virkelighete er det dee siste modelle som er de greleste år det gjelder a tolke korrelasjoskoeffisieter, oe vi skal se edefor. De valige testmetodee som brukes i regresjosaalyser, som t-tester og F-tester, forutsetter eda mer om y-fordelige, emlig at (4.1c) de teoretiske fordelige (evetuelt betigede fordelige gitt x-ee) som y. er trukket fra er e ormal (gaussisk) sasylighetsfordelig. Dee forutsetige er spesielt viktig for midre observasjosmaterialer. For stor (hvor stor, avheger av hva vi tester) vil som oftest testee vare tilærmet riktige selv ute ormal fordelig for y-ee. Når(4.1a-c) er oppfylt og y-ee er uavhegige,ka vi vise =tematisk at størrelser som t i (4.3) edefor har e sasylighetsfordelig som kalles t- fordelige, med e parameter som kalles "atall frihetsgrader" og som her er 411 lik (-). Vi ka også vise at F i (4.5) og i (4.7) følger F-fordelige. Dee har to parametre: "atall frihetsgrader for tellere og for evere", som er heholdsvis 1 og (-) for (4 05) og k og (-k-1) for (4.7). Disse fordeligee er tabulert, og programmer for dem er lagt i i regresjosprogrammee. 4. Teoretisk korrelasjo år alle variable er stokastiske Når y ogx har e simulta sasylighetsfordelig, ka vi defiere de teoretiske kovariase a xy samt de teoretiske stadardavvikee a og a og de teoretiske korrelasjoskoeffisiete

17 16 p = xy G G x y helt aalogt med de empiriske størrelsee i avsitt. (Vi bruker å forvetigsoperatore istedefor a summere over i og dele med ). Vi vil fie at -1 p 1, og vi ka vise at det er eksakt lieær sammeheg mellom x og y hvis og (4.) bare hvis p=1. Vi vil si at x og y er ukorrelert hvis a = 0, dvs. p = 0. xy Når betigelsee (4.1) er oppfylt, ka vi teste hypotese p = 0 mot alterativet p 0 ved a teste om regresjoskoeffisiete til x er lik ull. Vi bruker t-teste og forkaster ullhypotese hvis de observerte t- verdie avviker mye fra ull. Forvetige i t-fordelige er emlig ull år = 0. Med valgt sasylighetsivå 5 proset, forkaster vi ullhypo- 7 tese hvis vår observerte t eteer midre e,5-proset fraktile (de t- verdie som det er,5- proset sasylighet for å komme uder hvis p= 0) eller storre e 97,5-prosetfraktile (de t-verdie det er,5 proset sasylighet for a komme over). Vi bereger t = s _ 0 7, 7 s x 1.01 V7,7= -1,70. (4.3) Vi fier her at dee ikke er midre e 1-prosetfraktile -3,18 i t-fordelige med 3 frihetsgrader, dvs. vi ka ikke forkaste hypotese p = 0 i dette tilfelle. (Hvis vi hadde hatt 10 observasjoer, me ellers samme verdi av b, s og s,ville vi fått t = -9,8 og forkastig av ullhypoteser;. Det er lett å se at t-teste har oe med r og p å gjøre hvis vi setter i for b og s fra formlee i avsitt. Da fier vi og b=r s = s 11-r s x r r t= V -0.7 vt 077V0,511-1,70. (4.4) Istedefor t-teste kue vi her brukt e F-test som gir øyaktig samme resultat. Vi har emlig at F = t er F-fordelt med 1 frihetsgrad for tellere og - for evere. Vi har F t = r - 0,49 k. 11-) - 1-r v, 5 1,88 (4.5)

18 17 E stor F-verdi vil idikere at ullhypotese er gal, vi forkaster ullhypotese hvis F er større e 5-proset fraktile i F-fordelige med 1 frihetsgrad for tellere og 3 for evere, dvs. 10,13 (lik (-3,18) ). Dette er altså ikke oppfylt her. (Det er litt uøyaktighet i siste desimal p.g.a. avrudig). De teoretiske multiple korrelasjoskoeffisiete ka vi defiere på tilsvarede mate som i tabell ved A ta de teoretiske korrelasjoskoeffisiete mellom y og tilsvarede y(x) fra regresjoe (4.1a). Vi vil da fie qalogt med (3.) ' a _ a ' p ay,y(x) 1...k = a a = Y (4.6) Y y y(x)v a Y der GYJ Vi ka også vise at vi ka skrive k P y.1...kj=1 1 (3.ayj, = ay J er de teoretiske kovariasee mellom y og x -variablee. J teste p Y 1...k = 0 er det samme som a teste om samtlige s-er er ull. Uder forutsetigee (4.1) ka vi gjøre dette ved hjelp av R -k-1 F - (4.7) 1-: k Vi forkaster ullhypotese hvis de observerte F er storre e (f.eks.) 5 proset fraktile i F-fordelige med k frihetsgrader for tellere og (-k-1) frihetsgrader for evere. NB: Hvis vi vil bruke determiasjoskoeffisiete fra adre likiger e (4.1a) for å teste saueheger på tilsvarede mate, ka vi ikke ute videre bruke F som agitt ovefor. Vi må i tilfelle forst udersoke fordelige av (4.7) ut fra de problemstillig vi har. I tabell 6 gir vi oe eksempler på hvor stor R (og R) ma være for a være "sigifikat forskjellig fra ull" på 5 proset sasylighetsivå, dvs. for at vi skal kue forkaste hypotese: p = 0. Vi treger stor R-verdi for å gjore dette i små utvalg, Oe maglede forkastig iebærer ikke ødvedigvis at p 0). For middels og store utvalg ka også "middels" og små verdier være sigifikate.

19 18 Tabell 6. Hvor stor ma 11' (og R) mist være for å were sigifikat forskjellig fra ull på 5 proset ivå?. Forutsetiger: (4.1). Atall frihetsgrader teller Atall RR fr.gr. F o 95 R RF095 R F R R 0.95 R 0.95 ever 5 6,61 0,57 0,75 5,05 0,83 0,91 4,74 0,90 0,95 4,53 0,96 0,98 0 4,35 0,18 0,4,71 0,40 0,64,35 0,54 0,74,08 0,56 0, ,08 0,09 0,30,45 0,3 0,48,08 0,34 0,58 1,79 0,5 0,7 60 4,00 0,06 0,5,37 0,16 0,41 1,99 0,5 0,50 1,70 0,40 0, ,9 0,03 0,18,9 0,09 0,30 1,91 0,14 0,37 1,61 0,4 0,49 ca , ,06,0 0,01 0,10 1,84 0,0 0,13 1,50 0,03 0,19 4b. "Teoretisk korrelasjo" år x-ee ikke er stokastiske Når y er stokastisk, mes x-ee ma betraktes som "gitte tall", eller observerbare parametre, ka vi ikke defiere teoretiske korrelasjoskoeffisieter ved (4.) eller (4.6). Likevel har jo regresjoe (4.1a) god meig og vi ka ha ormalt fordelte y-er, dvs. e såkalt lieærormal modell. Vi ka da teste ß = 0 ved teste (4.3) og 13 =0 ved teste (4.7). '''k Hvis vi Øsker å gi meig til begrepet "teoretisk korrelasjoskoeffisiet" i dette tilfelle, ka vi defiere de ved a Py-1...k G der vi å setter de "margiale" variase lik G = a Y k E ( E.(x. -x)). -1j i=1 j=1 1 - (Detteforvetigsverdie.) Vi ser at vi har som i 4a, P = 1 y-1...k år og bare år G = 0 P = 0 a r og bare år = 0 for j = 1,,...k. Vi ser imidlertid at storrelse på p y 1 avheger av valget -...k av x.. -verd i ee. Vi ka ok si at det er god korrelasjo år koeffisiete er stor, me det er vaskelig å sammelike korrelasjoe i to materialer med forskjellig spredig i x-verdiee. Tolkige av de multiple sjoskoeifisiete er altså tvilsom år x-ee er valgte tall.

20 19 La oss se på et eksempel med k = 1. Ata at vi har = 5, samt de teoretiske regresjoslije med a =,8=1, a = 0,0. Da er ligige og y = +(x-x) 10 0 a = 0,0-4- xi-x Y i= Vi velger 3 ulike sett av x.-verdier, emlig 5 - i) 0, 0,1 0,, 0,1 og-0,, som gir E (x -x) = 0.10 i=1 ii) 0, 1-1 og -, som gir E(.-x 10 iii) 0, 100, 00, -100 og -00, som gir E(x.-Tc ) = Vi fier da 0 0 p = 1 0,045 = 0 ' 556 0,0 = 0, ,0 = 0, ,0 Vi ka få ligede resultater for R ut fra observasjoee. Vi ser at jo storre spredig vi velger i x.-verdiee, jo storre gjor vi p eller tiltross for at regresjoskoeffisiete er de samme hele tide. Så ille som her vil det sjelde se ut i praksis, me vi skal være oppmerksom på at valget av x-er ka påvirke korrelasjoskoeffisiete. Vi bor helst ikke legge for mye vekt på de i dee type modeller. I alle fall ka sammelikiger for ulike observasjosmaterialer være tvilsomme. 5. Korrelasjo år x-ee er biære (dummy) variable Hvis y er e forholdstalls-variabel, mes x-ee er biære variable, som bare atar verdiee 0 og 1, og betigelsee i (4.1) forøvrig er oppfylt, ka vi rege regresjoer og teste hypoteser akkurat som fora. Me hvorda ter korrelasjoskoeffisietee seg? Vi skal se at uttrykkee i avsitt ka skrives på spesiell form i dette tilfellet.

21 0 Vi gir et kostruert eksempel i tabell 7. Tabell 7. Korrelasjo mellom y: atall timer brukt til egearbeid, og x: utdaigsivå x = 1 for "høy utdaig, x = 0 for "lav" utdaig Perso r. i Observere = y0= 0667, s =---= 1, = Z. y = = s ' Sum 10 Gj.sitt 0,4 s =, s = 0,4 x s =. 0,4 xy 5 r = - 0,577 xy 0,4 = 0,4-1,667 (=.7-1 Sy = 1,41 s = 0,49 x Regresjoslije: y = - 1,667(x-0,4) =,667 - I,667x. Ata at vi har observasjospar, (x., y.). For avdisseerx i = 1,forderl o =-iresteredeerx.= 0. Vi har da l 1 X = -- L X.s = = l 1 1 E (x. = -( ) =. ' x. 1=1 1=1 Videre ka vi sette, jfr. eksemplet, 1 1 E y. 1. for i der x.=1 og, = 1 Jo o E yi for i der x 1 0 Vi har altså 1 y,+ y Z o o y = i=1 y = i eksemplet). 5 Desslitekaviifores somdeempiriskevariasefory.-ee for de 1 l y.-verdiee der x. = 1, og s tilsvarede for de y i der x. = 0. Vi har o da sammehege l o s 1-1 _ 9 = y y.- y) = s + ii ( 1 1 os o -Yo' = =

22 1 Vi fier, ved litt regig X s = L, )( --y) = xy. -Y) = o,- xy r - s s x y Se eksemplet. -Yo 1 o- s + s + ( -y o ) 1 1 o o (5.1) Dessute blir xy s X - Y 1 og regresjosligige y = y o + (y 1 -y o )x, dvs. de går gjeom puktee (0,y 0 ) og (1,y 1), jfr. diagram. Dette er altså e mer iviklet mate å estimere forvetet y-verdi ved hjelp av gjeomsittet i hver av gruppee Diagram. Regresjo for y m.h.p. x år x er biær. (1 eksemplet er Yo>Y1' så regresjoslije heller edover mot høyre). Vi ser av (5.1) at r = 0 år Y o Vi - Y- i. r = 1 ar s = s 1 0 o r = -1 ar s o = 1 og Y 1 >Y 0 _ = 0 og yi<yo r x.=0 er like store og dessute alle observerte r x.=1 er lik hveradre. For yi a få i r ær 1 ma både s og s være små, dvs. at y-verdiee må ligge meget ær o 1 hveradre for hver av de to x-verdiee.

23 For multiple regresjoer med flere biære x-variable vil vi få tilsvarede resultater. For hver kombiasjo av uller og eere for x-ee ma spredige i y-ee være lite hvis vi skal ha "god korrelasjo", dvs. at y-verdiee ma ligge godt kosetrert om de puktee i observasjosrommet som har x-koordiater 0 og/eller 1. I regresjoer med både biære og valige x-variable, blir tolkige av -P.stort sett som i avsitt 3 og 4 med hesy tatt til det spesielle ved biær variablee. 6. Korrelasjo år y er e biær variabel, me ikke x Situasjoe år vi har e biær y, med verdier 0 og 1, samt e "valig" X, er aalog med de vi hadde i avsitt 5 år det gjelder r, me ikke år det gjelder regresjoe. I tabell 8 har vi et eksempel. Tabell 8. Korrelasjo mellom y: ivå for,egearbeid,y i.=0 for 1 time eller midre, y.=1 for mer e 1 time x: atall timer brukt til itektsgivede arbeid Perso Observert r. x. Yi - 3,5+4,5 =, x = = 4, s = 0,5 o o = o = 4+3+,5 3- l 3,167, s 1 0 3,5 = 0,389 3' 3-c l 1 0 4,5-1 s = xy 5 = -0, = -3 --,- (3,167-4) 3 1 4, ,0 1,5 Sum 3 17,5 Gj.sitt 0,6 3,5,,.3 r s = 0,z4 s y = 0 ' 5 x 49 s = 0,71 x r = -0,577 xy b = 0, 05,= -0,4 Regresjoslije blir: y = 0,6-0,4(x-3,5) = - 0,4x y = 0, så er Lar vi 1 være atall observasjoer med y = 1, og o = - 1 atallet med y = 1 1 E y. = - og s 1 o = y

24 3 Videre er 1 ai = xy X -x, der x = E x i 1 1 for y. =1 X o = EX. for yi=0 r xy x -x 1 s s x y I/ s + + I1_ o s o a - (x-x I jfr. (5.1). Her er s og s o de empiriske variasee for x-ee i de to gruppee 1 for y1=1 og y 1 =0. (Vi setter opp dette uttrykket for å lette aalyse. Selve beregige ka vi gjore etter formlee i avsitt, jfr. eksemplet) Vi får r = 0 hvis x 1 = R o Vi får også r-verdier ær ull år s 1 og s er store i forhold til (X -X ) 1 o Videre er r=1 hvis s 1 = s o = 0, dvs. at alle x-verdiee for y = 1 ma være like store, og alle x-verdiee for y = 0 ma være like. så lagt har vi aalogi med avsitt 5. Me regresjoslije blir å... _, - l x -x o y = y + b(x-x) = + 1 o (x-x- ). (6.1) 1 o s 1 s + 1 (x -x o o 1 Diagram 3. Regresjo for biær y m.h.p. ikke-biær x. Her vil regresjoslije gå gjeom puktee (x,0) (Dk' ( x,1) bare 1 år s = s = 0, dvs. r=1. Regresjoskoeffisiete b er da 1/07 R ) o Hvis det er spredig i x-verdiee, blir tallverdie av b midre etallverdie av 1/ (x-x ). -E eksemplet er o b - -0,4 og lik:x-x 1,.

25 Vi har 0 <b _ X -X for x 1 > x o 0 > b? :- for x i < xo, jfr. at - 0,4>-1, x -x 1 o Det er betekelig å postulere e lieær regresjo av e biær variabel y m.h.p. adre variable og spesielt ikke-biære, se f.eks. Herik Dahl (1978). Vi risikerer bl.a.a få y * -verdier utefor itervallet (0,1). For hvilke x vil dette fie sted ved regresjoe (6.1 )? Vi fier at for Tc >Tc šå er i o 1 y = + b (x-x) = år og år y = < + 1N s s = x - -- = 1 1o o b 1 (x -x ) 1 1 o 1 = > x b x-tc) => s +s o o b = xo (x-x ) 0X0 _ For x 1o ma vi bytte om de to gresee. I eksemplet får vi at 0-,3741 for,5 <x<5. Jo storre s 1 og s er i forhold til x 1-x0 dvs. jo ærmere r er ' til ull, jo "tryggere" er vi på a ha y-verdier i det "tilatte" itervallet [0,1]. Også forholdet mellom o og 1 spiller e rolle her. Me i alle tilfelle er det altså dårlig korrelasjo mellom x og y. Formel (.5) gjelder fremdeles her, vi har r= s y = s (1-r s ). Y Når det gjelder testig og hypoteseprovig ka vi imidlertid ikke bruke de valige metodee, fordi forutsetigee (4.1b og c) ikke gjelder. Når y bare ka ata verdiee 0 og 1, så er de ikke ormalt fordelt. Videre er de teoretiske regresjoe a lik sasylighete for å få y = 1 år x er gitt. Dette medfører at de teoretiske variase for y er (a+ßx) (1-c-x) dvs. de varierer med x.

26 5 Hvis vi har stor og [3 ær ull, så behøver ikke de valige metodee gi så gale resultater. Imidlertid er det ikke så sikkert at regresjoe (6.1) og miste kvadraters metode er det lureste valg av metode for variable av dee type. Herik Dahl (1978) har udersøkt dette for e spesiell modell, som bl.a. sikrer at vi ikke kommer utefor itervallet [0,1] for y. Se også FridstrOm (1980?). For multiple regresjoer med y biær ka vi i prisippet berege miste kvadraters regresjoslikig og multippel korrelasjoskoeffisiet eller determiasjoskoeffisiet. Problemet med å holde y iefor [0,1] blir imidlertid fort påtregede, og situasjoe lite oversiktlig. Ret teoretisk ma vi kue teke oss problemstilliger der sasylighete for y = 1 varierer som e lieær fuksjo av e rekke x-er, me i praksis er det vaskelig å avgrese e slik klasse av problemer. E vil gjere velge adre modeller og metoder e lieær regresjo i slike situasjoer, f.eks. logit aalyse, se f.eks. Cox (1970), FridstrOm (1980). 7. Både y og x-ee biære variable Når både y og x bare atar verdiee 0 og 1, ka det ha meig bruke lieær regresjo, selv om vi må gi avkall på metodee fra avsitt 4. Vi ka da sette opp observasjosmaterialet i e x - tabell: o Sum 0 1 Sum 0 oo o f.eks Sum. 0. Sum Her er = 56, atall observasjoer med x = O og y = 0, og oo = + ol = 670, osv. oo Vi fier her, jfr. avsitt 5, X = = = 0 31 s = 0, ,, x y = s 1446 ' ' y f) 174I , s = a '''.'... = = 0,0449 x

27 / l ,0449 0,463.0,499 0, Vi vil ha r = 0 år... =,... som ka skrives = Dessute er da ----= Det er altså samme relative hyppighet av 1. yl=1 for hvert av 0 observasjossettee med x=0 og med x=1. Dette svarer til stokastisk uavhegighet hvis vi erstatter de relative hyppighetee med sasyligheter, dvs. Pll = Pl. P.1. Videre fier vi at r = 1 år (dvs. at y=0 år x=0 og y=1 år x=1) r = -1 år 00 = 11 = 0 (y=0 år x = 1 og omvedt). Vi har altså r =1 år vi bare har tall 0 i e diagoal i tabelle Regresjoslikige blir: y = X = 0,47 +(0,68-0,47)x Regresjoslije er her redusert ti l to pukter: (0, ) og.0. 1 Vi kommer ikke uteom itervallet [0,1] for y. Likige viser at vi estimerer de betigede sasylighete for y=1 gitt x=0 ved de relative 10 hyppighete 11 og tilsvarede-- ' for x = 1. Vi ka dermed bruke test-.0 1 og estimerigsmetoder bygget på de biomiske fordelig istedefor metodee i avsitt 4, som ikke gjelder her (bortsett fra tilærmet i stort utvalg og år det er lite forskjell på de betigede sasylighetee). For tilfellet med flere biære x-er er situasjoe behadlet i A (1974). Hvis vi tar med like mage koeffisieter i regresjoslikige som vi har grupper, dvs. kombiasjoer av x-variable i observasjosmaterialet (e såkalt mettet modell), får vi resultater aaloge med eksemplet fora, dvs. det er de relative hyppighete av y = 1 i hver gruppe som kommer ut. Me hvis vi har færre koeffisieter e grupper blir resultatee oe aderledes. Vi skal se på de multiple korrelasjoskoeffisiete for e mettet modell, med s grupper. Vi ka da skrive, se s. 64 op.cit.

28 7 R = s 1,r 0,r E. 0. r=1.r Her er 1. atall observasjoer med y = 1, 0 = - 1. s atall koeffisie- 1 ter i likige, og er de relative hyppighete av y = 1 i de.r gruppe på. r observasjoer som har felles x-vektor r. r. Vi ser at R = 0 hvis r 1..r og dermed 0.r.r for alle r. dvs. at de relative hyppighete av y = 1 er de samme i alle gruppee. Vi får = 1 hvis ete 1,r = 0 eller = 0 for alle r, dvs. at for 0,r hver r fies det bare e verdi av y. Dette svarer til "diagoalbetigelse" ovefor i x -tabelle. Hvis vi teker oss alle tallee i gruppee gitt utatt ett, emlig, (ogsdermed 1 ), så vil R avta hvis Oker,sa lege 1 ' r -- r 0,r 1,r. r me R Oker 1r med voksede hvis > 0,5. 1.r. Vi har altså"dårlig" korrelasjo for hyppigheter ær 0,5 og "g korrelasjo for hyppigheter ær ull eller e. 0,5, prisippet vil altså R kue gi e ide om hvor ær regresjoslikige foyer seg til observasjossettee også her. For stor og store. r, ka de valige test for a teste p =0, dvs. uavhegighet mellom y og hele settet av x-er, gi oelude god tilærmelse. Dette ka være yttig bl.a. år alle x-ee utelukker hveradre ibyrdes, som år de agir e grupperig av observasjoee i (k+1) ulike grupper av e uderliggede variabel, som f.eks. itekt. Estimerigv.hj.a.gruppegjeomsittee (de relative hyppighetee i gruppe r, r) for y-ee,istedefor ekeltobservasjoee, vil fore til de samme regresjoskoeffisietee,mes restvariase og dermed korrelasjoe får e ae form. Vi får korrelasjoe mellom de observerte relative hyppighetee og de estimerte ut fra regresjoe, og dee blir ofte stor, de vil gå mot 1 år vokser, så sat modelle er riktig, se f.eks. FridstrOm (1980). Dette betyr at estimerige av sasylighete p er Y./ god, me sier ikke oe om at p er e lieær fuksjo av x-ee i Yr / problemet. I e mettet modell får vi R = 1, uasett om vi har greia eller ikke greid å velge x-ee slik at hver x-vektor, x, bestemmer verdie av helt ut.

29 8 8. Korrelasjo år x, y, eller begge,er ordigsvariable Ata forst at x er e ordigsvariabel som agir e ragordig av grupper, f.eks. etter utdaigsivå, etter sosial status e.l. Ata at x er gitt verdiee 1,,..., m. Vi Øsker å si oe om y som fuksjo av x- ivå, og det er fristede å bruke lieær regresjo av y m.h.p. x. Hva får vi ut av dette? Vi teker oss observasjosparee ordet etter stigede verdier av X, som i tabell 9, og uttrykker e del av de størrelsee vi treger ved hjelp av gruppegjeomsittee. Tabell 9.. Korrelasjo år x er e ordigsvariabel Verdi Atall obs.par av med x = j X Gruppesummer av x. X. j(-;.-377). 3 y ) 1 y (Y-Y)...y. j. j. J J J J J (y.-y). J J - y Mri m Sum E Y.= E E.. i=1 1 j=1 J J j=1 J.J J J Gm-;;)lii E j.(y.-y) J J J 1 Sum 1 X s x +x Xy Dessute har vi som valig s = y m - E E (y... -yr j=1 i=1 J 1 Ved å omskrive formlee i avsitt ved hjelp av gruppesummee, fier vi at vi ka skrive xy 1 r = =J s. s s J j x y x y j Vi ser at hvis alle gruppegjeomsittee, yj-., er like, dvs lik 3-7, så er r = 0, som rimelig ka være.

30 9 Regresjoslikige ka skrives Ej. (.-377 ) J J Y = ].).-x. J J (x-ç) Vaskelighete er å se hva slags meig e ka tillegge gjeomsittet x og avvikee x i -x, samt s år x er e ragordigsvariabel, dvs at difxy feresee mellom x-verdiee ibyrdes ikke har oe meig. Dee vaskelighete ugår vi ved istede å ifore (m-1) biære variable for å agi hvilke gruppe observasjoee tilhører. Hvis vi har et problem der y er ragordet, mes x er e valig variabel, så er det ret algebraisk ikke oe problem å rege regresjo og korrelasjo, me tolkige av resultatee er ikke så ekel. Vi ka i prisippet skrive om problemet til (m-1) likiger i (m-1) biære y-er, me her kommer vi i de samme vaskeligheter som i avsitt 6. Det vil avhege av problemets art hvilke metode vi børvelge for aalyse. HVis begge variable er ragordet, ka vi også rege regresjo hvis vi syes- det har oe meig. For det spesialtilfelle at vi har observasjossett, der x og y hver for seg har verdiee 1,,...,,ka vi skrive r på forme edefor. Vår r blir gjere kalt Spearmas ragkorrelasjoskoeffisiet for ragordede observasjoer. Vi fier 6 r = 1 E d der d = x. -y.. (-1)(+1 i' i i1 = r = 1 mar d. = 0 for i=1,,...,, dvs. at x og y gir samme ragordig i i år = -1, -3, -5, osv.? dvs. at x-ee er ragordet i øyaktig motsatt retig av y-ee. (-1)(+1) r = 0 år E d. = 6 Dette ka vi f.eks. få hvis halvparte av observasjoee har samme ragordig gar i øyaktig motsatt retig. Hvis vi vil teste sigifikas, treger vi fordelige av r for p=0. Dee er tabulert for små. For større ma e ty til tilærmet ormalitet. Hvis det er flere observasjoer som har samme rag, gjelder formele og tabelle ikke, da ma det spesielle beregiger til. Vi skal ikke gå ærmere i på metoder for ragordede variable her, det vises til tekster om ikke-parametriske metoder. i de to variable, mes de øvrige

31 30 9. Observasjoer med tilfeldige feil I det foregåede har vi forutsatt at vi faktisk har observasjoer av ettopp de variable vi er iteressert i. Vi ka imidlertid også ha situasjoer der vi ikke ka observere disse variable direkte, me ma øye oss med at de observeres med feil. Vi ka f.eks. ata at istedefor y. observerer vi u. = y + d. i i i og istedefor x. observerer vi v X. + e.. i = Vieriteressertikorre1asjoemellomy.ogx.,me vi ka bare rege ut korrelasjoe mellom u. og v.. Vi har u = E u. Ey. + 1 Ed. iii = y+d og v = x+e, Su E(u.-u) = E(y. d.-v-d = E(y.-y = + E(y.-y)(d.- -d") + E(d - -(1) i i5 y +5 yd +5 d s = +s +s v x xd e' s =s +s +s. uv xy xd ye de Hvis vi å ka ata at feilleddee d. og e. er ukorrelert med hveradre, og med x. og y i' så har vi i et observasjosmateriale tilærmet s = s +s 5 = s +s og =5. u y d' v x e uv xy De tilsvarede teoretiske relasjoee vil gjelde eksakt. Vi får i dette tilfelle korrelasjoskoeffisiete 55 uv xy x y r - uv s s u v sxsy V(s +s )(s +s ) ydxe s s x y xyv/ _. s (s y+sd A s + ) xe Vi har r = r bare hvis s = s = 0, dvs. at det ikke er oe uv xy d e tilfeldigefei1(elleratdeterroyaktigesammefeilforalley.og for alle

32 31 Ellers er korrelasjoe mellom de observerte verdier lavere i tallverdi e r xy E tilsvarede reduksjo har vi for de teoretiske korrelasjoee, og for multippel korrelasjo, år vi ka ata at det er ukorrelerthet mellom feilee og mellom feilee og de ikke-observerte variablee. Er feilee korrelert med hveradre eller de variable, ka vi få adre resultater. Av formele for s ovefor ser vi f.eks. at vi ka få uv s 0 selv om s = 0. uv xy 10. Sammedrag Korrelasjoskoeffisiete er et mål for hvor ær observasjospuktee foyer seg til e rett lije/etlieærutryk for y mhp x-ee. For Øvrig har vi at - R, resp r = 1 bare år alle observasjoee tilfredsstiller de lieære regresjos=ligige, (s. 6, 1, 1, 3, 6,og 9). For biære variable betyr dette at alle observasjoee kosetreres i visse pukter. - R (r ) ær 1 bare år det er små avvik mellom observasjoee og likige - Ved å Øke atall x-variable i regresjoe ka vi almielighet få større verdier på R (s. 13) Særligkavi få store R-verdier år er lite og k stor - Valgte (ikke-stokastiske) x-verdier ka ifluere pa storrelse av R (s. 19). Sammelikig av R-ee for ulike observasjosmaterialer ka derfor være villedede - Tilfeldige feil i de observerte variable ka redusere R (r ) eller på ae mate ifluere på størrelse av de (s.31) - Det avheger av atall observasjoer og atall variable om e R av e gitt størrelse er sigifikat forskjellig fra ull (tabell 6, s. 18) - E R som er 0,5 eller midre (Ltallverdi) gir e reduksjo i stadardavviket for y som er 13% eller midre (tabell 4, s.9) - R = 0 viser at det ikke er lieær samvariasjo mellom y og x-ee i observasjosmaterialet - Selv om R = 0 ka det være ikke-lieær sammeheg (Tabell 3, s. 8) - Selv om e x-variabel er ukorrelert med y, ka de bidra til a Øke samvariasjoe i e multippel regresjo (jfr. x 3 og x 4 i tabell 5, se s. 1) Ut fra oveståede ka det være lett å Lorsta Øskemålet om å fie e R ær 1. Da vet vi at det er god lieær samvariasjo i observasjos=materialet. Me det er et meget sterkt krav å forlage at vi skal ha greid a fie frem til og observere x-variable som er slik at praktisk talt all variasjo i y ka uttrykkes ved de lieære regresjoe i x-ee. I almielighet bør vi ok være tilfreds med lavere R-verdier. Hvor lave ka vi ikke si geerelt, det vil avhege av det problemet vi aalyserer. Ehver R som er sigifikat større e ull viser jo at det er e viss lieær samvariasjo mellom y og det valgte sett

33 av x-er. Dette ka være iteressat selv om samvariasjoe ikke er sterk, malt med R. E tig er sikkert: vi bor i almielighet ikke la korrelasjoskoeffisiete alee avgjøre om e regresjo er "god" eller ikke. I tillegg til usikkerhete som ligger i de puktee som er evt ovefor, ka det være adre hesy. Hvilke kriterier vi skal trekke i i tillegg til (eller istedefor) R, vil avhege av de problemstillige vi har. Vi bør atagelig se på de ekelte regresjoskoeffisieter, vurdere de ulike x-variable, se på prediksjosfeil m.m. Kaskje er ikke lieær regresjo e god modell for vårt problem i det hele tatt. For biære variable ma vi bl.a. vurdere om det er x-ees eve til "forklare" y lieært, eller om det er estimerig av sasylighetee vi er mest iteressert i ( jfr. slutte av avsitt 7, s.7). I mage tilfeller vil log-lieære modeller være et bedre aalyseverktøy for biære variabler, Haldorse (1977), AII, kap. 14. For ordigsvariable vil i almielighet ikke-parametriske metoder være å foretrekke.

34 LITTERATUR AI: Amudse, H.T. (197) Statistisk metodelære. E elemetær iførig. Oslo A11: Amudse, H.T. (1978). Statistisk metodelære II. Talkig av data, modeller og metoder. Oslo A(1974):, Amudse H.T. (1974) Biary variable multiple regressios. Scadiavia Joural of Statistics. Vol 1. Cox, D.R. (1970). The aaysis of biary data FridstrOm, L.E. (1980?). Uder arbeid Haldorse, T. (1977). Om log-lieær aalyse av flerveistabeller. Arbeidsotat