H T. Amundsen INNHOLD
|
|
- Hans-Petter Thorsen
- 8 år siden
- Visninger:
Transkript
1 Itere otater STATISTISK SENTRALBYRÅ. oktober 1980 KORRELASJONSKOEFFISIENTEN - ENDA ENGANG Av H T. Amudse INNHOLD 1. Iledig *****..... * 0 1. Produktmametkorrelasjoskoeffisiete og sammehege med lieær regresjo. ***** De multiple korrelasjoskoeffisiete Teoretiske korrelasjoskoeffisieter. Sigifikas Korrelasjo år x-ee (de hoyresidevariable)er biære (dummies) Korrelasjo år y er biær, me ikke x 7. Både y og x-ee biære variable Korrelasjo år x, y, eller begge er ordigsvariable Observasjoer med tilfeldige feil Sammedrag 31 Litt eratur... ******* Side
2 KORRELASJONSKOEFFISIENTEN - ENDA EN GANG "Disse variablee forklarer 6 proset av forskjelle mellom ma og kvie". (Ikke fuet i Byråets publikasjoer.) 1. Iledig E stor del av de problemee Vi søker å belyse ved hjelp av statistiske observasjosmaterialer gar ut på a udersøke om det er samvariasjo mellom to eller flere variable. Hva er sammehege, gjeomsittlig sett, mellom utgiftee til mat i e husholdig og husholdiges størrelse, des itekt osv.? Hvorda varierer måedslø med yrkesgruppe, utdaelse, kjø, alder m.m.? I bladt øyer vi oss ikkemed a sette opp observasjosmaterialet i tabellform, me forsøker a uttrykke og aalysere de evetuelle samvariasjoe ved kvatitative metoder, f.eks. ved regresjosaalyse. Det er blitt ekelt a kjøre ut regresjoslikiger i mage variable, problemet er A tolke resultatee. I våre forsøk på å forekle det kompliserte griper vi ofte til ett ekelt tall som uttrykk for de multiple sammehege, og da gjere verdie av (de multiple) korrelasjoskoeffisiete, som EDB-programmet gir som et av beregigsresultatee. Mal som i e viss forstad er beslektet med de multiple korrelasjoskoeffisiete brukes også ved adre dataaalyseprogrammer, f.eks. i Multiple Classificatio Aalysis (MCA) og Automatic Iteractio Detectio (AID). Navet determiasjoskoeffisiet er mer betegede i slike tilfeller. Når vi forsøker a forekle beskrivelse av e komplisert sammeheg så drastisk at vi bare bruker ett ekelt statistisk mål, så er det viktig A were klar over hva det er mulig å få frem ved hjelp av dette målet. Bl.a ka tolkige av resultatet være ulik for forskjellige problemstilliger og forutsetiger om de variable vi aalyserer. Vi vil oppdage at korrelasjos = koeffisiete bare belyser 6 side av sake, og at vi i de fleste situasjoer bør bruke adre kriterier i tillegg til de eller istedefor de, år vi skal legge frem resultatee av e statistisk aalyse. Som hjelpemiddel uder beregigee ka vi imidlertid ha ytte av de ulike typer av korrelasjoskoeffisieter, eller kovariaser.
3 dette otatet skal vi forsoke a se helt elemetært på hva de valige korrelasjoskoeffisiete, de såkalte produktmometkorrelasjos - koeffisiete, ka gi uttrykk for. Vi ma i dee sammeheg også trekke i litt regresjosaalyse, me bare som bakgru for korrelasjoe. Vi behadler et observasjosmateriale for to variable i avsitt. Noe'av det vi kommer fram til der, gjelder også for de multiple korrelasjos koeffisiete som vi ellers ser på i avsitt 3. I. avsitt 4 tar vi opp de to valige ekle teoretiske modellee som ofte postuleres ved regresjos/ korrelasjosaalyse. Dette gir ødvedig bakgru for testig av koeffisietee. reste av otatet ser vi på situasjoer der e eller flere variable er av spesiell karakter, som biære variable, ordigsvariable eller variable observert med feil. Med et par utak ever vi ikke adre typer samvariasjosmål, side hesikte i dette otatet primært er a se på korrelasjos= koeffisiete. I siste avsitt forsøker vi e kortfattet oppsummerig av resultatee. E kort litteraturliste, som det vises til i tekste, star til slutt. Vi blir ofte skuffet år vi får e korrelasjoskoeffisiet som ikke ligger meget ær 1 (eller -1). Vi ma imidlertid være klar over at korrelasjo ær I er et meget stregt krav: observasjospuktee skal este ligge på e rett lije i spredigsdiagrammet for to variable, eller i et pla (3 variable), respektive hyperpla (flere variable). For biære variable fier vi tilsvarede at korrelasjo ær I krever at observasjoee er sterkt kosetrert om visse pukter. Vi ma teke etter om det virkelig er dette vi vil ha et mål for. De regresjoe vi har valgt, ka være både foruftig og yttig selv om de multiple korrelasjoskoeffisiete ikke er så stor. De parametree vi er iteressert i, ka likevel være godt estimert. Som evt, ma vi i almielighet bruke adre kriterier e bare e ekelt koeffisiet for A bedømme situasjoe. Hvilke, ma vi avgjøre ut fra det spesielle problemet vi behadler.. Produktmometkorrelasjoskoeffisiete Ata at vi har et materiale som består av observasjospar, (x 1,y 1 ), (x,y ),...(K,y ). Både x og y er kvatitative variable malt i valig forholdstallskala, slik at både differaser og forholdstall har god meig. I tabell J. har vi et 1,,,,ostruert) eksem:pel. fra tidsyttiugsudersokelse, der x. er timetall pr. dag brukt til itektsgivede arbeid og y i er timetall brukt til egearbeid, begge for perso r.
4 Tabell 1. Korrelasjo mellom x: atall timer brukt til itektsgivede arbeid, og y: atall timer brukt til egearbeid, for =5 observasjospar fra e befolkigsgruppe Perso Observerte Avvik fra gj.sitt Avviksprodukt Kvadrerte avvik r. i timer x. y. 1 x1 -x y 1 -y ( -x) (y1-y) (xi-x) (Yi-Y) 1 3, ,5 1 1,0-1 -1, ,0 0, , ,0 3-0,5 1-0,5 0,5 1 5,5 4-1,0 -,0 1 4 Sum 17, ,5, sum 3, ,7 0,5 5 Vi fier her det aritmetiske gjeomsittet for x-ee: x = - E x. = - 17,5 = 3.i 5,,, 1=1 og tilsvarede for y-ee: 1 1 y = E y. = 10 =. 5 Sš fier vi det empiriske stadardavviket for x-ee som s x = og for y-ee:. E (x.- x = 1=1 i - r -,5 = VT7= 0,707, = ii E fi=l i Y,_3,-) 10 = 1-7= 1,414. Videre fier vi de empiriske kovariase (produktmometet) mellom x-ee og y-ee ved xy. E ( = x) (y - 37) = - 5-3,5) = Edelig får vi de empiriske korrelasjoskoeffisiete produktmomet-) r, eller kortere, r = xy xy -0,7 s s ,414 x y - -0,7. (.1)
5 4 Formele for r forutsetter at både s x > 0 og s y >0, dvs. at det fies mist to ulike x-verdier og to ulike y-verdier bladt observasjoee. Vi skal forutsette dette i det følgede hvis itet aet sies. I alle tilfelle ka vi imidlertid si at x--ee og y-ee er ukorrelert hvis s = O. xy Noe merkader: Det er e tilfeldighet at r=s i dette eksemplet. xy Vi bruker betegelse "empirisk" for a skille disse storrelsee vi reger ut i observasjosmaterialet fra de tilsvarede teoretiske storrelsee vi skal se på i avsitt 4. Vi har brukt og ikke (-1) som divisor i stadardavvikee. Hvis vi bruker (-1), ma vi også bruke (-1) i s for at r skal bli xy riktig defiert. Oppstillige i tabellee er valgt for å illustrere sammehegee, selve beregigee ka oftest gjores mer praktisk på ae måte. I dette eksemplet har vi egativ korrelasjo mellom x- og y-verdiee. Det fremgår av tabelle hva dette kommer av. Tallee er her ordet etter stigede verdier av de ee variable, emlig y. Vi ser at bortsett fra forste observasjo, så avtar x-ee år y-ee stiger. Dette forer til at de fleste avvikee (x.-x) får motsatt forteg av si tilsvarede(y 4 -y) og dermed blir de fleste produktee (x 1-)(y-) egative. Summe av dem blir egativ og det gjor også s xy og r. Negativ korrelasjo betyr at det er e tedes til at verdiee av de ee variable avtar år de adre Oker, eller omvedt. letaeteksempelderx. -verdiee gjeomgåede stiger med stigede y.-verdier vil de fleste avviksparee ha samme forteg, ete begge egative eller begge positive. Da blir de fleste produktee positive og det samme gjelder s xy og r. Vi har da positiv korrelasjo mellom de to variable, jfr. tabell edefor. I oe eksempler ka det tekes at f.eks. ett stort positivt produkt oppveier e rad av egative (eller omvedt). Da ka vi fa e s ær ull. xy Det får vi også hvis det er lite tedes til samvariasjo mellom x-ee og T-ee,dvs-atprodukterle(x. -x) (y.-y) har skiftede forteg, og dermed e tedes til 'a oppveie hveradre ved suiumerige. Det er lite korrelasjo i materialet. Vi ka avbilde observasjoee som pukter i et spredigsdiagram, idet 'vi avsette x. lags de varette akse,ogy. lags de loddrette. Tai I verdie på r heger ye samme med hvor godt puktee samler seg om e rett lije i diagrammet. Vi skal her se på miste kvadraters regresjoslije for y m.h.p. X.
6 Vi skriver lijes likig på forme y = a+bx. Her er a og b kostater gom vi bestemmer ut fra observasjosmaterialet på e slik mate at kvadratsumme qe i=1. -a-bx.) Y 1 (.) blir mist mulig. Løsige av dette gir s b - x-y - s 0, og a = y-bx = = 6,9, dvs. vi har y=st- b (x-r). Lije har altså likige y = 6,9-1,4x, = -1,4(x-3,5). Spredigsdiagram 1. Puktee fra tabell 1 avmerket med sirkler, regresjoslije er heltrukket. Detedredepuktet (5,0) er merket med e trekat, og regresjoslije er streket opp for dette adre eksemplet. Videre er miste kvadraters lije ute kostatledd stiplet i. Eksemplet i tabell 3 er agitt ved kryssee Øverst til høyre.
7 Regresjoskoeffisiete b har altså samme forteg som s og r. xy Vi bruker ofte restavviket (residualavviket) s som et mål for observasjospuktees spredig rudt regresjoslije. Vi defierer restvariase s ved s 1 q o (.3) der q o er miimum av q, dvs. de verdie vi får år vi setter de fue a- og b-verdiee i i uttrykket for q. Det viser seg at vi ka forekle dette uttrykket, så vi får s T=7. = s (1-r ), dvs. s = s (.4) Side hverke s eller s ka være egative tall, så viser dette at r ikke ka være storre e 1, dvs. at vi alltid ma ha -1 r 1. Hvis r = 1 eller r = -1, så er s,og lik ull, dvs. at alle puktee o' (xi, yi) ligger på de rette lije. Hvis r er ær 1, så ma s were lite i forhold til s, og puktee ligger ær lije. Y I eksemplet fier vi s = (1-0,49) = 1,0 og s = 1,01. Puktee ligger okså ær regresjoslije. Hvis vi edrer eksemplet slik at x 1 = 5, mes alle de adre tallee er uedret, så fier vi at alle puktee ligger meget ær regresjoslije, som å blir y = 7,74-1,51x, jfr. diagrammet. Vi far.i dette eksmplet x = 3,8, s = 0,86, s xy = -1,3, r = -0,99, x b =-1,51, a = 7,74, s = 0,035 og s = 0,187. Hvis r = 0, så er s = s og lije har b = 0, dvs. de går varett: - y = y for alle x. Av uttrykket (.4) set vi at vi også ka skrive s -s Y r = 1 - (.5) s s I e del lærebøker og EDB-programmer blir "korrelasjoskoeffisiete" defiert ved uttrykket til høyre. I yere litteratur kalles dette for determiasjoskoeffisiete (coefficiet of determiatio). Vi må imidlertid være oppmerksom på at r og (s -s )is ikke behøver a falle samme hvis regresjosligige er e ae e y=a+bx, eller fuet på ae mate e ved å miimere kvadratsumme q i (.) (vi kue trukket lije paoyemål, f.eks.)
8 Sam eksempel på e ae ligig e y = bx, Vil vi foye e lije ute kostatledd til data i tabell 1. Lije har da ligige y = cx, og vi bestemmer c ved å miimere kvadratsumme u = E 1=1 Da fier vi og 1 5 i Dette gir C Ey.x. i 31,5 = 0,49, 63,75 Ex. (y. -0,49x.,887. S -s -,887-0,44, som ikke har oe med kvadratet av r å gjore, me som selvsagt idikerer at e lije ute kostatledd passer temmelig dårlig til våre data, jfr. diagram 1. Vi skal vise tilkytige mellom r og miste kvadraters regresjoslijepåedaeraåte- Forhvsrobservertx. -verdi ka vi rege ut de y-verdie, y., som vi far ved a sette i x. i regresjoslikige. For 1=1 har vi f.eks. i vårt forste eksempel: yl = 6,9-1,4 3,5 =,0, osv., som i tabell. Så vil vi fie produktmometkorrelasjoe mellom y.- og yi- verdiee. Tabe ]A-.Korrelasiomellomobservertey. -vercaerogberegede. Yi-verdier ut fra regresjoslikige. Perso * -* -* * -* r. i y y. Yi. -Y)(Yi-Y (Y.-Y) - Yi '(Ya. (Y-Y 1 ) , , ,7 1 5 / 4 3,4 Sum 10 10,0 0 1,4 0 0,7,8 4 4, ,96 0 0, ,49 1,96 4,90 sum 0,98 0,98 -* 9 Vi fier gjeomsittet y,s * O 98 s *=0,98 og Ỳ Y,Y s * y,y s s * Y Y 0,98,414 0,
9 De kvadrerte korrelasjoskoeffisiete er altså 0,49 = r. Vi ka vise at dette gjelder geerelt: korrelasjoe mellom yi- og yi-verdiee er aldri egativ og har samme tallverdi som r. xy Vi ka vise at sammehegee -* -7, * > y =y, srs y-s og s =s -s.0, Y'Y Y gjelder geerelt ar yi er bereget ut fra miste kvadraters regresjoslikige (A.II, s.188). Dette gjelder også for regresjoer med flere x-er (multippel regresjo, se avsitt 3). Det er viktig å merke seg at det er tedese til lieær sammeheg mellom x og y vi evetuelt ka si oe om ved hjelp av r. I eksemplet i tabell 3 ligger alle puktee på kurve y = (x-6).4-5 dvs. at år x er gitt, så ka vi rege ut y Oyaktig, det er fuksjoell avtiegishetmeoix.og yi Likevel skal vi se at r=0. Jfr. diagram 1. (.6) Tabell 3. Ikke-lieær samvariasjo. Korrelasjo mellom x og y år y=(x-6) + 5 for x = 5, 5,5, 6, 6,S, 7. Perso x. Y i x.-x Y.-Y (x.-37)(y--y) i r. i ,5-0,5 5,5 5,5-0,5-0,5 0, , ,5 5,5 0,5-0,5-0, ,5 0,5 Sum 30 7, sum 6 5,5 0 5 Vi har s =0 xy og dermed r=0 og b=0 samt a=y=5,5. Hvis vi i eksemplet istede hadde hatt verdier for x = 3,4,5,5,5 og 6, ville vi fått e egativ r. Med verdier fra x = 6 og oppover, ville vi fått e positiv r (me vi ka ikke få r =1). Hvis vi i dette eksemplet bruker y = som regresjoskurve, blir s = 0 og dermed (s -s )/s = 1, )1 Y fordi puktee ligger på kurve. Uttrykket (s -s )/s kalles altså determiasjoskoeffisiete. Det gir jo de relative forskjelle mellom de opprielige variase, s ' for y-ee og variase s malt rudt Y
10 regresjoslije(-kurve). Teker vi på x som e "forklarigsvariabel" for y, så syes vi at x "forklarer" mye av variasjoe i y hvis s er lite, mes "forklarige" er dårlig år s er ær s. For valig lieær regresjo viser Y (.4) at s er lite år r er ær 1 ogs er ær s y år r er lite, og omvedt. E ser ofte utsag som at "x forklarer 100 r proset av variasjoe i Dette betyrda at variase for y-ee er redusert med 100 r proset. Me vi måler jo gjere variasjoe i stadardavvik, tek f.eks. på utsag som "gjeomsittet+ stadardavvik". Hvis vi vil se på hvor mye av stadardavviket s som er "forklart" ved regresjoe, så ma vi se på S - y s y "T 77 S -s Yl-r = Y Y = - /117 Dee reduksjoe er alltid midre e r år 0<r < f tabell 4. Tabell 4. Forholdsvis reduksjo i stadardavviket for y for ulike verdier av r, (eller (s -s )/s 0,80 Tallverdi 1 0,995 0,975 0,95 0,90 0,70 0,50 0,40 0,30 r 1 0,99 0,95 0,90 0,81 0,64 0,49 0,5 0,16 0,09 - -r 1 0,90 0,78 0,68 0,56 0,40 0,9 0, ,05 Vi ser at reduksjoe i stadardavviket ka være okså moderat selv for store tallverdier av r. I eksemplet i tabell 1 fier vi 1 = 0,9. I det modererte eksemplet med x 1 =5 fier vi 1 - V1-0,985 = 0,87. Både disse tallee og eksemplet med ikke-lieær samvariasjo sier a vel oe om hvor mye det skal til for å "forklare" variasjoe i e variabel ved hjelp av e ae, eller for a påvise "god" samvariasjo mellom to variable, i de forstad at r skal være ær 1 i tallverdi. pa de ae side så ka samvariasjoe være av betydig selv om de ikke er så sterk. Me her kommer vi på gygede gru. Hittil har vi bare sett på og "beskrevet" observasjosmaterialet på ymse vis. Hvis hesikte med aalyse er a trekke slutiger om samvarisjo mellom de variable ut over dette observasjosmaterialet, så er det ikke ok a legge fram de tallee som vi har fuet. Vi må også udersøke hvilke usikkerheter som hefter ved dem år vi vil tolke dem
11 10 som estimater for tilsvarede teoretiske storrelser, eller parametre, i de modell vi velger a stille opp for sammehege mellom våre variable. Vi skal se litt på dette i avsitt 4. FOrst skal vi i avsitt 3 se på de multiple korrelasjoskoeffisiete.. De multiple korrelasjoskoeffisiete Vi har ofte et materiale med observasjoer av flere e to variable for hver observasjosehet. For perso r. i ka vi i eksemplet fora ha observasjoe y i, x ii,...,xki, der y i er atall timer brukt til egearbeid, x er atall timer brukt til itektsgivede arbeid, x er atall bar i * 0 xki er alder, f.eks. tabell 5 har vi utvidet det kostruerte eksemplet i tabell 1. Vi har k = 4, med x3i for bosted (1 for by, 0 for lad) og x4i for aldersgruppe (1 for 40 år og over, 0 for uder 40 ar). Tabell 5 Kostruert eksempel for = 5 observasjossett fra e befolkiigsgruppe y: atall timer brukt til egearbeid x 1 : atall timer brukt til itekts = givede arbeid X: atall bar X3: bosted x 4' aldersgruppe Observasjoer Perso r. i Yi X. X. X. x li 4i 01 3, , , , ,5 1 0 Gj.sitt 3,5 0,8 0,4 0, Varias 0,5 0,56 0,4 0,16-0,7 s yxj r. yxj T0'7 O 0 For a kue berege regresjos- og korrelas oskoeffisietee treger vi variasee og kovariasee for x-ee,
12 11 stist 5 7 (x..-tc.xx ) for j = 1,,3,4 og t = 1,,3,4. ti t samler dem i kovariasmatrise rs 11 s 1 s 13 s 171 r- 0,5-0,4-0, 0,1 s s ,4 0,56 0,08 0,04 31 s 3 s 33 s 34-0, 0,08 0,4-0,08 L.5 s s ,1 0,04-0,08 0,16 På tilsvarede mate som for to variable ka vi berege miste kvadraters regresjosligige for y m.h.p. xl, x,..,xk. Dvs. vi bestemmer kostatee a, bl, b,..,bklikige y=a+bx +bx + x 1 1 k k (3.1) slik at vi miimerer kvadratsumme Q = E (37. -x i=1 1 k xki Restvariase ka vi også her sette lik s --Q ' der Q er miimum av Q. o Regresjoe for y mhp x 1 og x (altså k = ) blir for tallee i tabell 5: y = 0,3 + 0,067x 1 + 1,833x, med restvarias 0 33 samt R = 0,89 og R = 0,945. Se edefor om R. Regresjoe mhp x 1,x og x blir: y = 3,3-0,6x 1 + 1,5x x 3' med restvarias 0,08 samt R = 0,96 og R =,98 Og regresjoe mhp xx'x3 og x 4 blir: y= 1 4. Oxi + x -x 3 - x4, med restvarias 0, samt R = R = 1. Bortsett fra helt spesielle tilfeller av ukorrelerthet mellom y og x-ee, vil vi alltid få s = 0 og R = 1 år vi har like mage koeffisieter i likige som vi har observasjossett (her 5). Ellers ser vi i dette eksemplet hvorda koeffisiete til x 1 edrer seg ettersom vi trekker i fler variable. I de siste regresjoe har x,x 3 og x4 "overtatt hele forklarige" fra xl. Dette er spesielt for dette eksemplet (og er vel et ikke urimelig resultat med de tolkige vi har gitt de variable), Hvis vi bereger regresjoe for y mhp x ' x 3 og x 4 alee, fier vi her
13 1 y = 1 -I- x - x3 - x4, med restvarias Q og R = 1 dvs. at år x, x3 og x4 er gitt, ka vi berege y øyaktig (slik tallee i tabell 5 er). For å bedomme hvor "god" e regresjo er, ka vi se på restvariase, me det valige er jo a se på de mutiple korrelasjoskoeffisiete, R, Dee ka vi bestemme ved å g å frem som i tabell fora. Vi ka rege ut y- ver- 1 dier ved a sette i (x x.,..,,x.) i regresjoslikige (3.1), og så ka vi berege produktmametkorrelasjoe r 1 k' populært kalt R, som y... blir (jfr. merkadee etter tabell fora): R = r y k s yy * s s Y Y s -s - Y Ys ly s (3.) Vi har altså R 0, og s y-s R =, eller s = s (1-R ) s (3.3) også i dette tilfelle. Vi får som i avsitt at likhete i (3.) gjelder årerdiee og s er bereget ut fra miste kvadraters regresjoe (3.1). Det eeste som skiller R fra e "valig" korrelasjoskoeffisiet er at de ikke ka bli egativ. Ellers blir "tolkige" av R og s som i avsitt R = 1, dvs. s=0, år alle observasjossettee passer i likige (3.1), slik som i eksemplet år både x ' x 3 og x 4 er med. Rærl,sarO,riardetersiadivergesermelloly.og Yi.ved isettig av xli, xi,...,x i (3.1), som i eksemplet der x og x 3 me - ikke 4' er med. R = 0, s = sy, år likige blir y = y, dvs. alle b-ee 1 lik ull, da blir--q = s Dette får vi et eksempel o Y. på ved å berege regresjoe for y mhp x3 og x4, som gir y =. Vi ser at eda x 3 og x 4 både hver for seg og samme er ukorrelert med y, så bidrar de til redusert varias, og øketmultipel korrelasjo y år de kommer i i regresjoe samme med xl og/eller x. Dette heger samme med at x-ee er ibyrdes korrelert. Dee ibyrdes korrelasjoe er også grue til at regresjoskoeffisiete til x 1 edrer seg ettersom flere variable trekkes i.
14 13 Av (3.) ser vi at tolkige av R som de relative reduksjo i variase for y, er som i avsitt og vi ka bedømme reduksjoe i stadardavviket på akkurat samme mate. Elvis vi måler s ut fra e ae likig e (3.1), vil vi derimot ikke ute videre kue tolke determiasjoskoeffisiete (3.4) som de multiple korrelasjoskoeffisiete'mellom y på de ee side og settet (xl, x,...,xk) på de ae. Med s bereget ut fra dee adre likige, ka vi selvsagt ytte (3.4) eller (S -S)/S som et mål for redusert usikkerhet hvis vi Øsker det, me vi ml i tilfelle udersøke ærmere om det er mulig a tolke (3.4) som e korrelasjoskoeffisiet mellom observerte og beregede y-verdier (hvis det er av iteresse). Det er blitt valig å berege flere multiple regresjoer for y m.h.p. ulike sett av x-variable fra samme observasjosmateriale for å fie det x-settet som "best forklarer" variasjoe i y-ee. E velger da det x-settet som gir størst verdi av de multiple korrelasjoskeffisiete (dvs. det som gir mist restvarias). I tillegg til spørsmålet om usikkerhet (jfr. avsitt 4), og om det har meig ut fra vårt problem å velge x-ee slik, så er det også oe algebraiske sammeheger å være oppmerksom pa. Sett at vi bereger folgede regresjoer etter tur, og kaller restvariasee heholdsvis s i, s,...,s k og koeffisietee Ri, R,...Rk. Regresjoe for y er altså haholdsvisxl og x og x 1 ' x l ' x 3' Da er, som vi også ser i eksemplet ovefor, og s s s s 1 = = 3 =- k R < R < v 1 = =, x. 1, x ' x.. xk 3 Vi får altså i almielighet bedre tilpassig jo flere "forklarigsvariable" vi tar med (se A.II.s.190). (I ekelte dataprogrammer ser det ut som om ulikhetee ikke holder. Det Qo skyldes gjere at er brukt istedefor s Side evere da avtar --1 k 11 år k vokser, ka vi få stigede restvariaser hvis Q blir lite eller ikke o redusert år vi trekker i flere x-er i regresjoe.) Vi ser av eksemplet at vi ikke ka bedømme "godhete" av de multiple regresjoe (3.1) ved å se på korrelasjoskoeffisietee mellom y og hver ekelt av de x-variable. La oss kalle dem r yl for y og x r for y og x osv. r for y og xk y ' yk Vi ka da vise at, R = r y ryl +r +...+rr yk
15 14 Likhetsteget gjelder år og bare år alle x-variablee er parvis ukorrelert med hveradre. Hvis de er det, så vil "virkige" av dem være additiv i de forstad at R =r +r + + r yk. yl y Dette vil meget sjelde være tilfelle i praksis, medmidre vi trasformerer de variable så vi får e såkalt ortogoal regresjo. I eksemplet har vi + r +r r +r = 0,49 + 0, = 1,3 Yl Y Y3 Y4 Det er e spesiell fare ved å sammelike regresjoer fra ulike observasjosmaterialer ved hjelp av R-verdiee, dette forsoker vi å forklare i avsitt 4b edefor. 4. Er koeffisietee sigifikate? Når vi vil trekke slutiger om samvariasjo mellom de variable ut over observasjosmaterialet, må vi bygge på e modell. For å kue bedomme usikkerhete ved våre utsag tyr vi til sasylighets- (stokastiske) modeller. Vi ka ikke gi oe iførig i regresjosteorie her, me viser til læreboker, som f.eks. AI, kap.7 (for to variable) og All, kap. 1. Vi skal bare atyde visse gruleggede trekk i teorie. Vitekerossathvery.er e observasjo av e teoretisk variabel som har e sasylighetsfordelig. Dee fordelige ka ha visse parametre, f.eks. teoretisk gjeomsitt (forvetig) og teoretisk varias, respektive p og a, Y som bestemmer de ærmere. Disse parametree ka valigvis tolkes som tall som heholdsvis y og s vil ærme seg mot ved beregig ut fra stadig flere observasjoer, år modelle gjelder. Videre vil vi her være iteressert i om fordelige for y ka avhege av x-ee, vi teker oss f.eks. at x-ee ka være parametre i fordelige. Vi skal her bare se på de valige, ekle regresjosmodelle, dvs. at forvetig og varias for y for gitte x-er ka skrives py ixi,x,...,xk = a + ßixi + ß x + $kxk (4.1a) var(y i xi, x,...xk) = a,(dvs. de samme for ehver x-kombiasjo). (4.1b) Forutsatt at ikke oe aet folger av de måte observasjoee er kommet frampå, vil vi dessute postulere at fordelige for hver yi er uavhegig av de adre y-ee vi har med, og at (4.1) gjelder for hver av dem.
16 15 Når det gjelder x-ee ka vi ha to ulike situasjoer (ellere kotithiasjo) - x-ee ka betraktes som ikke-stokastiske, de opptrer som observerbare parametre i problemet. Dvs0 at x-ee på e eller ae mate ka betraktes som "forutbestemt", ete av oss selv eller av adre, år y-ee (og x-ee) observeres. - x-ee ka betraktes som stokastiske. Da har vi for hver i at settet (y i, x li, xi,...,xki ) er observert fra e simulta (k+l-dimesjoal) sasylighetsfordelig. Dette behøver ikke være så vaskelig som det høres ut, for vi postulerer også her at (4.1) gjelder (å som såkalt betiget forvetig og varias). Det er først og fremst (401a) som iteresserer oss år vi vil fram til utsag om samvariasjoe mellom y og x-ee. I virkelighete er det dee siste modelle som er de greleste år det gjelder a tolke korrelasjoskoeffisieter, oe vi skal se edefor. De valige testmetodee som brukes i regresjosaalyser, som t-tester og F-tester, forutsetter eda mer om y-fordelige, emlig at (4.1c) de teoretiske fordelige (evetuelt betigede fordelige gitt x-ee) som y. er trukket fra er e ormal (gaussisk) sasylighetsfordelig. Dee forutsetige er spesielt viktig for midre observasjosmaterialer. For stor (hvor stor, avheger av hva vi tester) vil som oftest testee vare tilærmet riktige selv ute ormal fordelig for y-ee. Når(4.1a-c) er oppfylt og y-ee er uavhegige,ka vi vise =tematisk at størrelser som t i (4.3) edefor har e sasylighetsfordelig som kalles t- fordelige, med e parameter som kalles "atall frihetsgrader" og som her er 411 lik (-). Vi ka også vise at F i (4.5) og i (4.7) følger F-fordelige. Dee har to parametre: "atall frihetsgrader for tellere og for evere", som er heholdsvis 1 og (-) for (4 05) og k og (-k-1) for (4.7). Disse fordeligee er tabulert, og programmer for dem er lagt i i regresjosprogrammee. 4. Teoretisk korrelasjo år alle variable er stokastiske Når y ogx har e simulta sasylighetsfordelig, ka vi defiere de teoretiske kovariase a xy samt de teoretiske stadardavvikee a og a og de teoretiske korrelasjoskoeffisiete
17 16 p = xy G G x y helt aalogt med de empiriske størrelsee i avsitt. (Vi bruker å forvetigsoperatore istedefor a summere over i og dele med ). Vi vil fie at -1 p 1, og vi ka vise at det er eksakt lieær sammeheg mellom x og y hvis og (4.) bare hvis p=1. Vi vil si at x og y er ukorrelert hvis a = 0, dvs. p = 0. xy Når betigelsee (4.1) er oppfylt, ka vi teste hypotese p = 0 mot alterativet p 0 ved a teste om regresjoskoeffisiete til x er lik ull. Vi bruker t-teste og forkaster ullhypotese hvis de observerte t- verdie avviker mye fra ull. Forvetige i t-fordelige er emlig ull år = 0. Med valgt sasylighetsivå 5 proset, forkaster vi ullhypo- 7 tese hvis vår observerte t eteer midre e,5-proset fraktile (de t- verdie som det er,5- proset sasylighet for å komme uder hvis p= 0) eller storre e 97,5-prosetfraktile (de t-verdie det er,5 proset sasylighet for a komme over). Vi bereger t = s _ 0 7, 7 s x 1.01 V7,7= -1,70. (4.3) Vi fier her at dee ikke er midre e 1-prosetfraktile -3,18 i t-fordelige med 3 frihetsgrader, dvs. vi ka ikke forkaste hypotese p = 0 i dette tilfelle. (Hvis vi hadde hatt 10 observasjoer, me ellers samme verdi av b, s og s,ville vi fått t = -9,8 og forkastig av ullhypoteser;. Det er lett å se at t-teste har oe med r og p å gjøre hvis vi setter i for b og s fra formlee i avsitt. Da fier vi og b=r s = s 11-r s x r r t= V -0.7 vt 077V0,511-1,70. (4.4) Istedefor t-teste kue vi her brukt e F-test som gir øyaktig samme resultat. Vi har emlig at F = t er F-fordelt med 1 frihetsgrad for tellere og - for evere. Vi har F t = r - 0,49 k. 11-) - 1-r v, 5 1,88 (4.5)
18 17 E stor F-verdi vil idikere at ullhypotese er gal, vi forkaster ullhypotese hvis F er større e 5-proset fraktile i F-fordelige med 1 frihetsgrad for tellere og 3 for evere, dvs. 10,13 (lik (-3,18) ). Dette er altså ikke oppfylt her. (Det er litt uøyaktighet i siste desimal p.g.a. avrudig). De teoretiske multiple korrelasjoskoeffisiete ka vi defiere på tilsvarede mate som i tabell ved A ta de teoretiske korrelasjoskoeffisiete mellom y og tilsvarede y(x) fra regresjoe (4.1a). Vi vil da fie qalogt med (3.) ' a _ a ' p ay,y(x) 1...k = a a = Y (4.6) Y y y(x)v a Y der GYJ Vi ka også vise at vi ka skrive k P y.1...kj=1 1 (3.ayj, = ay J er de teoretiske kovariasee mellom y og x -variablee. J teste p Y 1...k = 0 er det samme som a teste om samtlige s-er er ull. Uder forutsetigee (4.1) ka vi gjøre dette ved hjelp av R -k-1 F - (4.7) 1-: k Vi forkaster ullhypotese hvis de observerte F er storre e (f.eks.) 5 proset fraktile i F-fordelige med k frihetsgrader for tellere og (-k-1) frihetsgrader for evere. NB: Hvis vi vil bruke determiasjoskoeffisiete fra adre likiger e (4.1a) for å teste saueheger på tilsvarede mate, ka vi ikke ute videre bruke F som agitt ovefor. Vi må i tilfelle forst udersoke fordelige av (4.7) ut fra de problemstillig vi har. I tabell 6 gir vi oe eksempler på hvor stor R (og R) ma være for a være "sigifikat forskjellig fra ull" på 5 proset sasylighetsivå, dvs. for at vi skal kue forkaste hypotese: p = 0. Vi treger stor R-verdi for å gjore dette i små utvalg, Oe maglede forkastig iebærer ikke ødvedigvis at p 0). For middels og store utvalg ka også "middels" og små verdier være sigifikate.
19 18 Tabell 6. Hvor stor ma 11' (og R) mist være for å were sigifikat forskjellig fra ull på 5 proset ivå?. Forutsetiger: (4.1). Atall frihetsgrader teller Atall RR fr.gr. F o 95 R RF095 R F R R 0.95 R 0.95 ever 5 6,61 0,57 0,75 5,05 0,83 0,91 4,74 0,90 0,95 4,53 0,96 0,98 0 4,35 0,18 0,4,71 0,40 0,64,35 0,54 0,74,08 0,56 0, ,08 0,09 0,30,45 0,3 0,48,08 0,34 0,58 1,79 0,5 0,7 60 4,00 0,06 0,5,37 0,16 0,41 1,99 0,5 0,50 1,70 0,40 0, ,9 0,03 0,18,9 0,09 0,30 1,91 0,14 0,37 1,61 0,4 0,49 ca , ,06,0 0,01 0,10 1,84 0,0 0,13 1,50 0,03 0,19 4b. "Teoretisk korrelasjo" år x-ee ikke er stokastiske Når y er stokastisk, mes x-ee ma betraktes som "gitte tall", eller observerbare parametre, ka vi ikke defiere teoretiske korrelasjoskoeffisieter ved (4.) eller (4.6). Likevel har jo regresjoe (4.1a) god meig og vi ka ha ormalt fordelte y-er, dvs. e såkalt lieærormal modell. Vi ka da teste ß = 0 ved teste (4.3) og 13 =0 ved teste (4.7). '''k Hvis vi Øsker å gi meig til begrepet "teoretisk korrelasjoskoeffisiet" i dette tilfelle, ka vi defiere de ved a Py-1...k G der vi å setter de "margiale" variase lik G = a Y k E ( E.(x. -x)). -1j i=1 j=1 1 - (Detteforvetigsverdie.) Vi ser at vi har som i 4a, P = 1 y-1...k år og bare år G = 0 P = 0 a r og bare år = 0 for j = 1,,...k. Vi ser imidlertid at storrelse på p y 1 avheger av valget -...k av x.. -verd i ee. Vi ka ok si at det er god korrelasjo år koeffisiete er stor, me det er vaskelig å sammelike korrelasjoe i to materialer med forskjellig spredig i x-verdiee. Tolkige av de multiple sjoskoeifisiete er altså tvilsom år x-ee er valgte tall.
20 19 La oss se på et eksempel med k = 1. Ata at vi har = 5, samt de teoretiske regresjoslije med a =,8=1, a = 0,0. Da er ligige og y = +(x-x) 10 0 a = 0,0-4- xi-x Y i= Vi velger 3 ulike sett av x.-verdier, emlig 5 - i) 0, 0,1 0,, 0,1 og-0,, som gir E (x -x) = 0.10 i=1 ii) 0, 1-1 og -, som gir E(.-x 10 iii) 0, 100, 00, -100 og -00, som gir E(x.-Tc ) = Vi fier da 0 0 p = 1 0,045 = 0 ' 556 0,0 = 0, ,0 = 0, ,0 Vi ka få ligede resultater for R ut fra observasjoee. Vi ser at jo storre spredig vi velger i x.-verdiee, jo storre gjor vi p eller tiltross for at regresjoskoeffisiete er de samme hele tide. Så ille som her vil det sjelde se ut i praksis, me vi skal være oppmerksom på at valget av x-er ka påvirke korrelasjoskoeffisiete. Vi bor helst ikke legge for mye vekt på de i dee type modeller. I alle fall ka sammelikiger for ulike observasjosmaterialer være tvilsomme. 5. Korrelasjo år x-ee er biære (dummy) variable Hvis y er e forholdstalls-variabel, mes x-ee er biære variable, som bare atar verdiee 0 og 1, og betigelsee i (4.1) forøvrig er oppfylt, ka vi rege regresjoer og teste hypoteser akkurat som fora. Me hvorda ter korrelasjoskoeffisietee seg? Vi skal se at uttrykkee i avsitt ka skrives på spesiell form i dette tilfellet.
21 0 Vi gir et kostruert eksempel i tabell 7. Tabell 7. Korrelasjo mellom y: atall timer brukt til egearbeid, og x: utdaigsivå x = 1 for "høy utdaig, x = 0 for "lav" utdaig Perso r. i Observere = y0= 0667, s =---= 1, = Z. y = = s ' Sum 10 Gj.sitt 0,4 s =, s = 0,4 x s =. 0,4 xy 5 r = - 0,577 xy 0,4 = 0,4-1,667 (=.7-1 Sy = 1,41 s = 0,49 x Regresjoslije: y = - 1,667(x-0,4) =,667 - I,667x. Ata at vi har observasjospar, (x., y.). For avdisseerx i = 1,forderl o =-iresteredeerx.= 0. Vi har da l 1 X = -- L X.s = = l 1 1 E (x. = -( ) =. ' x. 1=1 1=1 Videre ka vi sette, jfr. eksemplet, 1 1 E y. 1. for i der x.=1 og, = 1 Jo o E yi for i der x 1 0 Vi har altså 1 y,+ y Z o o y = i=1 y = i eksemplet). 5 Desslitekaviifores somdeempiriskevariasefory.-ee for de 1 l y.-verdiee der x. = 1, og s tilsvarede for de y i der x. = 0. Vi har o da sammehege l o s 1-1 _ 9 = y y.- y) = s + ii ( 1 1 os o -Yo' = =
22 1 Vi fier, ved litt regig X s = L, )( --y) = xy. -Y) = o,- xy r - s s x y Se eksemplet. -Yo 1 o- s + s + ( -y o ) 1 1 o o (5.1) Dessute blir xy s X - Y 1 og regresjosligige y = y o + (y 1 -y o )x, dvs. de går gjeom puktee (0,y 0 ) og (1,y 1), jfr. diagram. Dette er altså e mer iviklet mate å estimere forvetet y-verdi ved hjelp av gjeomsittet i hver av gruppee Diagram. Regresjo for y m.h.p. x år x er biær. (1 eksemplet er Yo>Y1' så regresjoslije heller edover mot høyre). Vi ser av (5.1) at r = 0 år Y o Vi - Y- i. r = 1 ar s = s 1 0 o r = -1 ar s o = 1 og Y 1 >Y 0 _ = 0 og yi<yo r x.=0 er like store og dessute alle observerte r x.=1 er lik hveradre. For yi a få i r ær 1 ma både s og s være små, dvs. at y-verdiee må ligge meget ær o 1 hveradre for hver av de to x-verdiee.
23 For multiple regresjoer med flere biære x-variable vil vi få tilsvarede resultater. For hver kombiasjo av uller og eere for x-ee ma spredige i y-ee være lite hvis vi skal ha "god korrelasjo", dvs. at y-verdiee ma ligge godt kosetrert om de puktee i observasjosrommet som har x-koordiater 0 og/eller 1. I regresjoer med både biære og valige x-variable, blir tolkige av -P.stort sett som i avsitt 3 og 4 med hesy tatt til det spesielle ved biær variablee. 6. Korrelasjo år y er e biær variabel, me ikke x Situasjoe år vi har e biær y, med verdier 0 og 1, samt e "valig" X, er aalog med de vi hadde i avsitt 5 år det gjelder r, me ikke år det gjelder regresjoe. I tabell 8 har vi et eksempel. Tabell 8. Korrelasjo mellom y: ivå for,egearbeid,y i.=0 for 1 time eller midre, y.=1 for mer e 1 time x: atall timer brukt til itektsgivede arbeid Perso Observert r. x. Yi - 3,5+4,5 =, x = = 4, s = 0,5 o o = o = 4+3+,5 3- l 3,167, s 1 0 3,5 = 0,389 3' 3-c l 1 0 4,5-1 s = xy 5 = -0, = -3 --,- (3,167-4) 3 1 4, ,0 1,5 Sum 3 17,5 Gj.sitt 0,6 3,5,,.3 r s = 0,z4 s y = 0 ' 5 x 49 s = 0,71 x r = -0,577 xy b = 0, 05,= -0,4 Regresjoslije blir: y = 0,6-0,4(x-3,5) = - 0,4x y = 0, så er Lar vi 1 være atall observasjoer med y = 1, og o = - 1 atallet med y = 1 1 E y. = - og s 1 o = y
24 3 Videre er 1 ai = xy X -x, der x = E x i 1 1 for y. =1 X o = EX. for yi=0 r xy x -x 1 s s x y I/ s + + I1_ o s o a - (x-x I jfr. (5.1). Her er s og s o de empiriske variasee for x-ee i de to gruppee 1 for y1=1 og y 1 =0. (Vi setter opp dette uttrykket for å lette aalyse. Selve beregige ka vi gjore etter formlee i avsitt, jfr. eksemplet) Vi får r = 0 hvis x 1 = R o Vi får også r-verdier ær ull år s 1 og s er store i forhold til (X -X ) 1 o Videre er r=1 hvis s 1 = s o = 0, dvs. at alle x-verdiee for y = 1 ma være like store, og alle x-verdiee for y = 0 ma være like. så lagt har vi aalogi med avsitt 5. Me regresjoslije blir å... _, - l x -x o y = y + b(x-x) = + 1 o (x-x- ). (6.1) 1 o s 1 s + 1 (x -x o o 1 Diagram 3. Regresjo for biær y m.h.p. ikke-biær x. Her vil regresjoslije gå gjeom puktee (x,0) (Dk' ( x,1) bare 1 år s = s = 0, dvs. r=1. Regresjoskoeffisiete b er da 1/07 R ) o Hvis det er spredig i x-verdiee, blir tallverdie av b midre etallverdie av 1/ (x-x ). -E eksemplet er o b - -0,4 og lik:x-x 1,.
25 Vi har 0 <b _ X -X for x 1 > x o 0 > b? :- for x i < xo, jfr. at - 0,4>-1, x -x 1 o Det er betekelig å postulere e lieær regresjo av e biær variabel y m.h.p. adre variable og spesielt ikke-biære, se f.eks. Herik Dahl (1978). Vi risikerer bl.a.a få y * -verdier utefor itervallet (0,1). For hvilke x vil dette fie sted ved regresjoe (6.1 )? Vi fier at for Tc >Tc šå er i o 1 y = + b (x-x) = år og år y = < + 1N s s = x - -- = 1 1o o b 1 (x -x ) 1 1 o 1 = > x b x-tc) => s +s o o b = xo (x-x ) 0X0 _ For x 1o ma vi bytte om de to gresee. I eksemplet får vi at 0-,3741 for,5 <x<5. Jo storre s 1 og s er i forhold til x 1-x0 dvs. jo ærmere r er ' til ull, jo "tryggere" er vi på a ha y-verdier i det "tilatte" itervallet [0,1]. Også forholdet mellom o og 1 spiller e rolle her. Me i alle tilfelle er det altså dårlig korrelasjo mellom x og y. Formel (.5) gjelder fremdeles her, vi har r= s y = s (1-r s ). Y Når det gjelder testig og hypoteseprovig ka vi imidlertid ikke bruke de valige metodee, fordi forutsetigee (4.1b og c) ikke gjelder. Når y bare ka ata verdiee 0 og 1, så er de ikke ormalt fordelt. Videre er de teoretiske regresjoe a lik sasylighete for å få y = 1 år x er gitt. Dette medfører at de teoretiske variase for y er (a+ßx) (1-c-x) dvs. de varierer med x.
26 5 Hvis vi har stor og [3 ær ull, så behøver ikke de valige metodee gi så gale resultater. Imidlertid er det ikke så sikkert at regresjoe (6.1) og miste kvadraters metode er det lureste valg av metode for variable av dee type. Herik Dahl (1978) har udersøkt dette for e spesiell modell, som bl.a. sikrer at vi ikke kommer utefor itervallet [0,1] for y. Se også FridstrOm (1980?). For multiple regresjoer med y biær ka vi i prisippet berege miste kvadraters regresjoslikig og multippel korrelasjoskoeffisiet eller determiasjoskoeffisiet. Problemet med å holde y iefor [0,1] blir imidlertid fort påtregede, og situasjoe lite oversiktlig. Ret teoretisk ma vi kue teke oss problemstilliger der sasylighete for y = 1 varierer som e lieær fuksjo av e rekke x-er, me i praksis er det vaskelig å avgrese e slik klasse av problemer. E vil gjere velge adre modeller og metoder e lieær regresjo i slike situasjoer, f.eks. logit aalyse, se f.eks. Cox (1970), FridstrOm (1980). 7. Både y og x-ee biære variable Når både y og x bare atar verdiee 0 og 1, ka det ha meig bruke lieær regresjo, selv om vi må gi avkall på metodee fra avsitt 4. Vi ka da sette opp observasjosmaterialet i e x - tabell: o Sum 0 1 Sum 0 oo o f.eks Sum. 0. Sum Her er = 56, atall observasjoer med x = O og y = 0, og oo = + ol = 670, osv. oo Vi fier her, jfr. avsitt 5, X = = = 0 31 s = 0, ,, x y = s 1446 ' ' y f) 174I , s = a '''.'... = = 0,0449 x
27 / l ,0449 0,463.0,499 0, Vi vil ha r = 0 år... =,... som ka skrives = Dessute er da ----= Det er altså samme relative hyppighet av 1. yl=1 for hvert av 0 observasjossettee med x=0 og med x=1. Dette svarer til stokastisk uavhegighet hvis vi erstatter de relative hyppighetee med sasyligheter, dvs. Pll = Pl. P.1. Videre fier vi at r = 1 år (dvs. at y=0 år x=0 og y=1 år x=1) r = -1 år 00 = 11 = 0 (y=0 år x = 1 og omvedt). Vi har altså r =1 år vi bare har tall 0 i e diagoal i tabelle Regresjoslikige blir: y = X = 0,47 +(0,68-0,47)x Regresjoslije er her redusert ti l to pukter: (0, ) og.0. 1 Vi kommer ikke uteom itervallet [0,1] for y. Likige viser at vi estimerer de betigede sasylighete for y=1 gitt x=0 ved de relative 10 hyppighete 11 og tilsvarede-- ' for x = 1. Vi ka dermed bruke test-.0 1 og estimerigsmetoder bygget på de biomiske fordelig istedefor metodee i avsitt 4, som ikke gjelder her (bortsett fra tilærmet i stort utvalg og år det er lite forskjell på de betigede sasylighetee). For tilfellet med flere biære x-er er situasjoe behadlet i A (1974). Hvis vi tar med like mage koeffisieter i regresjoslikige som vi har grupper, dvs. kombiasjoer av x-variable i observasjosmaterialet (e såkalt mettet modell), får vi resultater aaloge med eksemplet fora, dvs. det er de relative hyppighete av y = 1 i hver gruppe som kommer ut. Me hvis vi har færre koeffisieter e grupper blir resultatee oe aderledes. Vi skal se på de multiple korrelasjoskoeffisiete for e mettet modell, med s grupper. Vi ka da skrive, se s. 64 op.cit.
28 7 R = s 1,r 0,r E. 0. r=1.r Her er 1. atall observasjoer med y = 1, 0 = - 1. s atall koeffisie- 1 ter i likige, og er de relative hyppighete av y = 1 i de.r gruppe på. r observasjoer som har felles x-vektor r. r. Vi ser at R = 0 hvis r 1..r og dermed 0.r.r for alle r. dvs. at de relative hyppighete av y = 1 er de samme i alle gruppee. Vi får = 1 hvis ete 1,r = 0 eller = 0 for alle r, dvs. at for 0,r hver r fies det bare e verdi av y. Dette svarer til "diagoalbetigelse" ovefor i x -tabelle. Hvis vi teker oss alle tallee i gruppee gitt utatt ett, emlig, (ogsdermed 1 ), så vil R avta hvis Oker,sa lege 1 ' r -- r 0,r 1,r. r me R Oker 1r med voksede hvis > 0,5. 1.r. Vi har altså"dårlig" korrelasjo for hyppigheter ær 0,5 og "g korrelasjo for hyppigheter ær ull eller e. 0,5, prisippet vil altså R kue gi e ide om hvor ær regresjoslikige foyer seg til observasjossettee også her. For stor og store. r, ka de valige test for a teste p =0, dvs. uavhegighet mellom y og hele settet av x-er, gi oelude god tilærmelse. Dette ka være yttig bl.a. år alle x-ee utelukker hveradre ibyrdes, som år de agir e grupperig av observasjoee i (k+1) ulike grupper av e uderliggede variabel, som f.eks. itekt. Estimerigv.hj.a.gruppegjeomsittee (de relative hyppighetee i gruppe r, r) for y-ee,istedefor ekeltobservasjoee, vil fore til de samme regresjoskoeffisietee,mes restvariase og dermed korrelasjoe får e ae form. Vi får korrelasjoe mellom de observerte relative hyppighetee og de estimerte ut fra regresjoe, og dee blir ofte stor, de vil gå mot 1 år vokser, så sat modelle er riktig, se f.eks. FridstrOm (1980). Dette betyr at estimerige av sasylighete p er Y./ god, me sier ikke oe om at p er e lieær fuksjo av x-ee i Yr / problemet. I e mettet modell får vi R = 1, uasett om vi har greia eller ikke greid å velge x-ee slik at hver x-vektor, x, bestemmer verdie av helt ut.
29 8 8. Korrelasjo år x, y, eller begge,er ordigsvariable Ata forst at x er e ordigsvariabel som agir e ragordig av grupper, f.eks. etter utdaigsivå, etter sosial status e.l. Ata at x er gitt verdiee 1,,..., m. Vi Øsker å si oe om y som fuksjo av x- ivå, og det er fristede å bruke lieær regresjo av y m.h.p. x. Hva får vi ut av dette? Vi teker oss observasjosparee ordet etter stigede verdier av X, som i tabell 9, og uttrykker e del av de størrelsee vi treger ved hjelp av gruppegjeomsittee. Tabell 9.. Korrelasjo år x er e ordigsvariabel Verdi Atall obs.par av med x = j X Gruppesummer av x. X. j(-;.-377). 3 y ) 1 y (Y-Y)...y. j. j. J J J J J (y.-y). J J - y Mri m Sum E Y.= E E.. i=1 1 j=1 J J j=1 J.J J J Gm-;;)lii E j.(y.-y) J J J 1 Sum 1 X s x +x Xy Dessute har vi som valig s = y m - E E (y... -yr j=1 i=1 J 1 Ved å omskrive formlee i avsitt ved hjelp av gruppesummee, fier vi at vi ka skrive xy 1 r = =J s. s s J j x y x y j Vi ser at hvis alle gruppegjeomsittee, yj-., er like, dvs lik 3-7, så er r = 0, som rimelig ka være.
30 9 Regresjoslikige ka skrives Ej. (.-377 ) J J Y = ].).-x. J J (x-ç) Vaskelighete er å se hva slags meig e ka tillegge gjeomsittet x og avvikee x i -x, samt s år x er e ragordigsvariabel, dvs at difxy feresee mellom x-verdiee ibyrdes ikke har oe meig. Dee vaskelighete ugår vi ved istede å ifore (m-1) biære variable for å agi hvilke gruppe observasjoee tilhører. Hvis vi har et problem der y er ragordet, mes x er e valig variabel, så er det ret algebraisk ikke oe problem å rege regresjo og korrelasjo, me tolkige av resultatee er ikke så ekel. Vi ka i prisippet skrive om problemet til (m-1) likiger i (m-1) biære y-er, me her kommer vi i de samme vaskeligheter som i avsitt 6. Det vil avhege av problemets art hvilke metode vi børvelge for aalyse. HVis begge variable er ragordet, ka vi også rege regresjo hvis vi syes- det har oe meig. For det spesialtilfelle at vi har observasjossett, der x og y hver for seg har verdiee 1,,...,,ka vi skrive r på forme edefor. Vår r blir gjere kalt Spearmas ragkorrelasjoskoeffisiet for ragordede observasjoer. Vi fier 6 r = 1 E d der d = x. -y.. (-1)(+1 i' i i1 = r = 1 mar d. = 0 for i=1,,...,, dvs. at x og y gir samme ragordig i i år = -1, -3, -5, osv.? dvs. at x-ee er ragordet i øyaktig motsatt retig av y-ee. (-1)(+1) r = 0 år E d. = 6 Dette ka vi f.eks. få hvis halvparte av observasjoee har samme ragordig gar i øyaktig motsatt retig. Hvis vi vil teste sigifikas, treger vi fordelige av r for p=0. Dee er tabulert for små. For større ma e ty til tilærmet ormalitet. Hvis det er flere observasjoer som har samme rag, gjelder formele og tabelle ikke, da ma det spesielle beregiger til. Vi skal ikke gå ærmere i på metoder for ragordede variable her, det vises til tekster om ikke-parametriske metoder. i de to variable, mes de øvrige
31 30 9. Observasjoer med tilfeldige feil I det foregåede har vi forutsatt at vi faktisk har observasjoer av ettopp de variable vi er iteressert i. Vi ka imidlertid også ha situasjoer der vi ikke ka observere disse variable direkte, me ma øye oss med at de observeres med feil. Vi ka f.eks. ata at istedefor y. observerer vi u. = y + d. i i i og istedefor x. observerer vi v X. + e.. i = Vieriteressertikorre1asjoemellomy.ogx.,me vi ka bare rege ut korrelasjoe mellom u. og v.. Vi har u = E u. Ey. + 1 Ed. iii = y+d og v = x+e, Su E(u.-u) = E(y. d.-v-d = E(y.-y = + E(y.-y)(d.- -d") + E(d - -(1) i i5 y +5 yd +5 d s = +s +s v x xd e' s =s +s +s. uv xy xd ye de Hvis vi å ka ata at feilleddee d. og e. er ukorrelert med hveradre, og med x. og y i' så har vi i et observasjosmateriale tilærmet s = s +s 5 = s +s og =5. u y d' v x e uv xy De tilsvarede teoretiske relasjoee vil gjelde eksakt. Vi får i dette tilfelle korrelasjoskoeffisiete 55 uv xy x y r - uv s s u v sxsy V(s +s )(s +s ) ydxe s s x y xyv/ _. s (s y+sd A s + ) xe Vi har r = r bare hvis s = s = 0, dvs. at det ikke er oe uv xy d e tilfeldigefei1(elleratdeterroyaktigesammefeilforalley.og for alle
32 31 Ellers er korrelasjoe mellom de observerte verdier lavere i tallverdi e r xy E tilsvarede reduksjo har vi for de teoretiske korrelasjoee, og for multippel korrelasjo, år vi ka ata at det er ukorrelerthet mellom feilee og mellom feilee og de ikke-observerte variablee. Er feilee korrelert med hveradre eller de variable, ka vi få adre resultater. Av formele for s ovefor ser vi f.eks. at vi ka få uv s 0 selv om s = 0. uv xy 10. Sammedrag Korrelasjoskoeffisiete er et mål for hvor ær observasjospuktee foyer seg til e rett lije/etlieærutryk for y mhp x-ee. For Øvrig har vi at - R, resp r = 1 bare år alle observasjoee tilfredsstiller de lieære regresjos=ligige, (s. 6, 1, 1, 3, 6,og 9). For biære variable betyr dette at alle observasjoee kosetreres i visse pukter. - R (r ) ær 1 bare år det er små avvik mellom observasjoee og likige - Ved å Øke atall x-variable i regresjoe ka vi almielighet få større verdier på R (s. 13) Særligkavi få store R-verdier år er lite og k stor - Valgte (ikke-stokastiske) x-verdier ka ifluere pa storrelse av R (s. 19). Sammelikig av R-ee for ulike observasjosmaterialer ka derfor være villedede - Tilfeldige feil i de observerte variable ka redusere R (r ) eller på ae mate ifluere på størrelse av de (s.31) - Det avheger av atall observasjoer og atall variable om e R av e gitt størrelse er sigifikat forskjellig fra ull (tabell 6, s. 18) - E R som er 0,5 eller midre (Ltallverdi) gir e reduksjo i stadardavviket for y som er 13% eller midre (tabell 4, s.9) - R = 0 viser at det ikke er lieær samvariasjo mellom y og x-ee i observasjosmaterialet - Selv om R = 0 ka det være ikke-lieær sammeheg (Tabell 3, s. 8) - Selv om e x-variabel er ukorrelert med y, ka de bidra til a Øke samvariasjoe i e multippel regresjo (jfr. x 3 og x 4 i tabell 5, se s. 1) Ut fra oveståede ka det være lett å Lorsta Øskemålet om å fie e R ær 1. Da vet vi at det er god lieær samvariasjo i observasjos=materialet. Me det er et meget sterkt krav å forlage at vi skal ha greid a fie frem til og observere x-variable som er slik at praktisk talt all variasjo i y ka uttrykkes ved de lieære regresjoe i x-ee. I almielighet bør vi ok være tilfreds med lavere R-verdier. Hvor lave ka vi ikke si geerelt, det vil avhege av det problemet vi aalyserer. Ehver R som er sigifikat større e ull viser jo at det er e viss lieær samvariasjo mellom y og det valgte sett
33 av x-er. Dette ka være iteressat selv om samvariasjoe ikke er sterk, malt med R. E tig er sikkert: vi bor i almielighet ikke la korrelasjoskoeffisiete alee avgjøre om e regresjo er "god" eller ikke. I tillegg til usikkerhete som ligger i de puktee som er evt ovefor, ka det være adre hesy. Hvilke kriterier vi skal trekke i i tillegg til (eller istedefor) R, vil avhege av de problemstillige vi har. Vi bør atagelig se på de ekelte regresjoskoeffisieter, vurdere de ulike x-variable, se på prediksjosfeil m.m. Kaskje er ikke lieær regresjo e god modell for vårt problem i det hele tatt. For biære variable ma vi bl.a. vurdere om det er x-ees eve til "forklare" y lieært, eller om det er estimerig av sasylighetee vi er mest iteressert i ( jfr. slutte av avsitt 7, s.7). I mage tilfeller vil log-lieære modeller være et bedre aalyseverktøy for biære variabler, Haldorse (1977), AII, kap. 14. For ordigsvariable vil i almielighet ikke-parametriske metoder være å foretrekke.
34 LITTERATUR AI: Amudse, H.T. (197) Statistisk metodelære. E elemetær iførig. Oslo A11: Amudse, H.T. (1978). Statistisk metodelære II. Talkig av data, modeller og metoder. Oslo A(1974):, Amudse H.T. (1974) Biary variable multiple regressios. Scadiavia Joural of Statistics. Vol 1. Cox, D.R. (1970). The aaysis of biary data FridstrOm, L.E. (1980?). Uder arbeid Haldorse, T. (1977). Om log-lieær aalyse av flerveistabeller. Arbeidsotat
Mer om utvalgsundersøkelser
Mer om utvalgsudersøkelser I uderkapittel 3.6 i læreboka gir vi e kort iførig i takegage ved utvalgsudersøkelser. Vi gir her e grudigere framstillig av temaet. Populasjo og utvalg Ved e utvalgsudersøkelse
DetaljerLØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004
Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag Side av 0 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004 Oppgave Midtveiseksame a) X er e stokastisk variabel
DetaljerTALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.
1 ECON130: EKSAMEN 013 VÅR - UTSATT PRØVE TALLSVAR. Det abefales at de 9 deloppgavee merket med A, B, teller likt uasett variasjo i vaskelighetsgrad. Svaree er gitt i
DetaljerMetoder for politiske meningsmålinger
Metoder for politiske meigsmåliger AV FORSKER IB THOMSE STATISTISK SETRALBYRÅ Beregigsmetodee som brukes i de forskjellige politiske meigsmåliger har vært gjestad for mye diskusjo i dagspresse det siste
DetaljerEcon 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering
Eco 130 uke 15 (HG) Poissofordelige og iførig i estimerig 1 Poissofordelige (i) Tilærmig til biomialfordelige. Regel. ( Poissotilærmelse ) Ata Y ~ bi(, p) E( Y ) = p og var( Y ) = p(1 p). Hvis er stor
DetaljerOM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z
OM TAYLOR POLYNOMER I dette otatet, som utfyller avsitt 6. i Gullikses bok, skal vi se på Taylor polyomer og illustrere hvorfor disse er yttige. Det å berege Taylor polyomer for håd er i prisippet ikke
DetaljerLøsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan
Løsigsforslag for adre obligatoriske oppgave i STK11 Våre 27 Av Igu Fride Tvete (ift@math..uio.o) og Ørulf Borga (borga@math.uio.o). NB! Feil ka forekomme. NB! Sed gjere e mail hvis du fier e feil! Oppgave
DetaljerUkeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1
Ukeoppgaver i BtG20 Statistikk, uke 4 : Biomisk fordelig. 1 Høgskole i Gjøvik Avdelig for tekologi, økoomi og ledelse. Statistikk Ukeoppgaver uke 4 Biomisk fordelig. Oppgave 1 La de stokastiske variable
DetaljerPåliteligheten til en stikkprøve
Pålitelighete til e stikkprøve Om origiale... 1 Beskrivelse... 2 Oppgaver... 4 Løsigsforslag... 4 Didaktisk bakgru... 5 Om origiale "Zuverlässigkeit eier Stichprobe" på http://www.mathe-olie.at/galerie/wstat2/stichprobe/dee
DetaljerLøsningsforslag til eksamen i STK desember 2010
Løsigsforslag til eksame i STK0 0. desember 200 Løsigsforslaget har med flere detaljer e det vil bli krevd til eksame. Oppgave a Det er tilpasset e multippel lieær regresjosmodell av forme β 0 + β x i
DetaljerIO 77/45 29. november 1977 ESTIMERING AV ENGELDERIVERTE PA DATA MED MALEFEIL. Odd Skarstad 1) INNHOLD
IO 77/45 29. ovember 977 ESTIMERING V ENGELDERIVERTE P DT MED MLEFEIL av Odd Skarstad ) INNHOLD I. Data fra forbruksudersøkelse II. Estimerig ved målefeil. Iledig 2. Systematiske målefeil 2 3. Tilfeldige
DetaljerECON240 Statistikk og økonometri
ECON240 Statistikk og økoometri Arild Aakvik, Istitutt for økoomi 1 Mellomregig MKM Model: Y i = a i + bx i + e i MKM-estimator for b: b = = Xi Y i 1 Xi Yi Xi 1 ( X i ) 2 (Xi X)(Y i Ȳi) (Xi X) 2 hvor vi
DetaljerKonfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.
Kofidesitervall Notat til STK1110 Ørulf Borga, Igrid K. Glad og Aders Rygh Swese Matematisk istitutt, Uiversitetet i Oslo August 2007 Formål E valig metode for å agi usikkerhete til et estimat er å berege
Detaljer211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%
Prøve-eksame II MET 1190 Statistikk Dato 31. mai 2019 kl 1100-1400 Alle svar skal begrues. Når besvarelse evalueres, blir det lagt vekt på at framgagsmåte og resultat preseteres så klart, presist og kortfattet
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte
DetaljerKap. 9: Inferens om én populasjon
2 ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Ka. 9: Iferes om é oulasjo Hvis σ er ukjet bytter vi ut σ med s i Ny observator blir t = x μ s/ z = x μ σ/ der s = Σx 2 (Σx)
DetaljerIntroduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians
Hypotesetestig / iferes (kap ) Itroduksjo Populasjo og utvalg Statistisk iferes Utvalgsfordelig (samplig distributio) Utvalgsfordelige til gjeomsittet Itroduksjo Vi øsker å få iformasjo om størrelsee i
DetaljerHøgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008
Høgskole i Telemark Avdelig for estetiske fag, folkekultur og lærerutdaig BOKMÅL. desember 8 EKSAMEN I MATEMATIKK, Utsatt røve Modul 5 studieoeg Tid: 5 timer Ogavesettet er å sider (ikludert formelsamlig).
DetaljerKommentarer til oppgaver;
Kapittel - Algebra Versjo: 11.09.1 - Rettet feil i 0, 1 og 70 og lagt i litt om GeoGebra-bruk Kommetarer til oppgaver; 0, 05, 10, 13, 15, 5, 9, 37, 5,, 5, 59, 1, 70, 7, 78, 80,81 0 a) Trykkfeil i D-koloe
DetaljerEKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.
EKSAMEN Emekode: SFB12003 Eme: Metodekurs II: Samfusviteskapelig metode og avedt statistikk Dato: 2.6.2014 Eksamestid: kl. 09.00 til kl. 13.00 Hjelpemidler: Kalkulator Faglærer: Bjørar Karlse Kivedal Eksamesoppgave:
DetaljerOversikt over konfidensintervall i Econ 2130
1 HG Revidert april 011 Oversikt over kofidesitervall i Eco 130 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. Løvås ieholder mage verdifulle kommetarer
DetaljerKap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren
2 Kap. 9: Iferes om é populasjo I Kapittel 8 brukte vi observatore z = x μ σ/ for å trekke koklusjoer om μ. Dette krever kjet σ (urealistisk). ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for
DetaljerRepetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10
Repetisjo; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10 og Geerell defiisjo av : Situasjo: Data x 1,...,x ;utfallav:x 1,...,X ; u.i.f. tilfeldige variable Ukjet parameter i fordelige til X i ee: θ Dersom L og U L
DetaljerKapittel 8: Estimering
Kaittel 8: Estimerig Estimerig hadler kort sagt om hvorda å aslå verdie å arametre som,, og dersom disse er ukjete. like arametre sier oss oe om oulasjoe vi studerer (dvs om alle måliger av feomeet som
DetaljerOppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.
ECON 130 EKSAMEN 008 VÅR - UTSATT PRØVE SENSORVEILEDNING Oppgave består av 9 delspørsmål, A,B,C,., som abefales å veie like mye, Kommetarer og tallsvar er skrevet i mellom . Oppgave 1 Ved e spørreudersøkelse
DetaljerEksamen REA3028 S2, Våren 2011
Eksame REA08 S, Våre 0 Del Tid: timer Hjelpemidler: Valige skrivesaker, passer, lijal med cetimetermål og vikelmåler er tillatt. Oppgave (8 poeg) a) Deriver fuksjoee ) f 5 f 6 5 ) g g ) h l 9 9 6 4 h l
DetaljerKap. 9: Inferens om én populasjon
2 ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Ka. 9: Iferes om é oulasjo Hvis σ er ukjet bytter vi ut σ med s i Ny observator blir t = x μ s/ z = x μ σ/ der s = Σx 2 (Σx)
DetaljerStatistikk og økonomi, våren 2017
Statistikk og økoomi, våre 07 Obligatorisk oppgave 6 Løsigsforslag Oppgave E terig kastes 0 gager, og det registreres hvor mage 6-ere som oppås i løpet av disse 0 kastee. Vi ka kalle atall 6-ere i løpet
DetaljerMOT310 Statistiske metoder 1, høsten 2011
MOT310 Statistiske metoder 1, høste 2011 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 24. august, 2011 Bjør H. Auestad Itroduksjo og repetisjo 1 / 32 Repetisjo; 9.1,
DetaljerEcon 2130 Forelesning uke 11 (HG)
Eco 130 Forelesig uke 11 (HG) Mer om ormalfordelige og setralgreseteoremet Uke 1 1 Fra forrige gag ~ betyr er fordelt som. ~ N( µσ, ) E( ) = µ, og var( ) = σ Normalfordelige er symmetrisk om μ og kotiuerlig
DetaljerFagdag 2-3mx 24.09.07
Fagdag 2-3mx 24.09.07 Jeg beklager at jeg ikke har fuet oe ye morsomme spill vi ka studere, til gjegjeld skal dere slippe prøve/test dee gage. Istruks: Vi arbeider som valig med 3 persoer på hver gruppe.
DetaljerLineær regresjonsanalyse (13.4)
2 Kap. 13: Lieær korrelasjos- og regresjosaalyse ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Kap. 13.1-13.3: Lieær korrelasjosaalyse. Disse avsitt er ikke pesum, me de lieære
DetaljerOppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?
ECON EKSAMEN 8 VÅR TALLSVAR Oppgave Vi har e kortstokk beståede av 6 kort. På av disse står det skrevet JA på forside mes det står NEI på forside av de adre kortee. Hvis ma får se kortet med bakside vedt
DetaljerUNIVERSITETET I OSLO ØKONOMISK INSTITUTT
Eksame i: ECON130 Statistikk 1 UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Eksamesdag: 6.05.017 Sesur kugøres: 16.06.017 Tid for eksame: kl. 14:30 17:30 Oppgavesettet er på 6 sider Tillatte helpemidler: Alle
DetaljerTMA4245 Statistikk Eksamen mai 2017
TMA445 Statistikk Eksame mai 07 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Løsigsskisse Oppgave a Når vi reger ut disse tre sasylighetee må ma huske på at de mulige verdiee
DetaljerSignifikante sifre = alle sikre pluss ett siffer til
Sigifikate siffer og stadardavvik behadles i kap. Disse to emee skal vi ta for oss i dag. Kofidesgreser behadles i kap 4. Dette skal vi ta for oss i osdag. Presetasjo av aalysedata ka gjøres på følgede
DetaljerForventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk
MAT0100V Sasylighetsregig og kombiatorikk Forvetigsverdi Sasylighetsfordelige til e tilfeldig variabel X gir sasylighete for de ulike verdiee X ka ata Forvetig, varias og stadardavvik Tilærmig av biomiske
DetaljerX = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 11, blokk II Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som
Detaljer2T kapittel 3 Modellering og bevis Utvalgte løsninger oppgavesamlingen
T kapittel 3 Modellerig og bevis Utvalgte løsiger oppgavesamlige 301 a Sitthøyde i 1910 blir 170,0 171, 4 170,7. I 1970 blir de 177,1 179, 4 178,3. b Med som atall år etter 1900 og y som sitthøyde i cetimeter
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5
ÅMA110 Sasylighetsregig med statistikk, våre 2010 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 12. april Bjør H. Auestad Kp. 6: Hypotesetestig del 4 1/ 59
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2010. Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable
ÅMA Saslighetsregig med statistikk, våre K. 3 Diskrete tilfeldige variable Noe viktige saslighetsmodeller Noe viktige saslighetsmodeller ( Sas.modell : å betr det klasse/te sas.fordelig.) Biomisk modell
Detaljer«Uncertainty of the Uncertainty» Del 5 av 6
«Ucertaity of the Ucertaity» Del 5 av 6 v/rue Øverlad, Traior Elsikkerhet AS Dette er femte del i artikkelserie om «Ucertaity of the Ucertaity». Jeg skal vise deg utledig av «Ucertaity of the Ucertaity»-formele:
DetaljerLøsningsforslag Oppgave 1
Løsigsforslag Oppgave 1 a X i µ 0 σ X i µ 0 2 σ 2, i 1,..., er uavhegige og stadard N0, 1 fordelte. Da er, i 1,..., uavhegige og χ 2 -fordelte med e frihetsgrad. Da er summe χ 2 -fordelt med atall frihetsgrader
DetaljerOversikt over konfidensintervall i Econ 2130
1 HG Revidert april 014 Oversikt over kofidesitervall i Eco 130 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. De ieholder tabeller med formler for kofidesitervaller
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.
ÅMA Sasylighetsregig med statistikk, våre 6 Kp. 4 Kotiuerlige tilfeldige variable og ormaldelige Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsdeliger) Vi har til å sett på diskrete
DetaljerLøsningsforslag til prøveeksamen i MAT1110, våren 2012
Løsigsforslag til prøveeksame i MAT, våre Oppgave : Vi har A = 3 III+I I+II 3 ( )II 3 3 Legg merke til at A er de utvidede matrise til ligigssystemet. Vi ser at søyle 3 og 4 i de reduserte trappeforme
DetaljerLØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005
Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag Side av 8 LØSNINGSFORSLAG TILEKSAMEN I FAG TMA440/TMA445 STATISTIKK 0. august 005 Oppgave Smeltepuktsbestemmelse a) Vi jobber i dette
DetaljerUNIVERSITETET I OSLO
UIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: ST 105 - Iførig i pålitelighetsaalyse Eksamesdag: 8. desember 1992 Tid til eksame: 0900-1500 Tillatte hjelpemidler: Rottma: "Matematische
DetaljerTMA4240 Statistikk Eksamen desember 2015
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag TMA20 Statistikk Eksame desember 205 Løsigsskisse Oppgave a) De kumulative fordeligsfuksjoe til X, F (x) P (X x): F (x) P (X x) x
DetaljerH 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2
TMA4245 Statistikk Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b4 Løsigsskisse Oppgave 1 Vi øsker å fie ut om et ytt serum ka stase leukemi. 5 mus får serumet, 4
DetaljerOppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 2, blokk II Løsigsskisse Oppgave a Miste kvadraters metode tilpasser e lije til puktee ved å velge de lija som
DetaljerSAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON. Henrik Dahl *)
IO 78/8 7. april 978 SAMMENLIGNING AV MINSTE KVADRATERS METODE OG SANNSYNLIGHETSMAKSIMERINGSMETODEN I BINÆR REGRESJON av Herik Dahl *) INNHOLD Side Sammedrag. Om modeller for biær regresjo 3. Miste kvadraters
DetaljerOversikt over konfidensintervall i Econ 2130
HG April 00 Oversikt over kofidesitervall i Eco 30 Merk at dee oversikte ikke er met å leses istedefor framstillige i Løvås, me som et supplemet. Løvås ieholder mage verdifulle kommetarer og eksempler.
DetaljerLøsningsforslag ST2301 øving 3
Løsigsforslag ST2301 øvig 3 Kapittel 1 Exercise 11 Et utvalg på 100 idivider trekkes fra e populasjo med tilfeldig parrig. Det ble observert AA 63 idivider av geotype AA, Aa 27, og aa 10. Lag et 95 % kofidesitervall
DetaljerLøsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018
Løsigsforsalg til første sett med obligatoriske oppgaver i STK1110 høste 2018 Oppgave 1 (a Et 100(1 α% kofidesitervall for forvetigsverdie µ er gitt ved formel (8.15 på side 403 i læreboka. For situasjoe
DetaljerOppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.
EKSAMEN I: ÅMA110 SANNSYNLIGHETSREGNING MED STATISTIKK VARIGHET: 4 TIMER DATO: 28. AUGUST 2010 BOKMÅL TILLATTE HJELPEMIDLER: KALKULATOR: HP30S, Casio FX82 eller TI-30 OPPGAVESETTET BESTÅR AV 3 OPPGAVER
DetaljerRente og pengepolitikk. 8. forelesning ECON 1310 21. september 2015
Rete og pegepolitikk 8. forelesig ECON 1310 21. september 2015 1 Norge: lav og stabil iflasjo det operative målet for pegepolitikke, ær 2,5 proset i årlig rate. Iflasjosmålet er fleksibelt, dvs. at setralbake
DetaljerEksamen 20.05.2009. REA3024 Matematikk R2. Nynorsk/Bokmål
Eksame 20052009 REA3024 Matematikk R2 Nyorsk/Bokmål Nyorsk Eksamesiformasjo Eksamestid: Hjelpemiddel på Del 1: Hjelpemiddel på Del 2: Bruk av kjelder: Vedlegg: Framgagsmåte: Rettleiig om vurderiga: 5 timar:
DetaljerKLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon
Tidligere sett på KLMED8004 Medisisk statistikk Del I, høst 008 Estimerig Hvorda kjete sasylighetsfordeliger (biomialfordelig, ormalfordelig) med kjete populasjosparametrer (forvetig, varias osv.) ka gi
DetaljerEstimering 1 -Punktestimering
Estimerig 1 -Puktestimerig Dekkes av kap. 8, 9.1-9.3 og 9.15/9.14. Vi har til å settpå e rekke forskjellige sasylighetsfordeliger og sett hvorda disse ka brukes til å modellere mage forskjellige typer
DetaljerLøsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015
Løsigsforsalg til første sett med obligatoriske oppgaver i STK1110 høste 2015 Oppgave 1 (a Et 100(1 α% kofidesitervall for forvetigsverdie µ er gitt ved formel (8.15 på side 403 i læreboka. For situasjoe
Detaljer3MX 2007/8 - Kapittel 5: 8. januar 5. februar 2008
3MX 00/8 - Kapittel : 8. jauar. februar 008 Pla for skoleåret 00/008: Kapittel 6: 6/ /. Kapittel : / /3. Prøver på eller skoletime etter hvert kapittel. É heildagsprøve i hver termi. Repetisjo, prøver,
DetaljerForkunnskaper i matematikk for fysikkstudenter. Derivasjon.
Defiisjo av derivert Vi har stor ytte av å vite hvor raskt e fuksjo vokser eller avtar Mer presist: Vi øsker å bestemme stigigstallet til tagete til fuksjosgrafe P Q Figure til vestre viser hvorda vi ka
DetaljerHøgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 20. mai 2008
Høgskole i Telemark Avdelig for estetiske fag, folkekultur og lærerutdaig BOKMÅL. mai 8 EKSAMEN I MATEMATIKK Modul 5 studieoeg Tid: 5 timer Ogavesettet er å sider (ikludert formelsamlig). Hjelemidler:
DetaljerTMA4240 Statistikk Høst 2016
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 11 Løsigsskisse Oppgave 1 a) E rimelig estimator for forvetigsverdie µ er gjeomsittet X = 1 X i, som vil være ormalfordelt
DetaljerTMA4245 Statistikk Vår 2015
TMA4245 Statistikk Vår 2015 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer 12, blokk II Oppgave 1 Kari har ylig kjøpt seg e y bil. Nå øsker hu å udersøke biles besiforbruk
DetaljerEstimering 1 -Punktestimering
Estimerig 1 -Puktestimerig Dekkes av kap. 8, 9.1-9.3 og 9.15/9.14. Vi har til å settpå e rekke forskjellige sasylighetsfordeliger og sett hvorda disse ka brukes til å modellere mage forskjellige typer
DetaljerPlan for fagdag 3. Plan: Litt om differanse- og summefølger. Sammenhengen a n a 1 n 1 i 1
Pla for fagdag 3 R2-18.11.10 Pla: Litt om differase- og summefølger. Sammehege a a 1 1 i 1 d i. Geometriske resoemet. Arbeidsoppgaver. Differase- og summefølger Regresjo med lommereger Differaser er ofte
Detaljer) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013
TMA4240 Statistikk Vår 2008 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b5 Løsigsskisse Oppgave 1 a) X 1,...,X 16 er u.i.f. N(80,18 2 ). Setter Y = X. i) P(X 1 >
DetaljerOppgaver fra boka: X 2 X n 1
MOT30 Statistiske metoder, høste 00 Løsiger til regeøvig r 3 (s ) Oppgaver fra boka: 94 (99:7) X,, X uif N(µ, σ ) og X,, X uif N(µ, σ ) og alle variable er uavhegige Atar videre at σ = σ = σ og ukjet Kodesitervall
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5
ÅMA110 Sasylighetsregig med statistikk, våre 2008 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 26. mars Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 53
Detaljern 2 +1) hvis n er et partall.
TMA445 Statistikk Vår 04 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer, blokk II Oppgave Mediae til et datasett, X, er de midterste verdie. Hvis vi har stokastiske
DetaljerARBEIDSHEFTE I MATEMATIKK
ARBEIDSHEFTE I MATEMATIKK Temahefte r Hvorda du reger med poteser Detaljerte forklariger Av Matthias Loretze mattegriseforlag.com Opplsig: E potes er e forkortet skrivemåte for like faktorer. E potes består
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5
ÅMA110 Sasylighetsregig med statistikk, våre 2006 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 3. april Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1 / 56
DetaljerKort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram
2 Kort reetisjo fra kaittel 4 Betiget sasylighet og trediagram Eksemel: Fra e oulasjo av idrettsfolk trekkes e erso tilfeldig og testes for doig. De iteressate hedelsee er D=ersoe er doet, A=teste er ositiv.
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2007
ÅMA Sasylighetsregig med statistikk, våre 27 Kp. 6 (kp. 6) Tre deler av faget/kurset:. Beskrivede statistikk 2. Sasylighetsteori, sasylighetsregig 3. Statistisk iferes estimerig kofidesitervall hypotesetestig
DetaljerLØSNING: Eksamen 28. mai 2015
LØSNING: Eksame 28. mai 2015 MAT110 Statistikk 1, vår 2015 Oppgave 1: revisjo ) a) Situasjoe som beskrives i oppgave ka modelleres med e ure. I dee ure er fordelige kjet, M atall bilag med feil og N 100
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5
ÅMA110 Sasylighetsregig med statistikk, våre 2008 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 3. april Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 56
Detaljer8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).
Eksamesoppgave våre 011 Ordiær eksame Bokmål Fag: Matematikk Eksamesdato: 10.06.011 Studium/klasse: GLU 5-10 Emekode: MGK00 Eksamesform: Skriftlig Atall sider: 8 (ikludert forside og formelsamlig) Eksamestid:
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5
ÅMA11 Sasylighetsregig med statistikk, våre 7 Kp. 6, del 5 Bjør H. Auestad Istitutt for matematikk og aturviteskap Uiversitetet i Stavager 26. mars Bjør H. Auestad Kp. 6: Hypotesetestig del 5 1/ 59 Bjør
Detaljerbetegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til
1 ECON1: EKSAMEN 17v SENSORVEILEDNING. Det abefales at de 9 deloppgavee merket med A, B, teller likt uasett variaso i vaskelighetsgrad. Svaree er gitt i
DetaljerDeskriptiv statistikk for sentrum og spredning i fordelingen. Gjennomsnitt og standardavvik. eller
Eksempel : tall dager i sykehus. Ikke-parametriske tester versus parametriske tester Stia Lyderse Presetert på Regioal forskigskoferase for psykiatri og rusfeltet Ålesud 4 jui 03 Behadlig : 6, 5, 37,,
Detaljer5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalte oppgaver 9, blokk II Løsigsskisse Oppgave a) Vi lar her Y være atall fugler som kolliderer med vidmølla i løpet av de gitte
DetaljerTema. Statistikk og prøvetakning. Hvorfor måle mer enn en gang? Fordelinger en innledning. Hvorfor måle mer enn en gang
Tema Statistikk og prøvetakig Marti Veel Svedse Trodheim, 31. jauar 017 Hvorfor måle mer e e gag praktisk tilærmig til statistikk Basis statistiske begreper Best. r 450 krav/veiledig til måliger Eksempler
DetaljerTMA4240 Statistikk Høst 2009
TMA440 Statistikk Høst 009 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer b4 Løsigsskisse Oppgave Øsker å fie 99% kofidesitervall for µ µ år vi atar ormalfordeliger
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.
ÅMA Sasylighetsregig med statistikk, våre Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett på diskrete
DetaljerEksamen REA3028 S2, Våren 2010
Eksame REA308 S, Våre 010 Del 1 Tid: timer Hjelpemidler: Valige skrivesaker, passer, lijal med cetimetermål og vikelmåler er tillatt. Oppgave 1 (6 poeg) a) Deriver fuksjoee: 1) f x x lx f x x lx x x f
DetaljerMA1101 Grunnkurs Analyse I Høst 2017
Norges tekisk aturviteskapelige uiversitet Istitutt for matematiske fag MA0 Grukurs Aalyse I Høst 07 Løsigsforslag Øvig..b) Vi skriver om 7 = 4 4 7 Korollar.. gir at 7 4 er irrasjoal (side vi vet 7 4 er
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren 2007
ÅMA0 Sasylighetsregig med statistikk, våre 007 Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett
DetaljerTMA4240 Statistikk Høst 2015
TMA4240 Statistikk Høst 2015 Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Øvig ummer 12, blokk II I dee siste øvige fokuserer vi på lieær regresjo, der vi har kjete kovariater
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.
ÅMA0 Sasylighetsregig med statistikk, våre 0 Kp. 5 Estimerig. Målemodelle. Estimerig. Målemodelle. Ihold:. (Pukt)Estimerig i biomisk modell (kp. 5.). Målemodelle... (kp. 5.). (Pukt)Estimerig i målemodelle
DetaljerOppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)
MOT30 Statistiske metoder, høste00 Løsiger til regeøvig r. 5 (s. ) Oppgaver fra boka: Oppgave 0.36 (0.0:8) Dekkslitasje X,..., X u.i.f. N(µ, σ ) og X,..., X u.i.f. N(µ, σ ) og alle variable er uavhegige.
DetaljerTMA4240 Statistikk Høst 2016
Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 2 Løsigsskisse Oppgave a Miste kvadraters metode tilpasser e lije til puktee ved å velge de lija som miimerer kvadratsumme
DetaljerLØSNING: Eksamen 17. des. 2015
LØSNING: Eksame 17. des. 2015 MAT100 Matematikk, 2015 Oppgave 1: økoomi a I optimum av T Rx er dt Rx 0 1 som gir d Ix Kx 0 2 dix dix dkx dkx 0 3 4 dvs. greseitekt gresekostad, q.e.d. 5 b Gresekostad ekstrakostade
DetaljerSTK1100 våren 2017 Estimering
STK1100 våre 017 Estimerig Svarer til sidee 331-339 i læreboka Ørulf Borga Matematisk istitutt Uiversitetet i Oslo 1 Politisk meigsmålig Spør et tilfeldig utvalg på 1000 persoer hva de ville ha stemt hvis
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK11 Sasylighetsregig og statistisk modellerig. LØSNINGSFORSLAG Eksamesdag: Fredag 9. jui 217. Tid for eksame: 9. 13.. Oppgavesettet
DetaljerEKSAMEN Løsningsforslag
..4 EKSAMEN Løsigsforslag Emekode: ITF75 Dato: 6. desember Eme: Matematikk for IT Eksamestid: kl 9. til kl. Hjelpemidler: To A4-ark med valgfritt ihold på begge sider. Kalkulator er ikke tillatt. Faglærer:
DetaljerUNIVERSITETET I OSLO ØKONOMISK INSTITUTT
UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Øvelsesoppgave i: ECON30 Statistikk HØST 004 Dato for utleverig: Fredag 5. oktober 004 Frist for ileverig: Osdag 7. oktober 004, seest kl. 5.00 Ileverigssted: Ekspedisjoskotoret,.
DetaljerÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.
ÅMA0 Sasylighetsregig med statistikk, våre 008 Kp. 4 Kotiuerlige tilfeldige variable; Normalfordelig Kotiuerlige tilfeldige variable, itro. (eller: Kotiuerlige sasylighetsfordeliger) Vi har til å sett
DetaljerH14 - Hjemmeeksamen i statistikk/ped sensurveiledning
H14 - Hjemmeeksame i statistikk/ped3008 - sesurveiledig (teller 1/3 av edelig karakter) Dee oppgave bestr av tre deler: i del 1 skal du svare p 5 teorispørsml, i del 2 skal du gjeomføre oe sigifikastester
Detaljer