STAT111 Statstkk Metoder Yushu.L@ub.o Forelesg 19 og 0 Regresjo og korrelasjos (II) 1. Kofdestervall (CI) og predksjostervall (PI) I uka 14, brukte v leær regresjo for å fage leær sammehege mellom Y og : Y, E 0, var Når v har par observasjoer {( 1, y1),...,(, y )}, OLS metode er brukt og forvetgsrette estmatorer tl 0, 1 og er avledet: 1 1 ( )( Y Y ) 1 ( ) ; ; 0 Y 1 1 S ( Y y ) / ( ), y 0 1. Når ka v bruke leær fuksjo Ŷ for å få «predksjo». La gtt y verd på de uavhegge varabele. betege e a. b. Ŷ 0 1 ka betraktes som estmator for forvetg av Y på gtt Ŷ E( Y) 0 1 0 1 ka også betraktes som predksjo av Y : V treger å huske på at 0, 1 og Ŷ 0 1 er stokastsk varabler, hvs v har ye par av observasjoer {( 1, y1),...,(, y )}, ka v har y estmatverder av alle tre. Etter oe algebrask mapulasjo, ka Ŷ omskrves som leær fuksjo av Y s: Koeffsetee d,..., 1 d eholder og, som alle er determstske verder. La ( ), / 1 1, v har å: S a. Forvetg tl Ŷ : V ser at EY E( Y)
STAT111 Statstkk Metoder Yushu.L@ub.o b. Varase tl Ŷ 0 1 : Når s ( y y) / ( ) brukes som estmerg av, ka v få estmerg av Y : 1 V ser at s Y er mst år og øker etter hvert som beveger seg vekk fra begge retger. Dermed år v bruker Ŷ som estmator av, vl dee estmatore være mer press år verdee der observasjoer har bltt laget. er ær setrum av s e år det er lagt fra - 1.1 Iferese agår forvetg er forvetg av Y på gtt E( Y), da er e determstsk parameter, v ka fe e kofdes tervall for Theorem 1: De følgede T t( ) : 1 ( ) SY S, med S ( Y y) / ( ) S. 1 Ovre og edre greser tl 100(1 )% kofdestervall for er derfor: Bredde (øvre grese edre grese) tl kofdestervallet (CI) er t /, 1sY. Ford s er mst år Y og øker etter hvert som retger, vl bredde tl CI øker år år beveger seg vekk fra begge beveger seg vekk fra. Bredde tl CI er mst
STAT111 Statstkk Metoder Yushu.L@ub.o 1. Iferese agår stokastsk varabel Y, gtt I seksjo 1.1, år er gtt, er forvetg e determstsk verd, og v ka kostruere kofdestervallet (CI) tl. Når skal v kostruere et tervall tl Y. V må huske på at Y er e stokastsk varabel og v ka bare «predkere» mulges verder tl Y, derfor bruker v kke «kofdestervall», v bruker «predksjo tervall» stedet. Defere predksjos fel for gtt Eks. 1 F Ee og Ve () som e Y Y Y ( ) 0 1 Theorem. Når v bruker S ( Y y) / ( ) som estmator for og kombert 1 med Eks.1, har v de følgede T t( ) Da ka v får øvre og edre greser av predksjostervall (PI) for Y : V ser med e gag at predksjostervall (PI) er bredere e kofdestervall (CI): PI er tervallet tl e stokastsk varabel mes CI er tervallet tl e determstsk parameter. Eks. Basert på SAT av e freshme ved et uverstet, ka v foruts «Grad rate» av dee freshme år ha eller hu uteksameres? V bruker e tlfeldg utvalg av 0 uversteter fra de 48 asjoale uversteter USA. Når ka v sette som SAT score, og Y er grade.
STAT111 Statstkk Metoder Yushu.L@ub.o Scattor plot av og Y er: Fgur 1. Scattor plot av og Y Det ser ut som at det fes oe leær sammehege mellom og Y. a. Bygg e leær regresjos modell for og Y. b. Bruk OLS for å estmere parametere. c. F 95% kofdestervall (CI) tl EY og predksjostervall (PI) tl Y år 100. Fgur. CI og PI Fra Fgur., har v at: PI er bredere e CI; både PI og CI er smalest år etter hvert som beveger seg vekk fra begge retger. og øker
STAT111 Statstkk Metoder Yushu.L@ub.o Utvalgs korrelasjoskoeffset (sample correlato coeffcet) r Ata at v har observasjoer fra et par av to varabler (, y) {( 1, y1),...,(, y)}, og v er teressert om det er oe sammeheg mellom og y. Her bryr v kke oss om hvlke varabel er avhegg eller hvlke varabel er stokastsk. V vl bare se om det det fes oe leær sammehege mellom og y, hvs det fes, hvlke retg skal det være (postv eller egatv). Det er aturlg å påstå at og y har e postv sammeheg hvs store -ee er koblet samme med store y-ee og små -ee med lte y-ee. På samme måte, hvs større -ee er koblet samme med mdre y-ee, da e egatv sammeheg mellom varablee er uderforstått. V å se på: Deretter hvs forholdet mellom og y er sterkt postv, vl e over (eller uder) har e tedes tl å bl koblet samme med e y over (eller uder) y, slk at S 0. Således ka e postv sammeheg ebærer at S vl være postvt. E tlsvarede argumet vser at år forholdet mellom og y er egatv, vl S være egatv, sde det meste av produktee ( - )( y - y ) vl være egatv, se Fgur 3. Fgur 3. Postv og Negatv forholdet Dessverre har S e alvorlg fel: størrelse av S er helt avhegg av måleehete for ete eller y. For eksempel, hvs S = 5 år er målt meter, så S = 5000 år måles mllmeter og 0,05 år er uttrykt klometer. V å modfserer S for å oppå sample korrelasjoskoeffset r, som er uavhegg av utehete av og y:
STAT111 Statstkk Metoder Yushu.L@ub.o Hvs v bygger leære regresjos modell basert på Uka 14, da ka v gje dekompoere varasjo y som SST = SSR + SSE. ( ) måler totall varasjo y; 1 SST y y ( ) måler varasjo som ka forklares med leær modell, 1 SSR y y ( ) 1 1 måler reste av varasjo. SSE y y e Eks. 3 Bevs at () r SSR. SST V ser at år SSE =0, da har v SST= SSR, alle varasjo y ka forklares med e leær fuksjo. Det betyr at og y lgger på e determstsk lje. Når SSR = 0, ka v ha flere forklarger, for eksempel, 1) Varasjo y er helt tlfeldgh, det fes ge sammehege mellom og y det helle tatt, derfor er SSR =0. ) Det fes oe kke - leær sammehege mellom og y, og dee sammehege ka v kke fage med e leær modell og derfor er SSR = 0. Således måler r grade av leær sammeheg mellom varabler. Jo ærmere er r 1, desto sterkere leære forholdet mellom og y. Hvs r er lte, ka det bare bety at det er svak leært forhold mellom og y, me og y ka ha e sterkt kke-leære forhold. Fgur 4. r måler leært forhold
STAT111 Statstkk Metoder Yushu.L@ub.o 3. Modell vurderg I uke 14, har v tre atagelser år v estmerer leær modell Y a. Observasjoee er uavhegge b. Y er ormalfordelt rudt s forvetg EY, c. Varase tl Y er kostat, var Y var V ka sette.. N(0, ) for å fylle opp de 3 atagelsee. Basert på observasjoee (, y ),...,(, y ) og uder betgelse 1 1.. N(0, ), ka v kostruere leær regresjosmodell, estmere parametere og gjeomføre vdere feres. V skal este vurdere om våre 3 atagelser (som blr faget betgelse.. N(0, ) ) og de estmerte modelle er «passelg ok» gjeom å dagostsere «resduals» e y y, med y 0 1. V bruker stokastske varabler Y og Y resduals for å udersøke s statstske egeskaper: e Y Y, med Y. Uder atagelse er ormal fordelt Y, skal både Y og Y være ormal fordelt, og e Y Y være ormal fordelt også. V har også at Ee E( Y Y ) 0 1 ( 0 1 ) 0. Eks. 4 Bevs at: Når s ( y y) / ( ) brukes som estmerg av, ka v få stadardzed 1 resduals etter vå har fått observasjoer: Når v bruker stokastske varabler Y og Y stadardzed resduals, har v Det betyr at de fleste e N (0,1). e skal lgger mellom - og (teker på [-1.96, 1.96] er 95% CI for med 0 hvs X N (0,1) ). V ka også få Q-Q plot av e, 1,..., etter v har fått observasjoer og se hvs det e, 1,..., ærmer seg tl ormal fordelg. Hvs Q-Q plot vser at e, 1,..., kke er ormal fordelt, betyr at atagelse at er ormal fordelt er
STAT111 Statstkk Metoder Yushu.L@ub.o fel og alle fereser som bygd opp på ormal fordelg er kke press: atagelse b. er fel. For vdere dagose, skal v plottere e, 1,..., på de vertkale akse versus, 1,..., på de horsotale akse. Hvs atagelsee a. og c. er korrekt, skal plott se ut som Fgur 5: horsotal akse. e, 1,..., skal dstrbuere seg helt tlfeldg mellom og -, lags Fgur 5. e, 1,..., versus, 1,..., Det fes flere mulgheter av hvorda plott ka se ut hvs leær modell eller atagelser a. og c. kke er korrekt: (1). Hvs v få e plott som Fgur 6, det betyr at det fes oe kke- leær forholdet som kke er faget modelle, og så tlfellet, skal v teke om å bygge opp e kke-leær modell stedet. Fgur 6. kke leær modell skal byges (). Hvs v få e plott som Fgur 7, det betyr at atagelse c. er fel og Y kke har kostat varas og v skal bruke «weghted least squares» Fgur 7. kke kostat varas
STAT111 Statstkk Metoder Yushu.L@ub.o (3). Hvs v få e plott som Fgur 8, det betyr at det ka fes «outler» observasjoee, så slags outler ka påvrke estmerg og skal udersøkes vdere. Fgur 8. outler