Forelesning 19 og 20 Regresjon og korrelasjons (II)

Like dokumenter
Forelesning Enveis ANOVA

Analyse av sammenhenger

1. Konfidens intervall for

STK1110 høsten Lineær regresjon. Svarer til avsnittene i læreboka (med unntak av stoffet om logistisk regresjon)

Forelesning 25 og 26 Introduksjon til Bayesiansk statistikk

TMA4245 Statistikk Eksamen mai 2016

TMA4245 Statistikk Eksamen august 2014

Econ 2130 uke 19 (HG) Inferens i enkel regresjon og diskrete modeller

Det ble orientert i plenum under eksamensdagen om følgende endringer i forhold til oppgaven:

Om enkel lineær regresjon II

Forelesning Ordnings observatorer

Forelesning Punktestimering

STK1100 våren Konfidensintevaller

Forelesning 21 og 22 Goodness of fit test and contingency table ( 2 test og krysstabell)

Om enkel lineær regresjon II

som vi ønsker å si noe om basert på data Eksempel. Uid-modellen: X1, X ,,,

Om enkel lineær regresjon II

TMA4240 Statistikk Høst 2016

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Introduksjon til økonometri, kap 8, 9.1 og 9.2. Hva er formålet med økonometri? Utvalgskorrelasjoner To-variabel regresjoner

STK1100 våren Estimering. Politisk meningsmåling. Svarer til sidene i læreboka. The German tank problem. Måling av lungefunksjon

Formler og regler i statistikk ifølge lærebok Gunnar Løvås: Statistikk for universiteter og høgskoler

Løsningsforslag Eksamen i Statistikk Nov 2001 Oppgave 1 a) Det fins 8 mulige kombinasjoner. Disse finnes ved å utelate ett og ett tall.

Notat 1: Grunnleggende statistikk og introduksjon til økonometri

Seminaroppgaver for uke 13

Seminaroppgaver for uke 13 (Oppgave (1), (2), og (3))

TMA4245 Statistikk Eksamen 21. mai 2013

Econ 2130 uke 15 (HG)

Oppgave 1 Det er oppgitt i oppgaveteksten at estimatoren er forventningsrett, så vi vet allerede at E(ˆµ) = µ. Variansen til ˆµ er 2 2 ( )

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk

Løsningsforslag (ST1201/ST , kontinuasjonseksamen) ln L. X i = 2n.

Oversikt over tester i Econ 2130

OBLIGATORISK OPPGAVE 1 INF 3340/4340/9340 HØSTEN 2005

Oversikt over konfidensintervall i Econ 2130

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Estimering. Målemodellen. Kp. 5 Estimering. Målemodellen.

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Regler om normalfordelingen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Econ 2130 uke 13 (HG)

Regler om normalfordelingen

Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 29. mai 2007

Forelesning 3 MET3592 Økonometri ved David Kreiberg Vår 2011

Statistikk med anvendelse i økonomi

Regler om normalfordelingen

EKSAMEN løsningsforslag

Løsningskisse seminaroppgaver uke 17 ( april)

Oversikt over tester i Econ 2130

Forelesning 3 mandag den 25. august

Om enkel lineær regresjon I

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT. Innleveringssted: Ekspedisjonen i 12. etasje (mellom ) OG Fronter (innen klokken 15).

Medisinsk statistikk, del II, vår 2008 KLMED Lineær regresjon, Rosner Regresjon?

Om enkel lineær regresjon I

Medisinsk statistikk, del II, vår 2009 KLMED 8005

Forelesning 2 MET3592 Økonometri ved David Kreiberg Vår 2011

Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL

Mer om Hypotesetesting (kap 5) Student t-fordelingen. Eksamen. Fordelingene blir like ved stor n:

Eksempel 1 - Er gjennomsnittshøyden for kvinner i Norge økende?

Oversikt over tester i Econ 2130

Oppgave 1 ECON 2130 EKSAMEN 2011 VÅR

TMA4240/4245 Statistikk Eksamen august 2016

(ii) Anta vi vet om en observasjon av X at den ikke er større enn 5. Hva er da sannsynligheten for at den er lik 5? (Hint: Finn PX ( = 5 X 5) ).

Seleksjon og uttak av alderspensjon fra Folketrygden

Gråtonehistogrammer. Histogrammer. Hvordan endre kontrasten i et bilde?

Positive rekker. Forelest: 3. Sept, 2004

Oversikt 1. forelesning. ECON240 Statistikk og økonometri. Visuell/grafisk presentasjon av data. Datainnsamling; utdanning og inntekt

Forelesning Z-, t-test, test for forventningsdifferanser

Erling Siring INNHOLD

Makroøkonomi - B1. Innledning. Begrep. B. Makroøkonomi. Mundells trilemma går ut på følgende:

Statistikk og økonomi, våren 2017

ARBEIDSNOTAT ARBEIDSNOTAT

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.18).

(iii) Når 5 er blitt trukket ut, er det tre igjen som kan blir trukket ut til den siste plassen, altså:

Oppgaver. Multiple regresjon. Forelesning 3 MET3592 Økonometri ved David Kreiberg Vår 2011

i B maksimal b Fundamentalteoremet for lineærprogrammering Den leksikografiske metode Blands pivoteringregel MoD233 - Geir Hasle - Leksjon 4 2

Randi Johannessen. Mikroindeksformel i konsumprisindeksen. 2001/64 Notater 2001

Enveis variansanalyse (One-way ANOVA, fixed effects model) (Notat til Kap. 12 i Rosner)

ØVINGER 2017 Løsninger til oppgaver

FORELESNINGSNOTATER I SPILLTEORI Geir B. Asheim, våren 2001 (oppdatert ).

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

X ijk = µ+α i +β j +γ ij +ǫ ijk ; k = 1,2; j = 1,2,3; i = 1,2,3; i=1 γ ij = 3. i=1 α i = 3. j=1 β j = 3. j=1 γ ij = 0.

Kapittel 1: Beskrivende statistikk

TMA4245 Statistikk Vår 2015

01. Til hvilke deler av naturen benyttes kvantefysikk som beskrivende verktøy?

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk Høst 2015

Simpleksmetoden. Initiell basistabell Fase I for å skaffe initiell, brukbar løsning. Fase II: Iterativ prosess for å finne optimal løsning Pivotering

Lineær regresjonsanalyse (13.4)

TMA4265 Stokastiske prosesser

IT1105 Algoritmer og datastrukturer

Tors eminente Statistikk notater Revisjon 6

Anne Vedø Estimering av materialfordelingen til husholdningsavfall i 2004 Dokumentasjon av estimeringsmetoder

Kapittel 1: Beskrivende statistikk

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

Alternerende rekker og absolutt konvergens

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

STK desember 2007

Appendiks 1: Organisering av Riksdagsdata i SPSS. Sannerstedt- og Sjölins data er klargjort for logitanalyse i SPSS filen på følgende måte:

«Uncertainty of the Uncertainty» Del 5 av 6

Transkript:

STAT111 Statstkk Metoder Yushu.L@ub.o Forelesg 19 og 0 Regresjo og korrelasjos (II) 1. Kofdestervall (CI) og predksjostervall (PI) I uka 14, brukte v leær regresjo for å fage leær sammehege mellom Y og : Y, E 0, var Når v har par observasjoer {( 1, y1),...,(, y )}, OLS metode er brukt og forvetgsrette estmatorer tl 0, 1 og er avledet: 1 1 ( )( Y Y ) 1 ( ) ; ; 0 Y 1 1 S ( Y y ) / ( ), y 0 1. Når ka v bruke leær fuksjo Ŷ for å få «predksjo». La gtt y verd på de uavhegge varabele. betege e a. b. Ŷ 0 1 ka betraktes som estmator for forvetg av Y på gtt Ŷ E( Y) 0 1 0 1 ka også betraktes som predksjo av Y : V treger å huske på at 0, 1 og Ŷ 0 1 er stokastsk varabler, hvs v har ye par av observasjoer {( 1, y1),...,(, y )}, ka v har y estmatverder av alle tre. Etter oe algebrask mapulasjo, ka Ŷ omskrves som leær fuksjo av Y s: Koeffsetee d,..., 1 d eholder og, som alle er determstske verder. La ( ), / 1 1, v har å: S a. Forvetg tl Ŷ : V ser at EY E( Y)

STAT111 Statstkk Metoder Yushu.L@ub.o b. Varase tl Ŷ 0 1 : Når s ( y y) / ( ) brukes som estmerg av, ka v få estmerg av Y : 1 V ser at s Y er mst år og øker etter hvert som beveger seg vekk fra begge retger. Dermed år v bruker Ŷ som estmator av, vl dee estmatore være mer press år verdee der observasjoer har bltt laget. er ær setrum av s e år det er lagt fra - 1.1 Iferese agår forvetg er forvetg av Y på gtt E( Y), da er e determstsk parameter, v ka fe e kofdes tervall for Theorem 1: De følgede T t( ) : 1 ( ) SY S, med S ( Y y) / ( ) S. 1 Ovre og edre greser tl 100(1 )% kofdestervall for er derfor: Bredde (øvre grese edre grese) tl kofdestervallet (CI) er t /, 1sY. Ford s er mst år Y og øker etter hvert som retger, vl bredde tl CI øker år år beveger seg vekk fra begge beveger seg vekk fra. Bredde tl CI er mst

STAT111 Statstkk Metoder Yushu.L@ub.o 1. Iferese agår stokastsk varabel Y, gtt I seksjo 1.1, år er gtt, er forvetg e determstsk verd, og v ka kostruere kofdestervallet (CI) tl. Når skal v kostruere et tervall tl Y. V må huske på at Y er e stokastsk varabel og v ka bare «predkere» mulges verder tl Y, derfor bruker v kke «kofdestervall», v bruker «predksjo tervall» stedet. Defere predksjos fel for gtt Eks. 1 F Ee og Ve () som e Y Y Y ( ) 0 1 Theorem. Når v bruker S ( Y y) / ( ) som estmator for og kombert 1 med Eks.1, har v de følgede T t( ) Da ka v får øvre og edre greser av predksjostervall (PI) for Y : V ser med e gag at predksjostervall (PI) er bredere e kofdestervall (CI): PI er tervallet tl e stokastsk varabel mes CI er tervallet tl e determstsk parameter. Eks. Basert på SAT av e freshme ved et uverstet, ka v foruts «Grad rate» av dee freshme år ha eller hu uteksameres? V bruker e tlfeldg utvalg av 0 uversteter fra de 48 asjoale uversteter USA. Når ka v sette som SAT score, og Y er grade.

STAT111 Statstkk Metoder Yushu.L@ub.o Scattor plot av og Y er: Fgur 1. Scattor plot av og Y Det ser ut som at det fes oe leær sammehege mellom og Y. a. Bygg e leær regresjos modell for og Y. b. Bruk OLS for å estmere parametere. c. F 95% kofdestervall (CI) tl EY og predksjostervall (PI) tl Y år 100. Fgur. CI og PI Fra Fgur., har v at: PI er bredere e CI; både PI og CI er smalest år etter hvert som beveger seg vekk fra begge retger. og øker

STAT111 Statstkk Metoder Yushu.L@ub.o Utvalgs korrelasjoskoeffset (sample correlato coeffcet) r Ata at v har observasjoer fra et par av to varabler (, y) {( 1, y1),...,(, y)}, og v er teressert om det er oe sammeheg mellom og y. Her bryr v kke oss om hvlke varabel er avhegg eller hvlke varabel er stokastsk. V vl bare se om det det fes oe leær sammehege mellom og y, hvs det fes, hvlke retg skal det være (postv eller egatv). Det er aturlg å påstå at og y har e postv sammeheg hvs store -ee er koblet samme med store y-ee og små -ee med lte y-ee. På samme måte, hvs større -ee er koblet samme med mdre y-ee, da e egatv sammeheg mellom varablee er uderforstått. V å se på: Deretter hvs forholdet mellom og y er sterkt postv, vl e over (eller uder) har e tedes tl å bl koblet samme med e y over (eller uder) y, slk at S 0. Således ka e postv sammeheg ebærer at S vl være postvt. E tlsvarede argumet vser at år forholdet mellom og y er egatv, vl S være egatv, sde det meste av produktee ( - )( y - y ) vl være egatv, se Fgur 3. Fgur 3. Postv og Negatv forholdet Dessverre har S e alvorlg fel: størrelse av S er helt avhegg av måleehete for ete eller y. For eksempel, hvs S = 5 år er målt meter, så S = 5000 år måles mllmeter og 0,05 år er uttrykt klometer. V å modfserer S for å oppå sample korrelasjoskoeffset r, som er uavhegg av utehete av og y:

STAT111 Statstkk Metoder Yushu.L@ub.o Hvs v bygger leære regresjos modell basert på Uka 14, da ka v gje dekompoere varasjo y som SST = SSR + SSE. ( ) måler totall varasjo y; 1 SST y y ( ) måler varasjo som ka forklares med leær modell, 1 SSR y y ( ) 1 1 måler reste av varasjo. SSE y y e Eks. 3 Bevs at () r SSR. SST V ser at år SSE =0, da har v SST= SSR, alle varasjo y ka forklares med e leær fuksjo. Det betyr at og y lgger på e determstsk lje. Når SSR = 0, ka v ha flere forklarger, for eksempel, 1) Varasjo y er helt tlfeldgh, det fes ge sammehege mellom og y det helle tatt, derfor er SSR =0. ) Det fes oe kke - leær sammehege mellom og y, og dee sammehege ka v kke fage med e leær modell og derfor er SSR = 0. Således måler r grade av leær sammeheg mellom varabler. Jo ærmere er r 1, desto sterkere leære forholdet mellom og y. Hvs r er lte, ka det bare bety at det er svak leært forhold mellom og y, me og y ka ha e sterkt kke-leære forhold. Fgur 4. r måler leært forhold

STAT111 Statstkk Metoder Yushu.L@ub.o 3. Modell vurderg I uke 14, har v tre atagelser år v estmerer leær modell Y a. Observasjoee er uavhegge b. Y er ormalfordelt rudt s forvetg EY, c. Varase tl Y er kostat, var Y var V ka sette.. N(0, ) for å fylle opp de 3 atagelsee. Basert på observasjoee (, y ),...,(, y ) og uder betgelse 1 1.. N(0, ), ka v kostruere leær regresjosmodell, estmere parametere og gjeomføre vdere feres. V skal este vurdere om våre 3 atagelser (som blr faget betgelse.. N(0, ) ) og de estmerte modelle er «passelg ok» gjeom å dagostsere «resduals» e y y, med y 0 1. V bruker stokastske varabler Y og Y resduals for å udersøke s statstske egeskaper: e Y Y, med Y. Uder atagelse er ormal fordelt Y, skal både Y og Y være ormal fordelt, og e Y Y være ormal fordelt også. V har også at Ee E( Y Y ) 0 1 ( 0 1 ) 0. Eks. 4 Bevs at: Når s ( y y) / ( ) brukes som estmerg av, ka v få stadardzed 1 resduals etter vå har fått observasjoer: Når v bruker stokastske varabler Y og Y stadardzed resduals, har v Det betyr at de fleste e N (0,1). e skal lgger mellom - og (teker på [-1.96, 1.96] er 95% CI for med 0 hvs X N (0,1) ). V ka også få Q-Q plot av e, 1,..., etter v har fått observasjoer og se hvs det e, 1,..., ærmer seg tl ormal fordelg. Hvs Q-Q plot vser at e, 1,..., kke er ormal fordelt, betyr at atagelse at er ormal fordelt er

STAT111 Statstkk Metoder Yushu.L@ub.o fel og alle fereser som bygd opp på ormal fordelg er kke press: atagelse b. er fel. For vdere dagose, skal v plottere e, 1,..., på de vertkale akse versus, 1,..., på de horsotale akse. Hvs atagelsee a. og c. er korrekt, skal plott se ut som Fgur 5: horsotal akse. e, 1,..., skal dstrbuere seg helt tlfeldg mellom og -, lags Fgur 5. e, 1,..., versus, 1,..., Det fes flere mulgheter av hvorda plott ka se ut hvs leær modell eller atagelser a. og c. kke er korrekt: (1). Hvs v få e plott som Fgur 6, det betyr at det fes oe kke- leær forholdet som kke er faget modelle, og så tlfellet, skal v teke om å bygge opp e kke-leær modell stedet. Fgur 6. kke leær modell skal byges (). Hvs v få e plott som Fgur 7, det betyr at atagelse c. er fel og Y kke har kostat varas og v skal bruke «weghted least squares» Fgur 7. kke kostat varas

STAT111 Statstkk Metoder Yushu.L@ub.o (3). Hvs v få e plott som Fgur 8, det betyr at det ka fes «outler» observasjoee, så slags outler ka påvrke estmerg og skal udersøkes vdere. Fgur 8. outler