Om enkel lineær regresjon I

Like dokumenter
Om enkel lineær regresjon I

Om enkel lineær regresjon II

Seminaroppgaver for uke 13 (Oppgave (1), (2), og (3))

Om enkel lineær regresjon II

Seminaroppgaver for uke 13

Analyse av sammenhenger

Forelesning 19 og 20 Regresjon og korrelasjons (II)

Regler om normalfordelingen

Regler om normalfordelingen

Regler om normalfordelingen

STK1110 høsten Lineær regresjon. Svarer til avsnittene i læreboka (med unntak av stoffet om logistisk regresjon)

Notat 1: Grunnleggende statistikk og introduksjon til økonometri

Econ 2130 uke 15 (HG)

TMA4245 Statistikk Eksamen mai 2016

TMA4245 Statistikk Eksamen august 2014

Oversikt over tester i Econ 2130

Introduksjon til økonometri, kap 8, 9.1 og 9.2. Hva er formålet med økonometri? Utvalgskorrelasjoner To-variabel regresjoner

Forelesning Enveis ANOVA

Løsningskisse seminaroppgaver uke 17 ( april)

Forelesning 3 MET3592 Økonometri ved David Kreiberg Vår 2011

OBLIGATORISK OPPGAVE 1 INF 3340/4340/9340 HØSTEN 2005

STK1100 våren Estimering. Politisk meningsmåling. Svarer til sidene i læreboka. The German tank problem. Måling av lungefunksjon

STK1100 våren Konfidensintevaller

Formler og regler i statistikk ifølge lærebok Gunnar Løvås: Statistikk for universiteter og høgskoler

Forelesning Ordnings observatorer

Løsningsforslag (ST1201/ST , kontinuasjonseksamen) ln L. X i = 2n.

Makroøkonomi - B1. Innledning. Begrep. B. Makroøkonomi. Mundells trilemma går ut på følgende:

Forelesning Punktestimering

TMA4240 Statistikk Høst 2016

Oppgave 1 ECON 2130 EKSAMEN 2011 VÅR

Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL

Statistikk med anvendelse i økonomi

Om enkel lineær regresjon I

Forelesning 21 og 22 Goodness of fit test and contingency table ( 2 test og krysstabell)

Medisinsk statistikk, del II, vår 2009 KLMED 8005

EKSAMEN løsningsforslag

Positive rekker. Forelest: 3. Sept, 2004

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.18).

ARBEIDSNOTAT ARBEIDSNOTAT

TMA4240/4245 Statistikk Eksamen august 2016

Randi Johannessen. Mikroindeksformel i konsumprisindeksen. 2001/64 Notater 2001

(iii) Når 5 er blitt trukket ut, er det tre igjen som kan blir trukket ut til den siste plassen, altså:

Enveis variansanalyse (One-way ANOVA, fixed effects model) (Notat til Kap. 12 i Rosner)

Kapittel 1: Beskrivende statistikk

Econ 2130 Forelesning uke 11 (HG)

Chapter 2 - Discrete Mathematics and Its Applications. Løsningsforslag på utvalgte oppgaver

MA1301 Tallteori Høsten 2014

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Løsningskisse for oppgaver til uke 15 ( april)

Kapittel 9 ALGEBRA. Hva er algebra?

Lineær regresjonsanalyse (13.4)

Mer om utvalgsundersøkelser

ECON240 Statistikk og økonometri

TMA4245 Statistikk Vår 2015

Anvendelser. Kapittel 12. Minste kvadraters metode

Kapittel 10 fra læreboka Grafer

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Simpleksmetoden. Initiell basistabell Fase I for å skaffe initiell, brukbar løsning. Fase II: Iterativ prosess for å finne optimal løsning Pivotering

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Forelesning Z-, t-test, test for forventningsdifferanser

Forkunnskaper i matematikk for fysikkstudenter. Derivasjon.

Differensligninger Forelesningsnotat i Diskret matematikk Differensligninger

Transkript:

ECON 30 HG, revdert 0 Notat tl kapttel 4 Løvås Om ekel leær regresjo I Iledg Ekel regresjosaalse dreer seg om å studere sammehege mellom e resposvarabel,, og e forklargsvarabel,, basert på et datamaterale som består av observasjospar av (, ) (, ), (, ),,(, ). : Ata v er teressert sammehege mellom tdee på 500m og 5000m for skøteløpere som er tlstrekkelg god form tl å kue delta store mesterskap som EM, VM og lgede. Data er hetet fra europamesterskapet (EM) Heerevee 004 og gtt tabell. (Data ka lastes ed e Ecel-fl på http://folk.uo.o/haraldg/ ) Tabell Resultater fra 500m og 5000m for me fra EM skøter Heerevee 004 Obs 5000m 500m Obs 5000m 500m r. Td Sekuder Td Sekuder r. Td Sekuder Td Sekuder Tutert NED 6:7.63 387.63 :47.4 07.4 7 Poutala FIN 7:06.8 46.8 :5.7.7 Verheje NED 6:6.43 386.43 :48.80 08.80 8 Rosedahl FIN 7:06.5 46.5 :5.49.49 3 Utdehaage 6:3.93 39.93 :48.90 08.90 NED 9 Vreugdehl BEL 6:58.85 48.85 :53.56 3.56 4 Romme NED 6:9.88 389.88 :50.4 0.4 0 Zoller AUT 7:4.4 434.4 :54.05 4.05 5 Skobrev RUS 6:35.55 395.55 :49.84 09.84 Makovetskj BLR 7:0.0 4.0 :54.75 4.75 6 Lalekov RUS 6:4.84 40.84 :48.0 08.0 Veldkamp BEL 6:48.7 408.7 :54.36 4.36 7 Fabrs ITA 6:34.87 394.87 :49.64 09.64 3 Vtípl CZE 7:00.04 40.04 :55.67 5.67 8 Röjler SWE 6:36.68 396.68 :5.46.46 4 Grozea ROU 6:55.8 45.8 :56.5 6.5 9 Fresger GER 6:48.76 408.76 :50.34 0.34 5 Bosker SUI 6:58.39 48.39 :57.96 7.96 0 Sætre NOR 6:36.5 396.5 :53.65 3.65 6 Pedos UKR 7:09.93 49.93 :57.94 7.94 Detshev RUS 6:38.06 398.06 :5.54.54 7 Valtoe FIN 6:57.6 47.6 :53.6 3.6 Aderse NOR 6:47.43 407.43 :50.0 0.0 8 Mazur POL 6:46.9 406.9 :55.8 5.8 3 Zgmut POL 6:40.54 400.54 :5.80.80 4 Aes ITA 6:49.58 409.58 :5.77.77 5 Scheder GER 6:45.05 405.05 :53.85 3.85 6 Ervk NOR 6:37.5 397.5 :09.0 9.0

La betege 5000m-tde sekuder, og 500m-tde sekuder for løper r., =,,,8. Datamateralet vårt ( utvalget) består altså av = 8 observasjospar, (, ), (, ),,(, ). For få e de om hva slags sammeheg som ka være aktuell, ka ma lage et spredgsdagram (scatter plot) der -ee plottes mot -ee. Fgur [ For å få Ecel tl å tege dette plottet bør v lage to koloer ved sde av hveradre, der -ee lgger de ee og -ee de adre koloe. Deretter, marker de to koloee og velg scatter fra graf-rutee (på sert-mee).] 500m tder mot 5000m 35.00 30.00 5.00 : 500 m (sek) 0.00 5.00 0.00 05.00 00.00 380.00 390.00 400.00 40.00 40.00 430.00 440.00 : 5000 m (sek) Merk at Ecel valgte orgo puktet (380, 00) stedefor (0, 0). V legger også merke tl et eslg solert pukt lagt over de øvrge. Det vser seg å gjelde Eskl Ervk som falt på 500m. Ettersom dee observasjoe kke er represetatv for det v er teressert (emlg skøtetder for løpere som holder seg på bea), ka v trgt fjere dette observasjosparet fra data. Vårt datamaterale består dermed av = 7 observasjospar. Fgur tder på at e evetuell sammeheg mellom -ee og -ee ses å være av leær tpe. I fgur har jeg plottet dataee på tt (ute Eskl Ervk) med e lagt (mste kvadraters) tredlje som uttrkk for dee sammehege.

3 Fgur 500m mot 5000m (ute Ervk) 0.00 8.00 6.00 = 0.43 + 54.34 R = 0.4576 4.00.00 0.00 08.00 06.00 380.00 390.00 400.00 40.00 40.00 430.00 440.00 For å få fram dette plottet Ecel, laget jeg først spredgsdagrammet som over. Deretter høreklkket jeg på et av puktee dagrammet slk at puktee ble markert og valgte add tredle fra mee som kom fram. I optos på samme me spesfserte jeg at Ecel skal skrve ut lgge for de rette tredlje og R som er et mål på hvor stor del av de totale varasjoe av -ee data er forklart av tred lje. Sde R = 0.4576, betr det at 45.76% av total-varasjoe av -ee data er forklart av tredlja som dkerer e vss sammeheg. Tredlja er et eksempel på e mste kvadraters regresjoslje, som er bestemt som de lja som e vss forstad best beskrver puktee spredgsplottet. I dette otatet skal v først og fremst forklare hvorda dsse størrelsee er bereget. Aalse gjelder ku datamateralet selv og ebærer (foreløpg) ge tolkg om populasjoe dataee er trukket fra. For å kue tolke resultatee forhold tl populasjoe, treger v apparatet etablert kapttel 6 og 7 Løvås. Se også avstt 4 edefor for oe merkader om tolkg. Noe relevate utvalgsstørrelser La (, ), (, ),,(, ) være observasjospar av to varable og (som ka være hva som helst kke ødvedgvs stokastske). Da ka v defere og rege ut ( utvalget) vsse størrelser som blat aet er vktg regresjosaalse (jfr. Løvås kap. 7):

4 Gjeomstt: ) = = ) = = Emprske varaser (også kalt utvalgsvaraser eller sampelvaraser): ) s v) = ( ) = s = ( ) = Emprsk kovaras (også kalt utvalgskovaras eller sampelkovaras): v) s = ( )( ) = Emprsk korrelasjoskoeffset (også kalt utvalgs-korrelasjoskoeffsete eller sampelkorrelasjoskoeffsete eller emprsk korrelasjoskoeffset): v) r s = r = = s s s ss Merk at dsse størrelsee, som alltd ka bereges ut fra data, er bgget opp på samme måte som tlsvarede størrelser defert populasjoe, der valge gjeomstt erstattes av forvetger. Hvs X og Y er to stokastske varable e populasjo, deferes populasjosgjeomsttee ved forvetgsverder, µ = E( X), µ = EY ( ), X Y ( ), ( ) X = E X E X σy = E Y EY, og (populasjos)varasee ved, σ ( ) ( ) (populasjos)kovarase ved, cov( XY, ) = E ( X E( X) )( Y EY ( )). cov( XY, ) (Populasjos)korrelasjoskoeffsete deferes ved ρ = ρ( XY, ) =. var( X) var( Y) I det speselle tlfellet at (, ), (, ),,(, ) ka betraktes som uavhegge observasjoer av ( XY, ), vl utvalgs-størrelsee )-v) kue betraktes som aslagsverder for de tlsvarede populasjosstørrelsee (tutvt begruet ved de store talls lov og mer presst begruet ved statstsk teor som etableres delvs dette kurset og seere Stat). Egeskaper ved korrelasjoskoeffsetee. Korrelasjoskoeffsete, ete det gjelder r eller ρ, er et tall mellom og og måler hvlke grad sammehege mellom og (X og Y populasjoe) ka beskrves ved e rett lje. Ekstremverdee og svarer tl e stuasjo der alle observasjoee lgger eksakt på e rett lje. I så fall fes det kostater a og b slk at = a + b for alle =,,, data, eller Y = a + bx for alle mulge observasjoer av X og Y populasjoe. Når det gjelder r vl dsse egeskapee bl klargjort dette otatet.

5 Regeksempel. For å llustrere bereggee et mdre materale trakk jeg ut ret tlfeldg fem av observasjosparee tabell (mus Ervk). De observasjosumree tabell som ble trukket ut var, obs.r., 4, 7, 5 og 3 tabell, som jeg kalte =,,3, 4,5 tabell edefor. Tabell M-utvalg på fem trukket fra 7 observasjospar. ( ) ( )( ) ( ) 398.06.54 -.58 -.00 58.558 3.9840 5.07 389.88 0.4-0.76-3.30 430.85 0.8636 68.48 3 46.8.7 6.7 -.7 6.5983.608-0.4763 4 48.39 7.96 7.75 4.4 60.45 9.578 34.3037 5 40.04 5.67 9.40.3 88.435 4.5540 0.068 sum 053.8 567.68 999.53 40.576 7.4090 Gj.stt 40.636 3.536 De fem setrale størrelsee ka å lett bereges: = 40.636 = 3.536 s = 999.53/ 4 = 49.783 s = 40.576/ 4 = 0.440 s = 7.4090 / 4 = 3.853 Korrelasjoskoeffsete mutvalget på 5 blr da s 3.853 r = = = 0.633. ss 49.783 0.440 De tlsvarede korrelasjoe hele materalet (7 observasjospar) ble 0.676. Sjekk selv dette ved å bruke Ecel. Rute Covarace module Data aalss gr deg s, s, s svakt modfsert (se fotote 6 sde 5). Rute Correlato, også Data aalss, gr deg r drekte. De fem størrelsee,,, s, s, s, er alt v treger for å berege e ekel regresjo-aalse. Det er e kjedelg jobb å berege dsse fem størrelsee med kalkulator, med stor sjase for å rege fel, så dee jobbe er best å gjøre med computer. Når de først er bereget, vl alle Jeg lot Ecel trekke ut fem løpere for meg ved å bruke Radom umber geerato med uform fordelg fra module Data aalss. Dvs. løpere, Detshev (RUS), Romme (NED), Poutala (FIN), Bosker (SUI) og Vtípl (CZE) hhv.

6 adre formler som er aktuelle for e ekel regresjo med bare e forklargsvarabel,, lett kue bereges med kalkulator. Om ma lkevel treger å berege hele regresjosaalse med kalkulator, ka følgede bereggsformler være ttge: Regel (Utledet appedks) Hvs (, ), (, ),,(, ) (a) ( ) s = ( ) = = = (b) ( ) s = ( ) = = = (c) er observasjospar, gjelder ( ) s = ( )( ) = = = 3 Mste kvadraters regresjoslje utvalget V har observasjoer av varablee 3 og, (, ), (, ),,(, ), og øsker å forklare mest mulg av -ee ved hjelp av -ee og e rett lje, ŷ = a + b, der jeg skrver ŷ stedefor -e for kke å blade samme med -e som observeres. Med adre ord, for hvert observasjospukt, (, ), ka v skrve = a + b + d = ˆ + d for =,,, der ˆ = a + b represeterer de forklarte dele av, og d ˆ = de uforklarte dele av. (Merk at v alltd ka skrve ˆ ˆ ˆ = + = + d.) Se fgur 3. Jeg bruker aførselsteg rudt det suggestve uttrkket forklare sde forklarg egetlg er et for sterkt uttrkk dee sammehege. Et mer valg uttrkk ltterature er predkert for ˆ. De uforklarte dele av, d kalles oftest for resdual. Oppgave er å å velge lja ŷ = a + b - dvs. å velge koeffsetee a og b slk at forklarge blr best mulg. Eller, sagt på e ae måte, slk at resdualee, d, som måler de loddrette avstadee tl lja fra observasjospuktee, mmeres e eller ae forstad. V ser av fgur 3 at for pukter som lgger over lja ( > ˆ ), så blr d > 0, mes 3 Merk at jeg bruker små bokstaver for og for å dkere at dsse ka være hvlke som helst varable kke ødvedgvs stokastske. For eksempel, kue være e satsfaktor e produktfuksjo med verder valgt av forskere, mes er størrelse på produktet. I så fall er ku å betrakte som stokastsk.

7 d < 0 for pukter som lgger uder lja ( < ˆ ). Det tter altså kke å mmere summe av avstadee tl lja, d, sde de egatve avstadee vl oppheve de postve. I stedet velger ma å se på de kvadrerte avstadee, d, som fjerer fortegee. (Ma kue aturlgvs også se på absoluttverdee, d, me det gr e vesetlg mer komplsert løsg.) Fgur 3 E vlkårlg observasjo av (, ) d ˆ = (resdual) (, ) ŷ = a + b = a + b ˆ forklart (predkert) 0 Defsjo E mste kvadraters regresjoslje 4 (MKV), ŷ = a + b, for med hes på for dataee, (, ), (, ),,(, ), bestemmes slk at ( ˆ ) ( ) = = = Q = d = = a b blr mst mulg. 4 Uttrkket regresjo har hstorsk opprelse og ge relevat betdg for eksemplee våre. Uttrkket ble først brukt vsse avedelser geetkk og har bltt hegede ved sde.

8 Dette er et veldefert mmergsproblem som har e etdg løsg (se regel ). Det er flere måter å fe mmum av Q= Qab (, ) på. De valgste er å sette de derverte av Q med hes på a og b lk ull sde de derverte av Q må være ull mmumspuktet. Da får v to lgger tl å bestemme a og b (husk at de derverte tl e sum er lk summe av de derverte): Q = = = = a a a d ( a b) ( )( a b) ( ) d = = = = Q = = = = b b b d ( a b) ( )( a b) ( ) d = = = = Dermed, ved å sette de to derverte lk 0, får v to lgger tl å bestemme a og b: () d = 0 (eller = ( a b) = 0 ) = () d = 0 (eller = ( a b) = 0 ) = Løsge er gtt ved regel (se appedks for detaljer): Regel Mkv regresjoslje for med hes på for data, (, ), (, ),,(, ), er gtt ved 5 lja ŷ = a + b, der s a = b og b = s Algebrae for å fe løsge er kke speselt vaskelg, me er kke pesum å kue beherske. De er derfor skrevet ut appedks som frvllg lesg for teresserte studeter. Fes også Løvås appedks B5 (sde 450). Regel vser e teressat relasjo mellom stggstallet, b, mkv-lja og de emprske korrelasjoskoeffsete, r. De forteller oe om r som v tdlgere bare har begruet tutvt. V ka emlg skrve s s s s s b = = = s ss s ss s 5 Med utak av spesaltlfellet at alle -ee er lke ( = c (kostat) for =,,, ). I så fall blr (hvorfor?) s = s = 0, og b = 00blr ubestemt. Mkv-lja er altså kke bestemt et slkt tlfelle. (Hvorda vl spredgsplottet se ut år alle -ee er lke?). Det tregs altså mst to forskjellge -verder for å kue bestemme e regresjoslje.

9 Sammehege mellom korrelasjoskoeffsete, r, og b, er altså gtt ved (3) s b= r s Dermed, sde s og skke ka være egatve, må b og r ha samme forteg. Dette betr at e postv korrelasjoskoeffset, r, er det samme som at mkv regresjoslja for mhp har postv stgg. Hvs r < 0, må regresjoslja helle edover ( b < 0 ), og hvs r = 0, er regresjoslja flat ( b = 0 ). Regeeksempel fortsatt: Sde v har allerede har bereget de fem gruleggede størrelsee, fort gjort å berege mkv-lja: s 7.409 b = = = 0.75 s 999.53 a = b = 3.536 (0.75)(40.636) = 6.7 s s s, er det,,,, De beregete mkv-lja blr således ˆ = 6.7 + (0.75) I fgur 4 har jeg latt Ecel tege mkv-lja spredgsdagrammet for mutvalget. Fgur 4 Mutvalg - 5 observasjospukter 0 8 6 4 -hatt = 0.75 + 6.7 0 08 380.00 390.00 400.00 40.00 40.00 430.00

0 Det ka også være struktvt å se hvor me av hver ekelt blr forklart (predkert) av. V ka å berege både ˆ og d, som er vst tabell 3: Tabell 3 Predkert = a + b Obs. r. 398.06.54.9-0.38 389.88 0.4 0.88-0.64 3 46.8.7 5.59-3.3 4 48.39 7.96 4.5 3.44 5 40.04 5.67 4.73 0.94 ˆ Resdual d = ˆ V ser at observasjo, og 5 ses rmelg bra forklart, mes observasjo 3 og 4 er dårlgere forklart. V forlater regeeksempelet og stller det aturlge spørsmålet om e foruftg måte å lage et samlet mål på hvor me forklarer av datamateralet. V tar da utgagspukt et uttrkk for total varasjo av -ee materalet og spør hvor stor adel av dee totale varasjoe er forklart av -ee va de predkerte -ee. Som uttrkk for total varasjo -ee brukes å kvadratsumme SS = ( ) T = der otasjoe SS T står for det egelske sum of squares total og er veldg valg statstsk og økoometrsk ltteratur. Merk at SS = ( ) s og eholder samme formasjo som T varasmålet s (sde er et fast tall for et gtt datamaterale). Tlsvarede deferer v (total)varasjoe av de forklarte (predkerte) dele av, emlg ˆ : R ( ˆ ˆ) sum of squares of regresso måler totalvarasjoe av de = SS = forklarte (predkerte) dele. Kalles ofte for forklart varasjo. Tlsvarede deferer v e kvadratsum for varasjoe av de uforklarte dele, d.

E = ( ) = = = ( sde () mplserer at d = 0 SS d d d ). Står for sum of squares of error som måler totalvarasjoe av de uforklarte dele (resdualee). Dsse varasjosmålee er budet samme ved følgede fudametale setg (regel 3) bevst appedks: Regel 3 (a) SST = SSR + SSE Regeformler: (b) SS = ( ) s (c) T E = m = = = SS Q d ( ) s ( r ) (der Q m er mmumsverde for Q) Vårt mål på adele av de totale varasjoe ( data) forklart av va mkv-lja blr å Defsjo Mål på forklart varasjo av data: SS SS R T som følge regel 3(a) må være et tall mellom 0 og. Ved å bruke regeformlee regel 3, får v ( ) ( ) R T s E E r T T T ( ) SS SS SS SS = = = = ( r ) = r SS SS SS s V har dermed bevst Regel 4 Adel forklart varasjo av mkv-lja, ŷ = a + b, er gtt ved SSR r SS = T der r er (de emprske) korrelasjoskoeffsete for data (, ), (, ),,(, ) Merk at regel 4 gr e tolkg av de emprske korrelasjoskoeffsete r mellom to varable og emlg at r ka tolkes som et mål på hvor me av varasjoe av data blr forklart av ( data) om v prøver å beskrve mest mulg av -ee ved e rett lje, ŷ = a + b. Om v omvedt forsøker å forklare ved data ved e mkv regresjoslje, ˆ = a+ b, vl v på gru av smmetre r få samme svar: 00 r % av varasjoe -

ee blr forklart ved de rette lja ˆ = a+ b, der b = s / s = r ( s / s ) og a = b (ved formlee ovefor der -ee og -ee btter plass). Merk at r ka alltd reges ut år v har data, (, ), (, ),,(, ), me ka kke alltd tolkes som e korrelasjoskoeffset for eksempel e stuasjo der -ee er gtte tall (som valgte verder av e satsfaktor) valgt ut av e forsøksleder, mes -ee er tlsvarede verder av e respos (output). I e slk stuasjoe har verde v får ved å rege ut r ge aturlg tolkg som e korrelasjoskoeffset. Me tolkge av r regel 4 er fortsatt megsfull. Det gr emlg ofte god meg å forsøke å forklare oe observerte verder av produktet,, ved oe utvalgte verder av satsfaktore,, ved e rett lje speselt stuasjoer der de valgte -ee kke varerer for me, som er uder forsøksleders kotroll. Regeeksempel fortsatt. I mutvalget på 5 observasjospukter fat v e korrelasjoskoeffset på r = 0.633 ( r = 0.400689 ) slk at 40% av varasjoe 500m tdee mutvalget blr forklart av 5000m tdee va mkv regresjoslje. V vlle ha fått samme svar (40%) om v omvedt hadde forsøkt å forklare 5000m-tdee ved 500m-tdee. I det opprelge utvalget på 7 observasjospukter (ute Ervk) ble r = 0.676 ( r = 0.456976 ), slk at 45.7% av varasjoe 500m-tdee data blr forklart av 5000mtdee. Noe geerelle egeskaper ved de emprske korrelasjoskoeffsete. Tl slutt er det verdt å eve at oe geerelle egeskaper ved de emprske korrelasjoskoeffsete, r, basert på data, (, ), (, ),,(, ), som ble evt begelse av avstt, følger drekte av regel 3: Sde SS E = d kke ka være egatv, følger av regel 3(c) at r 0, dvs. = være oppflt. V ser også av samme lgg at ekstremtlfellet, at SS E = r = (dvs. r må r = ± ) mplserer = d = 0. Sde alle leddee summe er kke-egatve, er dette ku mulg hvs alle d = 0, =,,, er oppflt. Sde d = a b, må så fall alle (, ) oppflle, = a + b, =,,, - dvs. alle observasjospuktee lgger (eksakt) på e rett lje. 4 Noe ord om tolkg av resultatee avstt og 3. V ser at v å har to forskjellge måter å uttrkke grade av leær sammeheg mellom to varable, og, basert på data, (, ), (, ),,(, ) : () Berege (de emprske) korrelasjoskoeffsete, r.

3 () Berege mkv-regresjoslje av med hes på, basert på data, (, ), (, ),,(, ). Spørsmål : Så hva er de beste måte? Svaret på det avheger av problemstllge. Merk at r er helt smmetrsk bgget opp og gr samme svar uasett om v øsker å forklare ved hjelp av eller, omvedt, om v øsker å forklare ved hjelp av. Metode () er foruftg oe (smmetrske) stuasjoer. Metode (), dermot, er mer skreddersdd for de (kaskje mer valge) asmmetrske stuasjoe der v har e avhegg varabel (resposvarabel),, v øsker å forklare ved hjelp av e forklargsvarabel,, (jamfør, for eksempel, de adre merkade etter regel 4). Uder () vl sammehege faktsk se forskjellg ut, avhegg av om v prøver å forklare ved hjelp av, eller om v prøver å forklare ved hjelp av. I regeeksemplet prøvde v ( mutvalget) å forklare (500m-td) ved (5000m-td), kaskje motvert ut fra at 5000m-løpet går dage før 500m-løpet for me. Aalse resulterte mkv-regresjoslje, (a) ˆ = 6.7 + (0.75) På de ae sde, er det kke oe som hdrer oss å være teressert det omvedte problemet, emlg å forklare 5000m-tde ved prestasjoe på 500m. V ka fort berege mkv-regresjoslje for med hes på ved smpelthe å btte om og alle formlee (merk at r så fall kke edrer seg (hvorfor)?). V har alt v treger tallee uder tabell avstt, og får (sjekk selv!) mkv-lja for med hes på : (b) ˆ = 54.38 + (3.40) Merk at stggstallet (b) kke er lk /(stggstallet (a)), som v vlle hatt dersom alle observasjospuktee hadde lgget eksakt på e rett lje. De to svaree er altså forskjellge (år r < ) og således avhegg av problemstllge. Spørsmål : Hvorda tolkes resultatee ovefor forhold tl populasjoe data er hetet (trukket) fra? Svaret avheger sterkt av vår statstske modell for populasjoe - dvs. av hvlke forutsetger v er vllge tl å postulere om populasjoe. Hvs v kke er vllg tl å forutsette oe om populasjoe, vl aalse ovefor være helt tom dvs. kke s oe som helst om populasjoe v er teressert. Med adre ord, ute oe deer om populasjoe har v kke oe grulag for å tolke resultatee ovefor utover datamateralet selv. Så hva er populasjoe her? Dette er kke oe trvelt spørsmål. Speselt spørsmålet om avgresg ka være problematsk. Hvlke skøteløpere skal være represetert populasjoe? Bare de 7 som deltok ved EM Heerevee 004, eller adre også? De valge måte å ærme seg dette problemet på, er første omgag å hoppe bukk over problemet med avgresg og rett og slett erstatte populasjoe med e statstsk modell. E statstsk modell for e slk populasjo omfatter grovt sett to tg, () e lste over hvlke stokastske (og adre tper) varable som våre data atas å være observasjoer av, og () et sett av forutsetger v er vllg tl å gjøre om saslghetsfordelgee for de stokastske varablee som går.

4 I det speselle tlfellet at (, ), (, ),,(, ) ka betraktes som uavhegge og ret tlfeldge observasjoer av et stokastsk varabel-par ( XY, ), som dskutert første del av avstt, vl populasjoe være represetert ved de stokastske varablee X og Y samme med de forutsetgee v er vllg tl å forutsette om (de smultae) saslghetsfordelge tl ( XY, ). Er dette e rmelg modell for vår stuasjo? Tvlsomt! 6 For det første er det kke rmelg å ata at skøteløpere er tlfeldg trukket ut de er vel sarere behedg valgt ut av forskjellge lads skøteforbud. For det adre vrker det tvlsomt å ata at alle tdee oppådd data stammer fra samme fordelg og med at det er store dvduelle forskjeller teeve mellom de forskjellge skøteløpere. Et alteratv som tar hes tl dsse vedgee ka være de ekle regresjosmodelle som Løvås setter opp avstt 7.3.. I de modelle erstattes Y med stokastske varable, Y, Y,, Y, e for hver skøteløper, og observasjoe oppfattes som e observasjo av Y. På de ae sde oppfattes -ee (5000m-tdee) som gtte tall (som ka være rmelg her sde v øsker å forklare Y -ee ved -ee). Sammehege uttrkkes ved å postulere (derα kalles alfa og β kalles beta ) Y = α + β + e for =,,, der e, e,, e atas å være stokastsk uavhegge restledd som alle forutsettes å ha forvetg, Ee ( ) = 0, og samme varas, var( e ) = σ. Dette mplserer at Y har forvetg EY ( ) = α + β + Ee ( ) = α + β som altså varerer med 5000m-tde. V ser dermed at fordelge tl Y varerer med sde forvetge varerer med. Y er altså e stokastsk varabel som måler 500m-tde for e løper som dage før har oppådd e 5000m-td på. Saslghetsfordelge for Y atas å være et uttrkk for utallge tlfeldgheter som ka splle ved et slkt 500m-løp som dagsform, ses kvaltet, osv. Dee modelle, som altså atas å represetere populasjoe dataee er trukket fra, eholder tre ukjete parametre, αβ, og σ de forstad at deres sae verder er ukjete. Modelle er de ekleste varate av e regresjosmodell, og de eeste som behadles dette kurset. Det vser seg (jfr. kapttel 7 Løvås) at hvs dee modelle ka ases som e akseptabel beskrvelse av populasjoe dataee, (, ), (, ),,(, ), er trukket fra, så vl mkvregresjoslje ovefor vse seg være det beste estmatet for (de ukjete) regresjoslja, = α + β populasjoe, og v ka tolke dataee forhold tl dee modelle, ved bruk av teore kapttel 6 og 7. V vl komme tlbake tl dette et seere otat år relevat teor fra kapttel 6 er etablert. 6 For mutvalget på 5 v brukte som regeeksempel, kue dette opplegget passe. Populasjoe v trekker fra er da gtt ved de opprelge 7 observasjospuktee, og utvalget er trukket represetatvt dvs. slk at alle mulge utvalg på 5 fra de 7 er lke saslge.

5 Øvelse Ecel Du treger module Data aalss for å løse oppgave. Sjekk at Data aalss lgger på data-mee. Hvs kke, må de legges tl ( add ): I Ecel versjo 007: Start fra offce butto (e srkel øverst tl vestre på Ecel-arket). Klkk så på ecel optos helt ederst på mee som kommer fram. Og vdere: offce butto ecel optos add-s marker Aalss toolpack Klkk Go.. merk av Aalss toolpack klkk OK. (I Ecel 00 btt ut offce butto med fle øverst tl vestre på mee. Ellers det samme. I eldre Ecel: Fra mee: tools add-s merk av Aalss toolpack klkk OK.) ) Last ed skøtedataee fra http://folk.uo.o/haraldg/. ) Lag to koloer ved sde av hveradre -ee (5000m) og -ee (500m), målt sekuder (ute Eskl Ervk). 3) Bereg,, s, s, s [Fås fra Descrptve Statstcs eller fra Covarace 7, begge ruter Data aalss ] 4) Bereg a, b, SST, SSR, SS E fra de fem verdee 3). 5) Kjør Ecels regresjosrute ( regresso Data aalss ) og detfser a, b, SST, SSR, SS E utskrfte. 6) Reproduser fgur ( avstt ) 7 E lte modfkasjo: Covarace gr kke eksakt s, s, s, me s, s, s multplsert med ( ) / som ebærer at Ecel der deler summee på stedefor. For å få fram våre multplsere tallee Covarace med ( ). hos oss. s og s, s, s, bør ma altså s fra Descrptve Statstcs dermot er defert som

6 Appedks Det kreves kke dette kurset at ma behersker algebrae bak formlee ovefor. Det som kreves er at ma ka bruke formlee og stort sett skjøer hva de står for. På de ae sde er kke algebrae verre e at studeter på forutsatt vå for Eco 30 bør kue følge med på de, og oe vl (forhåpetlgvs) være sgjerrge over å vte hvorda formlee har oppstått. Uasett slpper ma kke ua e grudgere treg dee algebrae seere (økoometr-) kurs. Algebrae er preget av summer. For dem som føler seg utrgge med summe-mapulasjoer har jeg oppsummert de vktgste reglee avstt A. A (a) (b) (c) Noe regler for summer Ifølge e vktg regel for summer betr 3 det samme som = (+ + + ) 3. Med adre ord, 3 hører kke med uder summeteget. Om ma øsker at 3 skal være med uder summeteget, må ma bruke paretes: ( 3) = 3+ 3+ + 3 = (+ + + ) 3. = Regele ka beskrves slk: Hvs uttrkk() (for eksempel 3) summe uttrkk() selv er e sum beståede av flere ledd ( eksempelet er det to ledd, = og 3), gjelder summeteget ku for det første leddet altså tl første pluss eller mus (mellom ledd) dukker opp uttrkket. Hvs ma øsker at summeteget skal omfatte mer e bare første ledd, må ma bruke paretes. Hvs c er e kostat, er [ = = c = c c = c + c + + c = c ] E felles faktor e sum ka settes utefor summe: [ c + c + + c = c ( + + + ) ] c = c = = (d) Hvs abcd,,, er kostater, gjelder () ( a + b + c + dz ) = a + b + c + d z = = = = [E måte å se dette på er å skrve ut summe tl vestre, orde om på leddee og bruke (c). V vet jo at edrg av rekkefølge av leddee e sum kke edrer

7 summe, som for eksempel, 3 5= 5+ 3. Skrevet ut får v: = ( c ) ( a + b + c + dz ) = = a + b + c + dz + a + b + c + dz + + a + b + c + dz = = a + + a + b + b + + b + c + c + + c + dz + dz + + dz = [ ] [ ] [ ] = a + b + + + + c + + + + d z + z + + z som er lk uttrkket tl høre (). Merk også at paretese uttrkket tl vestre () spller e vktg rolle. Ute paretes vlle følge (a) summe bare kludere første ledd som er a. V vlle fått a + b + c + dz = a + b + c + dz ] = (e) m m Multplkasjo av summer: ab j = a bj j= = = j= [ Bevs: Merk at dobbeltsumme tl vestre betr m m ab = ab j j j= = j= =, dvs. at v først summerer over ( de erste summe) mes v holder j fast. Deretter summerer v over j. Resultatet får v så av regel (c) som følger: m m m ab ab j j [ ab ab ab j j j] = = + + + = j= = j= = j= ( c) m ( c) [ ] [ ] = b a + a + + a = a + a + + a b j j j= j= sde [ a + a + + a ] er e felles faktor de est sste summe og som derfor ka settes utefor følge (c). Det sste uttrkket er kke oe aet e m m a b j = j= ] A Bevs for regel 3 (Frvllg lesg) Regel : Det er ok å vse (c) ( ) s = ( )( ) =, sde (a) og (b) følger av = = (c) ved å sette = for alle (c): V bruker A og får A( d) ( )( ) = ( + ) = + = = = = = Nå er = (av defsjoe av gjeomstt) og = = =, og v får ( )( ) = + = = = = Bevs slutt.

8 Regel : Oppgave er å løse lggee () og () med hes på a og b, der () d = 0 (eller = ( a b) = 0 ) = () d = 0 (eller = ( a b) = 0 ) = Av () og A(d) får v A( d) 0 = ( a b ) = a b = a b = = = Deler v med på begge sder, får v 0 = a b, som gr (4) a = b Av () og A(d) får v (5) A( d) a b a b a b = = = = = 0 = ( ) = ( ) = Av regel fer v uttte at som vser at = ( ) s + og = ( ) s + = = =, får v ved settg (5) =. Ved tllegg (4) ( ) ( ) ( ) 0 = ( ) s + a b ( ) s + = = ( ) s + b b ( ) s + = = ( ) s + + b b( ) s b = ( ) s b( ) s = ( )( s bs ) = s (6) b = er løsge. s Stregt tatt er det ødvedg å vse at løsge gtt ved (4) og (6) faktsk bestemmer et mmum for Q. Jeg hopper over de dele og hevser tl Sdsæter for dette (for å slppe å brge matrse av aederverte av Q og des determat. Om ma lkevel vl gjøre det, er det kke vaskelg å fe de ae-derverte og se at både determate og

9 hoveddagoalelemetee er postve, som er e tlstrekkelg betgelse for mmum her.) Bevs slutt. Regel 3: (a) SST = SSR + SSE Resultatet følger gje okså drekte av relasjoee () og (). Det første v merker oss, er at -ee og ˆ -ee må ha samme gjeomstt, ŷ =. Dette følger av () sde 0 = d ( ˆ ) ˆ = = ˆ =. Deler v begge sder på, får v ŷ, eller = = = = =. Dermed ka v forekle R ( ˆ ). = SS = SS R tl Ved å legge tl og trekke fra ˆ, får v for alle ˆ ˆ ˆ = + = + d som gr ( ) = ( ˆ ) + d + ( ˆ ) d Ved å ta summe av begge sder får v (jfr A) = = SS = SS + SS + ( ˆ ) d T R E = Bevset vl være fullført om v ka vse at de sste summe er ull. Dette følger av () og () ved: A( d) () A( d) ( ˆ ) d = ˆ d d = ˆ d = ( a + b ) d = ad + b d = = = = = = = = og bevset for (a) er fullført. = = (),() = a d + b d = 0 (b) følger av defsjoe på Bevs for (c): s. Ved å legge tl og trekke fra d og sette for a fra (4), får v for hver d = a b = + ( b) b = + b b = = b ( )

0 Dermed m = = ( ( )) Q = d = b = A = ( ) b ( ) b( )( ) = = = + = = + = ( ) s b ( ) s b( ) s (6) s s s s =( ) s + s ( ) 4 s = s + = s s s s s s = ( ) s ( ) s ( ) = s = s r s s ss Altså SS = Q = s r E m ( ) ( ) Bevs slutt.