Kort overblikk over kurset sålangt

Like dokumenter
Inferens i regresjon

10.1 Enkel lineær regresjon Multippel regresjon

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Kapittel 3: Studieopplegg

Statistikk og dataanalyse

Inferens i fordelinger

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Utvalgsfordelinger (Kapittel 5)

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

vekt. vol bruk

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

EKSAMENSOPPGAVER STAT100 Vår 2011

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

HØGSKOLEN I STAVANGER

Fasit for tilleggsoppgaver

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

HØGSKOLEN I STAVANGER

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

TMA4240 Statistikk 2014

Introduksjon til inferens

TMA4240 Statistikk Høst 2009

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

Løsningsforslag: STK2120-v15.

Løsningsforslag eksamen STAT100 Høst 2010

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Kan vi stole på resultater fra «liten N»?

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Regler i statistikk STAT 100

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk Høst 2016

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Høst 2012

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

ST0202 Statistikk for samfunnsvitere

Om eksamen. Never, never, never give up!

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

TMA4240 Statistikk Høst 2018

ECON240 VÅR / 2016 BOKMÅL

TMA4240 Statistikk Høst 2016

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Fra første forelesning:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

TMA4245 Statistikk Eksamen desember 2016

Formelsamling i medisinsk statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Løsningsforslag eksamen 25. november 2003

UNIVERSITETET I OSLO

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Innhold. Innledning. Del I

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

i x i

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

TMA4240 Statistikk H2010

Oppgave N(0, 1) under H 0. S t n 3

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kapittel 2: Hendelser

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Eksamen i. MAT110 Statistikk 1

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Introduksjon til Generaliserte Lineære Modeller (GLM)

Transkript:

Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente data Kapittel 4: Sannsynlighet og sannsynlighetsmodeller for en variabel Kapittel 5: Sannsynlighetsfordelingen til et gjennomsnitt Kapittel 6: Statistisk inferens for en variabel Kapittel 7: Statistisk inferens for sammenligning av to grupper 1

Kapittel 10: Inferens i regresjon I Kapittel 1, 4, 5 og 6 så vi på en variabel i en populasjon. Først med deskriptiv statistikk, deretter med sannsynlighetsmodeller og tilslutt inferensmetoder for forventning som konfidensintervall og hypotesetesting. Her skal vi først repetere den deskriptive statistikken for samvariasjon mellom to variable, spesielt med lineær regresjon. Deretter setter vi opp samvariasjonen som en sannsynlighetsmodell og dermed utvikles metoder for statistisk inferens når det er en responsvariabel og en forklaringsvariabel. 2

Eksempel BMI (body mass index) og fysisk aktivitet, n=100 Respons: BMI Forklaringsvariabel: Fysisk aktivitet målt ved skritteller i en uke. 3

De deskriptive teknikkene og numeriske mål vi har sett vil vise seg nyttige: Spredningsplott Tilpasning av regresjonslinje med minste kvadraters metode Korrelasjon. 4

Husk hvordan gjennomsnitt / forventning er blitt behandlet: x x Data. Gjennomsnittet er senter i fordeling,,..., n 1 2 x Data er realisasjoner av tilfeldig variable med forventning m Gjennomsnittet har (tilnærmet) fordeling Et 95% konfidensintervall for m blir gitt ved 1 n x x x N( m, / n) og man kan tilsvarende teste hypoteser om m. i X i x t* s/ n 5

Vi skal følge et tilsvarende oppsett for lineær regresjon Vi har data ( x, y ),...,( x, y ) 1 1 n n Vi postulere en lineær sammenheng mellom x-er og y-er og estimerer en regresjonslinje yˆ b bx med minste kvadraters 0 1 metode for å beskrive denne sammenhengen. Vi antar at responsene y er realisasjoner av tilfeldige variable i med forventning m + x gitt x x y 0 1 i Y i De estimerte b og b blir tilfeldige variable med forventninger 0 1 og samt med standardfeil som kan beregnes. 0 1 Basert på dette kan vi teste hypoteser om og lage konfidensintervall. for og 0 1 og dessuten for verdien av regresjonslinja 6 m + x. y 0 1

Enkel lineær regresjon dreier seg om forholdet mellom en responsvariabel y og en forklaringsvariabel x. Her er det viktig å legge merke til at fordelingen til responsvariabelen avhenger av verdien til forklaringsvariabelen. Dette generalisererer situasjonen vi har sett tidligere med to utvalg. Der er det to populasjoner. 7

8

I lineær regresjon kan forklaringsvariabelen ha mange verdier. For hver fast, fiksert verdi defineres en subpopulasjon, som består av alle enhetene som har denne spesielle verdien. 9

Legg merke til at fordelingen for responsene y avhenger av i forklaringsvariablen x gjennom spesifikasjonen av forventningen i m x y 0 1 Dette er populasjonsmodellen for enkel lineær regresjon - som behandles i Kapittel 10. I Kapittel 11 skal vi utvide dette til å se flere forklaringsvariable samtidig og se på en multippel lineær regresjonsmodell m x x x y 0 1 1 2 2 p p 10

Responsverdiene y som observeres for en bestemt verdi av forklaringsverdien x vil variere rundt verdien av linja for denne verdien, dvs rundt 0 1 x Spredningen rundt denne verdien antas å være den samme, og gitt ved standardavviket, for alle x. Modellen har altså tre parametre,, og. 0 1 I tillegg vil vi anta at variasjonen rundt normalfordelt, dvs. y er N( x,. x 0 1 ) 0 1 er Dette er det samme som at vi kan skrive der feilleddene (støyen/varisjonen) er y x 0 1 N(0, ) 11

12

Men først må parametrene, og estimeres. 0 1 For å estimere og brukes koeffisientene b og b fra 0 1 0 1 minste kvadraters metode. Hovedtrekkene i utledningen av minste kvadraters metode repeteres på følgende slider. 13

Eksempel Spredningsplottet nedenfor viser sammenheng mellom endring i vekt i kg og endring i aktivitet som ikke er knyttet til trening, AIT målt i kalorier, i en studie av 16 unge voksne. Rastsløse personer har typisk høy AIT. 14

15

Anta at m x er regresjonslinja. Med denne får vi 0 1 prediksjoner yˆ b b x når forklaringsvariablen er lik x. i 0 1 i i Da er ( xy, ˆ ) det punktet på regresjonslinja som ligger i i rett o ver eller under ( xy, ). Avstanden mellom de to punkten er i y yˆ y b b x i i i 0 1 i i og den kvadrerte avstanden blir ( y yˆ ) ( y b b x ) 2 2 i i i 0 1 i slik at summen av de kvadrerte avstandene blir ( y b b x ) i 0 1 i 2 16

17

Formlene for minste kvadraters estimatorene for er gitt ved s b r og b y - b y 1 0 1 sx x b og b 0 1 Her er som før x gjennomsnittet av x,..., x 1 n y gjennomsnittet av y,..., y 1 n s standardavviket for x,..., x x 1 n s standardavviket for y,..., y y 1 n r korrelasjonen for ( x, y ),...,( x, y ) 1 1 n n Merk at b og b avhenger av observasjonene y,, y som er 0 1 1 n tilfeldige variable (samt av x,, x ). Da er også b og b tilfeldige variable! 0 1 1 n 18

Det kan vises at b og b 0 1 er forventningsrette estimatorer for hhv. og : 0 1 og m b 0 m b 1 0 1 Dessuten er både b og b lineærkombinasjoner av 0 1 som vi har antatt er normalfordelte. y, y,, y 1 2 n Det følger at da er også og b er normalfordelte. b0 1 Med en utvidet versjon av sentralgrenseteoremet kan vi også vise at b og b er tilnærmet normalfordelt selv om y, y,, y 0 1 1 2 n og ikke selv er normalfordelte.,,, n 1 2 19

Et annet resultat som kan vises er at variansen til estimatoren for stigningsforholdet er lik 1 b 1 2 1 ( ) 2 x x ( n 1) sx 2 2 2 b i der s2 x er den empiriske variansen til x-ene. Dette betyr at variansen til estimatoren b typisk blir mindre 1 når n vokser og at b vil ligge nær når n er stor. 1 1 Tilsvarende resultater holder for estimatoren for konstantleddet. 0 b 0 20

Størrelsen yˆ b b x er den predikerte verdi av responsen y med i 0 1 i i forklaringsvariabel x. i Da er yˆ en forventningsrett estimator for m x i y 0 1 i Residualene er definert ved e i observert verdi - predikert verdi y yˆ i i Residualene e er de empiriske motstykkene til feilleddene. Blant annet har vi til er lik = 0. m i i e =0 i svarende til at forventning i Men feilleddene kan ikke observeres, så f.eks. modellsjekk i må gjøres med residualene. e i 21

22

Eksempel: BMI og fysisk aktivitet. Det skal ikke stor verdi av n til før det lønner seg å beregne verdien av estimatorene, estimatene, i en enkel lineær regresjon ved hjelp av en statistikkpakke. På de neste slidene følger utskrift fra noen vanlige programpakker: Regresjonslinja er BMI = 29.5578 0.655 PA Men først strukturen for data som skal benyttes i regresjon: 23

24

25

26

27

28

En viktig del av modeltilpasning er å undersøke hvorvidt modelforutsetningene holder. Det kan omfatte residualsjekk for å avdekke normalitet konstant varians andre mønstre i data, som ikke-linearitet og outliere. avhengige data, f.eks. ved at dataene er samlet inn i en «rekkefølge» Første steg er å plotte residualene mot forklaringsvariablene og eventuelt «rekkefølgen» på observasjonene. 29

Eksempel: BMI og fysisk aktivitet. Plott av residual mot forklaringsvariabelen PA Hvis man ser klare mønstre i dette residualplottet så tyder dette på ikke-linearitet. I dette eksempelet er avviket ikke markant. 30

Eksempel: BMI og fysisk aktivitet. Det samme plottet kan også avsløre om variansen er konstant, noe som svikter hvis det er markant større spredning ved store eller små verdier av x-variablen. Her: Ingen grunn til å tro at variansen ikke er konstant. 31

For å sjekke om feilleddene i er normalfordelte kan vi lage et normalfordelingsplott over residualene e i. Alternativt kan vi se på et histogram over e i -ene. Men: (Små) avvik fra normalfordeling er ikke kritisk! 32

33

34

For å teste nullhypotesen H : = 0 benyttes t-statistikken 0 1 t b1 SE b 1 Når H : = 0 holder vil denne t-statistikken være trukket fra 0 1 en T-fordeling med n-2 frihetsgrader. La i det følgende T være en tilfeldig variabel fra denne fordelingen. P-verdien for testen vil avhenge av hvilket alternativ vi bruker. Standard er å rapportere P-verdier fra tosidige tester. 35

P-verdien for H : = 0 blir 0 1 med ensidig alternativ hypotese H a : < 0 : P( T < t ) 1 med ensidig alternativ hypotese H a : > 0 : P( T > t ) 1 med tosidig alternativ hypotese H a : 0 : 2 P( T > t ) 1 36

Tilsvarende finner vi P-verdier for testing av H : = 0. 0 0 Utskrifter fra programpakker inneholder vanligvis slike P-verdier, men legg merke til at de egentlig ikke er spesielt interessante. Nullhypotesen H : = 0 forteller oss bare hva m er når x=0. 0 0 y Nullhypotesen H : = 0 er vesentlig mer interessant! 0 1 For hvis 0 så vil forventningen m = + x avhenge av x. 1 y 0 1 Tilsvarende hvis = 0 så er vi tilbake til en 1 ett-utvalgssituasjon m = for alle x. y 0 37

38

Vi vil kanskje i utgangspunktet tro at < 0 og det kan derfor 1 være naturlig med ensidig alternativ hypotese H : < 0. Det gir en p-verdi som er halvparten så stor, noe som i dette tilfellet kan regnes ut til å være 0.0000368. Dette tallet kan vi ikke finne eksakt i Tabell D. Det nærmeste vi finner er at med 80 frihetsgrader er P(T 3.300) 0.0005 og med 100 frihetsgrader blir P(T 3.390) 0.0005. Så vi innser at P-verdien må være veldig liten. a 1 39

95% Konfidensintervall for 1 : Trenger kritisk verdi for T-fordelingen med n-2=98 frihetsgrader, men i Tabell D finner vi bare 80 og 100 frihetsgrader. Vi bruker da 80 frihetsgrader siden dette er konservativt, dvs. dette gir et litt for bredt intervall. 97.5 persentilen med 80 frihetsgrader er t * = 1.99. Dermed blir intervallet b 1 1.99 SE -0.655 1.99 x 0.1583 = 0.655 0.315 b 1 = ( 0.970, 0.340) 97.5 persentilen med 98 frihetsgrader er t * = 1.984. Det endrer intervallet til ( 0.969, 0.340) som er eksakt det som SAS og SPSS oppga. 40

Denne typen intervall kalles "prediksjonsintervall". 41

42

Eksempel: BMI og fysisk aktivitet. Konfidensintervaller for forventet respons. 43

44

45

46

47

48

Eksempel: BMI og fysisk aktivitet. Prediksjonsintervaller for BMI. 49

50

En viktig modelforutsetning er at sammenhengen mellom respons- og forklaringsvariabelen kan beskrives ved en lineær sammenheng, dvs en regresjonslinje. Når denne forutsetningen ikke er til stede, kan transformasjon av dataene hjelpe. Eksempel: Bilers ytelse MPG: antall miles pr gallon, dvs bensinforbruk MPH: gjennomsnittshastighet. Fra et plott med 60 observasjoner ser man at selv om det er positiv sammenheng, er den ikke helt lineær. 51

Rødt: Minste kvadrater Blått: Glatting

Men MPG mot log MPH ser mye mer lineært ut. Men et plott av MPG mot log (MPH) er langt mer lineært. Rødt: Minste kvadrater Blått: Glatting 53