ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Lineær regresjonsanalyse (13.4)

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

10.1 Enkel lineær regresjon Multippel regresjon

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

TMA4240 Statistikk Høst 2016

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kort overblikk over kurset sålangt

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Eksamensoppgave i TMA4245 Statistikk

TMA4245 Statistikk Eksamen desember 2016

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Inferens i regresjon

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Statistikk og dataanalyse

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

TMA4240 Statistikk 2014

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Inferens i fordelinger

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

HØGSKOLEN I STAVANGER

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Kapittel 3: Studieopplegg

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Fasit og løsningsforslag STK 1110

Eksamensoppgave i TMA4240 Statistikk

Kapittel 2: Hendelser

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Testobservator for kjikvadrattester

TMA4240 Statistikk H2010

Oppgave N(0, 1) under H 0. S t n 3

TMA4245 Statistikk Eksamen august 2014

Om eksamen. Never, never, never give up!

Eksamensoppgåve i TMA4255 Anvendt statistikk

Fasit for tilleggsoppgaver

Om eksamen. Never, never, never give up!

Eksamensoppgave i TMA4255 Anvendt statistikk

Kp. 12 Multippel regresjon

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA-1001.

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Utvalgsfordelinger (Kapittel 5)

STK Oppsummering

UNIVERSITETET I OSLO

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Løsningsforslag, eksamen statistikk, juni 2015

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Regresjon med GeoGebra

Eksamensoppgave i ST0103 Brukerkurs i statistikk

DEL 1 GRUNNLEGGENDE STATISTIKK

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum, men den lineære korrelasjonskoeffisienten r er behandlet i Kap. 3 (se tidligere slides). Nytt i kap. 13.1.13.3 er at det gjøres statistisk inferens om populasjonskorrelasjonskoeffisienten ρ basert på utvalgskorrelasjonskoeffisienten r.

3 Lineær regresjonsanalyse (13.4) Eksempel fra Kap. 3: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Student Push-Ups Sit-Ups 1 27 30 2 22 26 3 15 25 4 35 42 5 30 38 6 52 40 7 35 32 8 55 54 9 40 50 10 40 43

Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Idé i lineær regresjonsanalyse: Tilpass en rett linje av formen: ŷ = b 0 + b 1 x der x er antall push-ups og ŷ er predikert (anslått) verdi for sit-ups.

Den beste linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 er funnet ved minste kvadraters metode ( least squares method ). For x = 40 push ups, anslår (predikerer) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.

6 Minste kvadraters ( least squares ) metode (fra Kap. 3.4) Har utvalg av n sammenhørende par (x, y). Ønsker en regresjonslinje: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er der b 1 = SS(xy) SS(x) y b1 x b 0 = n SS(x) = x 2 ( x) 2 n SS(xy) = xy ( x)( y) n

7 Lineær regresjonsanalyse: Populasjonsmodell For gitt x observerer vi y, der y = β 0 + β 1 x + ɛ ɛ er normalfordelt med forventning 0 og varians σ 2 ɛ β 0, β 1 og σ 2 ɛ er ukjente populasjonsparametre. y er dermed normalfordelt med forventet verdi β 0 + β 1 x og varians σ 2 ɛ Antagelse for inferens i lineær regresjon Baserer på et tilfeldig utvalg av n par (x, y). De tilsvarende ekseperimentfeilene ɛ kan da antas uavhengige og normalfordelte med samme varians σ 2 ɛ. Dermed vil også de n y-ene være normalfordelte og uavhengige.

8 Eksperimentfeil og residualer Modell for populasjonen er altså: y = β 0 + β 1 x + ɛ, dvs. y ligger ideelt sett på en teoretisk linje y = β 0 + β 1 x, men med avvik ɛ som kalles eksperimentfeil eller tilfeldige feil. Fra vårt utvalg estimerer vi den teoretiske linja ved minste kvadraters metode: ŷ = b 0 + b 1 x og rekonstruerer eksperimentfeilen ɛ med: Estimat for eksperimentfeilen (også kalt residual eller feil) e = y ŷ dvs. forskjellen mellom en observert y og det tilsvarende punkt på den estimerte linja.

Illustrasjon av residual e: Linja er ŷ = b 0 + b 1 x. Estimert eksperimentfeil (også kalt residual eller feil ) er e = y ŷ NB! e 3 på figuren er negativ, da punktet ligger under linja.

10 Punktestimater β 0 og β 1 estimeres ved b 0 og b 1 (minste kvadraters metode) Punktestimat for σ 2 ɛ, i boka kalt Variance of the Error, e: s 2 e = (y ŷ) 2 n 2 der n 2 er antall frihetsgrader (for senere bruk). Regneformler: s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 = SS(y) b 1SS(xy) n 2

Eksempel 13.5: Reisetid til arbeid mot avstand til arbeid. arbeider miles x minutter y 1 3 7 2 5 20 3 7 20 4 8 15 5 10 25 6 11 17 7 12 20 8 12 35 9 13 26 10 15 25 11 15 35 12 16 32 13 18 44 14 19 37 15 20 45

Estimert regresjonslinje: ŷ = 3.64 + 1.89x

SS(x) = (x 2 ) ( x) 2 n = 2616 (184)2 15 = 358.9333 SS(xy) = (xy) x y n = 5623 (184)(403) 15 = 679.5333 b 1 = SS(xy) = 1.893202 = 1.89 b 0 = SS(x) = 679.5333 358.9333 y (b1 x) n = 403 (1.893202)(184) s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) n 2 15 = 3.643387 = 3.64 = 12493 3.643387 403 1.893202 5623 15 2 = 29.17 slik at s e = 29.17 = 5.40 er estimert standardavvik for feilen ɛ.

Problemstillinger for statistisk inferens i reisetidseksemplet: 1. Har reisetiden tendens til å øke når avstand til arbeid øker? 2. Du bor i avstand x fra jobben. Hva er gjennomsnittlig reisetid for ansatte med denne avstanden? 3. Hva blir din reisetid?

15 Inferens om stigningstallet β 1 for regresjonslinja y = β 0 + β 1 x (13.5) Populasjonsparameter β 1 Punktestimat: b 1 Estimat for varians og standardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-konfidensintervall for β 1 : s 2 e SS(x) b 1 ± t(n 2, α/2) s b1

16 (Forts.) Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med n 2 frihetsgrader hvis H 0 gjelder.

Eksempel med reisetid (forts.) Øker reisetid y når avstand x øker? (dvs. er β 1 > 0)? Vi har s 2 b 1 = så testobservatoren blir H 0 : β 1 = 0 mot H a : β 1 > 0 s2 e SS(x) = 29.1723 = 0.081275 = 0.0813 358.9333 t = b 1 s b1 = 1.89 0.0813 = 6.63. α = 0.05 gir kritisk verdi t(15 2, 0.05) = t(13, 0.05) = 1.77 Vi har t = 6.63 > 1.77 så vi forkaster H 0.

Konfidensintervall for β 1 er presentert tidligere: b 1 ± t(n 2, α/2)s b1 Et 95% konfidensintervall for β 1 i reiseeksemplet blir derfor: 1.89 ± t(13, 0.025) 0.0813 = 1.89 ± 0.62

19 Prediksjon i lineær regresjon (13.6) Spørsmål: Hva kan vi si om en uobservert y for en gitt x-verdi lik x 0? Populasjonsgjennomsnitt: µ y x0 = β 0 + β 1 x 0 Punktestimat for µ y x0 (punktprediksjon for y): ŷ = b 0 + b 1 x 0 (1 α)-konfidensintervall for µ y x0 : 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) (1 α)-prediksjonsintervall for den uobserverte y: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x)

Eksempel med reisetid (forts.) Du vurderer å kjøpe et hus i avstand x 0 = 7 miles fra jobben. Hva er forventet reisetid til jobben herfra? Svar: µ y 7 = β 0 + β 1 7. Hva er punktestimatet for µ y 7? Svar: ŷ = 3.64 + 1.89 7 = 16.87 Hva er et 95% konfidensintervall for µ y 7? Svar: 1 ŷ ± t(n 2, α/2)s e n + (x 0 x) 2 SS(x) 1 (7 12.27)2 = 16.87 ± t(13, 0.025)5.40 + 15 358.933 = 16.87 ± 4.43 der vi har brukt at x = 184/15 = 12.27 og t(13, 0.025) = 2.16 fra tabell 6.

Hva er et 95% prediksjonsintervall for µ y 7? Svar: ŷ ± t(n 2, α/2)s e 1 + 1 n + (x 0 x) 2 SS(x) = 16.87 ± 2.16 5.40 1 + 1 (7 12.27)2 + 15 358.933 = 16.87 ± 12.48 Hva er forskjellen mellom et konfidens- og prediksjonsintervall? Konfidensintervallet gir et anslag for gjennomsnittlig reisetid for de som bor 7 miles fra jobben. Konfidensintervallet vil bli mer nøyaktig (smalere) jo flere arbeidere (n) som er med i undersøkelsen. Du er imidlertid mer interessert i hva som blir din reisetid, ikke hva som er gjennomsnittet for alle med 7 miles vei. Prediksjonsintervallet er et intervall der din reisetid vil ligge med sannynlighet 95%. Den tar hensyn til eksperimentfeilen σ ɛ, som er usikkerheten i en enkel observasjon av y. Prediksjonsintervallet går ikke mot null i bredde når n vokser.

95 % konfidensintervall og prediksjonsintervall ved x = 7 miles y.minute 10 20 30 40 5 10 15 20 x.miles

95 % konfidensintervall (CI) og prediksjonsintervall (PI) tegnet som funksjon av x

Eksamensoppgaver med regresjon: Høst 2008, Oppgave 2 Høst 2007, Oppgave 2 Vår 2006, Oppgave 4 Vår 2004, Oppgave 2e Høst 2003, Oppgave 4d Høst 2002, Oppgave 3d Alvorlige trykkfeil i boka: Ligning (13.4) side 713: Skal være y istedenfor ŷ Ligning (13.16) side 730: Skal være kvadratrottegn over siste del, dvs. ŷ ± t(n 2, α/2) s e 1 + 1 n + (x 0 x) 2 (13.16) SS(x)