Matematisk statistik 9 hp, HT-16 Föreläsning 14: Enkel linjär regression

Like dokumenter
Matematisk statistik 9 hp, HT-16 Föreläsning 12, Hypotesprövning

Matematisk statistik för D, I, Π och Fysiker

Formelsamling Matematisk statistik för D3, VT02

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Fasit og løsningsforslag STK 1110

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK ENKEL LINJÄR REGRESSION. Jan Grandell & Timo Koski

Vektorvärda funktioner

TMA4240 Statistikk Høst 2009

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

ST0202 Statistikk for samfunnsvitere

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

UNIVERSITETET I OSLO

Tilleggsoppgaver for STK1110 Høst 2015

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

LØSNINGSFORSLAG ) = Dvs

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Funksjoner av stokastiske variable.

Oppgave 14.1 (14.4:1)

Løsningsforslag eksamen 27. februar 2004

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

TMA4245 Statistikk Eksamen august 2014

Funksjoner av stokastiske variable.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

STK Oppsummering

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4240 Statistikk Høst 2007

Løsningsforslag: STK2120-v15.

ST1201 Statistiske metoder

TMA4240 Statistikk Høst 2016

Oppgave 1. Kilde SS df M S F Legering Feil Total

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg.

vekt. vol bruk

UNIVERSITETET I OSLO

Løsningsforslag, eksamen statistikk, juni 2015

Løsningsforslag eksamen 25. november 2003

TMA4245 Statistikk Eksamen 20. desember 2012

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Oppgave N(0, 1) under H 0. S t n 3

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2009

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

ST1201 Statistiske metoder

10.1 Enkel lineær regresjon Multippel regresjon

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4245 Statistikk Eksamen august 2014

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Om eksamen. Never, never, never give up!

ST0202 Statistikk for samfunnsvitere

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Forelesning 13. mars, 2017

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Kapittel 2: Hendelser

Eksamensoppgave i TMA4245 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ECON240 VÅR / 2016 BOKMÅL

TMA4240 Statistikk H2010 (20)

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Kärnstrukturer. Finlandssvenska Fysikerdagarna Patric Granholm

Vad är maskininlärning? Praktisk information om kursen Exempel. Maskininlärning 2D1431. Örjan Ekeberg. Okt Dec, 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Oppsummering av STK2120. Geir Storvik

Crack propagation under combined thermal cycling and mechanical loading (CTC - ML)

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Eksamensoppgåve i TMA4245 Statistikk

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Eksamensoppgave i TMA4240 Statistikk

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

TMA4240 Statistikk Høst 2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4255 Anvendt statistikk

Övningar till Matematisk analys IV Erik Svensson

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

EKSAMEN I TMA4255 ANVENDT STATISTIKK

TMA4240 Statistikk Eksamen desember 2015

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs

Transkript:

Matematisk statistik 9 hp, HT-16 Föreläsning 14: Enkel linjär regression Anna Lindgren 21+22 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 1/21

Hypotesprövning Olika metoder för att utföra hypotestest 1. Direktmetoden eller P-värde Antag att H0 är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 0 2. Konfidensmetoden. Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H 0 på nivån α om intervallet ej täcker θ 0. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ 0 H 1 : θ θ 0 H 1 : θ > θ 0 Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C Förkasta H 0 om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H 0 om H 0 är sann ) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 2/21

Orenhet y [%] Modell Parameterskattningar Räkneregler Exempel Enkel linjär regression Finns det ett linjärt samband mellan x och y? Hur ser det i så fall ut? Orenhet i färg 22 20 18 16 14 12 ( x i, y i ) 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 3/21

Modell Parameterskattningar Räkneregler Exempel Linjär regression Modell Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). α och β är okända tal, x i är kända tal. Vi får då Y i N (α + βx i, σ) = N (μ i, σ) Y s väntevärde ligger på en rät linje, μ(x) = α + βx, där β är linjens lutning och α dess skärning med y-axeln. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 4/21

Modell Parameterskattningar Räkneregler Exempel 14 12 10 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 8 6 4 2 0 0 1 2 3 4 5 6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 5/21

Modell Parameterskattningar Räkneregler Exempel Skattning av parametrarna α och β Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar n L(α, β, σ 2 1 ) = (y i (α+βx i )) 2 2πσ 2 e 2σ 2 = = Parameterskattningarna i=1 ( ) 1 n/2 2πσ 2 e 1 n 2σ 2 i=1 (y i (α+βx i )) 2 ML- och MK-skattningarna av α och β är β = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 = S xy S xx, α = ȳ β x Skattningarna α och β är dock inte oberoende av varandra. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 6/21

Modell Parameterskattningar Räkneregler Exempel Skattning av σ 2 För σ 2, dvs variansen för ε i och Y i, blir skattningen (σ 2 ) = s 2 = Q 0 där n 2 n Q 0 = (y i α β x i ) 2 = S yy S2 xy S xx i=1 Skattningen är korrigerad med 2 för att bli väntevärdesriktig. Q 0 kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avstånden från y i -värdet till den skattade linjen, e i = y i α β x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 7/21

Modell Parameterskattningar Räkneregler Exempel Räkna ut kvadratsummorna För att räkna ut kvadratsummorna S xx, S yy och S xy kan man ha användning av sambanden S xx = S yy = S xy = n ( n (x i x) 2 = i=1 i=1 n ( n (y i ȳ) 2 = i=1 i=1 x 2 i y 2 i ) n x 2 ) nȳ 2 n ( n ) (x i x)(y i ȳ) = x i y i n xȳ i=1 i=1 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 8/21

Orenhet y [%] Modell Parameterskattningar Räkneregler Exempel Exempel: Orenhet i färg i : 1 2 3 4 5 6 7 8 9 10 11 12 x i : 20 22 24 26 28 30 32 34 36 38 40 42 y i : 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5 22 Skattad linje 20 18 16 14 12 e i = y i - 7 i $ 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 9/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Skattningarnas fördelning Eftersom α = Ȳ β x β = S n xy i=1 = (x i x)(y i Ȳ) S n xx i=1 (x i x) 2 båda är linjära funktioner av Y i (men inte av talen x i ), som är normalfördelade, måste även α och β vara normalfördelade. Skattningarnas fördelning Fördelningarna blir α N α, σ 1 n + x2 S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 10/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Skattningarnas fördelning (forts) Men man kan visa att β och Ȳ är oberoende av varandra. Kovariansen mellan α och β blir C(α, β ) = C(Ȳ β x, β ) = C(Ȳ, β ) x C(β, β ) = = 0 x V(β ) = x σ2 S xx. Vi ser att kovariansen är negativ då x > 0 och positiv då x < 0. För Q 0 gäller dessutom Q 0 σ 2 χ2 (n 2) (2 är fortfarande antalet skattade parametrar i Q 0 ) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 11/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Intervallskattningar Skattningarna av α och β är båda på formen θ N (θ, D(θ )) där D(θ ) innehåller ett σ som skattas med ett s med f = n 2 frihetsgradet. Så vi får konfidensintervall med konfidensgrad 1 a (a eftersom α är upptagen) som vanligt: s Sxx I β = β ± t a/2 (f) d(β ) = β ± t a/2 (n 2) I α = α ± t a/2 (f) d(α ) = α ± t a/2 (n 2) s 1 n + x2 S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 12/21

Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Konfidensintervall för linjen Hur stor är medelorenheten när omröringshastigheten är 32 rpm? Konfidensintervall för linjen 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 13/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Konfidensintervall för μ 0 (eller för linjen) För ett givet x-värde, x = x 0, kan vi skatta Y-s väntevärde med μ 0 = α + β x 0 dvs en punkt på den skattade linjen. V(μ 0 ) = V(α + β x 0 ) = [α = Ȳ β x] = V ( Ȳ + β (x 0 x) ) = = [β, Ȳ ober.] = V(Ȳ) + (x 0 x) 2 V(β ) = = σ2 n + (x 0 x) 2 σ2 = S xx μ 0 N 1 μ 0, σ n + (x 0 x) 2. S xx Vi får således direkt ett konfidensintervall för μ 0 som I μ0 = μ 0 ± t a/2(f) d(μ 0 ) = μ 0 ± t 1 a/2(n 2) s n + (x 0 x) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 14/21

Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Prediktionsintervall för observationerna Hur stor är kan orenheten bli när omröringshastigheten är 32 rpm? Prediktionsintervall för observationer 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 15/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Prediktionsintervall Intervallet ovan gäller väntevärdet för Y då x = x 0. Om man vill uttala sig om en framtida observation av Y för x = x 0 blir ovanstående intervall för smalt. Vi kan få ett prediktionsintervall för en framtida observation för ett givet x 0 Y(x 0 ) = α + β x 0 + ε 0 = μ 0 + ε 0, E(Y(x 0 )) = μ 0 + 0, V(Y(x 0 )) = V(μ 0 ) + V(ε 0) Prediktionsintervallet blir I Y(x0 ) = μ 0 ± t a/2(n 2) s 1 + 1 n + (x 0 x) 2 S xx Observera att det bara är ettan i kvadratroten som skiljer mellan prediktionsintervallet och konfidensintervall I μ0. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 16/21

Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Kalibreringsintervall Hur stor är kan omröringshastigheten ha varit om orenheten blev 14 %? Kalibreringsintervall för x 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 17/21

Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Kalibreringsintervall Om man observerat ett värde y 0 av y, vad var då x 0? Man löser ut x 0 ur y 0 = α + β ẋ 0 och får x 0 = y 0 α β Denna skattning är inte normalfördelad, men vi kan t.ex. använda Gauss approximationsformler för att få fram ett approximativt värde på D(x 0 ). Kalibreringsintervallet blir I x0 = x 0 ± t a/2(n 2) s β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 18/21

Residualplottar Modellvalidering I modellen antar vi att variationen kring linjen är ε i N (0, σ), oberoende av varandra Eftersom skattningarnas fördelning och konfidensintervall etc. baseras på normal-antagandet är det viktigt att undersöka om antagandet är rimligt. Vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 19/21

Probability Residualplottar Residualplottar Ser residualerna ut som de borde? 2 Residualer mot x 2 Residualer mot 7 $ 1 1 e i = y i - 7 i $ 0 e i = y i - y i $ 0-1 -1-2 -2 20 30 40 5 10 15 20 Omröringshastighet x [rpm] Predikterad orenhet 7 $ [%] Normal Probability Plot 0.95 0.90 0.75 0.50 0.25 0.10 0.05-1 -0.5 0 0.5 1 residualer Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 20/21

Residualplottar Mindre bra residualplottar 100 Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 300 e 50 0 e 200 100 0 100 50 0 10 20 30 1:n I en modellvalidering bör man även testa T.ex. genom att förkasta H 0 om punkten 0 ej täcks av I β, eller 200 0 10 20 30 x H 0 : β = 0 H 1 : β 0 T > t p/2 (n 2) där T = (β 0)/d(β ). Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 21/21