Matematisk statistik 9 hp, HT-16 Föreläsning 14: Enkel linjär regression Anna Lindgren 21+22 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 1/21
Hypotesprövning Olika metoder för att utföra hypotestest 1. Direktmetoden eller P-värde Antag att H0 är sann Räkna ut P-värdet p = P(Få det vi fått eller värre) Om p < α förkastas H 0 2. Konfidensmetoden. Gör ett konfidensintervall med konfidensgraden 1 α och förkasta H 0 på nivån α om intervallet ej täcker θ 0. Intervallen skall, beroende på H 1, vara Test H 1 : θ < θ 0 H 1 : θ θ 0 H 1 : θ > θ 0 Intervall: uppåt begr tvåsidigt nedåt begr 3. Testkvantitet T(X) och kritiskt område C Förkasta H 0 om testskvantiteten hamnar i det kritiska området. C och T skall väljas så att α = P(T(X) C) = P( Förkasta H 0 om H 0 är sann ) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 2/21
Orenhet y [%] Modell Parameterskattningar Räkneregler Exempel Enkel linjär regression Finns det ett linjärt samband mellan x och y? Hur ser det i så fall ut? Orenhet i färg 22 20 18 16 14 12 ( x i, y i ) 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 3/21
Modell Parameterskattningar Räkneregler Exempel Linjär regression Modell Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). α och β är okända tal, x i är kända tal. Vi får då Y i N (α + βx i, σ) = N (μ i, σ) Y s väntevärde ligger på en rät linje, μ(x) = α + βx, där β är linjens lutning och α dess skärning med y-axeln. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 4/21
Modell Parameterskattningar Räkneregler Exempel 14 12 10 Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi 8 6 4 2 0 0 1 2 3 4 5 6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 5/21
Modell Parameterskattningar Räkneregler Exempel Skattning av parametrarna α och β Parametrarna kan skattas t.ex. med ML-metoden, dvs det (α, β, σ 2 ) som maximerar n L(α, β, σ 2 1 ) = (y i (α+βx i )) 2 2πσ 2 e 2σ 2 = = Parameterskattningarna i=1 ( ) 1 n/2 2πσ 2 e 1 n 2σ 2 i=1 (y i (α+βx i )) 2 ML- och MK-skattningarna av α och β är β = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 = S xy S xx, α = ȳ β x Skattningarna α och β är dock inte oberoende av varandra. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 6/21
Modell Parameterskattningar Räkneregler Exempel Skattning av σ 2 För σ 2, dvs variansen för ε i och Y i, blir skattningen (σ 2 ) = s 2 = Q 0 där n 2 n Q 0 = (y i α β x i ) 2 = S yy S2 xy S xx i=1 Skattningen är korrigerad med 2 för att bli väntevärdesriktig. Q 0 kallas residualkvadratsumma, eftersom den är kvadratsumman av residualerna, som är avstånden från y i -värdet till den skattade linjen, e i = y i α β x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 7/21
Modell Parameterskattningar Räkneregler Exempel Räkna ut kvadratsummorna För att räkna ut kvadratsummorna S xx, S yy och S xy kan man ha användning av sambanden S xx = S yy = S xy = n ( n (x i x) 2 = i=1 i=1 n ( n (y i ȳ) 2 = i=1 i=1 x 2 i y 2 i ) n x 2 ) nȳ 2 n ( n ) (x i x)(y i ȳ) = x i y i n xȳ i=1 i=1 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 8/21
Orenhet y [%] Modell Parameterskattningar Räkneregler Exempel Exempel: Orenhet i färg i : 1 2 3 4 5 6 7 8 9 10 11 12 x i : 20 22 24 26 28 30 32 34 36 38 40 42 y i : 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5 22 Skattad linje 20 18 16 14 12 e i = y i - 7 i $ 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 9/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Skattningarnas fördelning Eftersom α = Ȳ β x β = S n xy i=1 = (x i x)(y i Ȳ) S n xx i=1 (x i x) 2 båda är linjära funktioner av Y i (men inte av talen x i ), som är normalfördelade, måste även α och β vara normalfördelade. Skattningarnas fördelning Fördelningarna blir α N α, σ 1 n + x2 S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 10/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Skattningarnas fördelning (forts) Men man kan visa att β och Ȳ är oberoende av varandra. Kovariansen mellan α och β blir C(α, β ) = C(Ȳ β x, β ) = C(Ȳ, β ) x C(β, β ) = = 0 x V(β ) = x σ2 S xx. Vi ser att kovariansen är negativ då x > 0 och positiv då x < 0. För Q 0 gäller dessutom Q 0 σ 2 χ2 (n 2) (2 är fortfarande antalet skattade parametrar i Q 0 ) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 11/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Intervallskattningar Skattningarna av α och β är båda på formen θ N (θ, D(θ )) där D(θ ) innehåller ett σ som skattas med ett s med f = n 2 frihetsgradet. Så vi får konfidensintervall med konfidensgrad 1 a (a eftersom α är upptagen) som vanligt: s Sxx I β = β ± t a/2 (f) d(β ) = β ± t a/2 (n 2) I α = α ± t a/2 (f) d(α ) = α ± t a/2 (n 2) s 1 n + x2 S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 12/21
Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Konfidensintervall för linjen Hur stor är medelorenheten när omröringshastigheten är 32 rpm? Konfidensintervall för linjen 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 13/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Konfidensintervall för μ 0 (eller för linjen) För ett givet x-värde, x = x 0, kan vi skatta Y-s väntevärde med μ 0 = α + β x 0 dvs en punkt på den skattade linjen. V(μ 0 ) = V(α + β x 0 ) = [α = Ȳ β x] = V ( Ȳ + β (x 0 x) ) = = [β, Ȳ ober.] = V(Ȳ) + (x 0 x) 2 V(β ) = = σ2 n + (x 0 x) 2 σ2 = S xx μ 0 N 1 μ 0, σ n + (x 0 x) 2. S xx Vi får således direkt ett konfidensintervall för μ 0 som I μ0 = μ 0 ± t a/2(f) d(μ 0 ) = μ 0 ± t 1 a/2(n 2) s n + (x 0 x) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 14/21
Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Prediktionsintervall för observationerna Hur stor är kan orenheten bli när omröringshastigheten är 32 rpm? Prediktionsintervall för observationer 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 15/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Prediktionsintervall Intervallet ovan gäller väntevärdet för Y då x = x 0. Om man vill uttala sig om en framtida observation av Y för x = x 0 blir ovanstående intervall för smalt. Vi kan få ett prediktionsintervall för en framtida observation för ett givet x 0 Y(x 0 ) = α + β x 0 + ε 0 = μ 0 + ε 0, E(Y(x 0 )) = μ 0 + 0, V(Y(x 0 )) = V(μ 0 ) + V(ε 0) Prediktionsintervallet blir I Y(x0 ) = μ 0 ± t a/2(n 2) s 1 + 1 n + (x 0 x) 2 S xx Observera att det bara är ettan i kvadratroten som skiljer mellan prediktionsintervallet och konfidensintervall I μ0. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 16/21
Orenhet y [%] Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Kalibreringsintervall Hur stor är kan omröringshastigheten ha varit om orenheten blev 14 %? Kalibreringsintervall för x 22 20 18 16 14 12 10 8 6 15 20 25 30 35 40 45 Omröringshastighet x [rpm] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 17/21
Egenskaper Intervall Prediktionsintervall Kalibreringsintervall Kalibreringsintervall Om man observerat ett värde y 0 av y, vad var då x 0? Man löser ut x 0 ur y 0 = α + β ẋ 0 och får x 0 = y 0 α β Denna skattning är inte normalfördelad, men vi kan t.ex. använda Gauss approximationsformler för att få fram ett approximativt värde på D(x 0 ). Kalibreringsintervallet blir I x0 = x 0 ± t a/2(n 2) s β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 18/21
Residualplottar Modellvalidering I modellen antar vi att variationen kring linjen är ε i N (0, σ), oberoende av varandra Eftersom skattningarnas fördelning och konfidensintervall etc. baseras på normal-antagandet är det viktigt att undersöka om antagandet är rimligt. Vi kan studera residualerna, dvs avvikelserna mellan observerade y-värden och den skattade linjen. e i = y i α β x i, i = 1,..., n Dessa är observationer av ε i, och residualerna bör alltså: se ut att komma från en och samma normalfördelning vara oberoende av varandra vara oberoende av alla x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 19/21
Probability Residualplottar Residualplottar Ser residualerna ut som de borde? 2 Residualer mot x 2 Residualer mot 7 $ 1 1 e i = y i - 7 i $ 0 e i = y i - y i $ 0-1 -1-2 -2 20 30 40 5 10 15 20 Omröringshastighet x [rpm] Predikterad orenhet 7 $ [%] Normal Probability Plot 0.95 0.90 0.75 0.50 0.25 0.10 0.05-1 -0.5 0 0.5 1 residualer Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 20/21
Residualplottar Mindre bra residualplottar 100 Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 300 e 50 0 e 200 100 0 100 50 0 10 20 30 1:n I en modellvalidering bör man även testa T.ex. genom att förkasta H 0 om punkten 0 ej täcks av I β, eller 200 0 10 20 30 x H 0 : β = 0 H 1 : β 0 T > t p/2 (n 2) där T = (β 0)/d(β ). Anna Lindgren anna@maths.lth.se FMS012/MASB03 F14: Regression 21/21