TMA4240 Statistikk Høst 2016

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 2 Løsigsskisse Oppgave a Miste kvadraters metode tilpasser e lije til puktee ved å velge de lija som miimerer kvadratsumme SSE (y i α βx i 2 av avstade fra hvert pukt til lija. Derivasjo av SSE med hesy på parametree α og β gir dsse dα 2 i (y i α βx i og dsse dβ 2 i x i (y i α βx i. Setter vi de deriverte lik ull, får vi (y i α βx i 0 og x i (y i α βx i 0, og, år vi deler på, ȳ α β x 0 ad x i y i α x β x 2 i 0. Løser de første likige for α, og får som isatt i de adre likige gir ( x i y i ȳ x + β x 2 α ȳ β x, x i y i (ȳ β x x β x 2 i x 2 i 0, 0 β x iy i xȳ x2 i. x2 ab2-lsf-b 9. ovember 206 Side

Gager vi med i teller og ever i det siste uttrykket, får vi β x iy i xȳ x2 i x2. For få de oppgitte estimatoree bytter vi ut y i med de tilsvarede tilfeldige variabele Y i, altså β x iy i xȳ x2 i og α Ȳ β x. x2 b Utgagspuktet er ( P t 2,0.025 < Løser hver av ulikhetee for β og får t 2,0.025 < ( ˆβ β s/ (x i x < t 2 2,0.025 0.95 ( ˆβ β s/ (x i x 2 st 2,0.025 (x i x 2 < ˆβ β ˆβ + st 2,0.025 (x i x 2 > β og ( ˆβ β s/ (x i x 2 < t 2,0.025 ˆβ β < st 2,0.025 (x i x 2 Dermed har vi ( P ˆβ β > ˆβ st 2,0.025 (x i x 2. st 2,0.025 (x i x < β < ˆβ st 2,0.025 + 2 (x 0.95, i x 2 Og kofidesitervallet blir altså ( ˆβ st 2,0.025 (x i x 2, ˆβ + st 2,0.025 (x. i x 2 Vi har 29 og tabelloppslag gir kvatile t 2,0.025 t 27,0.025 2.058. Isettig av tallverdier gir estimatet ˆβ 6364.6/4069 0.584. Viertide forvetes å forkortes med 4 0.584 0.63 sekuder mellom etterfølgede olympiske leker. Videre er 95%-kofidesitervallet for stigigstallet lik ( 0.925, 0.244. c Vi lar x 0 2020, og vi har ˆα 09.04 + 0.584 956.6 48.9368. De predikerte tide er Ŷ0 ˆα + 2020 ˆβ 48.9368 0.584 2020 98.8768, altså ca. miutt og 39 sekuder. Viertide i 2020 har 95%-prediksjositervall Ŷ 0 ± t 2,0.025 s Med tallverdier isatt blir det (9.62, 06.4. + (x 0 x 2 (x i x 2 + /. ab2-lsf-b 9. ovember 206 Side 2

d Vi har Ŷ0 ˆα + x 0 ˆβ 90, som betyr at x 0 90 ˆα ˆβ 90 48.9368 0.584 2076.024 Side x 0 > 2076 forveter vi stregt tatt ikke at 90-sekudersgrese brytes uder OL i 2076, me først uder este OL, altså i 2080. Tar ma de store usikkerhete i betraktig, fremstår imidlertid 2076 som et like godt svar som 2080. Modellatakelser: Det ser ut til at viertidee følger e ikkelieær tred i tid. Om vi bruker de tilpassede modelle til å ekstrapolere bakover i tid, ser vi at de tilsier at viertide i år 0 ville vært 49 sekuder, hvilket er urimelig. Ekstrapolererer vi tilstrekkelig lagt framover i tid, predikerer modelle dessute egative viertider, hvilket er umulig. Modellatakelsee ka kotrolleres ved hjelp av residualplott. Ser residualee e i Y i Ŷi ut til å ha e tred? Ifølge modelle bør de være ærmest uavhegige og idetisk ormalfordelt. Oppgave 2 a Y (y; 500, 80. Trasformerer Y til stadard N(0, -ormalfordelig. Prob(Y > 550 Prob( Y 500 80 > 550 500 Prob(Z > 5 80 8 Prob(Z 5 Φ(0.625 0.734 0.266. 8 Y Y 2 (y; 0, 2 80. (Lieærkombiasjoe av to uavhegige ormalfordeliger er ormalfordelt, sjekk forvetigsverdi og varias ved de valige regereglee. Da ka vi rege ut sasylighete for at måligee avviker med mer e 80 g/to. Prob( Y Y 2 > 80 Prob( 80 < Y Y 2 < 80 Prob( 80 80 2 < Y Y 2 80 2 < 80 80 2 2 2 Prob( 2 < Z < 2 2Prob(Z 2 2 2Φ( 0.707 2 0.24 0.48. b Setter i x 20, x... x 5 0 og x 6... x 0 40 i uttrykket for B. B 5 20Y j + 0 j6 20Y j 0 202 0 j6 Y j 5 Y j 200, som skulle vises. ( 0 20 j6 Y j 5 Y j 0 20 2 ab2-lsf-b 9. ovember 206 Side 3

A Y Bx 0 0 Y j 20 200 0 Y j j6 5 Y j 5 5 Y j. A er skjærigspuktet regresjoslija har med y-akse. Det er kaskje ikke så rart at gjeomsittet av måligee ved x 0 er et estimat for dee verdie? (I hvert fall år måligee bare er gjort for to x-verdier. Var(B 200 2 0 Var(Y j + j6 5 Var(Y j 0σ2 200 2 σ2 4000. c Med bare to målepukter, ka vi estimere variase i hver ede for seg, dvs at vi bereger s 2 V og s2 E. (Husk at måligee ikke har samme forvetigsverdi i de to edee av gruva, så vi ka ikke se på alle som ett datasett. Ettersom vi atar samme varias i begge eder, er gjeomsittet av s 2 V og s2 E et godt estimat for σ2. Mer formelt, vi har e to-utvalgssituasjo, og ka da bruke s 2 p fra pesum. Dee sikrer χ 2 -fordelig og T-fordelig. Brukes estimatore for variase fra regresjosaalyse, får e også samme resultat. ( s 2 ( 5 s 2 2 V + s 2 E (y j y V 2 + 2 5 5 0 (y j y 8 V 2 + (y j y E 2 j6 Hypotesee blir: H 0 : β 2 mot H : β > 2. 0 j6 (y j y E 2 5 26064 + 22720 8 6098. Vi baserer teste på estimatore B. Side variase til B er ukjet, bruker vi estimatet SB 2 s2 4000.525 i stedet for σ 2 4000. Testobservatore, B 2 S B, er T-fordelt med 8 frihetsgrader. Det er 2 frihetsgrader dee gage, fordi vi bruker pooled varias, eller, som sagt, variasestimatore fra regresjosaalyse. (Estimert varias er basert på to gjeomsitt, y V og y E. Da er det ikke så urimelig at vi mister to frihetsgrader? Med oppgitte data blir stigigstallet 0 j6 b y j 5 y j y E y V 7. 200 40 Gjeomfører hypoteseteste. b 2 7 2 4.05 > t 0.05,8.86, s B.525 som betyr at vi forkaster ullhypotese på sigifikasivå 5%. d Fra det første uttrykket for B får vi Var(B σ 2 (x j x 2. ab2-lsf-b 9. ovember 206 Side 4

Variase er lite for (x j x 2 stor. Altså vil vi ha alle x j x så store som mulig. Når x er fast, bør x j -ee legges til edee, som i dee oppgave. (Det ka være adre gruer til å spre målepuktee, f.eks. for å vurdere om dataee tilærmet følger e rett lije, her var det atatt kjet. Var(Y 0 Ŷ0 σ 2 ( + + (x 0 x 2 (x j x 2 0 σ2 år x 0 x. Puktestimatet blir ŷ 0 a + bx 0 y V + 7 20 470. Vi beytter fortsatt estimatet S 2 for σ 2, derfor fortsatt T-fordelig med 2 frihetsgrader. Prediksjositervallet blir derfor (ŷ 0 ± t 0.025,8 s 0 (470 ± 2.306 6098. (28., 658.9. De ye målige, 600 g/to, ligger iefor prediksjositervallet, så vi ka ikke kokludere med at de eller modelle er urimelig. Oppgave 3 a Miste kvadraters metode miimerer SSE(β (y i βx i 2. Dette tilsvarer: y ix i β x2 i dsse dβ 0 y i x i β x 2 i 0 som gir svaret. Forvetig og varias blir Var[ ˆβ] E[ ˆβ] x ie[y i ] x2 i β x2 i x2 i x2 i V ar[y i] ( x2 i 2 x2 i σ2 ( x2 i β σ2 2 x2 i b Vi laster i dataee i Matlab og tilpasser de oppgitte modelle på følgede måte: % Skriv i observasjoer x [22 68 08 37 255 35 390 405 685 700 00]; y [.2 3.8 5. 7.5 4.9 9.2 2.4 23 39.2 4.6 60.8]; % Tilpass modell mdl fitlm(x, y, Itercept, false; ab2-lsf-b 9. ovember 206 Side 5

% Skriv ut modell mdl mdl Liear regressio model: y ~ x Estimated Coefficiets: Estimate SE tstat pvalue x 0.05669 0.0006067 93.523 4.7825e-6 Number of observatios:, Error degrees of freedom: 0 Root Mea Squared Error: 0.993 Merk at kommadoe mdl skriver ut de tilpassede modelle. Fra utskrifte leser vi at ˆβ 0.05669 og at de tilhørede p-verdie er 4.7825 0 6. Vi vil derfor forkaste H 0. De lieære modelle er plottet i Figur 3, og vi ser at de lieære tilpasige samsvarer godt med observasjoee. c Vi plotter de tilpassede modelle, og lager ormalsasylighetsplott og residualplott som følger: % Plott modelle og observasjoer figure; subplot(,3, plot(mdl; xlabel( Avstad ylabel( Hastighet title( Tilpasset modell % Normalsasylighetsplott subplot(,3,2 ormplot(y xlabel( Hastighet title( Normalsasylighetsplott ; % Plott residualer subplot(,3,3 plotresiduals(mdl, fitted ; xlabel( Tilpassede verdier ylabel( Residualer ab2-lsf-b 9. ovember 206 Side 6

title( Residualplott TMA4240 Statistikk I Figur 3 ser vi fra ormalsasylighetsplottet at ormalatakelse er rimelig. I tillegg virker residualee å være tilfeldig fordelt, me det ka være e svak idikasjo på at variase øker med x. Figur : Tilpasset lieær modell, ormalsasylighetsplott og residualplott. d Vi predikerer e y observasjo som følger i Matlab: % Prediker y observasjo xpred 900; [ypred, yci] predict(mdl, xpred, Predictio, observatio ; Vi får predikert verdi 5.0220 med 95% prediksjositervall: (48.4969, 53.547. Oppgave 4 a Fra Figur 2 ser vi at y øker år x øker, derfor er korrelasjoe positiv. Figur 2: Spredigsplott av (x i, y i for i,..., 50. % Les i data ab2-lsf-b 9. ovember 206 Side 7

A load( ab2.txt ; x A(:, ; y A(:, 2; % Plott x mot y figure plot(x,y, x xlabel( x ylabel( y Vi tilpasser de lieære modelle på følgede måte i Matlab: % Tilpass modell mdl fitlm(x, y; % Skriv ut modell mdl mdl Liear regressio model: y ~ + x Estimated Coefficiets: Estimate SE tstat pvalue (Itercept.549 0.5579 2.07 0.043855 x 0.97084 0.09379 0.624 3.3607e-4 Number of observatios: 50, Error degrees of freedom: 48 Root Mea Squared Error:.7 R-squared: 0.702, Adjusted R-Squared 0.695 F-statistic vs. costat model: 3, p-value 3.36e-4 Fra utskrifte i Matlab ser vi at ˆα.549 og ˆβ 0.97084. Side p-verdie er 0.043855 vil vi ikke forkaste H 0 ved 5% sigifikasivå. Vi ka plotte de tilpassede modelle, ormalsasylighetsplottet og residualplottet som følger: % Plott modelle og observasjoer figure; subplot(,3, plot(mdl; xlabel( x ylabel( y title( Tilpasset modell ab2-lsf-b 9. ovember 206 Side 8

% Normalsasylighetsplott subplot(,3,2 ormplot(y xlabel( y title( Normalsasylighetsplott ; % Plott residualer subplot(,3,3 plotresiduals(mdl, fitted ; xlabel( Tilpassede verdier ylabel( Residualer title( Residualplott Fra observasjoee ser vi at e lieær modell passer okså godt side forvetige til Y er lieær i x. Fra plottet av de tilpassede modelle ser vi at støyleddee ser ut til å være ormalfordelte side observasjoee er jevt fordelt over og uder regresjoslije. Fra residualplottet ser vi variase øker med x. Altså er ikke kravet om kostat varias oppfylt. Figur 3: Tilpasset lieær modell, ormalsasylighetsplott og residualplott. ab2-lsf-b 9. ovember 206 Side 9