TMA4240 Statistikk Høst 2016

Like dokumenter
Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

TMA4245 Statistikk Eksamen mai 2017

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk. Øving nummer 12, blokk II Løsningsskisse. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk 2014

TMA4245 Statistikk Vår 2015

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2009

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016

ST1201 Statistiske metoder

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

ECON240 Statistikk og økonometri

Lineær regresjonsanalyse (13.4)

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2015

Løsningsforslag til eksamen i STK desember 2010

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

MOT310 Statistiske metoder 1, høsten 2011

Løsningsforslag Oppgave 1

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

TMA4245 Statistikk Eksamen august 2015

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

TMA4240/4245 Statistikk 11. august 2012

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

TMA4245 Statistikk Eksamen 9. desember 2013

0.5 (6x 6x2 ) dx = [3x 2 2x 3 ] 0.9. n n. = n. ln x i + (β 1) i=1. n i=1

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

LØSNING: Eksamen 28. mai 2015

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Løsningsforslag ST2301 øving 3

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Løsning TALM1005 (statistikkdel) juni 2017

Hypotesetesting, del 4

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

n 2 +1) hvis n er et partall.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

f(x)dx = F(x) = f(u)du. 1 (4u + 1) du = 3 0 for x < 0, 2 + for x [0,1], 1 for x > 1. = 1 F 4 = P ( X > 1 2 X > 1 ) 4 X > 1 ) =

Estimering 1 -Punktestimering

Løsningsforslag andre obligatoriske oppgave i STK 1110 høsten 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Kap. 9: Inferens om én populasjon

Estimering 1 -Punktestimering

Kap. 9: Inferens om én populasjon

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

TMA4245 Statistikk Eksamen 20. desember 2012

TMA4245 Statistikk. Øving nummer b5. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Kapittel 8: Estimering

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen august 2014

Estimering 2. -Konfidensintervall

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

EKSAMEN I TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

STATISTIKK :D INNHOLD

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Oppgaver fra boka: X 2 X n 1

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

TMA4240 Statistikk H2010

ST1201 Statistiske metoder

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

UNIVERSITETET I OSLO

11,7 12,4 12,8 12,9 13,3.

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

«Best Fit»-linje med usikkerhetsintervall (CI)

Hva er statistikk? TMA4240 Statistikk H2015. Denne forelesningen. Pensum

Transkript:

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 2 Løsigsskisse Oppgave a Miste kvadraters metode tilpasser e lije til puktee ved å velge de lija som miimerer kvadratsumme SSE (y i α βx i 2 av avstade fra hvert pukt til lija. Derivasjo av SSE med hesy på parametree α og β gir dsse dα 2 i (y i α βx i og dsse dβ 2 i x i (y i α βx i. Setter vi de deriverte lik ull, får vi (y i α βx i 0 og x i (y i α βx i 0, og, år vi deler på, ȳ α β x 0 ad x i y i α x β x 2 i 0. Løser de første likige for α, og får som isatt i de adre likige gir ( x i y i ȳ x + β x 2 α ȳ β x, x i y i (ȳ β x x β x 2 i x 2 i 0, 0 β x iy i xȳ x2 i. x2 ab2-lsf-b 9. ovember 206 Side

Gager vi med i teller og ever i det siste uttrykket, får vi β x iy i xȳ x2 i x2. For få de oppgitte estimatoree bytter vi ut y i med de tilsvarede tilfeldige variabele Y i, altså β x iy i xȳ x2 i og α Ȳ β x. x2 b Utgagspuktet er ( P t 2,0.025 < Løser hver av ulikhetee for β og får t 2,0.025 < ( ˆβ β s/ (x i x < t 2 2,0.025 0.95 ( ˆβ β s/ (x i x 2 st 2,0.025 (x i x 2 < ˆβ β ˆβ + st 2,0.025 (x i x 2 > β og ( ˆβ β s/ (x i x 2 < t 2,0.025 ˆβ β < st 2,0.025 (x i x 2 Dermed har vi ( P ˆβ β > ˆβ st 2,0.025 (x i x 2. st 2,0.025 (x i x < β < ˆβ st 2,0.025 + 2 (x 0.95, i x 2 Og kofidesitervallet blir altså ( ˆβ st 2,0.025 (x i x 2, ˆβ + st 2,0.025 (x. i x 2 Vi har 29 og tabelloppslag gir kvatile t 2,0.025 t 27,0.025 2.058. Isettig av tallverdier gir estimatet ˆβ 6364.6/4069 0.584. Viertide forvetes å forkortes med 4 0.584 0.63 sekuder mellom etterfølgede olympiske leker. Videre er 95%-kofidesitervallet for stigigstallet lik ( 0.925, 0.244. c Vi lar x 0 2020, og vi har ˆα 09.04 + 0.584 956.6 48.9368. De predikerte tide er Ŷ0 ˆα + 2020 ˆβ 48.9368 0.584 2020 98.8768, altså ca. miutt og 39 sekuder. Viertide i 2020 har 95%-prediksjositervall Ŷ 0 ± t 2,0.025 s Med tallverdier isatt blir det (9.62, 06.4. + (x 0 x 2 (x i x 2 + /. ab2-lsf-b 9. ovember 206 Side 2

d Vi har Ŷ0 ˆα + x 0 ˆβ 90, som betyr at x 0 90 ˆα ˆβ 90 48.9368 0.584 2076.024 Side x 0 > 2076 forveter vi stregt tatt ikke at 90-sekudersgrese brytes uder OL i 2076, me først uder este OL, altså i 2080. Tar ma de store usikkerhete i betraktig, fremstår imidlertid 2076 som et like godt svar som 2080. Modellatakelser: Det ser ut til at viertidee følger e ikkelieær tred i tid. Om vi bruker de tilpassede modelle til å ekstrapolere bakover i tid, ser vi at de tilsier at viertide i år 0 ville vært 49 sekuder, hvilket er urimelig. Ekstrapolererer vi tilstrekkelig lagt framover i tid, predikerer modelle dessute egative viertider, hvilket er umulig. Modellatakelsee ka kotrolleres ved hjelp av residualplott. Ser residualee e i Y i Ŷi ut til å ha e tred? Ifølge modelle bør de være ærmest uavhegige og idetisk ormalfordelt. Oppgave 2 a Y (y; 500, 80. Trasformerer Y til stadard N(0, -ormalfordelig. Prob(Y > 550 Prob( Y 500 80 > 550 500 Prob(Z > 5 80 8 Prob(Z 5 Φ(0.625 0.734 0.266. 8 Y Y 2 (y; 0, 2 80. (Lieærkombiasjoe av to uavhegige ormalfordeliger er ormalfordelt, sjekk forvetigsverdi og varias ved de valige regereglee. Da ka vi rege ut sasylighete for at måligee avviker med mer e 80 g/to. Prob( Y Y 2 > 80 Prob( 80 < Y Y 2 < 80 Prob( 80 80 2 < Y Y 2 80 2 < 80 80 2 2 2 Prob( 2 < Z < 2 2Prob(Z 2 2 2Φ( 0.707 2 0.24 0.48. b Setter i x 20, x... x 5 0 og x 6... x 0 40 i uttrykket for B. B 5 20Y j + 0 j6 20Y j 0 202 0 j6 Y j 5 Y j 200, som skulle vises. ( 0 20 j6 Y j 5 Y j 0 20 2 ab2-lsf-b 9. ovember 206 Side 3

A Y Bx 0 0 Y j 20 200 0 Y j j6 5 Y j 5 5 Y j. A er skjærigspuktet regresjoslija har med y-akse. Det er kaskje ikke så rart at gjeomsittet av måligee ved x 0 er et estimat for dee verdie? (I hvert fall år måligee bare er gjort for to x-verdier. Var(B 200 2 0 Var(Y j + j6 5 Var(Y j 0σ2 200 2 σ2 4000. c Med bare to målepukter, ka vi estimere variase i hver ede for seg, dvs at vi bereger s 2 V og s2 E. (Husk at måligee ikke har samme forvetigsverdi i de to edee av gruva, så vi ka ikke se på alle som ett datasett. Ettersom vi atar samme varias i begge eder, er gjeomsittet av s 2 V og s2 E et godt estimat for σ2. Mer formelt, vi har e to-utvalgssituasjo, og ka da bruke s 2 p fra pesum. Dee sikrer χ 2 -fordelig og T-fordelig. Brukes estimatore for variase fra regresjosaalyse, får e også samme resultat. ( s 2 ( 5 s 2 2 V + s 2 E (y j y V 2 + 2 5 5 0 (y j y 8 V 2 + (y j y E 2 j6 Hypotesee blir: H 0 : β 2 mot H : β > 2. 0 j6 (y j y E 2 5 26064 + 22720 8 6098. Vi baserer teste på estimatore B. Side variase til B er ukjet, bruker vi estimatet SB 2 s2 4000.525 i stedet for σ 2 4000. Testobservatore, B 2 S B, er T-fordelt med 8 frihetsgrader. Det er 2 frihetsgrader dee gage, fordi vi bruker pooled varias, eller, som sagt, variasestimatore fra regresjosaalyse. (Estimert varias er basert på to gjeomsitt, y V og y E. Da er det ikke så urimelig at vi mister to frihetsgrader? Med oppgitte data blir stigigstallet 0 j6 b y j 5 y j y E y V 7. 200 40 Gjeomfører hypoteseteste. b 2 7 2 4.05 > t 0.05,8.86, s B.525 som betyr at vi forkaster ullhypotese på sigifikasivå 5%. d Fra det første uttrykket for B får vi Var(B σ 2 (x j x 2. ab2-lsf-b 9. ovember 206 Side 4

Variase er lite for (x j x 2 stor. Altså vil vi ha alle x j x så store som mulig. Når x er fast, bør x j -ee legges til edee, som i dee oppgave. (Det ka være adre gruer til å spre målepuktee, f.eks. for å vurdere om dataee tilærmet følger e rett lije, her var det atatt kjet. Var(Y 0 Ŷ0 σ 2 ( + + (x 0 x 2 (x j x 2 0 σ2 år x 0 x. Puktestimatet blir ŷ 0 a + bx 0 y V + 7 20 470. Vi beytter fortsatt estimatet S 2 for σ 2, derfor fortsatt T-fordelig med 2 frihetsgrader. Prediksjositervallet blir derfor (ŷ 0 ± t 0.025,8 s 0 (470 ± 2.306 6098. (28., 658.9. De ye målige, 600 g/to, ligger iefor prediksjositervallet, så vi ka ikke kokludere med at de eller modelle er urimelig. Oppgave 3 a Miste kvadraters metode miimerer SSE(β (y i βx i 2. Dette tilsvarer: y ix i β x2 i dsse dβ 0 y i x i β x 2 i 0 som gir svaret. Forvetig og varias blir Var[ ˆβ] E[ ˆβ] x ie[y i ] x2 i β x2 i x2 i x2 i V ar[y i] ( x2 i 2 x2 i σ2 ( x2 i β σ2 2 x2 i b Vi laster i dataee i Matlab og tilpasser de oppgitte modelle på følgede måte: % Skriv i observasjoer x [22 68 08 37 255 35 390 405 685 700 00]; y [.2 3.8 5. 7.5 4.9 9.2 2.4 23 39.2 4.6 60.8]; % Tilpass modell mdl fitlm(x, y, Itercept, false; ab2-lsf-b 9. ovember 206 Side 5

% Skriv ut modell mdl mdl Liear regressio model: y ~ x Estimated Coefficiets: Estimate SE tstat pvalue x 0.05669 0.0006067 93.523 4.7825e-6 Number of observatios:, Error degrees of freedom: 0 Root Mea Squared Error: 0.993 Merk at kommadoe mdl skriver ut de tilpassede modelle. Fra utskrifte leser vi at ˆβ 0.05669 og at de tilhørede p-verdie er 4.7825 0 6. Vi vil derfor forkaste H 0. De lieære modelle er plottet i Figur 3, og vi ser at de lieære tilpasige samsvarer godt med observasjoee. c Vi plotter de tilpassede modelle, og lager ormalsasylighetsplott og residualplott som følger: % Plott modelle og observasjoer figure; subplot(,3, plot(mdl; xlabel( Avstad ylabel( Hastighet title( Tilpasset modell % Normalsasylighetsplott subplot(,3,2 ormplot(y xlabel( Hastighet title( Normalsasylighetsplott ; % Plott residualer subplot(,3,3 plotresiduals(mdl, fitted ; xlabel( Tilpassede verdier ylabel( Residualer ab2-lsf-b 9. ovember 206 Side 6

title( Residualplott TMA4240 Statistikk I Figur 3 ser vi fra ormalsasylighetsplottet at ormalatakelse er rimelig. I tillegg virker residualee å være tilfeldig fordelt, me det ka være e svak idikasjo på at variase øker med x. Figur : Tilpasset lieær modell, ormalsasylighetsplott og residualplott. d Vi predikerer e y observasjo som følger i Matlab: % Prediker y observasjo xpred 900; [ypred, yci] predict(mdl, xpred, Predictio, observatio ; Vi får predikert verdi 5.0220 med 95% prediksjositervall: (48.4969, 53.547. Oppgave 4 a Fra Figur 2 ser vi at y øker år x øker, derfor er korrelasjoe positiv. Figur 2: Spredigsplott av (x i, y i for i,..., 50. % Les i data ab2-lsf-b 9. ovember 206 Side 7

A load( ab2.txt ; x A(:, ; y A(:, 2; % Plott x mot y figure plot(x,y, x xlabel( x ylabel( y Vi tilpasser de lieære modelle på følgede måte i Matlab: % Tilpass modell mdl fitlm(x, y; % Skriv ut modell mdl mdl Liear regressio model: y ~ + x Estimated Coefficiets: Estimate SE tstat pvalue (Itercept.549 0.5579 2.07 0.043855 x 0.97084 0.09379 0.624 3.3607e-4 Number of observatios: 50, Error degrees of freedom: 48 Root Mea Squared Error:.7 R-squared: 0.702, Adjusted R-Squared 0.695 F-statistic vs. costat model: 3, p-value 3.36e-4 Fra utskrifte i Matlab ser vi at ˆα.549 og ˆβ 0.97084. Side p-verdie er 0.043855 vil vi ikke forkaste H 0 ved 5% sigifikasivå. Vi ka plotte de tilpassede modelle, ormalsasylighetsplottet og residualplottet som følger: % Plott modelle og observasjoer figure; subplot(,3, plot(mdl; xlabel( x ylabel( y title( Tilpasset modell ab2-lsf-b 9. ovember 206 Side 8

% Normalsasylighetsplott subplot(,3,2 ormplot(y xlabel( y title( Normalsasylighetsplott ; % Plott residualer subplot(,3,3 plotresiduals(mdl, fitted ; xlabel( Tilpassede verdier ylabel( Residualer title( Residualplott Fra observasjoee ser vi at e lieær modell passer okså godt side forvetige til Y er lieær i x. Fra plottet av de tilpassede modelle ser vi at støyleddee ser ut til å være ormalfordelte side observasjoee er jevt fordelt over og uder regresjoslije. Fra residualplottet ser vi variase øker med x. Altså er ikke kravet om kostat varias oppfylt. Figur 3: Tilpasset lieær modell, ormalsasylighetsplott og residualplott. ab2-lsf-b 9. ovember 206 Side 9