TMA4240 Statistikk Høst 2016

Like dokumenter
n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

TMA4240 Statistikk Høst 2009

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2009

EKSAMEN I FAG TMA4240 STATISTIKK

TMA4240 Statistikk 2014

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen august 2014

TMA4245 Statistikk Vår 2015

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2009

i x i

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Eksamen desember 2015

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk Høst 2018

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Eksamen august 2014

ST0202 Statistikk for samfunnsvitere

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

10.1 Enkel lineær regresjon Multippel regresjon

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

TMA4240 Statistikk Høst 2015

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

vekt. vol bruk

Løsningsforslag eksamen 27. februar 2004

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgåve i TMA4240 Statistikk

Løsningsforslag eksamen 25. november 2003

Fasit og løsningsforslag STK 1110

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

LØSNINGSFORSLAG ) = Dvs

Eksamensoppgave i TMA4245 Statistikk

Oppgave N(0, 1) under H 0. S t n 3

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2007

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK

TMA4240 Statistikk Høst 2012

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4245 Statistikk

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4240 Statistikk H2010 (20)

Om eksamen. Never, never, never give up!

Eksamensoppgåve i TMA4245 Statistikk

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Om eksamen. Never, never, never give up!

Fasit for tilleggsoppgaver

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK Lørdag 10. august 2013

UNIVERSITETET I OSLO

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

EKSAMEN I TMA4240 Statistikk

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4255 Anvendt statistikk

HØGSKOLEN I STAVANGER

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Kort overblikk over kurset sålangt

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Transkript:

TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 12 Denne øvingen består av oppgaver om enkel lineær regresjon. De handler blant annet om å estimere modellparametre, tolke tilpassede modeller, og predikere fremtidige observasjoner. Oppgave 1 Figuren viser vinnertidene på 800 m løping for menn i alle Olympiske Leker (OL), altså de 28 offisielle sommerlekene mellom 1896 og 2016, samt ekstralekene i 1906. Totalt er det n = 29 vinnertider. Vi lar Y i være vinnertiden i OL nummer i, og x i årstallet for OL nummer i. Vi antar følgende regresjonsmodell for vinnertidene: Y i = α + βx i + ɛ i, ɛ i N(0, σ 2 ). I tillegg antas at støyleddene ɛ 1,..., ɛ n er uavhengige. a) Gi en kort forklaring av minste kvadraters metode (også kalt minste kvadratsums metode eller method of least squares) for linjetilpasning. Vis at denne metoden gir estimatorer: ˆα = Ȳ ˆβ x, og ˆβ = i=1 x iy i n xȳ i=1 x2 i n x2 der gjennomsnittene er Ȳ = 1 n i=1 Y i og x = 1 n i=1 x i. En alternativ skrivemåte for stigningstall-estimatoren er ˆβ = i=1 (x i x)y i n i=1 (x i x) 2. Det oppgis at Ȳ = 109.0114, x = 1956.6, i=1 (x i x)y i = 6364.6 og i=1 (x i x) 2 = 40 169. Et estimat for variansen til støyleddene er s 2 = 3.32 2. b) Det kan vises at T = ( ˆβ β) s/ i=1 (x i x) 2 t n 2 Bruk dette resultatet til å utlede et 95% konfidensintervall for β. Regn ut konfidensintervallet ved bruk av tall oppgitt over. Vi vil predikere vinnertiden i neste OL, altså Tokyo 2020. c) Regn ut predikert vinnertid i 2020. Finn et 95% prediksjonsintervall for vinnertiden i 2020. anb12-oppg-b 9. november 2016 Side 1

135 130 125 Tid (sekunder) 120 115 110 105 100 95 1900 1920 1940 1960 1980 2000 2020 År d) Bruk modellen til å anslå året da 90-sekundersgrensen brytes, altså det første året da vinnertiden er under 90 sekunder. Vurder modellantakelsene som gjøres. Hvilke metoder kan brukes for å undersøke antakelsene? Oppgave 2 Når prøver fra ett og samme sted i en sølvåre analyseres med hensyn på sølvinnholdet, fåes analyseresultater som vi skal anta er uavhengige og normalfordelte med forventning µ (g/tonn) og varians σ 2. a) Anta i dette punktet at µ = 500 og at σ = 80. La Y betegne en slik måling. Hva blir sannsynligheten for at Y skal overskride 550? La Y 1 og Y 2 være 2 slike målinger. Hvor stor er sannsynligheten for at disse skal avvike fra hverandre med minst 80 g/tonn. Den nevnte sølvåren er 40 meter lang og rettlinjet og går fra vest mot øst. Det er av interesse å anslå hvor mye sølv som finnes i sølvåren. Erfaringer fra andre sølvårer av tilsvarende type tilsier at sølvinnholdet i store trekk endrer seg lineært fra den ene enden av sølvåren til den andre. La Y j betegne målt sølvinnhold i en prøve som er tatt x j meter fra den vestlige enden, j = 1, 2,..., n. Vi skal anta at Y 1,..., Y n er uavhengige og normalfordelte med samme ukjente varians σ 2 og forventningsverdi E(Y j ) = α + βx j der α og β er ukjente konstanter. Minste kvadratsums-estimatorene for α og β er da gitt ved,

henholdsvis (du skal ikke vise dette): B = j=1 (x j x)y j j=1 (x j x) 2 der x = 1 n j=1 x j og Ȳ = 1 n j=1 Y j. A = Ȳ B x Av praktiske årsaker bestemmer en seg for å ta 5 prøver av sølvinnholdet i hver ende av sølv åren. La Y 1,..., Y 5 betegne målt sølvinnhold i den vestre enden (x i = 0) og Y 6,..., Y 10 betegne målt sølvinnhold i den østre enden (x i = 40). b) Vis at da er 10 j=6 B = Y j 5 j=1 Y j 200 Hva blir det tilsvarende uttrykket for A? Finn variansen til B uttrykt ved σ 2. Resultatet av de 10 målingene i g/tonn er gitt nedenfor: x i 0 0 0 0 0 40 40 40 40 40 y i 248 176 52 98 76 682 854 870 838 806 La ȳ V være gjennomsnittet av målingene i den vestre enden og ȳ E være gjennomsnittet av målingene i den østre enden. Til hjelp for videre utregninger får du opplyst at ȳ V = 130, ȳ E = 810, 5 (y j ȳ V ) 2 = 26064, j=1 10 j=6 (y j ȳ E ) 2 = 22720 c) Finn et estimat for σ 2 basert på disse dataene. Fra erfaring med andre sølvårer med relativt lite sølv i den ene enden, blir det fra økonomisk hold uttalt at β nok må være større enn 12 for at sølvåren skal være lønnsom. Gir dataene grunnlag for å påstå at β > 12? Formuler spørsmålsstillingen som en hypotesetest og utfør testingen. Hva blir konklusjonen når signifikansnivået settes til 5%? d) En av personene i ledelsen for firmaet som eier sølvåren, hevder at det hadde blitt et sikrere estimat for β om de 10 prøvene hadde blitt tatt med noenlunde jevne mellomrom langs sølvåren. Anta at dette hadde blitt gjort, og at en fremdeles hadde x = 20. Ville variansen til estimatoren for β i den gitte modellen da blitt mindre? Begrunn svaret. Personen insisterte på at det måtte tas en ekstra prøve midt i sølvåren, dvs. for x = 20. Resultatet av denne ble 600 g/tonn. Vurder om denne verdien er rimelig ut i fra modellen ved å se om den er inneholdt i et 95% prediksjonsintervall for en slik prøve. Du får opplyst at ( ) V ar(y 0 Ŷ0) = σ 2 1 + 1 n + (x 0 x) 2 n j=1 (x j x) 2 der Y 0 er en ny observasjon for sølvinnholdet i et punkt x 0, Ŷ0 = A+Bx 0, og n er antall observasjonspunkter som estimeringen er basert på.

Oppgave 3 En viktig vitenskapelig oppdagelse fant sted i 1929 da Edwin Hubble oppdaget at universet er ekspanderende. Hubble s tallmateriale bestod blant annet av; x i = avstanden til galakse i (målt i millioner lysår), og y i = hastigheten til galakse i (målt i 1000 km/s). Verdiene Hubble benyttet i en av sine analyser er som følger: Navn Avstand, x i Hastighet, y i Virgo 22 1.2 Pegasus 68 3.8 Perseus 108 5.1 Coma Berenices 137 7.5 Ursa Major 1 255 14.9 Leo 315 19.2 Corona Borealis 390 21.4 Gemini 405 23.0 Bootes 685 39.2 Ursa Major 2 700 41.6 Hydra 1100 60.8 Hubble foreslo en modell for hastighet som funksjon av avstand på formen y = βx, der β senere har blitt kalt Hubble s konstant. En statistisk versjon av ligningen kan gis ved: Y i = βx i + ε i, i = 1,..., 11, (3.1) der ε i, i = 1,..., 11, er uavhengige og normalfordelte stokastiske variabler med forventning 0 og varians σ 2. a) Bruk minste kvadraters metode (method of least squares) til å estimere β med utgangspunkt i ligning (3.1), og vis at estimatoren for β da blir gitt ved ˆβ = Finn uttrykk for forventning og varians til ˆβ. 11 i=1 x iy i 11 i=1 x2 i b) Benytt Matlab til å tilpasse den lineære modellen foreslått i (3.1). Hva er estimatet for ˆβ? Hint: funksjonen fitlm(x, y, Intercept, false) tilpasser den foreslåtte lineære modellen.. En ønsker å teste hypotesen H 0 : β = 0 mot H 1 : β 0. Hva er p-verdien til testen? Vil du forkaste H 0 ved et 1% signifikansnivå? c) Residualene til den tilpassede modellen er gitt som y i ŷ i for i = 1,..., 11. Lag et normalsannsynlighetsplott og et residualplott og diskuter om det er rimelig å anta at residualene er normalfordelte med konstant varians. d) Anta at en annen galakse befinner seg en avstand x 0 = 900 millioner lysår borte. Benytt Matlab til å finne predikert hastighet, ŷ 0, til denne galaksen. Finn også et 95% prediksjonsintervall for en måling av hastigheten til denne galaksen.

Hint: funksjonen predict(modell, 900, Prediction, observation ) kan være nyttig. Oppgave 4 Betrakt følgende lineære modell Y i = α + βx i + ɛ i i = 1,..., 50 der ɛ i er er uavhengige og normalfordelte stokastiske variabler med forventning 0 og varians σ 2. Verdier for x i og tilhørende y i er lagret i filen anb12.txt som kan lastes ned fra hjemmesiden til kurset. Du kan laste inn dataene på følgende måte: A = load( anb12.txt ); x = A(:, 1); y = A(:, 2); a) Benytt Matlab til å plotte x mot y, og avgjør om korrelasjonen er positiv, negativ eller omtrent null. Fasit Tilpass den foreslåtte lineære modellen ved å benytte Matlab. Hva er verdien til estimatene ˆα og ˆβ? En ønsker å teste hypotesen H 0 : α = 0 mot den alternative hypotesen H 1 : α 0. Benytt resultatet fra Matlab til å finne p-verdien for denne testen. Vil du forkaste H 0 ved 5% signifikansnivå? Benytt for eksempel et normalsannsynlighetsplott og et residualplott til å diskutere om antakelsene for lineær regresjon er oppfylt. 1. b) [ 0.1925, 0.1244] c) 98.88, [91.62, 106.14] d) 2076 eller 2080 2. a) 0.266, 0.48 b) σ 2 /4000 c) s 2 = 6098 d) [281.1, 658.9] 3. b) 0.056691, 4.7825 10 16 d) 51.0220, (48.4969,53.5471) 4. a) positiv, 0.043855