Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Like dokumenter
HØGSKOLEN I STAVANGER

Løsningsforslag eksamen 27. februar 2004

Løsningsforslag eksamen 25. november 2003

Oppgave N(0, 1) under H 0. S t n 3

Oppgave 1. Kilde SS df M S F Legering Feil Total

Oppgave 14.1 (14.4:1)

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Oppgave 13.1 (13.4:1)

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

TMA4240 Statistikk 2014

Løsningsforslag, eksamen statistikk, juni 2015

TMA4240 Statistikk Høst 2009

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen desember 2016

Fasit og løsningsforslag STK 1110

LØSNINGSFORSLAG ) = Dvs

HØGSKOLEN I STAVANGER

Kp. 9.8 Forskjell mellom to forventninger

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2009

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2018

HØGSKOLEN I STAVANGER

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

TMA4240 Statistikk 2014

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TMA4240 Statistikk Høst 2016

Løsningsforslag til oppgaver brukt i STA100

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

STK Oppsummering

ST0202 Statistikk for samfunnsvitere

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

10.1 Enkel lineær regresjon Multippel regresjon

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen august 2014

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Løsningsforslag: STK2120-v15.

Tilleggsoppgaver for STK1110 Høst 2015

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

TMA4240 Statistikk H2010

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Kort overblikk over kurset sålangt

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk H2010 (20)

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

STK juni 2016

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Oppgave 1. (x i x)(y i Y ) (Y i A Bx i ) 2 er estimator for σ 2 (A er minstek-

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

UNIVERSITETET I OSLO

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i TMA4240 Statistikk

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

UNIVERSITETET I OSLO

Kp. 12 Multippel regresjon

UNIVERSITETET I OSLO

ECON240 VÅR / 2016 BOKMÅL

TMA4240 Statistikk Høst 2016

Norske hoppdommere og Janne Ahonen

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Transkript:

Statistiske metoder 1 høsten 004. Løsningsforslag Oppgave 1: a) Begge normalplottene gir punkter som ligger omtrent på ei rett linje så antagelsen om normalfordeling ser ut til å holde. Konfidensintervall for µ X µ Y : µ ˆ X µ ˆ Y = X Ȳ Z = X Ȳ E( X Ȳ ) Var( X = X Ȳ (µ X µ Y ) N(0, 1) Ȳ ) σx + σ Y n Y Her er σx og σ Y ukjente, estimeres ved S X = 1 nx n X 1 i=1 (X i X) og SY = 1 ny n Y 1 i=1 (Y i Ȳ ), og når σx og σ Y erstattes med S X og S Y har vi fra pensum at n X T = X Ȳ (µ X µ Y ) S X n X + S Y n Y t ν der det er oppgitt i oppgaveteksten at ν = 17. P ( t α/,ν T t α/,ν ) 1 α P ( t α/,ν X Ȳ (µ X µ Y ) t α/,ν) 1 α SX nx + S Y n Y SX P ( t α/,ν + S Y n X n X Ȳ (µ SX X µ Y ) t α/,ν + S Y ) 1 α Y n X n Y P ( X Ȳ t SX α/,ν + S Y µ X µ Y n X n X Ȳ + t SX α/,ν + S Y ) 1 α Y n X n Y Dvs med t α/,ν = t 0.05,17 =.1 og de oppgitte dataene får vi følgende (tilnærmet) 95% konfidensintervall for µ X µ Y : [167.74/ 173./.1 0.87544/9 + 0.55316/9, 167.74/ 173./ +.1 0.87544/9 + 0.55316/9 ] = [ 0.81, 0.8] Konfidensintervallet inneholder kun negative verdier, dvs det ser ut for at forventet hardhet et større for konkurrenten sine kuler enn for bedriften sine. 1

b) H 0 : σ X = σ Y mot H 1 : σ X σ Y Eller: H 0 : σ X σ Y = 1 mot H 1 : σ X σ Y 1 Estimator: ˆσ 1 ˆσ = S 1 S Oppgitt resultat (eller teorem 8.8/tabell s. 8) gir at: F = (n X 1)S X /σ X n X 1 (n Y 1)S Y /σ Y n Y 1 = S X σ Y S Y σ X = S X S Y F (n X 1, n Y 1) under H 0 Vi forkaster her H 0 på 5% nivå dersom: F f 1 α/,9,9 = 1 f α/,9,9 = 1 f 0.05,9,9 = 1 4.03 = 0.48 eller F f 1 α/,9,9 = f 1 0.05,9,9 = 4.03. Observert: f obs = 0.87544/9 0.55316/9 = 1.59. Dvs vi forkaster ikke H 0 på 5% nivå. Ikke grunnlag for å påstå forskjell i varians.

a) Modell: Oppgave : Y ijk = µ + α i + β j + (αβ) ij + ε ijk, der ε ijk uavh. N(0, σ ) der µ er gjennomsnittseffekten, α i er effekten av ukedag i, β j er effekten av reiserute j, (αβ) ij er samspillseffekten ved kombinasjonen av ukedag i og reiserute j og ε ijk er feilleddet (tilfeldig variasjon). 5 i=1 α i = 0, 4 j=1 β j = 0, 5 i=1 (αβ) ij = 0, 4 j=1 (αβ) ij = 0. Dersom vi har samspill i denne situasjon kan vi tolke det som at det er forskjellig fra ukedag til ukedag hvilke reiseruter som er gunstig/ugunstige tidsmessig, eller/og at det er forskjellig fra reiserute til reiserute hvilke ukedager som gir mest/minst gunstig reisetid. b) 1. Kilde SS df M S F Ukedag 114.9 4 8.75 8.45 Reiserute 8.5 3 36.167.64 Samspill 7.7 1.308 0.68 Feil 68.0 0 3.400 Total 319.1 39 H 0 : β 1 = β = β 3 = β 4 = 0 mot H 1 : minst en β i 0 Siden f obs = 8.45 > f 0.05,3,0 = 3. forkaster vi H 0. Dvs, reiserute har betydning.. H 0 : α 1 = α = α 3 == α 4 = α 5 = 0 mot H 1 : minst en α i 0 Siden f obs =.64 > f 0.05,4,0 =.87 forkaster vi H 0. Dvs, ukedag har betydning. 3. H 0 : (αβ) 11 = = (αβ) 54 = 0 mot H 1 : minst en 0 Siden f obs = 0.68 < f 0.05,1,0 =.8 forkaster vi ikke H 0. Dvs, det er ikke samspill mellom reiserute og ukeda. Tidsbruken avhenger både av ukedag og av valg av reiserute, men det er ikke samspill mellom disse to faktorene. Fra plottet ser det ut for at reiserute 1 generelt er det gunstigste valget. Tendensen når det gjelder tidsbruk ulike dager ser ut til å være at det tar lengst tid mandager og torsdager. 3

Oppgave 3: a) Ja, vi ser fra variansanalysetabellen at testen H 0 : β 1 = β = 0 mot H 1 : minst en β i 0 gir forkastning på alle rimelig nivå (p-verdi=5.6 8 ) - dvs funksjonen av prosentandel tilsetningsstoff (med leddene x og x ) har samlet sett betydning for Y. Prosentandelen tilsetningsstoff har med andre ord betydning for Y. ŷ(x) =.0 + 1.88x 0.684x. Ved derivasjon får vi: ŷ (x) = 1.88 0.684x = 0 x 0 = 1.88 1.368 = 9.4 ŷ(9.4) =.0 + 1.88 9.4 0.684 9.4 = 50.43 b) Tar utgangspunkt i: Ŷ 0 Y 0 = ˆµ Y x0 Y 0 der Y 0 er den nye målingen og vi i forrige punkt fant at x 0 = 9.4. Når x 0 = (1, 9.4, 9.4 ) T får vi Tallsvar: E(Ŷ0 Y 0 ) = E(ˆµ Y x0 ) E(Y 0 ) = µ Y x0 µ Y x0 = 0 Var(Ŷ0 Y 0 ) uavh = Var(Ŷ0) + Var(Y 0 ) = 0.113σ + σ = 1.113σ T = Ŷ0 Y 0 S 1.113 t n 3 P ( t α/,n 3 T t α/,n 3 ) = 1 α P ( t 0.05,16 Ŷ0 Y 0 S 1.113 t 0.05,16) = 0.90 P (Ŷ0 t 0.05,16 S 1.113 Y 0 Ŷ0 + t 0.05,16 S 1.113) = 0.90 Innsatt ŷ 0 = b 0 + b 1 x 0 + b x 0 =.0 + 1.88 9.4 0.684 9.4 = 50.43, s = 5.864 og t 0.05,16 = 1.746 gir dette følgende 90% prediksjonsintervall: [50.43 1.746 5.864 1.113, 50.43 + 1.746 5.864 1.113] = [39.6, 61.]. 4

c) H 0 : β 3 = 0 mot H 1 : β 3 0 p-verdi for denne testen er gitt i datautskriften og er 0.0004 < 0.05, dvs vi forkaster H 0, tredjegradsleddet gir signifikant bidrag. Praktisk tolkning av β 0 i disse modellene er forventet hardhet i en legering uten tilsetningen (x = 0). I modell 1 får vi estimatet ˆβ 0 =.0 mens modell gir estimatet ˆβ 0 = 4.93, siden hardhet måles på en skala som går fra 0 og oppover er estimatet vi får fra modell mest rimelig. Ulempen med R som modellvalgskriterium er at R alltid øker når vi tar med flere variable i modellen. R justert er en forbedret R som justerer for problemet med å ukritisk ta med for mange variable. Her har modell 1 R justert = 0.860 mens modell har en høyere verdi, R justert = 0.938, dvs modell er best i følge R justert. d) Når vi ser på plottene av de estimerte regresjonslinjene ser vi at den estimerte regresjonslinja fra modell ser ut til å være mer i overenstemmelse med dataene enn linja fra modell 1. I plottet av residualene ser vi en viss tendens til mønster i residualene fra modell 1 (som kan tyde på at modellen ikke er helt godt tilpasset), mens residualene for modell viser en jevn og tilfeldig spredning omkring 0, noe som tyder på en god modell. Modell ser altså ut til å være best. Ved å plotte residualene mot alle forklaringsvariablene, mot predikerte verdier og innsamlingsrekkefølge/observasjonsnummer kan man sjekke: 1) om den tilpassede modellen for forventningsverdien er den korrekte (korrekt valg av variable og korrekt funksjonsform på variablene), ) om feilleddene ε 1... ε n har forventning 0, konstant varians og er uavhengige. Dersom disse antagelsene holder skal alle disse plottene vise residualer som har gjennomsnitt omtrent 0, konstant variasjon omkring 0 og ingen bestemte mønster. Ved å lage et normalplott av residualene kan antagelsen om at feilleddene ε 1... ε n er normalfordelte sjekkes. Dette plottet bør gi punkter som ligger omtrent på ei rett linje dersom normalfordelingsantagelsen er god. I denne situasjonen burde man i tillegg lage et normalplott av residualene og et plott av residualene mot predikert verdier. Generelt burde også et plott av residualene mot observasjonsnummer lages, for å sjekke for eventuelle avhengigheter i dataene knyttet til innsamlingsrekkefølgen, men her øker verdien på x i jevnt med verdien på i - så med akkurat disse dataene ville dette plottet vise det samme som plottet av residualene mot x. 5

Oppgave 4: a) 1. X 1 = antall personer med lidelsen i det tilfeldige utvalget på n 1 = 0 personer i gruppe 1 bin(0, p 1 ) H 0 : p 1 = 0.15 mot H 1 : p 1 > 0.15 En stor verdi på X 1 (=stor verdi på ˆp 1 ) tyder på at H 1 er rett. Med x 1,obs = 5 får vi p verdi = P (X 1 5 p 1 = 0.15) = 1 P (X 1 4 p 1 = 0.15) tabell = 1 0.83 = 0.17. Forklaringen er at vi har gjort mange flere observasjoner i gruppe. Selv om estimert andel er mindre i gruppe enn i gruppe 3 har vi på grunn av mange flere målinger mindre usikkerhet og kan være mer sikre på at reell andel er større enn 0.15 for gruppe enn for gruppe 3. 3. Man må være oppmerksom på den såkalte fisketur -problematikken. Jo flere tester man utfører jo større er sannsynligheten for å gjøre en type-i feil (feilaktig forkaste nullhypotesen) i minst en av testene. Dersom man bruker et nivå α (=sannsynlighet for type-i feil) og gjør mange tester hvor nullhypotesen egentlig er korrekt vil sannsynligheten for å ved en tilfeldighet få forkastning i minst en av testene bli mye større enn α, og større jo flere tester man gjør. En enkel måte å kompansere for dette problemet på er ved å gjøre en Bonferroni-korreksjon, hvor man redusere nivået fra α til α/k der k er antall tester. Da er man sikret at den totale sannsynligheten for å begå en type-i feil i minst en av testene ikke overskrider α Dersom vi her tar utgangspunkt i et ønsket nivå på α = 0.05 bruker vi da nivået α = 0.05/11 = 0.0045 i hver enkelt test for å sikre at den totale sannsynligheten for å gjøre en type-i feil ikke overskrider 0.05. Konklusjonen blir da at vi forkaster nullhypotesen og konkluderer med at andel med lidelsen er større enn 0.15 i gruppe 6 og 11 (disse er de to eneste gruppene hvor p-verdien på testen ble mindre enn 0.05). 6