Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0



Like dokumenter
Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Løsningsforslag eksamen 25. november 2003

Oppgave 13.1 (13.4:1)

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

HØGSKOLEN I STAVANGER

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Oppgave 14.1 (14.4:1)

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppgave N(0, 1) under H 0. S t n 3

HØGSKOLEN I STAVANGER

HØGSKOLEN I STAVANGER

Oppgave 1. Kilde SS df M S F Legering Feil Total

UNIVERSITETET I OSLO

Løsningsforslag eksamen 27. februar 2004

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

6.2 Signifikanstester

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Løsningsforslag eksamen STAT100 Høst 2010

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Kort overblikk over kurset sålangt

Kapittel 3: Studieopplegg

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Verdens statistikk-dag.

Hypotesetesting. mot. mot. mot. ˆ x

Kp. 14 Flerfaktoreksperiment. Kp. 14: Flerfaktor-eksperiment; oversikt

vekt. vol bruk

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

TMA4240 Statistikk Høst 2018

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Eksamensoppgave i TMA4240 Statistikk

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

TMA4240 Statistikk Høst 2016

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i ST0103 Brukerkurs i statistikk

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK

10.1 Enkel lineær regresjon Multippel regresjon

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag: STK2120-v15.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

i x i

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk 2014

Tilleggsoppgaver for STK1110 Høst 2015

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Inferens i regresjon

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Eksamensoppgave i TMA4245 Statistikk

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

ST0202 Statistikk for samfunnsvitere

Kp. 13. Enveis ANOVA

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Kvinne Antall Tabell 1a. Antall migreneanfall i året før kvinnene fikk medisin.

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i ST3001

UNIVERSITETET I OSLO

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

Statistikk og dataanalyse

EKSAMEN I TMA4255 ANVENDT STATISTIKK

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Introduksjon til inferens

TMA4240 Statistikk Høst 2007

Kan vi stole på resultater fra «liten N»?

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir forlag) Oppgave 1 a) Kolesterolnivået ble målt for 9 menn før og etter diett. En bør bruke parvis måleserie (pardata) siden dataene kommer fra samme subjekt, men målt under to forskjellige betingelser. Se kapittel 9.9 Paired Observations side 294 i læreboka. Ved parvise måleserier regner en først ut alle differanser D i = X i Y i, der Y i og X i er h.h.v. kolesterolnivå før og etter diett. Vi antar at D 1,..., D 9 er uavhengige og normalfordelte med forventing µ D = µ X µ Y (Mens samhørende X- og Y -målinger her vil være avhengige). Om vi har grunnlag for å hevde at µ D er forskjellig fra 0 avgjøres ved å regne ut teststørrelsen: T = D µ D Stdv( D) = D µ D S D / t(9 1) 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: H 0 : µ D = 0 versus H 1 : µ D 0. T observert = 2.16 0 2.62/ 9 = 2.47 Den kritiske verdi for en student-t fordeling med 8 frihetsgrader er 2.31 for et 5% signifikans nivå. Den observerte verdi er større enn den kritiske, hvilket betyr at vi forkaster nyllhypotesen på et 5% signifikansnivå og konkluderer med at kolesterolnivået har endret seg. Men noen av dere er antagelig primært interesserte i å teste om dietten gir forbedring, dvs en ønsker å utføre den ensidige testen: H 0 : µ D = 0 versus H 1 : µ D < 0. Den kritiske verdi for en student-t fordeling med 8 frihetsgrader er 1.86 for et 5% signifikans nivå ved en ensidig hypotesetest. Den observerte verdi er større enn den kritiske, hvilket betyr at vi forkaster nyllhypotesen på et 5% signifikansnivå og konkluderer med at dietten reduserer forventet kolesterolnivå. 1

Oppgave 2 a) En naturlig modell for dette tilfellet vil være at avlingsmengdene er normalfordelte med samme varians σ 2, men mulig ulik forventningsverdi for de tre peanøtt-typene. Y ij = µ i + E ij, der E ij N (0, σ 2 ) for alle i = 1, 2, 3 og j = 1, 2, 3, 4. SST = 376.12 måler total variasjon. SSA = 196.12 måler variasjonen mellom faktor A (type peanøtter). Dvs variasjonen som skyldes ulik peanøtt-type. SSE = 180.01 måler variasjonen innen typer. Vi har sammenhengen: SST = SSA + SSE. Vi vil teste hypotesen: H 0 : µ 1 = µ 2 = µ 3 versus H 1 : minst en forskjellig Her er det naturlig å bruke en variansanalysetest. Testobservator F = SSA 3 1 SSE 12 3 = MSA MSE = 4.903 Forkaster H 0 dersom observert F er større en kritisk verdi F 2,9 = 4.25 på 5% signifikans nivå. Dette gir forkastning av nullhypotesen. Vi konkluderer med at minst en av peanøtttypene har ulik forventet avling. b) Modellen i forrige punkt kan skrives som Y ij = µ + α i + E ij, i = 1, 2, 3 j = 1, 2, 3, 4 dersom vi lar µ være gjennomsnittlig/felles forventing for peanøtt-typene, og α i er tilleggseffekt av peanøtt-type i. Altså Disse kan estimeres fra utskriftene: Estimat for variansen σ 2 til E ij er ˆσ 2 = µ = (µ 1 + µ 2 + µ 3 ) 3 α 1 = µ 1 µ α 2 = µ 2 µ α 3 = µ 3 µ ˆµ = 195.1 ˆα 1 = 189.9 195.1 = 5.2 ˆα 2 = 199.8 195.1 = 4.7 ˆα 3 = 195.5 195.1 = 0.4 SSE n 1 (k 1) = 180.01 9 2 = 20.0.

c) Nå må vi sette opp en modell som kan ta hensyn til effekt av både type og område. I tillegg må vi ta med muligheten for samspill. Altså en toveis ANOVA med samspillseffekt. Y ijk = µ + α i + β j + (αβ) ij + ɛ ijk, der ɛ ijk N (0, σ 2 ), og α 1 + α 2 + + α a = 0, β 1 + β 2 + + β b = 0, (αβ) 1j + (αβ) 2j + + (αβ) aj = 0 og (αβ) i1 + (αβ) i2 + + (αβ) ib = 0. Her er a = 3 og b = 2. [Obs.: (αβ) ij betyr ikke α i β j ] d) Vi bruker variansanalysetabellen til å teste på 5% signifikansnivå (se kapittel 14 i læreboka): 1. Om der er samspill mellom område og type Hypotesetest: H 0 : (αβ) 11 = = (αβ) ab = 0 versus H 1 : minst en forskjellig. Hypotesetesten på om der samspill mellom område og type ga en p-verdi på 0.196. Siden p-verdien er større enn 0.05 kan vi ikke forkaste nullhypotesen på et 5% signifikansnivå og konkludere med samspilleffekt. 2. Om type har betydning for mengde avling Hypotesetest: H 0 : α 1 = = α a = 0 versus H 1 : minst en forskjellig. Vi forkaster nullhypotesen dersom F = SSA/(a 1) SSE/ab(n 1) = MSA MSE f α,a 1,ab(n 1). Hypotesetesten på om peanøtt-type har betydning for mengde avling ga en F-observert på 5.65 (98.06/17.37 = 5.65) hvilket er større enn kritisk verdi på 5% nivå f 0.05,2,6 = 5.14. Vi kan derfor forkaste nullhypotesen på et 5% signifikansnivå og konkludere med at peanøtt-type har betydning for mengde avling. 3. Om område har betydning for mengde avling Hypotesetest: H 0 : β 1 = = β b = 0 versus H 1 : minst en forskjellig. Hypotesetesten på om område har betydning for mengde avling ga en p-verdi på 0.847. Vi kan derfor ikke forkaste nullhypotesen på et 5% signifikansnivå og konkludere med at område har betydning. 3

a) Regresjonsmodell: Oppgave 3 P EF i = β 0 + β 1 x 1i + ɛ i, der ɛ i N (0, σ 2 ). Feilleddene antas altså å være normalfordelt med forventing null og konstant varians. I tillegg antar en at feilleddene er uavhenginge (random error). Den estimerte regresjonsmodellen: P EF = 1174.90 + 9.61x 1 Forventet PEF for en student med høyde 180 cm: P EF = 1174.90 + 9.61x 1 = 1174.90 + 9.61 180 = 554.9 Tester om parameteren tilhørende høyde er forskjellig fra null H 0 : β 1 = 0 versus H 1 : β 1 0 T observert = 9.61 0 = 9.75 0.99 Vi ser av utskriften at p-verdien er mindre enn 0.05. Vi forkaster dermed H 0 og konkluderer med at β 1 er signifikant forskjellig fra null på 5% signifikans nivå. b) Konfidens- og prediksjonskurven uttrykker h.h.v konfidens- og prediksjonsintervall for PEF nivået som funksjon av høyde x 0. Et 95% konfidensintervall for gjennomsnitlig respons µ Y x0 er gitt ved { 1 ŷ 0 t 0.025,n 2 S 2 n + (x 0 x) 2 } { 1 < µ Y x0 < ŷ 0 + t 0.025,n 2 S S 2 xx n + (x 0 x) 2 }, S xx mens et 95% prediksjonsintervall for en fremtidig observert respons y 0 er gitt ved { ŷ 0 t 0.025,n 2 S 2 1 + 1 n + (x 0 x) 2 } < y 0 < ŷ 0 +t 0.025,n 2 S {1 S 2 + 1 xx n + (x 0 x) 2 }. S xx Se kapittel 11.6 i læreboka. Mer generelt defineres konfidens og prediksjonsintervall slik: ( ) Konfidensintervall: P L θ U = 1 α: Intervallet (L, U) inneholder virkelig verdi til parameter θ med sannsynlighet (1 α). Prediksjonsintervall: Vi ønsker et intervall som er slik at utfallet av en (ny) tilfeldig variabel faller i intervallet med sannsynlighet (1 α). Konfidens og prediksjonsintervallet for PEF nivået når høyden er 180 cm: Vi setter inn for ŷ 0 = 554.9, x = 175.695, S xx = 7264.248, n = 105 og t 0.025,n 2 1.98 i formleme for konfidens og prediksjonsintervall ovenfor og får h.h.v. intervallene (536.59, 573.21) og (387.27, 722.53). 4

c) Multippel regresjonsmodell: der ɛ i er uavhengige og N (0, σ 2 ). Estimert regresjonsmodell: P EF i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i + β 4 x 4i + ɛ i, P EF = 18.00 + 2.28x 1 + 2.13x 2 + 2.16x 3 120.31x 4 Forventet PEF for en kvinnelig student med høyde 180 cm, vekt 50 kg og alder 20: P EF = 18.00 + 2.28x 1 + 2.13x 2 + 2.16x 3 120.31x 4 = 18.00 + 2.28 180 + 2.13 50 + 2.16 20 120.31 1 = 421.79 Den estimerte parameteren for alder β 3 er 2.16, hvilket betyr at en øknig i alder med ett år øker PEF med 2.16 hvis alt annet holdes konstant. Den estimerte parameteren for kjønn β 4 er -120.31. Siden variabelen for kjønn (x 4 ) er definert som 1 for kvinner og 0 for menn, så tolkes parameteren som at kvinner i gjennomsnitt har et lavere PEF nivå på 120.31 enn menn hvis alt annet er likt. d) Vi kan teste om forklaringsvariablene i modellen samlet sett innflytelse på PEF ved hjelp av ANOVA tabellen (Se kapittel 12.4 side 457 i læreboka). Dette testes ved om en signifikant andel av variasjonen forklares av regresjonen i forhold til hva støyleddet forklarer. Hypotesetest H 0 : β 1 = β 2 = β 3 = β 4 = 0 versus H 1 : minst en er forskjellig ANOVA involverer en F-test der nullhypotesen forkastes dersom F = SSR/k SSE/(n (k + 1)) = MSR MSE f α,k,n (k+1). Oppgitt ANOVA-tabell gir oss F observert = 45.78 som tilsvarer en p-verdi < 0.001, hvilket betyr at vi forkaster nullhypotesen på et 5% signifikansnivå og konkluderer med at regresjonen er forskjellig fra en konstant og at minst en av stigningskoeffisientene (slope parameters) er av statistisk betydning. Begrepet p-verdi kan forklares på flere måter. Inspirasjon til forklaring er her gjengitt fra kompendiet Bruk statistikk riktig! av Jan Terje Kvaløy side 14: En måte å si hva en p-verdi er for noe er sannsynligheten for å oppservere noe som motsier nullhypotesen minst like mye som det vi har observert, gitt at nullhypotesen er korrekt. Eller litt mer løselig, sannsynligheten for å observere noe minst like ekstremt som det vi har observert, gitt at nullhypotesen er korrekt. Et viktig poeng her er at vi alltid regner ut p-verdien under antagelsen om at nullhypotesen er korrekt (gitt at nullhypotesen er korrekt). I hypotesetesting antar vi i utgangspunkt at nullhypotesen er korrekt, og så regner vi ut hvor sannsynlige de observerte dataene er under denne antagelsen Ű dersom de er svært lite sannsynlige (liten p-verdi) konkluderer vi med at antagelsen (nullhypotesen) er gal. Liten, versus stor p-verdi: 5

En liten p-verdi (typisk mindre enn 0.05) betyr at vi forkaster nullhypotesen og påstår at alternativ hypotese er korrekt. En stor p-verdi betyr bare at vi ikke forkaster nullhypotesen - både nullhypotese og alternativ hypotese er mulige. e) Residualene er definert ved ɛ i = P EF i E(P EF i ) = P EF i (β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i + β 4 x 4i ), for alle i, og estimeres ved ˆɛ i = P EF i ˆ P EF i = P EF i ( ˆβ 0 + ˆβ 1 x 1i + ˆβ 2 x 2i + ˆβ 3 x 3i + ˆβ 4 x 4i ). Residualet er altså definert som differansen mellom observert og predikert verdi. Residualet for en kvinnelig student med høyde 180 cm, vekt 50 kg, alder 20 og observert PEF nivå 410 kan estimeres ved ˆɛ = 410 ( ˆβ 0 + ˆβ 1 180 + ˆβ 2 50 + ˆβ 3 20 + ˆβ 4 1 = 11.79. Hvilke plott en bør lage av residualene og hvilke antakelser kan en da sjekke er forklart side 428-30 i kapittel 11.10 i læreboka. 6