EKSAMEN I TMA4255 ANVENDT STATISTIKK

Like dokumenter
EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Eksamensoppgåve i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

HØGSKOLEN I STAVANGER

Eksamenssettet består av to deler. Ved bedømmelsen teller del A 30 % og del B 70 %. Innenfor hver del teller alle deloppgaver likt.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4245 Statistikk

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i ST3001

10.1 Enkel lineær regresjon Multippel regresjon

EKSAMENSOPPGAVER STAT100 Vår 2011

vekt. vol bruk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

Eksamensoppgave i TMA4267 Lineære statistiske modeller

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Skoleeksamen i SOS Kvantitativ metode

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ECON240 VÅR / 2016 BOKMÅL

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

UNIVERSITETET I OSLO

Løsningsforslag eksamen 25. november 2003

Kapittel 3: Studieopplegg

Eksamensoppgåve i TMA4255 Anvendt statistikk

EKSAMEN I TMA4240 Statistikk

UNIVERSITETET I OSLO

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

UNIVERSITETET I OSLO

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

HØGSKOLEN I STAVANGER

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

Kort overblikk over kurset sålangt

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Eksamensoppgave i TMA4275 Levetidsanalyse

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4245 Statistikk Eksamen desember 2016

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamensoppgåve i TMA4240 Statistikk

Statistisk analyse av data fra planlagte forsøk

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

UNIVERSITETET I OSLO

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

UNIVERSITETET I OSLO

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

TMA4240 Statistikk Høst 2009

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

i x i

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Transkript:

Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 11 Faglig kontakt under eksamen: Mette Langaas (988 47 649) BOKMÅL EKSAMEN I TMA4255 ANVENDT STATISTIKK Mandag 6. juni 2011 Tid: 9:00 13:00 Antall studiepoeng: 7.5 Tillatte hjelpemidler: Alle trykte og håndskrevne hjelpemidler. Spesiell kalkulator. Sensurfrist: 28. juni 2011. Eksamensresultatene annonseres fra http://studweb.ntnu.no/. Merk deg følgende: I utskriften fra MINITAB er komma brukt som desimalskilletegn. Bruk signifikansnivå 5%. Alle svar må begrunnes.

TMA4255 Anvendt statistikk Side 2 av 11 Oppgave 1 Body mass index I en finsk studie så man på sammenhengen mellom kroppsmasseindeks (body mass index, BMI) ved 31-års alder og genetiske varianter av fettmasse- og overvekt-genet (Fat Mass and Obesity, FTO). BMI er definert som vekt delt på kvadratet av høyde (kg/m 2 ). Et individ har en av tre mulige genotyper av FTO-genet, disse genotypene kaller vi 0, 1 og 2. Totalt deltok 4435 individer i studien. a) Forklar med én setning målet for en en-veis variansanalyse (ANOVA), og skriv ned den statistiske modellen som en en-veis ANOVA er basert på. Statistiske analyser av BMI er ofte basert på transformerte data til logaritmisk skala. La ln(bmi) være den naturlig logaritmen (grunntall e) til en BMI-måling. Vi ser først på separate analyser av BMI vs. FTO-genotype, og ln(bmi) vs. FTO-genotype. En en-veis ANOVA-modell ble tilpasset til BMI- og til ln(bmi)-dataene separat. Under finner du utskrift fra MINITAB. På neste side finner du seks grafer. I den øvre raden vises boksplott av BMI og av ln(bmi) for de tre genotypene. De fylte prikkene angir gjennomsnittsverdien for hver genotype. I den midterste raden har vi histogrammer over studentiserte residualer, og i den nedre raden har vi normalkvantil-kvantil plott basert på de studentiserte residualene. Grafene i den venstre kolonnen er basert på BMI-dataene, mens den høyre kolonnen er basert på ln(bmi)-dataene. Vil du anbefale at vi bruker BMI-dataene eller ln(bmi)-dataene i vår en-veis ANOVA? Begrunn svaret ditt. One-way ANOVA: lnbmi versus FTO Source DF SS MS F P FTO 2 0,5727 0,2864 11,32 1,247e-05 Error 4432 112,1064 0,0253 Total 4434 112,6791 S = 0,1590 R-Sq = 0,51% R-Sq(adj) = 0,46% One-way ANOVA: BMI versus FTO Source DF SS MS F P FTO 2 453,0 226,5 14,73 4.209e-07 Error 4432 68158,0 15,4 Total 4434 68611,0 S = 3,922 R-Sq = 0,66% R-Sq(adj) = 0,62%

TMA4255 Anvendt statistikk Side 3 av 11

TMA4255 Anvendt statistikk Side 4 av 11 b) Vi vil nå analysere ln(bmi)-dataene ved hjelp av en en-veis ANOVA-modell. Bruk utskriften fra MINITAB («ln(bmi) vs. FTO») på side 2. Skriv ned nullhypothesen som testes i vår en-veis ANOVA. Forklar hvorfor bokstaven F er brukt for testobservatoren, og poengter hva som er sammenhengen mellom DF-kolonnen og testobservatoren. Vil du forkaste nullhypotesen for ln(bmi)-dataene? Bartletts test og Levenes test for lik varians ble utført med følgende resultat. Hvilken konklusjon kan du trekke fra dette? Bartlett s Test (Normal Distribution) Test statistic = 2,78; p-value = 0,250 Levene s Test (Any Continuous Distribution) Test statistic = 0,63; p-value = 0,534 Vi skal nå se på forventet ln(bmi) for de tre ulike genotypene. Det finnes n i individer med FTO-genotype i og x ij er ln(bmi) til individ j = 1,..., n i. Videre så er x i = 1 ni n i j=1 x ij gjennomsnittlig ln(bmi) og s i = 1 ni n i 1 j=1(x ij x i ) 2 et estimat for standardavviket til ln(bmi) for FTO-genotype i. FTO-genotypegruppe n i x i s i 0 1678 3.1809 0.1579 1 2068 3.1920 0.1577 2 689 3.2151 0.1656 c) Hva er sammenhengen mellom s i -ene presentert i tabellen og S = 0.1590 fra ANOVAutskriften på side 2? Lag et 95 % konfidensintervall for differansen i forventet ln(bmi) mellom FTO-genotypegruppene 0 og 1. Spesifiser hvilke antagelser du gjør. I tillegg til å se på differansen i forventet ln(bmi) mellom FTO-genotypegruppene 0 og 1 er vi også interessert i å se på differansen i forventet ln(bmi) for alle par av FTOgenotyper. Det følgende er utskrift fra MINITAB der «one-way multiple comparisons» ved hjelp av Tukeys metode er utført med familywise feilrate-signifikansnivå 5 %.

TMA4255 Anvendt statistikk Side 5 av 11 Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of FTO Individual confidence level = 98,07% FTO = 0 subtracted from: FTO Lower Center Upper ------+---------+---------+---------+--- 1-0,0011 0,0111 0,0234 (---*----) 2 0,0174 0,0342 0,0510 (------*-----) ------+---------+---------+---------+--- -0,025 0,000 0,025 0,050 FTO = 1 subtracted from: FTO Lower Center Upper ------+---------+---------+---------+--- 2 0,0067 0,0231 0,0394 (-----*------) ------+---------+---------+---------+--- -0,025 0,000 0,025 0,050 Hvorfor står det Individual confidence level = 98,07% i utskriften når vi har spesifisert et 5% signifikansnivå for familywise feilrate? Hvilke konklusjoner kan du trekke fra utskriften? d) Gjennomsnittlig ln(bmi) for FTO-genotypegruppe 2 er funnet å være 3.2151 og det empiriske standardavviket er 0.1656. Bruke tilnærmede (approksimerte) metoder til å finne et estimat for forventningsverdi og standardavvik for BMI (dvs. på originalskala, kg/m 2, ikke på logaritmisk skala).

TMA4255 Anvendt statistikk Side 6 av 11 Oppgave 2 Normalfordelte karakterer? Når man evaluerer en eksamensbesvarelse gir man poeng på hvert eksamensspørsmål. Disse poengene summeres så til en total poengsum. Anta at maksimal poengsum for en eksamensbesvarelse er 80 poeng. Denne poengsummen er vanligvis ikke bekjentgjort overfor studenten. Isteden blir poengsummen konvertert til en karakter (A F) ved hjelp av en konverteringsregel. Hver karakter tilsvarer et poengsum-intervall. Vi skal se på data fra et kurs forrige semester. Det ble levert inn 577 eksamensbesvarelser. Poengsum-intervallene og antallet besvarelser som fikk de ulike karakterene (karakterfrekvens) finner du i følgende tabell. Karakter A B C D E F Poengsum-intervall (68.5,80] (58.5,68.5] (44.5,58.5] (36.5,44.5] (31.5,36.5] [0,31.5] Karakterfrekvens 38 80 193 131 86 49 Normalsannsynlighet 0.0465 0.1323 0.3769 0.2147 0.0982 0.1314 Anta at poensummen til en besvarelse er normalfordelt med forventningsverdi 46.3 og standardavvik 13.2. Beregn sannsynligheten for at poengsummen for en tilfeldig valgt besvarelse ligger i intervallet (58.5, 68.5]. Sammenlign dette resultatet med tallet du finner i raden med navn «Normalsannsynlighet» og kolonnen med navn «B». Dette tallet og de andre tallene i «Normalsannsynlighet»-raden kan du bruke i de numeriske beregningene når du svarer på det neste spørsmålet. Test nullhypotesen H 0 : «poengsummen er normalfordelt med forventningsverdi 46.3 og standardavvik 13.2» mot den alternative hypotesen H 1 : «poengsummen er ikke normalfordelt med forventningsverdi 46.3 og standardavvik 13.2» ved å bruke data i tabellen over. Forklar kort hvordan du vil gå frem for å teste nullhypotesen at poengsummen er normalfordelt uten å anta konkrete verdier for parameterene i normalfordelingen. Du skal ikke utføre noen numeriske beregninger.

TMA4255 Anvendt statistikk Side 7 av 11 Oppgave 3 Lykke Vi skal nå se på et datasett bestående av data fra 39 studenter, som også hadde lønnet arbeid, ved studiet for Master of Business Administration ved University of Chicago Graduate School of Business. Dataene er samlet inn for å teste hypotesen om at kjærlighet og arbeid er de viktigste faktorene for å forklare hvor lykkelig et individ er. Som alternative forklaringsvariabler ble det også samlet inn data om inntekt og nivå av seksuell aktivitet. Disse fem variablene er i datasettet kodet på følgende måte. y, happiness. Lykke ble målt på en skala med 10 nivåer, der 1 betegner en suicidal tilstand, 5 representerer en følelse av å bare «holde det gående på et vis» og 10 angir en euforisk tilstand. x 1, money. Angir hvor mange tusen dollar man tjener pr. år i individets husholdning. x 2, sex. Verdiene 0 og 1 ble brukt, der 1 anga et tilfredsstillende nivå av seksuell aktivitet. x 3, love. Kjærlighet ble målt på en skala med 3 nivåer, der 1 ble beskrevet som ensomhet og isolasjon, 2 som eksistens av trygge relasjoner, og 3 representerte en dyp følelse av tilhørighet og omsorg i en familie eller et samfunn. x 4, work. Arbeid ble kodet på en skala med 5 nivåer. Koden 1 ble brukt for individer som forsøkte å finne en annen jobb, 3 betydde at jobben var OK, og 5 at jobben var fornøyelig. Boksplott og spredningsplott (scatter plots) finner du på side 8. En multippel lineær regresjonsmodell ble tilpasset til dataene med y som respons og x 1, x 2, x 3 og x 4 som forklaringsvariabler. La (y i, x 1i, x 2i, x 3i, x 4i ) betegne observasjoner fra individ i, der i = 1,..., 39. Definer den fulle modellen (modell A): Modell A: y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i + β 4 x 4i + ε i der ε i -ene er u.i.f. N(0, σ 2 ) for i = 1,..., 39. Utskrift fra MINITAB og plott av studentiserte residualer finnes på side 9. Tre av de numeriske verdiene i MINITAB-utskriften er byttet ut med spørsmålstegn.

TMA4255 Anvendt statistikk Side 8 av 11 money sex happiness 2 4 6 8 10 happiness 2 4 6 8 10 0 50 100 150 0 1 money sex love work happiness 2 4 6 8 10 happiness 2 4 6 8 10 1 2 3 1 2 3 4 5 love work

TMA4255 Anvendt statistikk Side 9 av 11 Regression Analysis: Happiness versus Money; Sex; Love; Work The regression equation is Happiness = - 0,072 + 0,00958 Money - 0,149 Sex + 1,92 Love + 0,476 Work Predictor Coef SE Coef T P Constant -0,0721 0,8525-0,08 0,933 Money 0,009578 0,005213 1,84 0,075 Sex -0,1490 0,4185-0,36 0,724 Love 1,9193 0,2955 6,50 1,97e-07 Work 0,4761 0,1994?? S = 1,05840 R-Sq = 71,0% R-Sq(adj) = 67,6% Analysis of Variance Source DF SS MS F P Regression 4 93,349 23,337 20,83? Residual Error 34 38,087 1,120 Total 38 131,436

TMA4255 Anvendt statistikk Side 10 av 11 a) Hvilken verdi har den estimerte regresjonskoeffisienten for x 4, work? Hvordan vil du forklare denne verdien til «mannen i gata» (som ikke kjenner til lineær regresjon)? Er effekten av x 4, work, signifikant i denne modellen? Er regresjonen signifikant? Gi også en kort kommentar til residualplottene på side 9. Vi ønsker å sammenligne den fulle modellen (modell A), med en redusert modell (kalt modell B), der x 1 (money) og x 2 (sex) er fjernet fra modellen: Modell B: y i = β 0 + β 3 x 3i + β 4 x 4i + ε i Resultatene av å tilpasse modell B er som følger. Regression Analysis: Happiness versus Work; Love The regression equation is Happiness = 0,206 + 0,511 Work + 1,96 Love Predictor Coef SE Coef T P Constant 0,2057 0,7757 0,27 0,792 Work 0,5106 0,1874 2,72 0,010 Love 1,9592 0,2954 6,63 0,000 S = 1,07951 R-Sq = 68,1% R-Sq(adj) = 66,3% Analysis of Variance Source DF SS MS F P Regression 2 89,484 44,742 38,39 1,182e-09 Residual Error 36 41,952 1,165 Total 38 131,436 b) Estimatet ˆβ 3 (love) er 1.919 for modell A og 1.959 for modell B. Forklar hvorfor dette estimatet er forskjellig for de to modellene. Modell A og modell B kan sammenlignes ved å teste følgende hypotese. H 0 : β 1 = β 2 = 0 vs. H 1 : β 1 og β 2 er ikke begge lik null Utfør hypotesetesten og konkluder.

TMA4255 Anvendt statistikk Side 11 av 11 c) Anta at et konstantledd, β 0, er med i regresjonsmodellen. Vi vil nå se på variabelseleksjon. Hvis vi bare ser på hovedeffekter (og ikke tar med samspill), finnes det 15 mulige regresjonsmodeller (4 modeller med én forklaringsvariabel, 6 modeller med to forklaringsvariabler, 4 modeller med tre forklaringsvariabler og 1 modell med fire forklaringsvariabler). Resultater fra tilpasningen av disse 15 modellene er presentert i tabellen under. Hver rad i tabellen svarer til en modell. Verdiene i kolonnene med samme navn som forklaringsvariablene er estimerte regresjonskoeffisienter. Antallet forklaringsvariabler inkludert i hver modell finner du i kolonnen med navn N. I kolonnen med navn p finner du p-verdien til regresjonen. Skriv ned definisjonen av R 2 og R 2 adj, og forklar hvordan du kan bruke disse til å sammenligne modellene. Hva betyr det at R 2 adj antar en negativ verdi? Velg den «beste» av disse 15 modellene. Begrunn valget ditt. Hvilke andre modeller, grafer, og/eller kriterier ville du ha undersøkt hvis du skulle ha analysert disse dataene? Vil du, basert på det som er presentert i denne oppgaven, konkludere med at kjærlighet og arbeid er de viktigste faktorene for et individs lykke? money sex love work N p R 2 Radj 2 1 0.014 1 0.000747 7.3 4.8 2 0.130 1 1 0.1 2.6 3 2.270 1 8.35e-24 61.5 60.5 4 0.990 1 1.36e-13 29.1 27.2 5 0.016 0.508 2 0.0504 8.8 3.8 6 0.009 2.206 2 8.77e-19 64.5 62.5 7 0.012 0.961 2 3.68e-10 34.6 31.0 8 0.277 2.279 2 5.55e-18 62.0 59.9 9 0.610 1.079 2 3.48e-09 31.2 27.4 10 1.959 0.511 2 5.75e-20 68.1 66.3 11 0.011 0.536 2.209 3 9.49e-16 66.2 63.3 12 0.011 0.305 1.009 3 1.84e-07 35.1 29.5 13 0.009 1.902 0.504 3 2.63e-17 70.9 68.4 14 0.108 1.944 0.530 3 2.22e-16 68.1 65.4 15 0.010 0.149 1.919 0.476 4 9.89e-15 71.0 67.6