Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

Like dokumenter
EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgåve i TMA4255 Anvendt statistikk

10.1 Enkel lineær regresjon Multippel regresjon

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamenssettet består av to deler. Ved bedømmelsen teller del A 30 % og del B 70 %. Innenfor hver del teller alle deloppgaver likt.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamensoppgåve i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMEN I FAG ST2202 ANVENDT STATISTIKK

Eksamensoppgave i TMA4275 Levetidsanalyse

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgåve i TMA4255 Anvendt statistikk

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4275 Levetidsanalyse

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i ST0103 Brukerkurs i statistikk

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

TMA4240 Statistikk Høst 2009

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kapittel 3: Studieopplegg

UNIVERSITETET I OSLO

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

ECON240 VÅR / 2016 BOKMÅL

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Logistisk regresjon 2

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Løsningsforslag eksamen STAT100 Høst 2010

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

i x i

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Statistisk analyse av data fra planlagte forsøk

UNIVERSITETET I OSLO Matematisk Institutt

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Generelle lineære modeller i praksis

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Eksamensoppgåve i TMA4255 Anvendt statistikk

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4240 Statistikk

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk 2014

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

MOT310 Statistiske metoder 1, høsten 2011

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Eksamensoppgave i ST3001

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i TMA4240 Statistikk

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

vekt. vol bruk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Tilleggsoppgaver for STK1110 Høst 2015

TMA4240 Statistikk Høst 2016

Transkript:

Side av 9 NTNU Noregs teknisk-naturvitskaplege universitet Fakultet for informasonsteknologi, matematikk og elektroteknikk Institutt for matematiske fag Bokmål Faglig kontakt under eksamen Bo Lindqvist tlf. 9758948 - EKSAMEN I EMNE ST0 ANVENDT STATISTIKK Onsdag. desember 004 Tid: 09.00 4.00 Helpemiddel: Alle trykte og håndskrevne helpemiddel er tillatte, samt kalulatoren HP30S Sensur:. desember 004 Oppgave. 4 a) Konstruer et design for de fire faktorene A, B, C og D når den definerende relasonen er I = ABCD. Hva er henholdsvis generatoren og resolusonen til designet? Sett opp alias-strukturen og forklar kort hva denne uttrykker. Under hvilke betingelser om samspillene kan vi estimere alle de fire hovedeffektene ukonfundert? b) Anta at designet i punkt (a) skal deles i to like blokker. Foreslå en generator for denne blokkdelingen slik at hovedeffektene fremdeles kan estimeres ukonfundert under betingelsen i punkt (a). Sett opp de blokkene du får. Hvilke(n) effekt(er) blir konfundert med blokkeffekten?

Oppgave Side av 9 Et apparat er konstruert for å sende en evn strøm av et hormon til en pasient uten at apparatet blir etterfylt. For n = 7 slike apparater har vi målinger av y = mengde hormon igen i apparatet etter ferning fra pasienten ( i milligram), og t = den tid pasienten er blitt tilført hormonet (i timer). Apparatene kan ha forskeller som skyldes at de kommer fra ulike leveransepartier. Dette er tatt hensyn til ved at en har valgt ut tilfeldig 9 apparater fra hvert av tre partier A, B og C. Dataene er gitt i tabellen nedenfor, mens sammenhørende verdier av t (Time) og grafisk i figuren nederst på siden (med en rett line estimert for hvert av partiene). y er tegnet Parti t y Parti t y Parti A 99 5.8 B 0 376 6.3 C 9 9 8.8 A 5 0.5 B 385.6 C 0 88.0 A 3 93 4.3 B 40.8 C 5 9.7 A 4 55 3. B 3 9 3.5 C 88 8.9 A 5 96 0.6 B 4 76 3.0 C 3 58 3.8 A 6 53 3. B 5 96 8.0 C 4 49 3.5 A 7 84 0.9 B 6 5 4. C 5 50 5.4 A 8 7 0.9 B 7 77 6.5 C 6 07 3.7 A 9 5 30.4 B 8 09 5.8 C 7 5 8.5 t y 35 30 Scatterplot of Y vs Time Par A B C 5 Y 0 5 0 0 00 00 Time 300 400

Side 3 av 9 En velger først å analysere dataene med en enkel lineær regresonsmodell uten å ta hensyn til hvilket parti hver enkelt observason kommer fra. Modellen som brukes er da y i = α+ βt + ε ; i =, K,7 i i der ε, K, ε 7 er uavhengige og normalfordelte med forventing 0 og varians σ. Her er og σ ukente parametre. () α, β Resultatet av en MINITAB-køring med denne modellen er gitt nedenfor. Regression Analysis: Y versus Time The regression equation is Y = 34, - 574 Time Predictor Coef SE Coef T P Constant 34,675 0,867 39,40 00 Time -57446 04464 -,87 00 S =,3786 R-Sq = 86,9% R-Sq(ad) = 86,4% Analysis of Variance Source DF SS MS F P Regression 936,54 936,54 65,59 00 Error 5 4,39 5,66 Total 6 077,93 Plots for Y 99 Normal Probability Plot of the s 5,0 s Versus the Fitted Values 90,5 Percent 50 0 -,5-5,0 -,5,5 5,0-5,0 0 5 0 5 Fitted Value 30 4,8 Histogram of the s s Versus the Order of the Data 5,0 Frequency 3,6,4,,5 -,5-4 - 0 4-5,0 4 6 8 0 4 6 8 0 Observation Order 4 6

Side 4 av 9 5,0 s Versus Parti (response is Y),5 -,5-5,0,0,5,0 Parti,5 3,0 I figuren ovenfor svarer verdiene l,0 til A,,0 til B og 3,0 til C. a) En ønsker en test for H 0 : β = 0 mot H : β < 0 Sett opp testobservatoren for en t-test for denne situasonen. For hvilke verdier av testobservatoren skal H 0 forkastes hvis signifikansnivået settes til 5%? Bruk opplysningen fra MINITAB-køringen til å finne verdien på testobservatoren. Hva blir konklusonen på testen? Studer residualplottene for modellen (), samt plottet på side. Forklar hvorfor plottene kan tyde på at de tre partiene ikke bør beskrives av den samme modellen (). En velger nå å utvide modellen til å tillate at de tre partiene har ulike regresonsliner. Siden de tre estimerte linene i figuren på side er nær parallelle, antar en at de tilsvarende teoretiske linene er parallelle, men at de kan ha ulike skæringspunkter med y-aksen. Det innføres nå tre forklaringsvariabler (prediktorer),,. Her er x den oppgitte tiden som pasienten er blitt tilført hormonet, mens x og er variabler som definerer hvilket parti en observason kommer fra. Mer presist defineres x 3 x x x3 x = 0 hvis observasonen kommer fra parti B eller C ellers

x 3 = 0 hvis observasonen kommer fra parti ellers C Side 5 av 9 Modellen for dataene kan nå skrives yi = β0 + β xi + β x i + β3 x3i + εi ; i =, K,7 () der ε, K, er uavhengige og normalfordelte med forventing 0 og varians σ, og ε 7 β 0, β,β,β3,σ er ukente parametre. Resultatet av en MINITAB- køring med denne modellen er gitt nedenfor. Regression Analysis: Y versus x; x; x3 The regression equation is Y = 3, - 60 x + 3,97 x - 0,508 x3 Predictor Coef SE Coef T P Constant 3,36 0,7483 4,94 00 x -6036 03474-7,3 00 x 3,9735 0,8097 4,9 00 x3-0,5078 0,868-0,58 0,564 S =,60530 R-Sq = 94,5% R-Sq(ad) = 93,8% Analysis of Variance Source DF SS MS F P Regression 3 08,66 339,55 3,76 00 Error 3 59,7,58 Total 6 077,93 Source DF Seq SS x 936,54 x 8,4 x3 0,88 Best Subsets Regression: Y versus x; x; x3 Response is Y Mallows x x x Vars R-Sq R-Sq(ad) C-p S 3 86,9 86,4 3,9,378 X,4 9,3 30,4 5,787 X 94,4 94,0,3,583 X X 88,7 87,8 6,,485 X X 3 94,5 93,8 4,0,6053 X X X

Side 6 av 9 Stepwise Regression: Y versus x; x; x3 Alpha-to-Enter: 0,5 Alpha-to-Remove: 0,5 Response is Y on 3 predictors, with N = 7 Step Constant 34,7 3,98 x -574-59 T-Value -,87-9,80 P-Value 00 00 x 3,70 T-Value 5,69 P-Value 00 S,38,58 R-Sq 86,88 94,4 R-Sq(ad) 86,36 93,95 Mallows C-p 3,9,3 Plots for Y 99 Normal Probability Plot of the s 3,0 s Versus the Fitted Values 90,5 Percent 50 0 -,5-4 - 0 4-3,0 5 0 5 Fitted Value 30 35 4,8 Histogram of the s s Versus the Order of the Data 3,0 Frequency 3,6,4,,5 -,5 -,4 -,,,4-3,0 4 6 8 0 4 6 8 0 Observation Order 4 6

Side 7 av 9 3 s Versus Parti (response is Y) 0 - - -3,0,5,0 Parti,5 3,0 I figuren ovenfor svarer verdiene l,0 til A,,0 til B og 3,0 til C. b) Hvilke verdier av paret ( x, x ) 3 svarer til henholdsvis parti A, B og C? Sett opp de estimerte regresonslinene for hver av de tre partiene A, B og C. Hvordan ivaretas antagelsen om parallelle regresonsliner for de tre partiene? Gi en vurdering av modell () ved å studere residualplottene i utskriften. Forklar kort hvilke avvik fra modellen som generelt kan oppdages fra denne typen plott. c) Du skal nå bruke resultater i MINITAB-utskriften for modell () til å teste nullhypotesen at de tre teoretiske regresonslinene svarende til partiene A, B og C er sammenfallende, mot alternativet at minst to av dem er forskellige. (Antagelsen om at de er parallelle skal fortsatt gelde). Formuler nullhypotesen ved help av β parametrene i modellen. Sett opp en testobservator og beregn dens verdi. Hva blir konklusonen dersom du bruker signifikansnivå 5%? Hvilken modell vil du velge for dataene ut i fra MINITAB-utskriften? (Begrunn svaret) Oppgave 3. British Medical Journal publiserte i 985 resultatet av en epidemiologisk spørreundersøkelse der hensikten var å finne ut om snorking kan være en risikofaktor for hertesykdom. Et antall på 484 deltakere ble klassifisert etter ektefellens rapportering om hvor mye de snorket, og etter om de hadde en hertesykdom eller ikke.

Resultatet er gitt i følgende tabell: Side 8 av 9 Snorking Hertesykdom Ikke hertesykdom Aldri 4 355 Av og til 35 603 Nesten hver natt 9 Hver natt 30 4 Tyder resultatet på at det er noen sammenheng mellom snorkemønster og hertesykdom? Formuler selv modell og hypoteser og utfør en test. Hva blir konklusonen dersom signifikansnivået settes til %? Oppgave 4 Med utgangspunkt i oppgave 3 var en interessert i å finne ut hvordan risikoen for å få herteinfarkt forandret seg med økende grad av snorking. De fire kategoriene Aldri, Av og til, Nesten hver natt og Hver natt ble derfor gitt forskellige numeriske verdier som gitt i tabellen nedenfor: Aldri 0 Av og til Nesten hver natt 4 Hver natt 5 I omgøringen ble det antatt at de to kategoriene Nesten hver natt og Hver natt var noe nærmere enn de andre. Derfor er avstanden mellom disse gort mindre enn avstanden mellom de andre kategoriene. De fire numeriske verdiene ble nå gort til verdier for en regresonsvariabel x og for å finne hvordan sannsynligheten for herteinfarkt var avhengig av x ble det foretatt en logistisk regreson. Utskrift fra MINITAB er gitt nedenfor. Binary Logistic Regression: snorkende; antall versus x Link Function: Logit Response Information Variable Value Count snorkende Success 0 Failure 374 antall Total 484 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -3,8665 0,664-3,6 00 x 0,397337 50006 7,95 00,49,35,64 Log-Likelihood = -48,866 Test that all slopes are zero: G = 63,096, DF =, P-Value = 00

Side 9 av 9 Goodness-of-Fit Tests Method Chi-Square DF P Pearson,8743 0,38 Deviance,8089 0,46 Hosmer-Lemeshow,47090 0,6 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value Success Failure Group Observed Expected Observed Expected Total 4 8,3 355 350,7 379 35 8,3 603 609,7 638 3 5 53,5 46 43,5 467 a) Begrunn hvorfor det er naturlig å benytte logistisk regreson i denne situasonen. Skriv opp den estimerte modellen. Er de estimerte koeffisientene signifikante? (Grunngi svaret). Kommenter hvor godt modellen er tilpasset dataene ut i fra utskriften. Vis at estimert odds-ratio blir.49. b) Finn ut fra modellen et estimat for sannsynligheten for herteinfarkt for de som snorker hver natt. Noe regning gir at det tilhørende estimerte standardavviket blir 0 4. I et annet vestlig land er det foretatt en lignende, men noe mindre undersøkelse. Her ble den samme sannsynligheten estimert til 0. med tilhørende estimert standardavvik 0 4. Basert på begge undersøkelsene ønsker en å lage en ny estimator for sannsynligheten for herteinfarkt for de som snorker hver natt. Estimatoren skal være forventingsrett og ha minst mulig varians. Konstruer en estimator som tilnærmet har slike egenskaper. Hva blir estimatet og anslått standardavvik til estimatoren? c) Kontroller ved regning at 95% konfidensintervallet for odds-ratio er som gitt i utskriften. Det er av interesse å finne hvilken x - verdi som gør sannsynligheten for herteinfarkt lik 0.05. Vis at denne verdien som en funkson av koeffisientene i ln( 9 ) β0 modellen ( β0 og β ) er gitt ved og gi deretter et estimat for denne. β d) Anta at sannsynligheten for herteinfarkt for de som ikke snorker er kent og lik den som er estimert fra utskriften ( β o er en konstant lik den som utskriften gir). Regn ut hvilket tilnærmet standardavvik du da bør oppgi sammen med estimatet for x - verdien i 4c). Skisser hvordan du ved help av bootstrap kan finne et anslag for tilhørende standardavviket til dette estimatet (uten å anta at β 0 er kent).