Side av 9 NTNU Noregs teknisk-naturvitskaplege universitet Fakultet for informasonsteknologi, matematikk og elektroteknikk Institutt for matematiske fag Bokmål Faglig kontakt under eksamen Bo Lindqvist tlf. 9758948 - EKSAMEN I EMNE ST0 ANVENDT STATISTIKK Onsdag. desember 004 Tid: 09.00 4.00 Helpemiddel: Alle trykte og håndskrevne helpemiddel er tillatte, samt kalulatoren HP30S Sensur:. desember 004 Oppgave. 4 a) Konstruer et design for de fire faktorene A, B, C og D når den definerende relasonen er I = ABCD. Hva er henholdsvis generatoren og resolusonen til designet? Sett opp alias-strukturen og forklar kort hva denne uttrykker. Under hvilke betingelser om samspillene kan vi estimere alle de fire hovedeffektene ukonfundert? b) Anta at designet i punkt (a) skal deles i to like blokker. Foreslå en generator for denne blokkdelingen slik at hovedeffektene fremdeles kan estimeres ukonfundert under betingelsen i punkt (a). Sett opp de blokkene du får. Hvilke(n) effekt(er) blir konfundert med blokkeffekten?
Oppgave Side av 9 Et apparat er konstruert for å sende en evn strøm av et hormon til en pasient uten at apparatet blir etterfylt. For n = 7 slike apparater har vi målinger av y = mengde hormon igen i apparatet etter ferning fra pasienten ( i milligram), og t = den tid pasienten er blitt tilført hormonet (i timer). Apparatene kan ha forskeller som skyldes at de kommer fra ulike leveransepartier. Dette er tatt hensyn til ved at en har valgt ut tilfeldig 9 apparater fra hvert av tre partier A, B og C. Dataene er gitt i tabellen nedenfor, mens sammenhørende verdier av t (Time) og grafisk i figuren nederst på siden (med en rett line estimert for hvert av partiene). y er tegnet Parti t y Parti t y Parti A 99 5.8 B 0 376 6.3 C 9 9 8.8 A 5 0.5 B 385.6 C 0 88.0 A 3 93 4.3 B 40.8 C 5 9.7 A 4 55 3. B 3 9 3.5 C 88 8.9 A 5 96 0.6 B 4 76 3.0 C 3 58 3.8 A 6 53 3. B 5 96 8.0 C 4 49 3.5 A 7 84 0.9 B 6 5 4. C 5 50 5.4 A 8 7 0.9 B 7 77 6.5 C 6 07 3.7 A 9 5 30.4 B 8 09 5.8 C 7 5 8.5 t y 35 30 Scatterplot of Y vs Time Par A B C 5 Y 0 5 0 0 00 00 Time 300 400
Side 3 av 9 En velger først å analysere dataene med en enkel lineær regresonsmodell uten å ta hensyn til hvilket parti hver enkelt observason kommer fra. Modellen som brukes er da y i = α+ βt + ε ; i =, K,7 i i der ε, K, ε 7 er uavhengige og normalfordelte med forventing 0 og varians σ. Her er og σ ukente parametre. () α, β Resultatet av en MINITAB-køring med denne modellen er gitt nedenfor. Regression Analysis: Y versus Time The regression equation is Y = 34, - 574 Time Predictor Coef SE Coef T P Constant 34,675 0,867 39,40 00 Time -57446 04464 -,87 00 S =,3786 R-Sq = 86,9% R-Sq(ad) = 86,4% Analysis of Variance Source DF SS MS F P Regression 936,54 936,54 65,59 00 Error 5 4,39 5,66 Total 6 077,93 Plots for Y 99 Normal Probability Plot of the s 5,0 s Versus the Fitted Values 90,5 Percent 50 0 -,5-5,0 -,5,5 5,0-5,0 0 5 0 5 Fitted Value 30 4,8 Histogram of the s s Versus the Order of the Data 5,0 Frequency 3,6,4,,5 -,5-4 - 0 4-5,0 4 6 8 0 4 6 8 0 Observation Order 4 6
Side 4 av 9 5,0 s Versus Parti (response is Y),5 -,5-5,0,0,5,0 Parti,5 3,0 I figuren ovenfor svarer verdiene l,0 til A,,0 til B og 3,0 til C. a) En ønsker en test for H 0 : β = 0 mot H : β < 0 Sett opp testobservatoren for en t-test for denne situasonen. For hvilke verdier av testobservatoren skal H 0 forkastes hvis signifikansnivået settes til 5%? Bruk opplysningen fra MINITAB-køringen til å finne verdien på testobservatoren. Hva blir konklusonen på testen? Studer residualplottene for modellen (), samt plottet på side. Forklar hvorfor plottene kan tyde på at de tre partiene ikke bør beskrives av den samme modellen (). En velger nå å utvide modellen til å tillate at de tre partiene har ulike regresonsliner. Siden de tre estimerte linene i figuren på side er nær parallelle, antar en at de tilsvarende teoretiske linene er parallelle, men at de kan ha ulike skæringspunkter med y-aksen. Det innføres nå tre forklaringsvariabler (prediktorer),,. Her er x den oppgitte tiden som pasienten er blitt tilført hormonet, mens x og er variabler som definerer hvilket parti en observason kommer fra. Mer presist defineres x 3 x x x3 x = 0 hvis observasonen kommer fra parti B eller C ellers
x 3 = 0 hvis observasonen kommer fra parti ellers C Side 5 av 9 Modellen for dataene kan nå skrives yi = β0 + β xi + β x i + β3 x3i + εi ; i =, K,7 () der ε, K, er uavhengige og normalfordelte med forventing 0 og varians σ, og ε 7 β 0, β,β,β3,σ er ukente parametre. Resultatet av en MINITAB- køring med denne modellen er gitt nedenfor. Regression Analysis: Y versus x; x; x3 The regression equation is Y = 3, - 60 x + 3,97 x - 0,508 x3 Predictor Coef SE Coef T P Constant 3,36 0,7483 4,94 00 x -6036 03474-7,3 00 x 3,9735 0,8097 4,9 00 x3-0,5078 0,868-0,58 0,564 S =,60530 R-Sq = 94,5% R-Sq(ad) = 93,8% Analysis of Variance Source DF SS MS F P Regression 3 08,66 339,55 3,76 00 Error 3 59,7,58 Total 6 077,93 Source DF Seq SS x 936,54 x 8,4 x3 0,88 Best Subsets Regression: Y versus x; x; x3 Response is Y Mallows x x x Vars R-Sq R-Sq(ad) C-p S 3 86,9 86,4 3,9,378 X,4 9,3 30,4 5,787 X 94,4 94,0,3,583 X X 88,7 87,8 6,,485 X X 3 94,5 93,8 4,0,6053 X X X
Side 6 av 9 Stepwise Regression: Y versus x; x; x3 Alpha-to-Enter: 0,5 Alpha-to-Remove: 0,5 Response is Y on 3 predictors, with N = 7 Step Constant 34,7 3,98 x -574-59 T-Value -,87-9,80 P-Value 00 00 x 3,70 T-Value 5,69 P-Value 00 S,38,58 R-Sq 86,88 94,4 R-Sq(ad) 86,36 93,95 Mallows C-p 3,9,3 Plots for Y 99 Normal Probability Plot of the s 3,0 s Versus the Fitted Values 90,5 Percent 50 0 -,5-4 - 0 4-3,0 5 0 5 Fitted Value 30 35 4,8 Histogram of the s s Versus the Order of the Data 3,0 Frequency 3,6,4,,5 -,5 -,4 -,,,4-3,0 4 6 8 0 4 6 8 0 Observation Order 4 6
Side 7 av 9 3 s Versus Parti (response is Y) 0 - - -3,0,5,0 Parti,5 3,0 I figuren ovenfor svarer verdiene l,0 til A,,0 til B og 3,0 til C. b) Hvilke verdier av paret ( x, x ) 3 svarer til henholdsvis parti A, B og C? Sett opp de estimerte regresonslinene for hver av de tre partiene A, B og C. Hvordan ivaretas antagelsen om parallelle regresonsliner for de tre partiene? Gi en vurdering av modell () ved å studere residualplottene i utskriften. Forklar kort hvilke avvik fra modellen som generelt kan oppdages fra denne typen plott. c) Du skal nå bruke resultater i MINITAB-utskriften for modell () til å teste nullhypotesen at de tre teoretiske regresonslinene svarende til partiene A, B og C er sammenfallende, mot alternativet at minst to av dem er forskellige. (Antagelsen om at de er parallelle skal fortsatt gelde). Formuler nullhypotesen ved help av β parametrene i modellen. Sett opp en testobservator og beregn dens verdi. Hva blir konklusonen dersom du bruker signifikansnivå 5%? Hvilken modell vil du velge for dataene ut i fra MINITAB-utskriften? (Begrunn svaret) Oppgave 3. British Medical Journal publiserte i 985 resultatet av en epidemiologisk spørreundersøkelse der hensikten var å finne ut om snorking kan være en risikofaktor for hertesykdom. Et antall på 484 deltakere ble klassifisert etter ektefellens rapportering om hvor mye de snorket, og etter om de hadde en hertesykdom eller ikke.
Resultatet er gitt i følgende tabell: Side 8 av 9 Snorking Hertesykdom Ikke hertesykdom Aldri 4 355 Av og til 35 603 Nesten hver natt 9 Hver natt 30 4 Tyder resultatet på at det er noen sammenheng mellom snorkemønster og hertesykdom? Formuler selv modell og hypoteser og utfør en test. Hva blir konklusonen dersom signifikansnivået settes til %? Oppgave 4 Med utgangspunkt i oppgave 3 var en interessert i å finne ut hvordan risikoen for å få herteinfarkt forandret seg med økende grad av snorking. De fire kategoriene Aldri, Av og til, Nesten hver natt og Hver natt ble derfor gitt forskellige numeriske verdier som gitt i tabellen nedenfor: Aldri 0 Av og til Nesten hver natt 4 Hver natt 5 I omgøringen ble det antatt at de to kategoriene Nesten hver natt og Hver natt var noe nærmere enn de andre. Derfor er avstanden mellom disse gort mindre enn avstanden mellom de andre kategoriene. De fire numeriske verdiene ble nå gort til verdier for en regresonsvariabel x og for å finne hvordan sannsynligheten for herteinfarkt var avhengig av x ble det foretatt en logistisk regreson. Utskrift fra MINITAB er gitt nedenfor. Binary Logistic Regression: snorkende; antall versus x Link Function: Logit Response Information Variable Value Count snorkende Success 0 Failure 374 antall Total 484 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -3,8665 0,664-3,6 00 x 0,397337 50006 7,95 00,49,35,64 Log-Likelihood = -48,866 Test that all slopes are zero: G = 63,096, DF =, P-Value = 00
Side 9 av 9 Goodness-of-Fit Tests Method Chi-Square DF P Pearson,8743 0,38 Deviance,8089 0,46 Hosmer-Lemeshow,47090 0,6 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value Success Failure Group Observed Expected Observed Expected Total 4 8,3 355 350,7 379 35 8,3 603 609,7 638 3 5 53,5 46 43,5 467 a) Begrunn hvorfor det er naturlig å benytte logistisk regreson i denne situasonen. Skriv opp den estimerte modellen. Er de estimerte koeffisientene signifikante? (Grunngi svaret). Kommenter hvor godt modellen er tilpasset dataene ut i fra utskriften. Vis at estimert odds-ratio blir.49. b) Finn ut fra modellen et estimat for sannsynligheten for herteinfarkt for de som snorker hver natt. Noe regning gir at det tilhørende estimerte standardavviket blir 0 4. I et annet vestlig land er det foretatt en lignende, men noe mindre undersøkelse. Her ble den samme sannsynligheten estimert til 0. med tilhørende estimert standardavvik 0 4. Basert på begge undersøkelsene ønsker en å lage en ny estimator for sannsynligheten for herteinfarkt for de som snorker hver natt. Estimatoren skal være forventingsrett og ha minst mulig varians. Konstruer en estimator som tilnærmet har slike egenskaper. Hva blir estimatet og anslått standardavvik til estimatoren? c) Kontroller ved regning at 95% konfidensintervallet for odds-ratio er som gitt i utskriften. Det er av interesse å finne hvilken x - verdi som gør sannsynligheten for herteinfarkt lik 0.05. Vis at denne verdien som en funkson av koeffisientene i ln( 9 ) β0 modellen ( β0 og β ) er gitt ved og gi deretter et estimat for denne. β d) Anta at sannsynligheten for herteinfarkt for de som ikke snorker er kent og lik den som er estimert fra utskriften ( β o er en konstant lik den som utskriften gir). Regn ut hvilket tilnærmet standardavvik du da bør oppgi sammen med estimatet for x - verdien i 4c). Skisser hvordan du ved help av bootstrap kan finne et anslag for tilhørende standardavviket til dette estimatet (uten å anta at β 0 er kent).