1 Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N Emnekode: Emnenavn: BE-34 Statistikk og finans Dato: 6. desember 21 Varighet: 9-13 Antall sider inkl. forside 6 Tillatte hjelpemidler: Merknader: Alle bøker, kopier, notater og kalkulatorer som ikke kan kommunisere trådløst. Nynorskteksten er identisk med bokmålsteksten i setningsbygging og ordval med unntak av ord og uttykk gitt i slutten av oppgåvesettet. OPPGAVE 1 For en periode på 69 år er det samlet inn data over gjennomsnittlig alkoholforbruk A, gjennomsnittlig reell inntekt Innt og en relativ pris Pr på alkohol i et land. Grafen nedenfor gir en oversikt over data for disse årene: Bortsett fra tilfeldig avvik er det ønskelig å bruke sammenhengen b c (*) A = a Innt Pr
2 a) Viser alkoholforbruket en stigende eller synkende tendens i denne perioden? Vis hvordan vi ved hjelp av logaritmer kan overføre denne sammenhengen til en form der regresjonsanalyse kan benyttes for å estimere a, b og c. Begrunn kort hvorfor a må være positiv (Bruk gjerne både figuren, uttrykket (*) og sunn fornuft). Begrunn kort hvorfor vi i denne situasjonen kan anta at b og c vil være negativ. For den videre analysen vil vi benytte variablene: Y = ln(a) X1 = ln(innt) X2 = ln(pr) En regresjonsanalyse med disse variablene er gjort i Excel: SUMMARY (OUTPUT) Regression Statistics Multiple R,9777 R Square,9558 Coefficients Standard Error t Stat P-value Adjusted R square,9545 Intercept 4,667,1523 3,35 1,9E-4 Standard Error,579 X1 -,121,1844-1,179,27191 Observations 69 X2-1,2276,55-24,527 7,1E-35 b) Sett opp regresjonslinjen Yˆ ut fra denne analysen. Estimer Y dersom Innt=8 og Pr=11. Hvor stort alkoholforbruk svarer dette til? Sett opp den estimerte bˆ c sammenhengen Aˆ ˆ = aˆ Innt Pr, der du setter inn estimerte verdier for â, bˆ og ĉ. OPPGAVE 2 Et datasett skal brukes til å se på hvordan pris på hus i Sør-California avhenger av noen andre variable. Følgende variable sammen med gjennomsnitt for 43 hus er gitt nedenfor: Average P = pris (i 1 dollar) 242 S = størrelse hus (i kvadratfot) 147 N = nabolag (= 1, 2, 3 eller 4; der 1 er best og 4 er verst) 1,78 A = alder 44,84 Sov = antall soverom 2,84 Bad = antall bad 1,66 Air = air condition (1 hvis sentralt anlegg, ellers),23 SP = svømmebasseng(1 hvis det finnes, ellers),19 H = størrelse på hagen (i kvadratfot) 6285 Først gis det en tabell over korrelasjonene mellom variablene og en utskrift fra en regresjonsanalyse med alle variablene:
3 P S N A Sov Bad Air SP H P 1 S,891 1 N -,6912 -,4786 1 A -,394 -,4151,1788 1 Sov,6493,7264 -,3775 -,2647 1 Bad,7621,8382 -,5481 -,3927,5592 1 Air,5419,5946 -,2732 -,4821,399,517 1 SP,989,1653 -,1197,313,362,1932 -,2632 1 H,562,4518 -,3166,738,3552,2948,1788,598 1 Regression Statistics Coefficients Standard Error t Stat P-value Multiple R,9569 Intercept 153,52 32,736 4,69 4,32E-5 R Square,9157 S,171,225 5,289 7,25E-6 Adjusted R Square,8958 N -3,72 5,527-5,558 3,24E-6 Standard Error 25,58 A -,4198,2678-1,568,1262 Observations 43 Sov -1,3567 9,3791 -,145,8859 Bad -1,745 15,14 -,716,4791 Air -2,5631 13,658 -,188,8523 SP -1,138 11,83 -,857,3975 H,4618,1569 2,943,582 a) Svarer det til sunn fornuft med negative fortegn til koeffisientene til variablene Sov, Bad, Air og SP samtidig som korrelasjonene med disse variablene og pris er positive? Er noen av disse variablene signifikante? Nevn kort om hvordan disse variablene kan henge sammen med noen av de andre variablene i datasettet. Gi en tolkning av forklaringskraften R 2. Etter at flere av variablene er tatt bort ble det gjennomført en ny analyse: Regression Statistics Coefficients Standard Error t Stat P-value Multiple R,9549 Intercept 143,64 24,582 5,843 9,34E-7 R Square,9118 S,9424,128 9,169 3,59E-11 Adjusted R Square,925 N -29,67 5,124-5,799 1,7E-6 Standard Error 24,745 A -,432,247-1,742,896 Observations 43 H,4948,148 3,336,191 b) Sett opp regresjonslinjen. Hvilke fordeler har denne regresjonslinjen framfor den forrige? Gi en tolkning av hver av βˆ -koeffisientene. Dersom vi måler areal, vil 1 kvadratmeter svare til 1,76 kvadratfot. I et nabolag står det to like gamle hus, hus A og hus B, der hus A er 1 m 2 større og hagen er 1 m 2 større enn hos hus B. Hvor mye dyrere må vi regne med at hus A vil være enn hus B? Det er nå laget en ny variabel N*S som består av produktet av nabolag og husstørrelse. Denne variabelen er tatt inn i regresjonsanalysen nedenfor:
4 Regression Statistics Coefficients Standard Error t Stat P-value Multiple R,9683 Intercept 63,62 29,327 2,169,3655 R Square,9375 S,1476,162 9,88 5,81E-11 Adjusted R Square,9291 N 9,953 1,874,915,3659 Standard Error 21,17 H,4878,127 3,856,445 Observations 43 A -,253,2156-1,161,2531 N*S -,3137,838-3,923,39 c) Lag et 95% konfidensintervall for β 5. Nevn noen grunner til at det kan være fornuftig å ta med variabelen N*S. d) Sett først opp regresjonslinjen for den siste modellen. Sett opp likningen P ˆN 1 for regresjonssammenhengen dersom N=1. Sett opp likningen P ˆN 2 for regresjonssammenhengen dersom N=2. Bruk likningene til å estimere prisen på et 3 år gammelt hus på 1 kvadratfot med en hage på 6 kvadratfot dersom det ligger i nabolag definert som N=1 og dersom det ligger i nabolag definert som N=2. Gi en kort vurdering av residualplottene nedenfor. S Residual Plot N Residual Plot 5 5 Residuals -5 5 1 15 2 25 3 35 Residuals -5 1 2 3 4 5-1 -1 S N H Residual Plot A Residual Plot 5 5 Residuals -5 5 1 15 2 25 Residu als -5 2 4 6 8 1-1 H -1 A OPPGAVE 3 Ulike data display panel utstyr brukes av flygeledere for å avverge mulige farlige situasjoner. I en undersøkelse av tre ulike prototyper av panel (P1, P2 og P3) ble det simulert 5 ulike faresituasjoner (F1,, F5). Tiden X det tok før situasjonen var stabilisert og under kontroll ble registrert i 2 forsøk pr kombinasjon. Datasettet i Tabell 1 viser tid ved de ulike kombinasjonene. I tillegg oppgis det litt oversikt over datasettet:
5 Tabell 1 F1 F2 F3 F4 F5 P1 18 31 22 39 15 P1 16 35 27 36 12 P2 13 33 24 35 1 P2 15 3 21 38 16 P3 24 42 4 52 28 P3 28 46 37 57 24 SUMMARY Groups Count Sum Average Variance P1 1 251 25,1 96,1 P2 1 235 23,5 1,28 P3 1 378 37,8 137,7 a) Estimer felles standardavvik for P2 og P3. Gjennomfør en test på 1% nivå for å se om forventet tid ved P2 er kortere enn ved P3. Deler av den neste analysen for sammenligning av panelene er vist nedenfor: ANOVA Source of Variation SS df MS F Between Groups 1227,8 2 (c) (d) Within Groups 31 (a) 111,148 Total 4228,8 (b) b) Finn tallene som skal erstatte (a), (b), (c) og (d) i tabellen ovenfor. Sett opp H og H A til testen som vi kan gjennomføre ved å bruke denne Anova-tabellen. Gjennomfør testen på 5% nivå, og kom med en konklusjon. Det skal nå lages en modell der det blir tatt hensyn til både paneltype og faresituasjon. Ved hjelp av Excel får vi utført analysen nedenfor fra datasettet i Tabell 1: ANOVA Source of Variation SS df MS F P-value F crit Sample 1227,8 2 613,9 86,8726 5,6E-9 3,68232 Columns 285,1 4 712,533 1,83 1,2E-1 3,5557 Interaction 44,867 8 5,6833,79363,61671 2,648 Within 16 15 7,6667 Total 4228,8 29 c) Fra Anova-tabellen ovenfor kan det settes opp tre tester. Sett opp H og H A for hver av testene. Gjennomfør testene på 5% nivå, og kom med konklusjon for hver av testene. Vi ønsker nå å få litt bedre oversikt over tiden før faresituasjonen var under kontroll. Tabell 2 nedenfor viser gjennomsnittene ved de ulike faresituasjonene for hver paneltype. I tillegg er det også tatt med en graf som viser gjennomsnittene for hver paneltype ved de ulike faresituasjonene.
6 Tabell 2 F1 F2 F3 F4 F5 P1 17 33 24,5 37,5 13,5 P2 14 31,5 22,5 36,5 13 P3 26 44 38,5 54,5 26 Gjennomsnitt (Average) X 6 5 4 3 2 P1 P2 P3 1 F1 F2 F3 F4 F5 d) Bruk grafen til å gi en kort sammenligning av de tre panelene. I a) og c) ble det utført tester som så på effekten ved bruk av ulike panel. Gi en kort beskrivelse av hvordan grafen ovenfor illustrerer og støtter opp om resultatet av disse testene. I c) ble det også satt opp en test for å se på samspill/sammenheng mellom paneltyper og ulike faresituasjoner. Viser grafen at noen av panelene har ulikt mønster for de ulike faresituasjonene? Hvordan støtter dette opp om konklusjonen i den ene testen c)? Dersom det ikke er noen store prisforskjeller mellom de ulike panelene, hvilket panel vil du foretrekke? Nynorsktekst: Nynorskteksten er identisk med bokmålsteksten i setningsbygging og ordval med unntak av: Bokmål Nynorsk begrunn = grunngi benytte = bruke hvordan = korleis hvilke = kva for undersøkelse = undersøking hensyn = omsyn beskrivelse = forklaring hvor = kor