Eksamen i: MET 040 Statistikk for økonomer Eksamensdag: 31 Mai 2007 Tid for eksamen: 09.00-13.00 Oppgavesettet er på 4 sider. Tillatte hjelpemidler: Alle trykte eller egenskrevne hjelpemidler og kalkulator. Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt. Oppgave 1 I denne oppgaven skal vi anta at sannsynligheten for konkurs ( i løpet av et år ) for en bestemt type bedrift er 5%. Vi antar også at konkurs eller ikke i de ulike bedriftene av denne typen er uavhengige begivenheter. a) Anta at vi har tilsammen 120 bedrifter av denne typen, og at X er antall bedrifter som går konkurs i løpet av et år. Hva slags fordeling har X? b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs. ii) Finn sannsynligheten for at høyst 2 av 120 slike firmaer går konkurs. c) Anta at 2 av de 120 bedriftene gikk konkurs i løpet av et år. En journalist påpeker at bare 1.7% av firmaene faktisk gikk konkurs, og at dette tydelig beviser at sannsynligheten for konkurs ikke er 5%. Kommenter denne påstanden. d) Pek på forhold som kan gjøre at antagelsen om uavhengighet urimelig. Hvordan kan dette påvirke fordelingen?
Oppgave 2 Bokmål Ved beregning av livsforsikringer bruker forsikringsselskapene en såkalt dødsratefunksjon µ x = α + βc x Her er µ x sannsynligheten for at en mann dør i løpet av forsikringsåret gitt at han er x år idag, og α, β og c er konstanter. Norske forsikringsselskaper benytter verdiene α = 9.0 10 4 β = 4.4 10 5 c = 1.10154 a) Forklar at dødsraten øker med x. Regn ut verdien µ 50. b) La T x være gjenstående levetid for en mann med alder x (dette er en tilfeldig variabel som varierer fra individ til individ). En kan vise at T x har en kumulativ fordelingsfunksjon F x (t) = P(T x t) = 1 e t 0 µ x+sds (Du trenger ikke vise dette). Bruk resultatet til å beregne verdien Hint: c x+s ds = 1 ln(c) cx+s + C c) Beregn den betingede sannsynligheten P(T 40 > 10) P(10 < T 40 11 T 40 > 10) Sammenlign svaret med resultatet i a), og prøv å gi en tolkning av dette resultatet. Oppgave 3 Et spill har 6 ulike utfall som alle er like sannsynlige. De 5 første utfallene gir en gevinst på en enhet, mens det siste utfallet gir et tap på 4 enheter. a) Finn forventet gevinst av spillet. Spillerne som deltar i dette spillet har nyttefunksjoner u(x) = x + a 2 a Her tolker vi u(x) som nytten ved å vinne x enheter (negativ x betyr tap), og 2 a 4 er en konstant som kan variere fra spiller til spiller. b) Beregn forventet nytte av spillet i tilfellene i) a = 2 ii) a = 4
Finn også forventet nytte ved å ikke spille for vilkårlig a (dette kan vi tolke som en gevinst på null enheter for alle de seks utfallene). c) En kan vise at når 2 a 4 er forventet nytte av spillet en voksende funksjon av a (du trenger ikke vise det). Anta at en spiller bare ønsker å delta dersom han eller hun har større forventet nytte ved å spille enn ved å ikke spille. Forklar at det finnes en konstant a 0 slik at en spiller ønsker å delta i spillet hvis og bare hvis a > a 0. Sammenlikn resultatet med a) og prøv å gi en adferdsmessig tolkning av dette resultatet. Oppgave 4 Vi har samlet inn data for verdier av salg og salgskostnader for en bedrift. Data ble observert på ukebasis og vi har data for ialt 30 uker. Dataparene er plottet i figuren under. 14000 13500 13000 12500 12000 450 475 500 525 550 575 Salgskostnader (i kr) mot Salg (i 1000kr) a) Figuren antyder at det er en lineær sammenheng mellom salgskostnader og verdien av salget. Er dette noe vi kunne regne med, og hva er isåfall forklaringen på det? b) Vi har analysert data ved hjelp av MINITAB, og resultatene er vist i utskriften under. Regression Analysis: salgskostnad versus salg The regression equation is salgskostnad = 5213 + 0,0145 salg Predictor Coef SE Coef T P Constant 5212,6 328,5 15,87 0,000 salg 0,0145299 0,0006543 22,21 0,000 S = 193,985 R-Sq = 94,6% R-Sq(adj) = 94,4%
Hva slags informasjon kan vi lese ut av utskriften? Kommenter utskriften og plottene i detalj. c) Uken etter at undersøkelsen ble foretatt observerte vi et salg på 500 000 kr, mens salgskostnadene var 14 500 kr. Ta utgangspunkt i et 95% prediksjonsintervall for salgskostnadene, og diskuter om dette er tall som virker rimelige. For å kunne beregne prediksjonsintervallet trenger du å vite at gjennomsnittlig verdi av salgene er 499 110 kr. Hint: Fra utskriften kan vi se at S[ ˆβ] = 0.0006543. Bruk denne verdien i formelen (Keller & Warrack: M = (n 1)S 2 educ ) M = S2 S[ ˆβ] 2 d) Du er revisor for dette firmaet. Bør tallene i punkt c) få noen konsekvenser, og hva vil du isåfall anbefale?
Fasit/Løsningsforslag MET040 Vår 2007 Oppgave 1 a) X er Bin[120,0.05]. b) ( ) 120 P(X = 2) = 0.05 2 0.95 118 = 4.2% 2 P(X 2) = P(X = 0) + P(X = 1) = P(X = 2) ( ) ( ) 120 120 = 0.05 0 0.95 120 + 0.05 1 0.95 119 0 1 ( ) 120 = 0.05 2 0.95 118 = 5.8% 2 c) Det er farlig å konkludere noe sikkert om konkurs-sannsynligheten ut fra en eneste observasjon. For en statistiker er det naturlig å tolke dette utsagnet via en hypotesetest. Med en nullhypotese der p = 5% ser vi at en observasjon der X = 2 ikke er spesielt uvanlig (opptrer i 4.2% av tilfellene). Fra svarene i b) ser vi også at P-verdien for en ensidig test er 5.8%. Det betyr at vi normalt vil beholde nullhypotesen om at p = 5%. Vi kan ikke påstå at journalisten nødvendigvis tar feil, men kan påpeke at 2 eller færre konkurser vil opptre ganske ofte selv om p er så stor som 5%. d) Hvis bedriftene er relativt like, vil sannsynligheten for konkurs i stor grad variere med markedet for denne typen bedrifter. Hvis markedet er godt, vil få bedrifter gå konkurs, mens mange vil gå konkurs dersom markedet er dårlig. Selv om bedriftene skulle være ganske ulike, vil markedsutsiktene normalt være avhengige av generelle trender i økonomien. I oppgangstider vil vi se færre konkurser enn i nedgangstider. Dersom sannsynligheten for konkurs avhenger av slike yttre rammebetingelser, vil vi få mye mer ekstreme fordelinger. I noen år vil vi få svært få konkurser, mens det i andre år kan opptre et stort antall konkurser. Hvis det for eksempel er slik at sannsynligheten for en sterk nedgangskonjuktur i bransjen er 5%, kan det fort hende at et stort antall bedrifter går konkurs hver gang dette slår til. Under slike forhold vil ikke X være binomisk, og det vil uansett utfall være mye mer problematisk å forkaste en hypotese om at p = 5%. Oppgave 2 a) Vi ser at grunntallet c = 1.10154 is eksponensialfunksjonen er større enn 1. Da øker verdien med x. Vi setter inn x = 50, og finner b) µ 50 = 9.0 10 4 + 4.4 10 5 1.10154 50 = 6.44%
P(T 40 > 10) = 1 P(T 40 10) = 1 (1 e 10 0 α+βc40+s ds ) = e 10 0 α+βc40+s ds = e 10α β ln(c) (c50 c 40) = 95.65% c) P(T 40 > 11) = 1 P(T 40 11) = 1 (1 e 10 0 α+βc40+s ds ) Den betingede sannsynligheten regner vi ut slik: = e 11 0 α+βc40+s ds = e 10α β ln(c) (c51 c 40) = 95.01% P(10 < T 40 11 T 40 > 10) = P(10 < T 40 11 T 40 > 10) P(T 40 > 10) = P(10 < T 40 11) P(T 40 > 10) = P(T 40 > 10) P(T 40 > 11) P(T 40 > 10) 95.65% 95.01% = = 6.69% 95.65% Denne størrelsen kan vi tolke som sannsynligheten for at mannen dør i løpet av forsikringsåret når han er 50 år gammel gitt at han levde da forsikringsåret startet. Denne sannsynligheten er omtrent lik dødsraten i a). Det er en liten forskjell som skyldes at svaret i a) er en momentan rate, mens svaret i c) er en gjennomsnittsrate. Merknad: Forsikringsselskapene bruker ikke alltid samme tabeller for menn og kvinner. Kvinner har noe lavere dødsrater enn menn, og for noen typer livsforsikringer betaler kvinner samme forsikringspremie som en 3 år yngre mann. Oppgave 3 Vi kaller utfallet av spillet for X. a) b) a = 2 a = 4 E[X] = 5/6 1 + 1/6 4 = 1/6 E[U(X)] = 5/6 ( 1 + 2 2 2) + 1/6 ( 4 + 2 2 2) = 5 5/6 2 0.137 E[U(X)] = 5/6 ( 1 + 4 2 4) + 1/6 ( 4 + 4 2 4) = 5 17/6 + 3/3 5 0.013
Forventet nytte ved å ikke spille finner vi (for eksempel) slik: E[U(X)] = 5/6 ( a 2 a) + 1/6 ( a 2 a) = 0 Alternativt kan vi innse at nytten ved gevinst 0 er a 2 a = 0, og siden dette er en konstant blir forventet verdi også 0. c) Siden forventet nytte ved å ikke spille er 0, vil en spiller velge å spille hvis og bare hvis han har strengt positiv forventet nytte av å spille. Forventet nytte er en voksende funksjon av a. Vi kaller denne funksjonen for e(a). Fra punkt b) vet vi at e(2) < 0 og at e(4) > 0. Siden funksjonen er voksende, har den nøyaktig et nullpunkt a 0 i intervallet [2, 4]. For a > a 0 er forventet nytte strengt positiv, og det beviser påstanden. Fra punkt a) vet vi at spillet har positiv forventet gevinst. Spillere som er tilstrekkelig risikoaverse vil likevel velge å la være å spille. Vi kan dele populasjonen inn i to deler: de med høy risikoaversjon (a a 0 ) spiller ikke, og de med lav risikoaversjon (a > a 0 ) velger å spille. Oppgave 4 a) Ja dette er noe vi ofte kan regne med. Konstantleddet kan vi tolke som faste kostnader ved salget (for eksempel lønn til selgerne), mens stigningskoeffesienten kan tolkes som enhetskostnader ved salget. Fra plottet ser vi at tallene ikke varierer særlig mye fra uke til uke; de har samme størrelseorden. Da er det rimelig å anta at de faste kostnadene ved salget ikke varierer så mye. Enhetskostnader, som for eksempel kan bestå i en bestemt avgift/kommisjon pr enhet av varen, vil også i mange tilfeller ligge fast. Hvis vi enkelte uker selger ekstremt mye/lite, kan det gjerne bli betydelige avvik fra en lineær sammenheng, men det er ikke tilfelle her. b) Fra utskriften kan vi se at faste kostnader er 5213 kr, mens enhetskostnaden (kostnad pr kr solgt) er 0.0145 kr. Modellen har svært høy forklaringskraft; 94.6%. Vi har også all grunn til å forkaste en nullhypotese om at verdien av salget ikke påvirker salgskostnadene, dette er fordi P-verdiene til denne testen er svært lav (0.000). Normalscoreplottet er en rimelig rett linje. Histogrammet er kanskje ikke perfekt, men akseptabelt med tanke på at vi bare har 30 observasjoner. Residualene er rimelig symmetriske og uten klare trender. Alt i alt er dette en modell vi kan ha god tiltro til. c) Predikert verdi er 5212.6 + 0.0145299 500000 = 12477.6 Vi finner M = 193.9852 0.0006543 2 = 3.3 10 15. I formlene inngår leddet (500000 499110) 2 M
men det leddet er her så lite at vi kan se helt vekk fra det. Vi finner S[ ˆX X] = 193.985 1 + 1/30 + 0 = 197.2 Her skal vi benytte t-tabellen med parameter n 2 = 28. Fra tabellen finner vi verdien t = 2.048 (95% konfidens betyr 2.5% på begge sider). Grensene for prediksjonsintervallet er dermed gitt ved { 12073.7 12477.6 ± 2.048 197.2 = 12881.5 Vi ser at den observerte salgskostnaden ligger langt utenfor et 95% konfidensintervall. Det er derfor svært sannsynlig at det er noe spesielt med disse tallene. d) Fra analysen i c) ser vi at utgiftene er langt høyere enn normalt. Avviket er på mer enn 10 standardavvik, og det umulig skyldes et tilfeldig utslag. Vi bør kanskje først sjekke om dette skyldes en ren inntastingsfeil, slike feil forekommer ofte. Hvis dette ikke er grunnen, bør vi gå gjennom de ulike postene for å finne hvor avviket ligger.