Masteroppgave i statistikk. GAMLSS-modeller i bilforsikring. Hallvard Røyrane-Løtvedt Kandidatnr

Størrelse: px
Begynne med side:

Download "Masteroppgave i statistikk. GAMLSS-modeller i bilforsikring. Hallvard Røyrane-Løtvedt Kandidatnr. 160657"

Transkript

1 Masteroppgave statstkk GAMLSS-modeller blforskrng Hallvard Røyrane-Løtvedt Kanddatnr UNIVERSITETET I BERGEN MATEMATISK INSTITUTT Veleder: Hans Julus Skaug 1. Jun

2 GAMLSS-modeller blforskrng 1 Sammendrag I denne oppgaven tester jeg ulke modeller for predksjon av total skadeutbetalng fra forskrngsselskap tl forskrngstaker et polseår. Modellene som testes hører tl rammeverket Generalzed Addtve Models for Locaton, Shape and Scale GAMLSS ntrodusert av Rgby og Stasnopoulos (2001). Data brukt oppgaven er hentet fra et norsk forskrngsselskap, og består av nformasjon om polser og skader blforskrng årene Ved hjelp av kun 3 forklarngsvarabler; årstall, blalder og personalder, vser jeg denne oppgaven at valg av statstsk modell er avgjørende for predksjonene av skadeutbetalngen (kapttel 9). Vdere tester jeg ut hvordan modellpredksjonene kan brukes tl å lage en realstsk prsmodell, og hvordan prsmodellen gr ulke resultater for de ulke predksjonsmodellene (kapttel 10). Total skadeutbetalng deles naturlg nn skadefrekvens og skadeprs. Jeg tester oppgaven både modeller som modellerer dsse separat, og modeller som modellerer total skadeutbetalng drekte. Jeg vl argumentere for at de drekte modellene er å foretrekke. Modellen som anbefales er en Zero-Adjusted Inverse Gaussan ZAIG-modell, der forklarngsvarablenes funksjonelle form er valgt slk at AIC blr så lav som mulg. En ZAIGfordelt stokastsk varabel tar verden 0 med sannsynlghet, og følger en Invers-Gaussskfordelng med sannsynlghet (1 ). Skadeprser er såpass skjevt fordelt at det må en ekstremt skjev sannsynlghetsfordelng, som den Invers-Gaussske, tl, for å beskrve dem. Jeg vl også oppgaven argumentere for at valg av sannsynlghetsfordelng har stor betydnng for kvalteten på predksjonene. 2

3 Forord Jeg vl rette en stor takk tl mn veleder Hans Julus Skaug for god og konstruktv krtkk under hele skrveprosessen. Vdere vl jeg gjerne takke de dyktge foreleserne ved matematsk nsttutt på UB for å ha vst meg hvor nteressant og faglg utfordrende statstkkfaget, og spesfkt forskrngsmatematkk, kan være. Jeg vl også takke analyseavdelngen Tryg forskrng, for å ha lært meg utrolg mye om forskrngsfaget. En takk går også tl mne foreldre, Knut Løtvedt og Bert Anderssen, for gjennomlesng og konstruktv krtkk. Sst, men kke mnst, vl jeg takke mn kone, Lene Krstn Røyrane-Løtvedt, for gjennomlesng, gode råd og hjelp tl å forbedre språket oppgaven. 3

4 Innholdsfortegnelse GAMLSS-modeller blforskrng Sammendrag... 2 Forord... 3 Tabeller... 9 Fgurer Innlednng Bakgrunn Motvasjon Rktg prsng Statstsk modellerng Målsetnng Bruk av R Notasjon og konvensjoner Teor AIC GLM GLM-rammeverket GLM-estmerng GAM GAM-rammeverket GAM-estmerng GAMLSS GAMLSS-rammeverket GAMLSS-estmerng Estmerngsalgortmer for GAMLSS Sannsynlghetsfordelnger

5 3.5.1 Normalfordelngen Gammafordelngen Kjkvadratfordelngen Lognormalfordelngen Invers Gausssk fordelng IG-fordelngen Webullfordelngen Bernoullfordelngen og bnomalfordelngen Possonfordelngen Negatv bnomsk fordelng NEGBIN-fordelngen Fnte Mxture FM FM-fordelnger ZIP-fordelng ZAGA-fordelng ZAIG-fordelng Estmerng av FM-modeller - EM-algortmen Sentralgrenseteoremet Pearsons kjkvadrattest Prsng av forskrngspolser Data Polsetabellen Skadetabellen Forklarngsvarabler - hypoteser og deskrptv statstkk Årstall Blalder Personalder Samvarasjon mellom forklarngsvarablene Responsvarabler hypoteser og deskrptv statstkk

6 4.4.1 Antall skader og antall aktve dager Skadeprs Aggregerng av skadeprs Metodkk for modellerng Generelt rammeverk for alle unmodale modeller Generelt rammeverk for alle bmodale FM-modeller Algortme for AIC-mnmerng GAM-plot Korreksjon for eksponerng Generelt om korreksjon for eksponerng Test av metodkk Korreksjon for antall skader Modellerng av skadefrekvens Generelt om modellerng av skadefrekvens Possonmodell for skadefrekvens Estmerng og defnsjoner GAM-plot Effekter av forklarngsvarablene på skadefrekvens Modellerng av skadeprs Generelt om modellerng av skadeprs Unmodale modeller for skadeprs Lognormalmodell for skadeprs IG-modell for skadeprs Estmerng og defnsjon Testng av S kontra G som responsvarabel Bmodale modeller for skadeprs FM-log-log-modell for skadeprs

7 7.7 FM-log-gamma-modell for skadeprs Effekter av forklarngsvarablene på skadeprs Modellerng av total utbetalng Generelt om total utbetalng Modeller gtt uavhengghet Modellerng av utbetalng drekte ved ZAIG og ZAGA Generelt om ZAIG/ZAGA-modellene ZAIG-modell for total skadeprs ZAGA-modell for total skadeprs Effekter av forklarngsvarablene på total skadeprs Testng av modellene for U Testmetodkk QQ-plot for Z-verdene Årstabeller Resultater Kommentarer tl resultatene UPOILOG- og UPOIIG-modellene UPOILOGLOG- og UPOILOGGA-modellene UZAIG- og UZAGA-modellene Modellene brukt tl prssettng Om smulert tdsløp Resultater fra smulert tdsløp Marked og konkurranse Felklder og kommentarer Avslutnng Konklusjon Forslag tl anvendelse

8 11.3 Forslag tl vdere studer Forbehold, felklder og begrensnnger Ltteratur

9 Tabeller Tabell Utdrag fra polsetabellen Tabell Utdrag fra skadetabellen Tabell Kanddatledd for selvstendge forklarngsvarabler modellene Tabell Kanddatledd for samspll mellom forklarngsvarablene modellene Tabell Testng av 3 alternatve måter å korrgere for eksponerng Tabell Generell formulerng av skadefrekvensmodellene for de ulke fordelnger Tabell Estmater og AIC for Posson-, NEGBIN og ZIP-modell for skadefrekvens Tabell Defnsjon Defnsjon av APOI-modellene Tabell APOI-1 estmater med standardfel og p-verder Tabell Generell formulerng av skadeprsmodellene for de ulke fordelngene Tabell Estmater og AIC for ulke sannsynlghetsmodeller for skadeprs Tabell Defnsjon av GLOG-modellene Tabell Defnsjon av GIG-modellene Tabell Sammenlknng av koeffsenter for GIG-2 og SIG Tabell Sammenlknng av koeffsenter for GIG-2 og SIG Tabell AIC-verder for bmodale modeller for gjennomsnttlg skadeprs Tabell Defnsjon av GLOGLOG-modellene Tabell Defnsjon av GLOGGA-modellene Tabell Estmerte koeffsenter for GIG Tabell Estmerte koeffsenter for GIG Tabell Gjennomsnttlg skadeprs for ulke antall skader per polse Tabell Skjematsk overskt over uavhengghetsmodellen for U Tabell Testng av 2 alternatve måter få nn eksponerng på, ZAIG-modellene Tabell Defnsjon av UZAIG-modellene Tabell Defnsjon av UZAGA-modellene Tabell Estmerte koeffsenter for UZAIG Tabell Estmerte koeffsenter for UZAIG Tabell Estmerte koeffsenter for UZAIG Tabell Årstabell

10 Tabell Årstabell Tabell Årstabell Tabell Årstabell Tabell Årstabell Tabell Årstabell Tabell Resultater av smulert tdsløp

11 Fgurer Fgur Deskrptv statstkk for årstall Fgur Deskrptv statstkk for blalder Fgur Deskrptv statstkk for personalder Fgur Box-plot av samvarasjon mellom forklarngsvarablene Fgur Hstogrammer for antall aktve dager og antall skader Fgur Box-plot av antall skader vs. antall aktve dager Fgur Hstogrammer av log(skadeprs) for ulke varanter av skadeprs Fgur Estmerte sannsynlgheter mot observert relatv frekvens for 0-4 skader Fgur GAM-plot av forklarngsvarabler Possonmodellen for skadefrekvens Fgur Hstogram av gjennomsnttlg skadeprs sammen med PDF for ulke fordelnger. 66 Fgur Grove hstogrammer av log(skadeprs) for U, G og S Fgur Hstogram av gjennomsnttlg skadeprs mot PDF tl 3 bmodale fordelnger Fgur QQ-plot for UPOILOG-modellene Fgur QQ-plot for UPOIIG-modellene Fgur QQ-plot for UPOILOGLOG-modellene Fgur QQ-plot for UPOILOGGA-modellene Fgur QQ-plot for UZAIG-modellene Fgur QQ-plot for UZAIG-modellene

12 2 Innlednng 2.1 Bakgrunn Dfferensert prsng skadeforskrng er et tema det er bltt skrevet mye om nnenfor forskrngsmatematsk ltteratur. Den totale utbetalngen fra forskrngsselskap tl forskrngstaker et polseår, U, er det sentrale tallet man ønsker å predkere. Imdlertd er U en vanskelg stokastsk varabel å modellere, ettersom den er sammensatt av to svært ulke stokastske elementer: skadefrekvens 1 og skadeprs. Går man langt tlbake td var datasettene forskrng ofte av dårlg kvaltet, hvlket gav uskre estmater og predksjoner (Wesberg og Tomberln 1982). Imdlertd har man med moderne, sofstkerte IT-verktøy stor grad overkommet dette problemet (Bortoluzzo et al. 2011). Heller et al. (2006) skrver at mye fokus aktuarltteraturen er gtt tl ulke sannsynlghetsfordelnger for skadeprs. Hogg og Klugman (1984) nevnes som et eksempel på dette. Mange forskere har bygget regresjonsmodeller for skadeprs, der skadeprsen predkeres på bakgrunn av forklarngsvarabler. Et eksempel her er Haberman og Renshaw (1996). Dsse regresjonsmodellene er mdlertd kun relevante for den gruppen forskrngspolser som har hatt mnst 1 skade observasjonsperoden. (Heller et al. 2006). Dersom slke regresjonsmodeller brukes tl prsng av forskrngspolser, uten samtdg å ta hensyn tl skadefrekvensen (eller skadesannsynlgheten), gr det kke rskorktg 2 prs. Årsaken er at når man kke tar hensyn tl skadefrekvensen, er det ekvvalent med å sette den lk for alle kunder. Jørgensen og de Souza (1994) foreslår å modellere U som en Posson-sum av gammafordelte skadeprser. Dette kan gjøres ved en varant av Tweedefordelngen. (Bortoluzzo et al. 2011). Et problem ved denne fremgangsmåten er at sannsynlgheten for 0 skader kke kan modelleres eksplstt som en funksjon av forklarngsvarabler (Heller et al 2006). Ved å ta bruk GAMLSS-modellerng, slk jeg gjør, kan man mdlertd la en hvlken som helst fordelngsparameter avhenge drekte og eksplstt av forklarngsvarabler. Dette gjelder også parametere for nullsannsynlghet. 1 Jeg vl denne oppgaven bruke begrepene skadefrekvens og antall skader om hverandre. Begge skal forstås som antall skader per polseår, A. 2 Rsko skal her forstås lys av sannsynlghetsfordelngen tl U for hver enkelt kunde. Dersom er kunde har Høy rsko, betyr det at sannsynlghetsfordelngen tl U for denne kunden har negatve egenskaper, sett fra forskrngsselskapets ståsted. Dsse egenskapene er typsk høy forventnngsverd og høye kvantler. 12

13 Heller et al. (2006) ntroduserer Zero Adjusted Inverse Gaussan ZAIG-fordelngen for modellerng av U. Denne modellen bygges opp under GAMLSS-rammeverket (se delkapttel 3.4), som jeg også vl ta bruk denne oppgaven. Bortoluzzo et al. (2011) tester ZAIGfordelngen mot Tweedefordelngen på et datasett for blforskrng, og konkluderer med at ZAIG-fordelngen gr en modell som bedre beskrver rskoen, og er mer velegnet tl prsng av forskrngspolser. GAMLSS-rammeverket, som jeg bruker denne oppgaven, er relatvt nytt. Imdlertd er det publsert en rekke vtenskapelge artkler der GAMLSS anvendes studet av kvanttatve fenomener. Mens jeg skrver dette er det kun Heller et al. (2006) og Bortoluzzo et al. (2011) som har brukt GAMLSS-metodkk for å modellere U skadeforskrng. 3 Begge har hovedfokus på ZAIG-fordelngen. Jeg fnner det derfor nteressant å teste potensalet tl GAMLSS som rammeverk for å modellere U, også ved andre fordelnger. I denne oppgaven går jeg bredt ut og tester flere mulge modellerngsstrateger. Den klassske modellen der skadefrekvensen og skadeprsen modelleres separat, er en kanddat, og settes opp mot ZAIG-modellen foreslått av Heller et al. (2006) og Bortoluzzo et al. (2011). I tllegg testes den nært beslektede ZAGA-modellen. For hver modell tester jeg også ut undergrupper med ulk grad av fleksbltet. All modelltestng gjøres på et stort datasett fra et skadeforskrngsselskap, med data fra årene 2000 tl Motvasjon Jeg jobber selv forskrngsbransjen og har derfor en vss kjennskap tl hvlke problemstllnger det er fokus på bransjen, og hvordan det tenkes om løsnng av problemene. Mn hovedmotvasjon for å skrve denne oppgaven er et ønske om å bdra tl å utvkle og/eller utprøve statstske metoder som kan brukes prakss, et forskrngsselskap. Rktg prsng av forskrngspolsene er essenselt for et forskrngsselskap. Det kan ses å være et gjennomgående tema for oppgaven. 3 En komplett lste, per av alle vtenskapelge artkler publsert, der GAMLSS brukes, fnnes på 13

14 2.2.1 Rktg prsng Forskrngsbransjen Norge og nternasjonalt er preget av hard konkurranse om kundene. Produktet forskrngsselskapene tlbyr er deknng av store uforutsette utgfter tl skader som kke er selvforskyldt. Det er selvsagt forskjeller mellom forskrngsselskapene, med hensyn tl deknngsvlkår, kundeservce, avtaler med leverandører for skadebehandlng etc. Imdlertd er dette ofte margnale forskjeller sett fra forskrngstakers ståsted. Når produktene som tlbys er såpass lke fra et forskrngsselskap tl et annet, vl ofte prs være det prmære krteret kunden baserer stt valg av forskrngsselskap på. Dette fører tl at forskrngsselskapene er svært opptatt av konkurransedyktg, og kke mnst rktg prsng. Rktg prsng er et langt mer komplsert begrep forskrngsbransjen enn de fleste andre bransjer. Den største delen av forskrngsselskapets utgfter er skadeutbetalnger. Dsse er av natur uskre (stokastske), og kan potenselt runere forskrngsselskapet 4, dersom det kke er nok penger tl å dekke skadene. Forskrngsselskapene er pålagt ved lov 5 å sette av nok penger tl å dekke forventede økonomske forplktelser. Dsse pengene må hentes nn som forskrngspreme av kundene. Det er derfor grenser for hvor lav prs man kan sette. En mulg prsngsstrateg er å tlby lk prs for alle kunder. Dette gr enkle og oversktlge prser, og det kan argumenteres for at det er soldarsk og rettferdg, ettersom skadene vanlgvs kke er selvforskyldte. Imdlertd er det et statstsk veldokumentert faktum at ulke kunder har ulk rsko. Lk prs for alle vl derfor medføre at lavrskokunder subsderer høyrskokunder. Dersom et forskrngsselskap opererer med dfferenserte, rskorktge prser, mens et annet opererer med lk prs for alle, vl lavrskokundene få rmelgere prs hos selskapet som dfferenserer, og dermed ha et økonomsk nsentv tl å bytte forskrngsselskap. Høyrskokunder selskapet som prsdfferenserer, vl også ha et økonomsk nsentv tl å bytte tl selskapet som opererer med lk prs for alle. På skt vl dette kunne føre tl en porteføljegldnng der selskapet som dfferenserer, stter gjen med lavrskokunder, og selskapet som tlbyr lk prs stter gjen med høyrskokunder. Selskapet som dfferenserer prsene vl være langt mer lønnsomt, både ford skadeutbetalngene vl være færre og mer stable, og ford omkostnngene tl skadebehandlng blr redusert. I prakss dfferenserer alle forskrngsselskapene prsene sne, basert på ulke krterer. 4 Se for eksempel Sundt (1999: kapttel 10) for mer om sannsynlgheten for runerng av selskapet. 5 Se nyeste forskrfter på 14

15 2.2.2 Statstsk modellerng Gtt konkurransestuasjonen, er det klart at forskrngsselskapene må dfferensere prsene etter de ulke kunders rskoprofl. Dette fører tl et behov for å bygge best mulge statstske modeller for utbetalngen tl kundene. Konkurransestuasjonen den norske forskrngsbransjen har spsset seg tl ytterlgere etter at fnansportalen.no 6 ble lansert Det ble da enklere for kundene å sammenlkne selskapenes prser drekte. Følgelg er behovet for gode statstske modeller høyere enn noensnne. Dfferensert prsng gr kun ønsket effekt dersom dfferenserngen treffer rktg. Det betyr at de statstske modellene må kunne spå fremtden med best mulg treffskkerhet. Mer spesfkt kan man s at rskorktg prsng er avhengg av å kunne beskrve sannsynlghetsfordelngen tl U (total utbetalng per polseår) mest mulg realstsk. Forskrngsselskapet som klarer dette har et klart konkurransefortrnn. 2.3 Målsetnng Mtt mål med denne oppgaven er å sammenlkne ulke predksjonsmodeller blforskrng. Mer spesfkt ønsker jeg å predkere total utbetalng per polseår, U. Dette er antall kr forskrngsselskapet betaler tl forskrngstaker for å dekke skader løpet av et polseår. 7 For polse, er størrelsen U gtt ved (1) U S, A k 0 der S k, er skadeprsen på skade k for polse, og A er antall skader for polse. Ved å nnføre konvensjonen S,0 0, er U fullt defnert ved (1). Jeg vl ta bruk GAMLSSrammeverket (se delkapttel 3.4) tl å bygge modellene. Det er et meget fleksbelt modellerngsrammeverk, der responsvarabelens sannsynlghetsfordelng tllates å avhenge av forklarngsvarabler ved en egen formel for hver fordelngsparameter. Først bygger jeg modeller der skadefrekvens 8 og skadeprs modelleres hver for seg. Estmatene kobles så sammen for å predkere total utbetalng U. Vdere bygger jeg modeller der total utbetalng modelleres drekte. Jeg vl teste alle dsse modellene parallelt, og drøfte fordeler og ulemper ved dem. Samtdg er det et mål at en modell utpekes som den foretrukne. I drøftngen vl jeg k 6 Fnansportalen er opprettet av forbrukerrådet som en tjeneste for sammenlknng av fnans- og forskrngsprodukter. 7 Egenandelen dekker forskrngstaker selv. Den nngår derfor kke U. 15

16 forsøke å tenke praktsk, og konkretsere resultatene et realstsk forskrngsperspektv. Tlgjengelge forklarngsvarabler denne oppgaven er årstall, blalder og personalder (se delkapttel 4.3). I vrkelgheten har forskrngsselskapene vanlgvs tlgang tl langt flere forklarngsvarabler enn dette. Jeg forsøker mdlertd å få mest mulg forklarngskraft ut av de tlgjengelge forklarngsvarablene. En sekundær målsetnng er å drøfte hvorvdt, hvlken grad og på hvlken måte dsse forklarngsvarablene påvrker skadefrekvens, skadeprs og total utbetalng. 2.4 Bruk av R Enhver utregnng denne oppgaven er utført dataprogrammet R (se r-project.org). Dette er et grats statstkkprogram som brukes av akademske fagmljøer verden rundt. Estmerng av modellparametere er denne oppgaven utført ved bruk av GAMLSS-pakken (se gamlss.org). Denne pakken kjører R og gr brukeren mulghet tl å estmere parameterne svært fleksble regresjonsmodeller uten å måtte skrve kldekode for alle stegene algortmene. R, og noen tlfeller GAMLSS-pakken, er også brukt tl å produsere fgurene og grafene oppgaven. 2.5 Notasjon og konvensjoner Store latnske bokstaver kursv som A, B, X, Y brukes for stokastske varabler. Små, latnske bokstaver kursv som a, b, x, y brukes for observerte verder, matematske funksjoner eller realserngen av stokastske varabler. Små, fete bokstaver som a, b, x, y brukes for vektorer. Små, greske bokstaver som,,, brukes for parametere. Følgende vanlge engelske forkortelser og termer fra statstsk ltteratur brukes hyppg: PDF: sannsynlghetstetthet PMF: punktsannsynlghet GLM: Generalzed Lnear Model GAM: Generalzed Addtve Model GAMLSS: Generalzed Addtve Model for Locaton, Shape and Scale lkelhood: sannsynlghet gtt observerte verder og gjeldende antagelser ML: maxmum lkelhood NEGBIN: negatv bnomsk fordelng ZIP: Zero-nflated Possonfordelng 16

17 ZAGA: Zero-adjusted -gammafordelng ZAIG: Zero-adjusted nvers-gausssk fordelng..d.: Independent and dentcally dstrbuted (uavhengg og dentsk fordelt) Defnsjonsmengder for sannsynlghetsfordelnger som er velkjente fra statstsk ltteratur sløyfes av plasshensyn. Defnsjonsmengder for mer speselle uttrykk tas med etter behov. Jeg vl for enkelhets skyld bruke f som både PMF og PDF, og kke sklle mellom dsse der det kke er behov for det. Her er en lste over andre konvensjoner jeg bruker oppgaven gjennom: - Indkatorfunksjoner skrves som I( A ) der A er et krterum. Dersom A er oppfylt, tar ndkatorfunksjonen verden 1, og ellers 0. - brukes som benevnelse på generelle parametere. Dersom jeg omtaler en rekke sannsynlghetsfordelnger, med ulke parametere som en enhet, bruker jeg for eksempel som benevnelse på parameterne alle fordelngene. - Tegnet brukes kun for fordelngsfunksjoner tl standardnormalfordelngen. Det betyr at dersom en stokastsk varabel, Z, er standardnormalfordelt, gjelder ( z) P( Z z). - Desgnvektor er å forstå som en rad desgnmatrsen (som nneholder alle observasjoner av forklarngsvarablene, slk de nngår modellen). Det vl s at en desgnvektor nneholder alle forklarngsvarablene, deres gjeldende funksjonelle form, for en enkel observasjon. - Når jeg skrver log( x ) mener jeg den naturlge logartmen tl x, slk at - Jeg bytter på å skrve exp( x ) og e log( x) x. x e for å uttrykke eksponentalfunksjonen av x. - For å spare plass vl jeg noen ganger bruke vektornotasjon når jeg skrver lneære uttrykk. Det betyr for eksempel at 0 1x1 2x2 vl kunne skrves x 1 x β Når jeg navngr en statstsk modell, velger jeg første bokstav navnet responsvarabelen som første bokstav, og en forkortelse for navnet på sannsynlghetsfordelngen utgjør resten av modellnavnet. Antall skader, A, modellert ved Possonmodell, kalles for eksempel APOI. 17

18 3 Teor I dette kaptelet forsøker jeg å presentere det teoretske grunnlaget for modellerngen kaptler 6-9. Dette gjøres ved å ntrodusere det nødvendge begrepsapparatet, samt de anvendte metoder. Jeg starter med en presentasjon av det populære AIC-krteret for modellvalg. Vdere ntroduseres GAMLSS-metodkken ved først å presentere dens forløpere, GLM og GAM. Jeg ntroduserer så alle sannsynlghetsfordelnger som tas bruk kaptlene 6-9. Kapttel 3 kan ses som en presentasjon av de nødvendge teoretske verktøy som tas bruk senere kaptler. 3.1 AIC Når man bygger en statstsk modell, er følgende spørsmål alltd relevant: - Hvor fleksbel skal modellen være? 9 Modelltlpasnngen blr bedre, jo flere parametere man estmerer. Imdlertd blr også den samlede uskkerheten større, ettersom det ntroduseres mer uskkerhet for hver parameter som estmeres. Det antas at hver enkelt aktuell parameter har en sann verd som er ukjent. Hver gang det estmeres en størrelse brukes en estmator (vanlgvs en ML-estmator). Estmatorer må ses som stokastske varabler med tlhørende sannsynlghetsfordelnger, der de sanne parameterstørrelsene nngår PDF/PMF. Så lenge dsse sannsynlghetsfordelngene tllater varasjon overhodet, må det tas høyde for at estmatene kan, og vl, bomme på de sanne parameterverdene. Om estmatene treffer eller bommer, og eventuelt hvor mye de bommer med, har man prnsppet ngen mulghet tl å fnne ut, med mndre det samles nn nye data. Enkelt sagt vl modellen akkumulere estmatoruskkerhet for hver parameter som estmeres. Det er med andre ord et dlemma mellom tlpasnng og treffskkerhet estmatene. Dlemmaet er meget velkjent og er relevant for all statstsk modellbyggng. Akake (1974) ntroduserte størrelsen Akake s Informaton Crteron AIC for å løse dette dlemma. Akake (1974) vser, ved hjelp av blant annet Kullback Lebler dvergens og nformasjonsteor, at dersom man har to kanddatmodeller, vl modellen med lavest AIC-verd 9 Fleksbltet er et vdt begrep, men kan operasjonalseres en modellerngskontekst, ved å la grad av fleksbltet forstås som antall fre parametere eller antall frhetsgrader. I denne oppgaven vl jeg bruke fleksbltetsbegrepet denne betydnngen. Jeg vl for eksempel mene høyt antall fre parametere modellen når jeg skrver svært fleksbel modell. 18

19 være å fortrekke, ettersom den gr relatvt mndre forventet nformasjonstap enn modellen med høyest AIC. Informasjonstap skal her forstås relatvt mellom den ukjente prosessen som genererer de observerte data, og en statstsk modell som representerer denne prosessen. AIC er defnert som AIC 2p 2l der p er antall estmerte parametere, og l er log-lkelhooden modellen. Denne enkle formelen tas bruk gjennomgående oppgaven som relatvt krterum for modellvalg. AIC er prnsppet kun asymptotsk gyldg, når antall observasjoner, n, går mot. Burnham og Anderson (2002) anbefaler å bruke AIC c stedet for AIC, for å korrgere for antall observasjoner. AIC c er defnert som AIC c 2 pp ( 1) AIC n p 1. Det fremgår av uttrykket at AIC AIC, slk at vanlg AIC lkevel kan forsvares når antall c n observasjoner er høyt. Datasettet denne oppgaven har såpass mange observasjoner ( polseår og skader) at felklden ved å bruke AIC stedet for AIC c er mnmal. Dersom man for eksempel har en modell for skadefrekvens med hele 30 parametere, vl forskjellen mellom AIC c og AIC være ca. 0,03, hvlket er neglsjerbart. Jeg velger derfor å bruke vanlg AIC den resterende del av oppgaven. 3.2 GLM GLM-rammeverket Nelder og Wedderburn (1972) ntroduserte Generalzed Lnear Models GLM. GLM er et sammenhengende rammeverk for statstske modeller der responsvarabelen Y ses som en uavhengg, stokastsk varabel, med fordelng f (, ), der avhenger av T forklarngsvarabler x gjennom lnk-funksjonen g, slk at g( ), der x β kalles den lneære predktor. regnes som lneær ettersom den er lneær koeffsentene β,...,. 0 p I det opprnnelge GLM-rammeverket må fordelngen f (, ) tlhøre den eksponentelle famle. Sannsynlghetsfordelngene reparameterseres slk at forventnngsverden E( Y ) tlsvarer en egen parameter. Det er kun lokasjonsparameteren 19

20 som kobles mot forklarngsvarabler GLM. Det vl blant annet s at fordelngens varans, skjevhet og kurtose kun ndrekte, gjennom, avhenger av forklarngsvarabler. Sannsynlghetsfordelngene for f, som brukes GLM-analyse, kan alle skrves på formen (2) y a( ) f ( y;, ) f ( y;, ) exp c( y, ) der kalles den naturlge parameteren og er en sekundær parameter som kke påvrker. Det kan vses at forventnngen og varansen tl Y kan skrves 2 a a E( Y), Var( Y) a Dette mplserer vdere at Var( Y ) E( Y ) V ( ). 2 Med andre ord vl varansen tl Y være en funksjon av forventnngen tl Y GLM. Slk kan også varansen (ndrekte) avhenge av forklarngsvarabler. (de Jung og Heller 2008:35-37) GLM-estmerng Parameterestmerngen GLM utføres vanlgvs ved ML-maksmerng. For de fleste fordelnger den eksponentelle famle er det kke mulg å uttrykke ML-estmatorene som en kombnasjon av vanlge matematske funksjoner. Derfor benyttes som hovedregel Newton- Raphson-terasjon eller Fsher-scorng, slk det er beskrevet for eksempel av Dobson og Barnett (2008:64-66). Man starter med et forslag tl parametervektor (0) β og fnner ( β m), m 1,2,... ved den teratve estmerngslknngen (3) ( m) ( m1) ( m1) 1 ( m1) β β u l der er Fshers nformasjonsmatrse og u er score-vektoren u. β β oppdateres helt tl ( m1) ( m) β β ε der ε er en vektor med konvergensgrenser. Da settes ( m 1) β β og parametervektoren er ferdg estmert. Som det fremgår av den teratve lknngen (3), maksmeres log-lkelhooden GLM kun med hensyn på parametervektor β. Dspersjonsparameteren regnes som sekundær, og estmeres først etter at β er estmert. Det 20

21 er heller kke mulg nnenfor tradsjonell GLM-analyse å la avhenge av forklarngsvarabler. Verdt å merke seg er også at lnk-funksjonen g, som kobler forventnngsverden tl forklarngsvarablene, må være en monoton, derverbar funksjon ettersom Fsher-scorng krever derverbar lkelhood. 3.3 GAM GAM-rammeverket Haste og Tbshran (1990) ntroduserer Generalzed Addtve Models - en utvdelse av GLM - ved å erstatte den lneære predktoren 0 jx, j, med en mer generell addtv p predktor 0 sj ( x, j ), der s j er funksjoner av forklarngsvarablene. Det er mange j1 ulke kanddater for funksjonene s j. Haste og Tbshran (1990) foreslår å la p j 1 s j være cubc splnes. I det enkle tlfelle der det kun er en forklarngsvarabel, x, la observasjonene være sortert stgende rekkefølge for x, slk at man kan skrve x() x for alle. Da kan cubc splne defneres slk: - En cubc splne, s, er en stykkevs defnert funksjon med defnsjonsmengde x x,. 1 n Defnsjonsmengden kan deles opp n 1 dsjunkte subntervaller x, 1 x der x x x... x x x. s er gtt ved mn 1 2 n1 n max P1 ( x), x1 x x2, P2 ( x), x2 x x3, sx ( )... P ( x), x x x der alle P er tredjegrads polynomfunksjoner. 10 n1 n1 n Det spesfkke uttrykket tl s bestemmes ved å mnmere (4), gtt ved (4) n 1 x n ds y s x dx 2 x dx 1 ( ( )) 10 Denne måten å defnere cubc splnes på er stor grad hentet fra 21

22 Kvadratsummen n 2 ( y s( x)) er det klassske målet på tlpasnng, mens 1 kalles en splne-smoother. Dette leddet er med for å tlføre glatthet tl s. Splnefunksjonen s tllates å skfte parametrsk form fra et subntervall tl det neste. Glatthetsparameteren, som må være postv, gr en straff for fleksbltet, ettersom ntegralet av den andrederverte øker med koeffsentene tl de høyere ledd polynomene P. Dette kan løst beskrves som at belønner glatthet, eller lneartet. x n x1 sx 2 ds 2 2 dx GAM-estmerng (4) kan generalseres tl p forklarngsvarabler x,...,, 1 x p ved å bruke den såkalte backfttng - teknkken som ble ntrodusert av Breman og Fredman (1985). Kort forklart består backfttng følgende steg: 1 n 1. Sett estmat på konstantleddet tl 0 y og n 1 2. Sett første estmat på alle splne-funksjoner tl (0) j s 0 3. Mnmer 2 x n ( n) ds 2 j y sk ( x, k ) s j ( x, j ) j dx 2 j 1 k j x sx j for alle. j s Resultatet er estmater (1) s j. 4. Sentrer splne-estmatene ved å sette 1 s s s ( x ). (2) (1) n (1) j j j, j n 1 5. Repeter steg 3 og 4 tl alle s j konvergerer mot stable størrelser. Backfttng-algortmen, slk den her er presentert, er en oppskrft på å estmere splnefunksjoner, s j, som tlpasnnger tl punkter et p-dmensjonalt plan. Dette gr en enkel llustrasjon av backfttng-teknkken. Når man estmerer splne-funksjonene en GAMsettng, søker man å maksmere lkelhooden tl alle Y x. Estmerngslknngene kan skrves som IRLS, teratvely reweghted least squares. Med andre ord kan maksmerng av lkelhooden ses som en anvendelse av mnste kvadrats metode rundt punkter p-planet. Man kan dermed estmere ved å bytte ut IRLS med backfttng-algortmen. Detaljert utlednng av GAM-estmerng fnnes kapttel 6 Haste og Tbshran (1990). 22

23 Haste og Tbshran (1990) vser at det er mulg å defnere en hyperparameter ( ) som avhenger av og representerer effektve parametere eller effektve frhetsgrader. Størrelsen kan løst forstås som graden et polynom, lkt defnert på hele defnsjonsområdet, som nesten kunne erstattet splne-funksjonen. Estmerngen vl da kunne optmalseres vdere, ved også å estmere optmal verd for hyperparameteren. Tlpasnngen tl data, og dermed lkelhooden, vl øke monotont med. Følgelg kan det kke brukes vanlg ML-estmerng for. I stedet vl mnmerng av AIC være et naturlg valg for å estmere. GAMLSS-pakken R har rutner for å AIC-mnmere, slk at man kan få ut et estmat på optmal verd av. 3.4 GAMLSS GAMLSS-rammeverket Rgby og Stasnopoulos (2001) ntroduserte Generalzed Addtve Models for Locaton, Shape and Scale, GAMLSS, som en vdere generalserng av GLM/GAM-rammeverket. 11 Der man GLM-modeller kun tllater en parameter, lokasjonsparameteren, å avhenge av forklarngsvarabler, tllates også andre fordelngsparameterne å avhenge drekte av forklarngsvarabler GAMLSS-rammeverket. En annen generalserng GAMLSS er at rammeverket kke krever at fordelngen tl responsvarabelen Y skal tlhøre den eksponentelle famle. Forsknng på teoren bak og anvendelser av GAMLSS, samt mplementerng av programvare R, er en pågående prosess, som blant annet utføres av den nternasjonale forskergruppen The GAMLSS team Det er også utvklet rammeverk for modellerng som lgger mellom GAM og GAMLSS. Blant annet ved å tllate opp tl 2 parametere å avhenge av forklarngsvarabler. Presentasjonen her skal kke tas som en komplett tdslnje, men mer som noe modellerngshstorkk brukt for å presentere nøkkeldeer. 12 Dsse er lstet som medlemmer av The GAMLSS team per : - Dr. Tlemahos Efthmads (KEPE, Athen, Hellas) - Prof. Paul Elers (Erasmus Unversty, Nederland) - Dr. Nkolaos Georgkopoulos (KEPE, London Metropoltan Unversty og New York Unversty - Stern School of Busness) - Dr. Gllan Heller (Macquare Unversty, Australa) - Dr. Vto Muggeo (Unversty of Palermo, Itala) - Dr. Bob Rgby (London Metropoltan Unversty, Storbrtana) - Prof. Mks Stasnopoulos (London Metropoltan Unversty, Storbrtanna) 23

24 GAMLSS-rammeverket, slk det er mplementert R per ma 2012, tllater at opp tl 4 fordelngsparametere kan avhenge drekte av forklarngsvarabler. Hver fordelngsparameter kan ha hver sn lnk-funksjon og hver sn desgnmatrse. De mndre fleksble modellene nnenfor GLM/GAM-rammeverket kan ses som spesaltlfeller av GAMLSS, der kun lokasjonsparameteren avhenger av forklarngsvarabler. GAMLSS er med andre ord et særdeles fleksbelt rammeverk for unvarat statstsk modellerng. Det er hovedsak dette rammeverket jeg vl ta bruk denne oppgaven. Rgby og Stasnopoulos (2009) defnerer GAMLSS-modeller ved hjelp av følgende, meget generelle formulerng der er observasjonsnummer og k er nummeret på fordelngsparameteren: Y θ f( θ ) J k T T (5) gk (, k ), k x, kβk z, kγ j, k j1 der f kke trenger å tlhøre den eksponentelle famle. Parametervektoren θ kan nneholde opptl 4 parametere, og koblngen mellom en av dem, k,, og forklarngsvarablene, er som vst (5). x k, og z k, er desgnvektorer, hver av dem spesaltlpasset tl den spesfkke modellen. β k er en koeffsentvektor, mens γ jk, er en vektor kan være enten stokastsk (for å nkorporere random effects ), eller en determnstsk splne-funksjon av forklarngsvarabler. Jeg vl kke se på random effects denne oppgaven. For denne oppgavens del tar jeg derfor bruk følgende (også meget generelle) sem-parametrske modellformulerng for GAMLSS der s er en cubc splne: Y θ f( θ ) J k T k, k, k x, kβ k j, k, j, k j1 g ( ) s ( x ) Jeg vl denne oppgaven kun bruke splne-funksjonene tl tdlg testng av modellene, mens T leddet x, kβ k vl brukes gjennomgående. - Dr. Vlasos Voudours (LondonMet Busness School, Storbrtana) - Dr Ardo van den Hout (Department of Statstcal Scence, Unversty College London, Storbrtana) Klde: 24

25 3.4.2 GAMLSS-estmerng Estmerng GAMLSS gjøres ved å maksmere den straffede log-lkelhooden l p gtt ved p J 1 k l l s x K s x T ( ) ( ) p j, k j, k j, k j, k j, k j, k 2 k1 j1 der l er log-lkelhood, jk, er en glatthets-parameter for splne-funksjon j og forklarngsvarabel k, mens K jk, er en strukturert matrse. (Rgby og Stasnopoulos 2005: ). Lkelhooden er straffet, den forstand at noe fratrekkes lkelhooden før den maksmeres. Tankegangen bak det å maksmere en straffet lkelhood, stedet for en ren lkelhood, er nært beslektet med metodkken fra delkapttel 3.3. Dersom man har et ubestemt antall frhetsgrader modellen vl maksmerng av ren lkelhood g kraftg overparameterserte modeller. Rbgy og Stasnopoulos (2005) løser dette problemet ved å nnføre en straff for overparameterserng, når fleksble modeller som f.eks. nneholder random-effects-ledd eller splne-funksjoner skal estmeres. Det er kke ukontroverselt å maksmere l p for å estmere parameterne GAMLSS. John A. Nelder anbefaler for eksempel å bruke Restrcted Maxmum Lkelhood stedet, da han hevder dette større grad gr forventnngsrette estmater. (Rgby og Stasnopoulos 2005:547). Det er verdt å merke seg at en full-parametrsk GAMLSS, der det kke er noen splnefunksjoner, kollapser l p tl l, og det er stedet den vanlge log-lkelhooden som maksmeres. Ettersom fokus denne oppgaven stort sett er på full-parametrske GAMLSS-modeller, beholdes metodkken med maksmerng av l p slk den er mplementert R, da dette er tlstrekkelg for oppgavens formål Estmerngsalgortmer for GAMLSS To algortmer er mplementert GAMLSS-pakken R (se gamlss.org) for maksmerng av l p : CG-algortmen og RS-algortmen. CG-algortmen er en generalsert utgave av Cole og Green (1992)-algortmen. Denne algortmen bruker de førstederverte, andrederverte (Hessanmatrsen) og kryssderverte av lkelhood-funksjonen med hensyn på fordelngsparameterne θ. RS-algortmen er utvklet av Rgby og Stasnopoulos, og gjør, motsetnng tl CG-algortmen, kke bruk av de kryss-derverte av lkelhood-funksjonen. Dette 25

26 betyr at RS-algortmen er bedre tlpasset de tlfeller der parameterne θ er nformasjonortogonale på hverandre. Ortogonalteten forekommer der forventnngsverdene tl de kryssderverte av lkelhood-funksjonen er 0. Rgby og Stasnopoulos (2005) gjennomgår begge algortmene, og vser at de maksmerer l p rktg. I modellernger denne oppgaven er både RS-algortmen og CG algortmen brukt gjennomgående, som en test på at begge algortmer konvergerer mot de samme estmater Sannsynlghetsfordelnger Her følger en overskt over alle sannsynlghetsfordelnger som blr tatt bruk, eller omtalt, senere kaptler. Jeg ntroduserer konvensjoner for hver av dsse fordelnger, med hensyn tl hvordan de parameterseres, og hvlke bokstaver som benevner hvlke parametere. Den stokastske varabel som følger hver enkelt fordelng skrves som Y, eller, realsert form, y Normalfordelngen Normalfordelngen er den mest kjente sannsynlghetsfordelngen statstkkfaget, og er brukt som analyseverktøy en lang rekke dsplner. Det er en kontnuerlg fordelng med defnsjonsmengde (, ). Normalfordelngen har 2 parametere, lokasjonsparameteren, og dspersjonsparameteren. PDF-kurven er perfekt symmetrsk og letthalet. PDF for denne fordelngen skrves på følgende form 2 1 ( y ) f( y;, ) exp PDF for normalfordelngen kan skrves om tl formen (2), hvlket gr der 2 2 / ( ) ( ;, ) exp y y f y log(2 ) exp c( y, ) y a y 1 2 cy (, ) log(2 ), , og at a 2 ( ) / 2. Dette betyr at normalfordelngen er en del av den eksponentelle famle, og kan passe nn under det tradsjonelle GLM-rammeverket. Dersom man mdlertd ønsker at både og skal avhenge drekte av forklarngsvarabler, må man benytte det mer generelle GAMLSS- 13 For alle modeller jeg tester oppnås konvergens mot samme verder ved RS-, og CG-algortmene. 26

27 rammeverket. Forventnng og varans for normalfordelngen er E( Y) og 2 Var( Y). Dersom Y er normalfordelt med parametere og, vl jeg det følgende kun skrve 2 Y N(, ) for å ndkere dette. Dersom 0 og 1, følger Y en standardnormalfordelng Gammafordelngen Gammafordelngen er ofte brukt forskrngssammenheng for å beskrve skadeprs (se for eksempel de Jong og Heller (2008: )). Det er en kontnuerlg fordelng med defnsjonsmengde (0, ). Gammafordelngen, med standardform på PDF, har 2 parametere, og. Samspllet mellom dem avgjør lokasjon og dspersjon. PDF-kurven er moderat skjev og moderat tunghalet. Imdlertd vl graden av skjevhet og kurtose avhenge av størrelsen på parameter. Den vanlge måten å parametersere gammafordelngens PDF på er ved uttrykket 1 f y y e ( ) 1 y / ( ;, ). Under denne parameterserngen er forventnng og varans gtt ved henholdsvs 2 E( Y) og Var( Y). Når gammafordelngen brukes som responsfordelng modellerngssammenheng er det gunstg å ha en egen lokasjonsparameter som representerer forventnngsverden tl Y. Johnson et al. (1994) foreslår derfor å reparametersere ved å sette 2 1 og. Det gr følgende PDF: y 2 y e f( y;, ) / 2 ( ) (1/ ) PDF kan nå skrve om tl samme form som (2), hvlket gr 1 y y a( ) f ( y;, ) exp log 1 log y log log exp c( y, ) (, ) 1 log log log, der c y y , 1, samt a( ) ln( ). Følgelg tlhører gammafordelngen den eksponentelle famle, og kan modelleres under GLM-rammeverket, så lenge kun ønskes å avhenge drekte av forklarngsvarabler. 27

28 Forventnng og varans er E( Y) og Var( Y) 2 2. Dersom Y er gammafordelt med parametere og, vl jeg det følgende kun skrve Y (, ) for å ndkere dette Kjkvadratfordelngen Et vktg spesaltlfelle av gammafordelngen er kjkvadratfordelngen. Dersom Y har fordelng, 1 (, ) parameterserngen av gammafordelngen, regnes Y som kjkvadratfordelt med frhetsgrader. Tlsvarende parametere (, ) parameterserngen er og 2. Defnsjonsmengden er (0, ). er alltd postv, og vanlgvs ett 2 heltall. PDF for kjkvadratfordelngen er Forventnng og varans er henholdsvs E( Y) y f ( y; ) y e. /2 2 ( / 2) og Var( Y) 2. Kjkvadratfordelngen vl kke brukes selve modellerngen, men er et nyttg verktøy enkelte tester, som for eksempel Pearsons kjkvadrattest (se delkapttel 3.8). Dersom Y er kjkvadratfordelt med frhetsgrader vl jeg det følgende kun skrve Y 2 ( ) for å ndkere dette. En svært vktg koblng mellom kjkvadratfordelngen og normalfordelngen er at dersom standardnormalfordelt, gjelder Z er 2 Z 2 (1). I denne relasjonen lgger mye av årsaken tl at kjkvadratfordelngen er såpass mye brukt statstkkfaget. For et bevs av denne relasjonen, se Casella og Berger (2002) Lognormalfordelngen Dersom log( Y ) er normalfordelt med forventnng og varans 2, er Y lognormalfordelt med parametere og. Lognormalfordelngen er kontnuerlg, og har defnsjonsmengde (0, ). Fordelngen lar seg kke skrve på formen (2), og kan følgelg kke brukes som responsfordelng GLM-rammeverket, men kan modelleres som GAMLSS. PDF er gtt ved 1 (log y )) f( y;, ) exp 2 2 y

29 Parameteren regnes som lokasjonsparameter, men er med å bestemme både forventnng og varans. Parameteren er med å bestemme både forventnng, varans, skjevhet og kurtose, og avgjør dermed stor grad formen på PDF-kurven. Forventnng og varans er gtt ved 2 E( Y) exp 2 og Var( Y) exp( 2 ) 1 exp(2 2 ). Lognormalfordelngen regnes som en moderat skjev og moderat tunghalet fordelng. Dersom Y er lognormalfordelt med parametere og, vl jeg det følgende kun skrve Y log N(, ) for å ndkere dette Invers Gausssk fordelng IG-fordelngen IG-fordelngen er en meget skjev sannsynlghetsfordelng, med bratt topp. Den er ofte velegnet tl å modellere skadeprs (se for eksempel de Jong og Heller 2008: 29-30, ). Det er en kontnuerlg fordelng med defnsjonsmengde (0, ). Jeg bruker her en varant av parameterserngen tl Johnson et al. (1994), og skrver PDF som 2 1 ( y ) f( y;, ) exp y 2 y Denne funksjonen kan skrves om tl formen fra (2). Det gr PDF der c y y y a( ) f ( y;, ) exp log(2 y ) exp c( y, ) , 2, (, ) log(2 y ) 1 og a( ) 2. Dette demonstrerer at 2 2 fordelngen tlhører den eksponentelle famle, og at den dermed kan modelleres under GLMrammeverket. Lokasjonsparameteren påvrker også varans, skjevhet og kurtose, mens parameteren påvrker varans, skjevhet og kurtose. Forventnng og varans er gtt ved E( Y) og 3 2 Var( Y). Dersom Y er en IG-fordelt stokastsk varabel med parametere og, vl jeg det følgende kun skrve Y IG(, ) for å ndkere dette. En vktg egenskap ved IG-fordelngen er at dersom Y IG(, ), vl skalerngen ay, der a er en konstant, ha fordelng ay IG( a, / a) (Heller et al. 2006:4). 29

30 3.5.6 Webullfordelngen Webullfordelngen er en kontnuerlg sannsynlghetsfordelng med defnsjonsmengde 0, ). Den er fleksbel, den forstand at formen på PDF-kurven er svært ulk for ulke verder av parameterne og. Jeg velger PDF på formen 1 y y f( y;, ) exp der er en lokasjons/skalerngs-parameter, som også har nnvrknng på forventnngsverden, mens har størst betydnng for formen på PDF-kurven. Webullfordelngen er en del av den eksponentelle famle og kan passe nn under GLMrammeverket, men denne oppgaven modelleres Webullmodeller ved hjelp av GAMLSSmetodkken. (For reparametersernger av Webullfordelngen, se Johnson et al. (1994)). Forventnngen tl Webullfordelngen er gtt ved ved Var( Y) 1 (E( Y)). 1 E( Y) 1, mens varansen er gtt Dersom Y er Webullfordelt med parametere og vl jeg det følgende kun skrve Y WEI(, ) for å ndkere dette Bernoullfordelngen og bnomalfordelngen Dersom en stokastsk varabel, Y, kan ta 2 mulge verder (kall dem 0 og 1), og sannsynlgheten for at Y 1 er, kalles Y Bernoullfordelt. Dette er en elementær dskret sannsynlghetsfordelng, med PMF Forventnng og varans gtt ved E( Y) 1 dersom y 0 f( y; ) dersom y 1 og Var( Y) (1 ). Dersom Y er Bernoullfordelt med sannsynlghetsparameter skrves det drekte som Y BER( ). Gtt stokastske varabler Y,...,, 1 Y der alle Y har dentske fordelnger, Y BER( ), defneres summen X n 1 n Y som bnomalfordelt. Man ser at X representerer summen av n uavhengge Bernoull-forsøk. Bnomalfordelngen har følgelg defnsjonsmengde (0,1,...,n). Det kan vses (se for eksempel Hogg og Tans 2010:79) at PMF for bnomalfordelngen er 30

31 Forventnng og varans er gtt ved E( X) n x n x f ( x; n, ) (1 ). x n og Var( X) n(1 ). Dersom X er bnomalfordelt med antallsparameter n og sannsynlghetsparameter, vl jeg det følgende kun skrve X BIN( n, ) for å ndkere dette Possonfordelngen Possonfordelngen, ntrodusert av Smeon Dens Posson , er den klassske sannsynlghetsfordelngen som beskrver telle-data. For denne oppgavens del er Possonfordelngen et opplagt valg som responsfordelng for antall skader på en polse, A. Possonfordelngen er av den dskrete type, har defnsjonsmengde 0,1,2,..., og har kun 1 parameter,, som både bestemmer lokasjon og formen på PMF. PMF skrves på den tradsjonelle måten y f ( y; ) e. y! Dette uttrykket kan enkelt skrves om tl formen (2). Det gr f ( y; ) explog( y!) ylog exp c( y, ) y a( ) der c( y, ) log( y!), 1, log( ) og a( ) e. Følgelg passer Possonfordelngen nn GLM-rammeverket. Forventnng og varans er dentsk gtt ved E( Y) Var( Y) for denne fordelngen, noe som gjør den lte fleksbel forhold tl mange andre fordelnger. Dersom Y er Possonfordelt med parameter vl jeg det følgende kun skrve Y PO( ) for å ndkere dette. En velkjent, og vktg, egenskap ved Possonfordelngen er at dersom to stokastske varabler X og Y er uavhengge, og fordelt henholdsvs X PO( X ) og Y PO( Y ) vl summen Z X Y ha fordelng Z PO( X Y). 14 Se artkkel om Smeon Dens Posson på Posson 31

32 3.5.9 Negatv bnomsk fordelng NEGBIN-fordelngen Negatv bnomsk fordelng er nært knyttet tl Possonfordelngen 15, men tllater overdspersjon (at varansen er større enn forventnngen). Det er en dskret fordelng, med defnsjonsmengde 0,1,2,... Jeg bruker en parameterserng som brukes av blant annet de Jong og Heller (2008). I denne formen er PMF gtt ved Omskrvng tl samme form som (2) gr 1/ ( y 1/ ) 1 f( y;, ). y! (1/ ) 1 1 y 1 (1/ y) y a( ) f ( y) exp ylog log(1 ) log exp c( y, ) 1 y! (1/ ) der 1, log 1 og a ( ) log(1 e ). Dette demonstrerer at NEGBIN- fordelngen kan modelleres under GLM-rammeverket. Forventnng og varans er E( Y) y og Var( Y) (1 ). Fordelen med denne parameterserngen er at forventnngen kan representeres ved en enkelt lokasjonsparameter,, samt at overdspersjon styres av en egen overdspersjonsparameter. Dersom 0, gr det Var( Y) E( Y). Det kan også vses at fordelngens PMF konvergerer mot Possonfordelngens PMF når 0. Dersom Y er NEGBIN-fordelt, med parametere og vl jeg det følgende kun skrve Y NB(, ) for å ndkere dette. 3.6 Fnte Mxture FM FM-fordelnger Dersom Y følger en FM-fordelng har den sannsynlghet tl å følge fordelng f, der 1,2,..., m. 16 Det er essenselt at m 1 for å skre at Y får en ekte 1 15 Det kan vses at en Possonprosess Yt () med parameter t, dersom frekvensparameteren velges t stokastsk og fordelt (, ), får Possonprosessen fordelngen Yt ( ) NB, t. 16 Dsse fordelngene kalles Fnte mxtures ettersom m er et endelg tall. 32

33 sannsynlghetsfordelng. En generell PDF/PMF for en FM-fordelt stokastsk varabel Y kan skrves (subskrpt M står for mkstur): f ( y; ψ, θ) f ( y; θ ), M 1 der parametervektorne ψ og θ nneholder henholdsvs alle sannsynlghetene, og alle fordelngsparameterne, tlhørende alle subfordelngene. Vdere representerer m f og henholdsvs PDF/PMF og parametervektor, tlhørende subfordelng. Jeg vl denne oppgaven begrense meg tl å se på FM-varanter der m 2. Sannsynlghetsfordelngene fra delkapttel 3.5 kan alle prnsppet regnes som FM-fordelnger der m 1. Fordelngene har varerende grad av fleksbltet, men alle er unmodale PDF/PMF-kurven har kun 1 topp. Når det utvdes tl m 2 kan det g bmodale sannsynlghetsfordelnger. Det gr en langt større fleksbltet modellerngen. θ Et spesaltlfelle av FM-fordelnger har ekstra stor relevans forskrng; nemlg der f( y) 1 når y 0 og f ( y) 0 ellers. Slke FM-fordelnger, der den ene subfordelngen har 100 % av sannsynlgheten konsentrert på 0, kalles nulljusterte eller zero adjusted/nflated. Relevansen tl slke FM-varanter er stor nnen forskrng ettersom de fleste polser har 0 skader. Noen utvalgte FM-fordelnger av denne typen er fullt mplementert GAMLSS-pakken R, og kan således modelleres under det vanlge GAMLSS-rammeverket. Jeg vl se på 3 av dsse: Zero Inflated Posson ZIP, Zero Adjusted Gamma ZAGA og Zero Adjusted Inverse Gaussan ZAIG ZIP-fordelng Dersom en stokastsk varabel Y følger en ZIP-fordelng, er PMF, slk den parameterseres av Lambert (1992) gtt ved (1 ) e dersom y 0 f( y;, ) y (1 ) e dersom y 1,2,... y! Denne sannsynlghetsfordelngen har forventnng E( Y) (1 ) og varans Var( Y) (1 )(1 ). Fordelngen er av typen FM der f ( y) 1 når y 0 og 1 f1 0 33

34 ellers og f ( ; ) 2 y er PMF for den Possonfordelng. Fordelngen har høyere konsentrasjon av sannsynlghet ved 0 enn vanlg Possonfordelng, og har også overdspersjon, hvlket kan ses ved at Var( Y) E( Y). ZIP-fordelngen er mer fleksbel enn Possonfordelngen, men det er kke slk at summen av uavhengge ZIP-fordelte varabler også er ZIP-fordelt. Dersom Y følger en ZIP-fordelng med parametere og vl jeg det følgende kun skrve Y ZIP(, ) for å ndkere dette ZAGA-fordelng ZAGA-fordelngen er dels kontnuerlg og dels dskret. Den er av typen FM, og f ( y) 1 når 1 y 0 og f ( y) 0 ellers. Den andre delfordelngen 1 f, 2 er en gammafordelng med parametere og. PMF/PDF for ZAGA-fordelngen er 1 y ( ;,, 2 1 f y ) 2 y e (1 ) 2 2 1/ 2 ( ) (1 / ) dersom y 0 dersom y 0 Forventnng og varans er gtt ved E( Y) (1 ) og 2 2 Var( Y) (1 ) ( ). ZAGAfordelngen er fullt mplementert GAMLSS-pakken R, og kan modelleres ved hjelp av denne. Alle fordelngsparametere kan avhenge drekte av forklarngsvarablene og estmerngen kan gjøres ved RS- eller CG-algortmen. Dersom Y følger en ZAGA-fordelng med parametere, og vl jeg det følgende kun skrve Y ZAGA(,, ) for å ndkere dette. 34

35 3.6.4 ZAIG-fordelng ZAIG-fordelngen er en dels kontnuerlg, dels dskret fordelng. Den er av typen FM der f ( y) 1 når y 0 og f ( y) 0 ellers. f ( ;, ) y er PDF for en IG-fordelng med parametere og. Bortoluzzo et al. (2011) bruker ZAIG-fordelngen tl å predkere skadeprs blforskrng, hvlket jeg også vl gjøre denne oppgaven. Jeg bruker her en varant av deres parameterserng og får følgende PDF/PMF dersom y 0 2 f( y;,, ) 1 ( y ) (1 ) exp y 2 y dersom y 0 Forventnng og varans er gtt ved E( Y) (1 ) og 2 2 Var( Y) (1 ) ( ). ZAIGfordelngen er mplementert GAMLSS-pakken R, og kan modelleres ved hjelp av denne, slk at alle fordelngsparameterne (nklusv nullsannsynlgheten ) kan avhenge drekte av forklarngsvarabler. Dersom Y følger en ZAIG-fordelng med parametere, og vl jeg det følgende kun skrve Y ZAIG(,, ) for å ndkere dette Estmerng av FM-modeller - EM-algortmen Noen få speselle FM-fordelnger, herunder ZIP, ZAGA og ZAIG, er fullt mplementert GAMLSS-pakken R som selvstendge GAMLSS-fordelnger. Estmerng av dsse gjøres ved RS-algortmen og CG-algortmen (se delkapttel 3.4.3). Jeg ønsker mdlertd å bygge også andre FM-modeller der ngen av subfordelngene nødvendgvs er konsentrert på 0. Et generelt problem når man skal maksmere lkelhooden slke FM-modeller er at det antas at hver observasjon følger en av subfordelngene. Hvlken av de to subfordelngene hver enkelt observasjon følger kan mdlertd kke fastslås. Løsnngen er å anta en stokastsk vektor v, med 1 element for hver observasjon. v er en bnær vektor, som nneholder koder som avgjør, for hver observasjon, hvlken av de 2 subfordelnger den tlhører. Ved å behandle lkelhooden som avhengg av den stokastske vektoren v blr selve lkelhooden en stokastsk varabel. Forventnngsverden tl den stokastske lkelhooden kan da maksmeres. Dette er deen bak Expectaton Maxmzaton algorthm EM-algortmen. EM-algortmen forklares og utdypes detalj av Gupta og Chen (2010). 35

36 3.7 Sentralgrenseteoremet Det klassske sentralgrenseteoremet ser at dersom Y,..., 1 Y n er..d. stokastske varabler, alle med forventnngsverd og varans Y der n 2, vl størrelsen Z, n 1 Y Y, n 1 konvergere fordelng mot standardnormalfordelngen N(0,1). I denne oppgaven brukes en mer generell varant av sentralgrenseteoremet. La Y,..., 1 Y n være uavhengge stokastske varabler med hver sne forventnnger E( Y ) og varanser 2 Var( Y), der ngen av forventnngene eller varansene dvergerer mot. Defner varanssummen gtte regulartetsforutsetnnger (se Le Cam 1986:80) gjelder 1 s n n 1 d ( Y ) N(0,1). Denne versjonen av sentralgrenseteoremet vl tas bruk kapttel 9. s n 2 2 n 1. Under 3.8 Pearsons kjkvadrattest Den varanten av Pearsons kjkvadrattest jeg vl bruke denne oppgaven (se kapttel 4) er varanten der lkheten tl m ulke sannsynlgheter testes. Responsvarabelen Y kan her kun ta verdene 0 og 1, og regnes som Bernoullfordelt. Nullhypotesen Pearsons test er at verden tl den kategorske forklarngsvarabelen X kke påvrker fordelngen tl Y. La X ha defnsjonsmengde 1,2,...,m, og la P( Y 1 X k) p. Da kan nullhypotesen skrves k H : p p... p p Etter at man har gjort n forsøk (der n deles nn etter verden på forklarngsvarabelen X, slk at for eksempel n k er antall forsøk der X k), summeres antall Y-observasjoner av hver type opp, for hver verd av forklarngsvarabelen X. Dette gr for eksempel m n V Y I( X k), 1, k 1 som er antall observasjoner der Y 1 og X k. Dsse V-verdene antas å være bnomalfordelte, ettersom de er summen av Bernoullfordelte varabler med lk sannsynlghetsfordelng. 36

37 Testobservator er Q, gtt ved Q m 2 2 ( V0, (1 )) m k nk Y ( V1, k nky ), n (1 Y ) n Y k1 k k1 k der snttverden Y er gtt ved Y n 1 Y. Hogg og Tans (2010: ) demonstrerer, ved n 1 hjelp av sentralgrenseteoremet og defnsjonen av kjkvadratfordelte varabler, at dersom H 0 er sann vl Q konvergere mot fordelng øker. 2 ( m 1) når antall observasjoner hver gruppe, n, k 3.9 Prsng av forskrngspolser Anta at den potenselle utbetalngen fra forskrngsselskapet tl kunden er en stokastsk varabel, U, og at sannsynlghetsfordelngen tl U er kjent. Premen,, kan deles nn slk: E( U) R A M F der R er rskotllegg, A er admnstrasjonskostnader, M er markedsjusterng og F er ønsket fortjeneste. Av dsse er det først og fremst E( U ) og R som er søkelyset denne oppgaven. Sundt (1999:15-23) drøfter noen mulge prnspper for å fastsette premen på en forskrng. Dsse prnsppene er regler (eller formler) for å bestemme verden på rskotllegget R. 3 av prnsppene Sundt (1999:15-23) nevner er - Forventnngsprnsppet: R ae( U), der a er en konstant. - Standardavvksprnsppet: R b Var( U), der b er en konstant. - Varansprnsppet: R cvar( U), der c er en konstant. Hvlket av dsse prnsppene som er det optmale for god prssettng er kke entydg besvart. I ltteraturen foreslås også andre prnspper som eksponentalprnsppet og kvantlprnsppet. For vdere drøftng av dsse og andre prnspper, se Young (2004). For denne oppgavens del velger jeg å bruke standardavvksprnsppet tl prsng (se kapttel 10). Standardavvket er en relatvt ntutv størrelse som ser noe om uskkerheten tl forventnngsverden E( U ). Det er naturlg at større standardavvk gr høyere rsko, og dermed høyere rskotllegg. 37

38 4 Data Data for denne oppgaven er hentet fra et skadeforskrngsselskap. Datagrunnlaget er opplysnnger om kunder og skader på blforskrng, spesfkt kaskodeknng der glasskader kke er tatt med. Det er anonymserte data bestående av en polsetabell og en skadetabell. 4.1 Polsetabellen Denne tabellen lgger på kunde-bl-årstall-nvå. Det betyr at en rad tabellen tlsvarer en unk kombnasjon av kunde, bl og årstall. I prakss vl en typsk polse ha et års løpetd og gå over 2 årstall, for eksempel fra tl Det er også vanlg å regstrere flere deknnger og eventuelt også flere bler på samme polse, for eksempel kaskodeknng og ansvarsdeknng på bl 1 og kun ansvarsdeknng på bl 2. For enkelhets skyld nnfører jeg følgende konvensjon: en polse er en unk kombnasjon av kunde, bl og årstall. Slk defnerer jeg hver rad polsetabellen som en polse. Kolonner polsetabellen er polse-d, kunde-d, årstall, blalder, personalder, antall aktve dager, antall skader, total skadeprs og gjennomsnttlg skadeprs. Data fra denne tabellen danner grunnlaget for modellerng av skadefrekvens, gjennomsnttlg skadeprs gtt skade og total skadeprs. Tabellen har rader med observasjoner. polse_d kunde_d aar blalder personalder aktve_dager skader prs_tot prs_sntt Tabell Utdrag fra polsetabellen 38

39 4.2 Skadetabellen Denne tabellen lgger på skade-nvå. Det betyr at en rad tabellen tlsvarer en unk skade. Skadetabellen nneholder kunde-d og polse-d for hver enkelt skade. Dsse tallene kan brukes som nøkler for å koble de to tabellene sammen. Kolonner skadetabellen er polse-d, kunde-d, skadedato, blalder, personalder og skadeprs. Data fra denne tabellen danner grunnlaget for modellerng av skadeprs per skade, S. Tabellen har rader med observasjoner. Det betyr at det er skader dette datasettet. polse_d kunde_d skade_d skadedato blalder personalder prs Tabell Utdrag fra skadetabellen 4. 3 Forklarngsvarabler - hypoteser og deskrptv statstkk Årstall Hver polse og hver skade er regstrert med årstall. Varabelen strekker seg fra 2000 tl 2005 og har naturlg nok kun regstrernger som heltall. Det fremgår av fgur 4.1 at antall polser øker frem tl 2003 for så å ta noe av fra

40 Fgur Deskrptv statstkk for årstall Det er relevant å se på hvordan skadesannsynlgheten utvkler seg over td. Grafen vser at andelen polser uten skader er ca. 1 prosentpoeng høyere de tre sste årene enn de tre første årene. Pearsons kjkvadrattest (se delkapttel 3.8) der nullhypotesen er at årstallet kke har noen betydnng for skadesannsynlgheten gr 2 11,147 ved 5 frhetsgrader. Dette gr p- verd på 0,048. Denne enkle margnalanalysen gr statstsk grunnlag for å hevde at skadesannsynlgheten forandres med årene. Dette styrker troen på at årstall bør være med som forklarngsvarabel for skadefrekvens den multvarable analysen. Box-plottet vser årstall mot log(skadeprs). Det vser relatv stabltet peroden 2000 tl 2002 og mer varasjon perdoen 2003 tl En naturlg hypotese er at skadeprs vl stge med årene på grunn av nflasjon. Box-plottet gr kke noe entydg svar på hvorvdt dette stemmer Blalder Hver enkelt skade og hver enkelt polse er regstrert med blalder. Varabelen strekker seg fra 0 tl 20, og er regstrert som heltall. En hypotese er at gamle bler er dårlgere stand, og derfor har høyere skadefrekvens enn nye bler. En annen hypotese er at nye bler har nye og 40

41 dyre bldeler som gr høyere skadeprs enn for gamle bler. I teoren er blalder en kontnuerlg størrelse, men ettersom den er regstrert som et heltall kan den også betraktes som en kategorsk eller ordnal størrelse. Fgur Deskrptv statstkk for blalder Fordelngen av blalder polsetabellen er tl forvekslng lk gammafordelngen. Det ser ut tl at skadeandelen forandrer seg relatvt mye med blalder. Den klareste frekvenstrenden er at skadeandelen går ned fra blen er 11 år, og holder seg så på et lavere nvå enn for nyere bler. Pearsons kjkvadrattest for blalder mot skadesannsynlghet gr 2 115,3 på 20 frhetsgrader. Dette gr p-verd 0 og følgelg sgnfkans på alle sgnfkansnvåer. Det gr grunn tl å tro at bladler har betydnng for skadesannsynlgheten. Skadeprsen har et noe uklart mønster når blalder blr større. Den klareste trenden forhold tl skadeprs er at varasjonen blr mndre når blalder øker. 41

42 4.3.3 Personalder Hver skade og hver polse er regstrert med personalder. Dette er kundens (blførers) alder det aktuelle årstall. Personalderen datasettet strekker seg fra 23 år tl 88 år og er regstrert som heltall. Personalder er kontnuerlg av natur men kan også nndeles kategorsk eller ordnalt. En hypotese her er at unge blførere kjører uforsktg og derfor har høyere skadefrekvens enn andre aldersgrupper. Fgur Deskrptv statstkk for personalder Fordelngen av personaldre ser nesten normalfordelt ut. Som ventet vser fgur 4.3 at unge kunder har langt høyere skadeandel enn andre. De eldre skller seg også ut med høy skadeandel. Pearsons kjkvadrattest for personalder mot skadesannsynlghet gr 2 163,68 på 65 frhetsgrader. Det gr vdere p-verd tlnærmet 0 og svært god sgnfkans. Det er dermed grunn tl å tro at personalder har betydnng for skadesannsynlgheten. Etter boxplottet å dømme øker skadeprsen med personalder. I delkaptler 6.3, 7.8 og 8.6, foretar jeg en grundgere undersøkelse av forklarngsvarablenes effekter på responsvarablene. 42

43 4.3.4 Samvarasjon mellom forklarngsvarablene Det kan tenkes at noen av forklarngsvarablene er korrelerte. Dersom dette er tlfellet kan det påvrke den multvarable analysen ved å ntrodusere mer uskkerhet. Pearsons korrelasjonskoeffsent, der årstallene er a, blalderne er b og personalderne er p, gr følgende høyst sgnfkante resultater: Corr( ab, ) 0,047 Corr( ap, ) 0,080 Corr( bp, ) 0,01 Dette betyr at det er en tendens peroden 2000 tl 2005 tl at blforskrngskundene blr noe eldre, og at eldre bler blr forskret. Det er også en lten tendens tl at yngre kunder kjører eldre bler. Dette kan henge sammen med at eldre ofte har bedre økonom. Fgur 4.4 vser box-plot for hver av dsse tre mulge samvarasjonene, og man kan se langt mer nformasjon enn hva korrelasjonstallene alene gr. Det ser ut som om blalder har en markant øknng fra 2002 tl 2003, mens personalder øker noenlunde jevnt med årene. Det ser også ut tl at fordelngen av personalder per blalder er parabelformet. Fgur Box-plot av samvarasjon mellom forklarngsvarablene 43

44 4.4 Responsvarabler hypoteser og deskrptv statstkk Antall skader og antall aktve dager For hver polse er det regstrert et skadeantall. For de aller fleste polser er antall skader 0. Høyeste antall skader for en polse datasettet er 4. La antall skader for polse være Enkel deskrptv statstkk for antall skader er som følger: - Gjennomsntt: a 0, Medan: m( a ) 0 A. - Estmert varans: s 2 ( a ) 0, Gjennomsntt og estmert varans er kke langt fra hverandre. Dette stemmer godt overens med en Possonmodell for antall skader. Dsse tallene er mdlertd kke justert for antall aktve dager tl hver enkelt polse. Antall aktve dager opptrer som en naturlg eksponerngsvarabel for polsene. Den må derfor ses sammenheng med antall skader. Det forventes at dsse to størrelser er sterkt samvarerende. Fgur Hstogrammer for antall aktve dager og antall skader Det er kke overraskende at helårspolser med 365 aktve dager domnerer. Det samme gjør polser uten skader. Pearsons korrelasjonskoeffsent der antall aktve dager er d og antall 44

45 skader a er Corr( da, ) 0,107. Dette tlser at det er en postv sammenheng mellom antall aktve dager og antall skader, og at sammenhengen går forventet retnng. Box-plottet vser, kke overraskende, en klar trend der antall aktve dager sntt er høyere, jo flere skader polsen har. Fgur Box-plot av antall skader vs. antall aktve dager Skadeprs Skadeprsen er forskrngsselskapets regstrerte utbetalng tlknyttet hver enkelt skade. Mnste regstrerte skadeprs er 300 kr mens den største er kr. Den totale skadekostnaden for forskrngsselskapet vl ofte være langt høyere enn dsse tallene. Skadeprs dette datasettet gjelder kun for kaskodeknngen, eksklusv glass. Skadeprs er teoren kontnuerlg, men noen tall går gjen datasettet som regstrert skadeprs. Dette skyldes hovedsak to forhold: - Forskrngsselskapet har avtaler med ulke blverksteder som har fastprs på gtte reparasjoner. - Skadeprs er fordelt mellom ulke deknnger, der kasko er en blant flere. Dette gjøres manuelt og avrundnger eller standardbeløp er vanlg. 45

46 En annen tng som er verdt å merke seg, er at skadeprsen går helt ned 300 kr. Årsaker tl dette kan være at skaden er lten, at kunden har valgt høy egenandel, eller at mesteparten av skadeprsen føres på andre deknnger. La s være skadeprsen for skade. Enkel deskrptv statstkk for skadeprs er som følger: - Gjennomsntt: s Medan: m( s ) Estmert standardavvk: s 2 ( s ) Dette ndkerer at de fleste skader har skadeprs under gjennomsnttet, men at noen få store skader drar gjennomsnttet opp. Dette tyder vdere på at skadeprsen kke er symmetrsk fordelt Aggregerng av skadeprs Skadeprs, S, er naturlg tlknyttet enkeltskader, men det er også meget relevant å se på aggregernger av skadeprs. To relevante aggregernger er - Total skadeprs per skadepolse, U *. - Gjennomsnttlg skadeprs per polse med skade, G. Det kan være modellerngsmessg nyttg å knytte en forventet skadeprs tl hver polse. Da tjener gjennomsnttlg skadeprs per skadepolse, G, som observasjoner. Grafsk sett er det mer nformatvt å se på logartmen tl skadeprs enn på ren skadeprs. 46

47 Fgur Hstogrammer av log(skadeprs) for ulke varanter av skadeprs Det er vanskelg å se noen særlg forskjell på de 3 hstogrammene fgur 4.7. Det som er tydelg for alle tre plot er at skadeprsen har mnst to topper. Det betyr at mkstur-modeller som tllater flere topper, bmodale FM-modeller, er høyst aktuelle. 47

48 5 Metodkk for modellerng 5.1 Generelt rammeverk for alle unmodale modeller De unmodale modellene jeg ser på denne oppgaven er av typen GAMLSS (se delkapttel 3.4). Hver modell har 1 responsvarabel Y 17. Observasjonene y betraktes som uavhengge realsernger av stokastske varabler Y, med fordelng f ( y; θ ) Et nøkkelpoeng er at parametervektoren θ kan varere med observasjonen. Forklarngsvarablene for observasjon T T T skrves ved hjelp av desgnvektorene x, z og w. GAMLSS-rammeverket åpner altså for ulke desgn for hver av fordelngsparameterne. Generelt benyttes følgende koblng mellom responsfordelng og forklarngsvarabler: Y,1,2,3 1,1 2,2 3,3 f(,, ) T g ( ) x β T g ( ) z γ T g ( ) w δ Dette rammeverket gjelder selvsagt for responsfordelnger med 3 fordelngsparametere. Rammeverk for responsfordelnger med 1 eller 2 fordelngsparametere defneres tlsvarende. Det er hensktsmessg å sentrere, eller referansejustere, alle forklarngsvarabler. Det gjør at konstantleddene, 0 0 og 0 får representere underlggende ntenstet for lnktransformasjonen av fordelngsparameterne,,1,,2 og.,3 For blalder og personalder lar jeg gjennomsnttsverden porteføljen være referansepunkter, mens for årstall lar jeg 2006 være referansepunkt. La regstrerte verder på polse for årstall, blalder og personalder være henholdsvs * * * t, b, p. Når dsse størrelser behandles som kontnuerlge forklarngsvarabler, velger jeg heller å bruke størrelsene fratrukket referansepunktene. Forklarngsvarablene som faktsk brukes blr da t t 2006, * b b b og * * p p p Dette betyr at en * *. gjennomsnttlg observasjon vl ha verder t b p 0 for 2006, slk at ntenstetene for hver parameter kun er gtt ved konstantleddene ved referansenvåene g ( ), g ( ) og g ( ) Denne referansejusterngen av forklarngsvarablene er en lneær transformasjon, og vl derfor kke påvrke parameterne j, j, j, j 0. Det går derfor ngen nformasjon tapt 17 Y er betegnelsen på responsvarabelen generelt. Den byttes ut med A for antall skader på en polse, S for skadeprs per skade, U for total skadeprs per polse og G for gjennomsnttlg skadeprs per skadepolse. 48

49 ved å trekke fra referansepunkter, og modellene blr lettere å tolke. Når jeg heretter bruker benevnelsene t, b og p, skal de forstås som de referansejusterte størrelsene. 5.2 Generelt rammeverk for alle bmodale FM-modeller Som det fremgår av fgur 4.7, vl det være behov for å lage modeller med responsfordelnger som tllater mer enn en topp. Jeg vl derfor også ta bruk enkelte bmodale FM-modeller som tllater modellerng av 2 ulke topper. Her betraktes observerte verder, y, som realsernger av de stokastske varabler Y, som antas å ha fordelng f, M ( θ, M ). PDF tl fordelngene f ( θ ) kan generelt skrves, M, M f ( y ; θ ) f ( y ; θ ) (1 ) f ( y ; θ )., M, M,1,1,2,2 En slk bmodal modell gr mulghet tl å modellere to ulke stokastske prosesser samtdg. En observasjon vl følge fordelng f,1 ( y; θ,1) med sannsynlghet, og fordelng f,2 ( y; θ,2) med sannsynlghet (1 ). I prnsppet kan alle parameterne den komplette parametervektoren, θ M,, avhenge av forklarngsvarabler. I prakss er det mest relevant å la avhenge av forklarngsvarablene. Tankegangen er at kombnasjonen av forklarngsvarabler er avgjørende for hvlken sannsynlghetsfordelng hver observasjon tlhører, mens realserngen nnenfor en av sannsynlghetsfordelngene er stokastsk over en standardfordelng for alle observasjoner. En annen grunn tl at det kan være mest hensktsmessg å kun la avhenge av forklarngsvarabler her, er at det uansett må estmeres mange parametere, hvlket fort kan lede tl overparameterserng. Jeg tllater meg lkevel å modellere lokasjonsparameterne,1 (dsse nngår alle aktuelle varanter av θ, ) som avhengg av årstall t. Grunnen tl og,2 dette llustreres med modellerng av skadeprser: La hver enkelt skadeprs tlhøre 1 av 2 sannsynlghetsfordelnger (1 for små skader og 1 for store skader). Sannsynlgheten for hvorvdt skaden vl tlhøre den ene eller den andre fordelngen er antatt å være betnget av blalder og personalder. Det er rmelg å tllate de to sannsynlghetsfordelngene å varere possjon over td, ettersom nflasjon sannsynlgvs vl forskyve lokasjonsparameteren oppover både for små og store skader. I stedet for å se på dette som modellerng ved hjelp av M 49

50 forklarngsvarabler, ser jeg på dette som korreksjon for årstall. Generell modellformulerng blr da Y, M, M 1 f 2,1 3,2 ( θ ) T g ( ) x β g ( ) 1 g ( ) 1 Som for de de unmodale modellene vl det også her kun brukes referansejusterte størrelser t, b og p, samt deres ulke funksjonelle former, som forklarngsvarabler. t t γ δ 5.3 Algortme for AIC-mnmerng Jeg estmerer parametere en rekke ulke modeller denne delen av oppgaven. For lettere å holde overskt, tar jeg bruk en fast algortme for AIC-mnmerng av hver enkelt modell, med hensyn på hvlke forklarngsvarabler som skal tas med, og hvlken funksjonell form de skal ha. Hver enkelt modell er første rekke karaktersert av hvlken responsfordelng og hvlke lnk-funksjoner som velges. Etter dsse valgene er tatt, søkes et best mulg kompromss mellom høy grad av tlpasnng tl data, og lav grad av uskkerhet estmatene. AIC (se delkapttel 3.1) er mtt foretrukne krterum for å løse dette dlemmaet. AIC konvergerer mot optmal modell når antall observasjoner går mot. Datasettet er såpass stort at forskjellen mellom AIC og det mer generelle AIC c (som korrgerer for antall observasjoner) er neglsjerbar. Jeg bruker en stegvs mnmerngs-algortme der jeg starter med en grunn-modell og deelt sett ender opp med en mnmert modell forhold tl AIC. For enkelhets skyld defnerer jeg kanddatledd som en bestemt funksjonell form av en forklarngsvarabel. Blalder som andregradspolynom, b 2 b, er et eksempel på et kanddatledd. AICmnmerngs-algortmen har følgende steg: 1. Estmer fordelngens parametere uten bruk av forklarngsvarabler. Dsse estmater defnerer grunnmodellen MOD-1. Regn ut AIC for denne modell. 2. For alle kanddatledd for hovedparameteren (lokasjonsparameteren,, for unmodale modeller og sannsynlghetsparameteren,, for bmodale modeller): Regn ut hva AIC vl bl dersom man legger tl dette kanddatledd. Ranger så alle kanddatledd etter AIC. 3. Dersom mnst 1 av kanddatleddene gr lavere AIC enn grunnmodellen legges dette kanddatleddet tl og man har gjeldende modell MOD-2. 50

51 4. Repeter steg 2 tl 3 helt tl det oppnås en optmal kombnasjon av kanddatledd for hovedparameteren. 5. Dersom andre parameterne avhenger av forklarngsvarabler, AIC-mnmeres dsse steg for steg, på samme måte som for hovedparameteren. Rekkefølgen av parameterne har betydnng. Estmer derfor parameterne prortert rekkefølge Når modellen er stegvs AIC-mnmert for alle relevante parametere, kan det tenkes at den er overparametersert. Test derfor hva AIC vl bl ved å fjerne hver enkelt av kanddatleddene. 7. Kanddatleddene som gr AIC-nedgang ved fjernng, rangeres etter potensell AICnedgang. Ta bort kanddatleddet som gr størst AIC-nedgang ved fjernng (dersom noen kanddatledd gr AIC-nedgang). 8. Steg 6 og 7 repeteres helt tl ngen kanddatledd gr AIC-nedgang ved fjernng. Da har man den endelge AIC-mnmerte modellen MOD-FINAL. Denne modell utgjør algortmens output. Denne algortmen er mplementert R ved funksjonen stepgaicall.a GAMLSS pakken. For hver enkelt modell vl jeg først kjøre algortmen for separate forklarngsvarabler, og tl slutt for ulke varanter av samspll. Kanddatleddene som testes for hver parameter hver modell vses tabell Prortert rekkefølge skal her forstår som rekkefølgen parameterne har fordelngens kortversjon, slk jeg defnerer denne delkaptler 3.5 og 3.6. Gammafordelngens kortversjon er for eksempel Y (, ), slk at prortert rekkefølge på parameterne er,. 51

52 Beskrvelse Årstall som lneær funksjon Blalder som polynom av grad 1-6. Kategorsk blalder (en kategor per blalder). Referansekategor er blalder 5 år. Funksjonell form t b, b..., b 2, b b b b b b Jeg skrver b der k er høyeste eksponent. I b k, * * ( 0)... I( b 4) I b * * ( 6)... I( b 20) Personalder som polynom av grad 1-6. Kategorsk personalder (nndelt tår). Referansekategor er år. p, p..., p 2, p p p p p p Jeg skrver p der k er høyeste eksponent. k, I p I p * * (20 29)... (40 49) I(60 p 69)... I(80 p 89) Tabell Kanddatledd for selvstendge forklarngsvarabler modellene Grunnen tl at årstall kun testes som lneær funksjon er at modellene skal brukes tl å spå fremtden. Strengt tatt er ngen modeller gyldg utenfor datasettet som er brukt tl å estmere parameterne. Når man spår fremtden med en modell, putter man nn en verd for forklarngsvarabelen Årstall som kke har vært observert datasettet. Avanserte, fleksble funksjoner vl fort kunne g ekstreme og urealstske utslag her. For eksempel kan det tenkes at en tdstrend over observasjonsperoden er formet som del av en parabel. Går man ut av observasjonsperoden er man nnom en annen del av parabelen der grafen gjerne tar av. Generelt kan man s at å spå fremtden er vanskelg, og at en lneær form på tdstrenden gr en nøktern, lettolkelg og relatvt realstsk spådom forhold tl fleksble funksjoner med mange parametere. 52

53 Når en modell er AIC-mnmert for dsse kanddatleddene for alle fordelngsparametere, forsøker jeg å nnføre samspll mellom forklarngsvarablene, og bruker algortmen for mnmerng av AIC på kanddatleddene som er vst tabell 5.2. Beskrvelse Funksjonell form Årstall multplsert med blalder. t b Årstall multplsert med personalder. t p Blalder multplsert med personalder. b p Kombnasjonen gammel bl og eldre kunde. * * I( b 14, p 60) Kombnasjonen gammel bl og ung kunde * * I( b 14, p 30) Kombnasjonen ny bl og eldre kunde. * * I( b 5, p 60) Kombnasjonen ny bl og ung kunde * * I( b 5, p 30) Tabell Kanddatledd for samspll mellom forklarngsvarablene modellene For hver sannsynlghetsfordelng som testes ut, vl jeg først defnere en nullmodell (med postfks 0), der forklarngsvarabler kke brukes. Så defnerer jeg en mellommodell (med postfks 1) der jeg bruker årstall, blalder og personalder, alle referansejustert utgave, som lneære funksjoner. Tl slutt defnerer jeg en optmal modell (med postfks 2), resultatet av algortmen for AIC-mnmerng. AIC-krteret skal teoren skre at de AIC-mnmerte modellene vl kunne spå fremtden best. Imdlertd er dsse langt mer fleksble enn nullmodellene og mellommodellene, og kan være utsatt for overparameterserng. I AICmnmerngs-algortmen brukes data fra hele peroden, Det er kke gtt at modellen med best tlpasnng for hele peroden også vl ha best tlpasnng for eksempelvs 2005, gtt at parameterne er estmert på data fra Jeg vl teste samtlge modeller ved kryss-valderng kapttel 9. Da kan det undersøkes hvlken grad AIC-mnmerng fører tl overparameterserng. 5.4 GAM-plot Som et supplement tl AIC-mnmerngs-algortmen ser jeg også på GAM-plot for modellene. Ideen bak GAM - generalserte addtve modeller er å erstatte koeffsentene den lneære predktor med glatte funksjoner. Vanlg lneær koblng mellom en fordelngsparameter, og 53

54 T forklarngsvarablene er av typen g( ) x β 0 jx, j. GAM erstatter denne p j 1 koblngen med g( ) 0 s j ( x, j ), der s j er glatte funksjoner, for eksempel splnefunksjoner. Det er upraktsk å skrve opp hele uttrykket for splne-funksjonene. GAMLSSpakken R gr mdlertd mulghet tl å plotte grafene tl dsse splne-funksjonene. Jeg vl først kjøre AIC-mnmerngs-algortmen for hver enkelt modell, og så bruke plottet av splnefunksjonene, GAM-plottet, som en sjekk på hvorvdt de funksjonelle former algortmen har valgt, lgner på GAM-plottets grafer. Jeg sjekker mot GAM-plot for alle modeller, men selve oppgaveteksten tar jeg kun med GAM-plot for Possonmodellen, som et eksempel. p j1 5.5 Korreksjon for eksponerng Generelt om korreksjon for eksponerng Noen av modellene har en observasjon per polse. For dsse modellene er det av stor betydnng hvor mange dager polsen har vært aktv aktuelt år. La t D,. være antall aktve dager aktuelt år for polse. Jeg nnfører eksponerngsvarabelen r gtt ved r td, 365 I(skuddår) slk at r er andel av året polsen er kraft. Det fremgår av fgur 4.5 at et stort antall polser har r 1. Det betyr at en eventuell gnorerng av eksponerngen, r, kan være en stor felklde. Å gnorere eksponerng er ekvvalent med å sette eksponerng r 1 for alle observasjoner, hvlket kan g langt svakere modelltlpasnng. Spørsmålet er så på hvlken måte man best tar hensyn tl eksponerng modellerngen. Jeg lster opp 3 alternatver. 1. Eksponerng kan nngå som offset. 2. Eksponerng kan nngå som forklarngsvarabel. 3. Logartmen tl eksponerngen kan nngå som forklarngsvarabel. Jeg tester ut hvlket av dsse tre alternatver som gr best resultat for den mnst komplekse modellen som skal testes kaptler 6-8, nemlg Possonmodell for skadefrekvens. 54

55 5.5.2 Test av metodkk I Possonmodellen for antall skader, A, brukes log-lnk slk at g( ) log( ). La nå være Possonparameter for en fulleksponert polse (slk at tlsvarer forventet antall skader per år). En rmelg hypotese, H, 0 er at forventet antall skader for polse er proporsjonal med eksponerngen r. H 0 er ekvvalent med relasjonen (6) r. Når T kobles tl forklarngsvarablene, brukes log-lnk, log( ) x β. Dette uttrykket, T sammen med (6), kan skrves om tl log( ) log( r ) x β. Størrelsen log( r ) kalles da offset. Hypotesen H 0 er derfor ekvvalent med å nkludere eksponerngen som offset. Dersom man bruker offset modellerngen, estmeres det ngen koeffsent for log( r ). Offsettet nngår kun som en korreksjon. Jeg tester de tre ulke alternatvene ved å estmere parameterne tre ulke Possonmodeller for vses tabell 5.3. A der ngen forklarngsvarabler tas bruk. Resultatene av denne testen Alt. log( ) Estmat for AIC 1 log( ) log( r) r exp( 0) 0, log( ) ( r 1) exp( 0 1 ( r 1)) 0, log( ) log( r ) r exp( ) 0, Tabell Testng av 3 alternatve måter å korrgere for eksponerng Tabell 5.3 vser at alternatv 3 gr klart lavest AIC. Avstanden tl alternatv 2 er såpass stor at jeg regner alternatv 3 som udskutabelt best. Jeg vl derfor bruke korreksjonsmetodkken fra alternatv 3 selve modellerngen. Med såpass stor forskjell AIC mellom alternatv 1 og 3, kan det konkluderes med at hypotesen H 0 er fel. Estmatet for 1 under alternatv 3 er 0,5142. Dette tallet er såpass nært 0,5 at jeg nnfører følgende relasjon som et bedre alternatv tl (6): r. Denne relasjonen forteller at forventet antall skader for polse er proporsjonal med kvadratroten av eksponerngen tl polse. Det kan være mange årsaker tl denne sammenhengen. Her er noen forslag: 55

56 - Kunder som nettopp har tegnet en forskrng er mer uforsktge enn andre kunder. - Kunder som har opplevd skade skfter forskrngsselskap etter kort td. Det kan være meget nteressant å gjøre vdere undersøkelser rundt dette spørsmålet, men det lgger utenfor denne oppgavens mål. Jeg konkluderer mdlertd med at den beste måten å nkorporere eksponerng modellene på, er å la logartmen tl eksponerngen nngå som forklarngsvarabel. 19 Skadeforskrngskontrakter har vanlgvs 1 års gyldghet, og prsene settes derfor utgangspunktet som helårsprser (se fnansportalen.no for eksempler). Når jeg velger å mplementere eksponerng som forklarngsvarabel, er det kun ment som en korreksjon, kke som et redskap tl prsng av blforskrng med valgfr forskrngsperode Korreksjon for antall skader I modellerng av skadeprs vl jeg bruke gjennomsnttlg skadeprs per skadepolse, G, som responsvarabel. I delkapttel 8.1 vses det at gjennomsnttlg skadeprs for skadepolse, G, og antall skader for polse, A, er korrelert. I kapttel 6 og 7 vl jeg bygge delmodeller som forutsetter uavhengghet mellom dsse størrelsene, og tllater separat modellerng. Imdlertd velger jeg å forutsette uavhengghet mellom A og G A, stedet for mellom A og G. Det er da mulg å korrgere for antall skader modellene for G. 21 Dette gjøres ved å nkludere referansejustert antall skader som forklarngsvarabel alle modeller for G A. Jeg nnfører derfor forklarngsvarabelen a a a, der a er observert gjennomsntt av antall skader * over alle polser for hele peroden Når modellene for skadefrekvens tl slutt skal kobles mot modellene for skadeprs, settes modellen for G A. a E( A ) a nn som forklarngsvarabel * 19 Tlsvarende resultat er også oppnådd ved testng for de andre modellene der eksponerng nngår (NEGBIN, ZIP og ZAIG). Også her gr lnk-funksjon av eksponerngen som forklarngsvarabel den beste tlpasnnngen. 20 Det kunne vært nteressant å modellere også for valgfr forskrngsperode, men datasettet er kke egent for dette. Tlgjengelge eksponerngsdata er kun antall dager. Jeg har kke tlgang tl hvlke dager året polsene er kraft. Følgelg kan jeg kke ta høyde for sesongvarasjon ved hjelp av dette datasettet. 21 Jeg velger det forestående å skrve G stedet for G A for enkelhets skyld. 56

57 6 Modellerng av skadefrekvens 6.1 Generelt om modellerng av skadefrekvens Dersom det antas at skadefrekvens og skadeprs er uavhengge størrelser, er det naturlg å modellere dsse separat. Jeg forsøker først å fnne frem tl best mulg modell for skadefrekvens, deretter best mulg modell for skadeprs. Jeg vl så koble dsse sammen slk at de endelge modellene kan predkere total utbetalng per polse, U. Responsvarabelen modellerng av skadefrekvens er antall skader på polse, A. For polse behandles antall skader, A, som en tlfeldg varabel med fordelng f( θ ). Det tllates med andre ord en egen parametervektor for hver polse. Modellene for skadefrekvens faller nn under det unmodale rammeverket, beskrevet delkapttel 5.1. Generelt benyttes følgende rammeverk for skadefrekvensmodellene: A 1,1 2,2 f( θ ) T g ( ) x β T g ( ) z γ I modellerng av skadefrekvens vl jeg teste 3 ulke responsfordelnger: Possonfordelngen, NEGBIN-fordelngen og ZIP-fordelngen. Log-transformasjonen av eksponerngen, r, er et element desgnvektoren x, og eventuelt også desgnvektoren z. x nneholder forklarngsvarabler for hovedparameteren, lokasjonsparameteren,,1 som åpenbart vl avhenge av eksponerngen. Hvorvdt,2 også avhenger av eksponerngen, og dermed hvorvdt r også bør nngå z, må avgjøres separat for hver enkelt modell. Dette leder tl modellformulerngene tabell

58 Posson NEGBIN ZIP A Posson( ) A NB(, ) A ZIP(, ) T log( ) x β T log( ) x β T log( ) z γ T log x β 1 T log( ) z γ Tabell Generell formulerng av skadefrekvensmodellene for de ulke fordelnger Som det fremgår av tabell 6.1 velges log-lnk Possonmodellen. Dette er en velprøvd lnkfunksjon for Possonfordelngen og et opplagt valg. NEGBIN-fordelngen er svært lk Possonfordelngen og jeg velger log-lnk også her, for begge parametere. ZIP-fordelngen kan ses som en kombnasjon av Bernoullfordelng og Possonfordelng. Jeg bruker derfor logt-lnk for, som er parameter Bernoull-delen av fordelngen, mens jeg bruker log-lnk for, som er parameteren Posson-delen av fordelngen. Mer generelt er ZIP-fordelngen av typen FM, der den ene parameteren,, er en sannsynlghet. Sannsynlgheter modelleres naturlg ved logt-lnk, og jeg velger derfor denne lnk-funksjonen for alle de aktuelle FM-modellene. Før jeg nkluderer forklarngsvarabler vl jeg undersøke hvlken av fordelngene som gr best tlpasnng tl responsvarabelen A, antall skader. Det er selvsagt kke gtt, men lkevel svært sannsynlg, at fordelngen som best beskrver responsvarabelen uten forklarngsvarabler, også vl beskrve responsen best med forklarngsvarabler. Grunnen er at dersom en fordelng beskrver responsobservasjonene godt, er den velegnet tl å fange opp varablteten responsvarabelen. Når forklarngsvarabler nnføres, mnsker varablteten, men den vl antagelg ha mye av den samme strukturen. Parameterne estmeres for hver av modellene uten forklarngsvarabler. Jeg tllater meg mdlertd å korrgere for eksponerng her. Resultatet er vst tabell

59 Responsfordelng Estmat for Estmat for den andre parameteren AIC Posson 0, NA NEGBIN 0, exp( 36.04) ZIP 0, expt( ) Tabell 6.2 Estmater og AIC for Possonmodell, NEGBIN-modell og ZIP-modell for skadefrekvens. Ingen forklarngsvarabler er tatt bruk her (men det er korrgert for eksponerng). er helårseksponert utgave av. Possonfordelngen ser ut tl å komme best ut her. I NEGBIN-modellen og ZIP-modellen estmeres en ekstra parameter, som bestemmer fordelngens dspersjon. I begge tlfeller konvergerer estmatene for denne ekstra parameteren mot 0. En enkelt margnalanalyse delkapttel vste at gjennomsntt og estmert varans for antall skader var svært nær hverandre. Dette, sammen med resultatene tabell 6.2, gjør at jeg konkluderer med at det kke er overdspersjon for antall skader. Det er også verdt å merke seg at estmatene for er dentske for alle tre modeller, og at AIC for Possonfordelngen er nøyaktg 2 mndre enn for de 2 andre fordelngene. Dette betyr prakss at de 3 modellene er så godt som dentske. Da tlser Occams barberhøvel 22 at man bør velge den enkleste modellen, nemlg Possonmodellen. AIC er gtt ved AIC 2p 2l (se delkapttel 3.1). Når da AIC for NEGBIN-modellen og ZIP-modellen er nøyaktg 2 høyere enn AIC for Possonmodellen, kommer det av at en ekstra parameter estmeres, uten at den bdrar tl å øke lkelhooden. Fgur 6.1 vser relatv frekvens av observert antall skader mot punktsannsynlgheter for hver av de 3 sannsynlghetsfordelngene. Her kan man se grafsk at alle punktestmatene er dentske. Det er derfor ngen tvl om at Possonmodellen er den foretrukne her. Jeg avskrver derfor NEGBIN-modellen og ZIP-modellen, og konsentrerer meg vdere kun om Possonfordelngen som responsfordelng modellerng av skadefrekvens. 22 For mer om Occams barberhøvel (Occam s razor), se Dobson og Barnett (2008:36,85). De kaller den også Law of parsmony. Ideen er at gtt 2 modeller med dentsk forklarngskraft, er den enkeleste modellen å foretrekke. 59

60 Fgur Punktsannsynlgheter for 0-4 skader gtt av de ulke fordelngene ved de estmerte parameterne uten forklarngsvarabler. Punktsannsynlghetene er sammenlgnet med observert relatv frekvens. 6.2 Possonmodell for skadefrekvens Estmerng og defnsjoner I delkapttel 6.1 er parameterne nullmodellen APOI-0, som kke bruker andre forklarngsvarabler enn log-transformert eksponerng, allerede estmert. Vdere estmeres mellommodellen APOI-1, som kun bruker lneære forklarngsvarabler uten samspll. Tl slutt kjører jeg AIC-mnmerngs-algortmen (se delkapttel 5.3), og får den AIC-mnmerte modellen APOI-2. Tabell 6.3 defnerer dsse 3 Possonmodellene. 60

61 Modell APOI-0 PO( ) APOI-1 PO( ) APOI-2 PO( ) A Koblng tl forklarngsvarablene log( ) 1 log( r ) β log( ) 1 log( r ) t b p β * * r,6,4 t b I b p Tabell Defnsjon av APOI-modellene log( ) 1 log( ) b p ( 14, 30) β AIC-verdene for APOI-modellene er henholdsvs , og , hvlket tlser at APOI-2 er den suverent beste tlpasnngen etter AIC-krteret. Med sne 14 estmerte parametere kan APOI-2 regnes som moderat fleksbel GAM-plot Jeg estmerer splne-funksjoner (se delkapttel 3.3) for eksponerngen, og referansejusterte utgaver av årstall, blalder og personalder. Dsse GAM-plottene sammenlknes så med resultatet av AIC-mnmerngs-algortmen. Dette gr en nyttg sjekk på hvorvdt algortmen har truffet de optmale funksjonelle formene. GAM-plottene vses fgur 6.2. Som det fremgår av denne fguren har eksponerngen en funksjonell form som kke er veldg ulk en logartmsk kurve. Det er tvlsomt om årstall har sgnfkant effekt, ettersom 0 er nnenfor standardavvket for hvert av årene. Blalder ser ut tl å modelleres godt ved et polynom av moderat høy grad, mens personalder ser ut tl å passe med et andregradspolynom eller et fjerdegradspolynom. Dette stemmer svært godt overens med de funksjonelle formene modellen APOI-2, som er resultatet av AIC-mnmerngs-algortmen. Der er årstall kke med som forklarngsvarabel, mens blalder og personalder er med som henholdsvs tredjegradsog fjærdegradspolynom. Optmalt antall frhetsgrader (hyperparameteren fra delkapttel 3.3) er estmert tl 17. I dette estmatet er eksponerngen gtt en funksjonell form som kan mnne om et polynom av mnst tredje grad. Ved å log-transformere eksponerngen spares det dermed noen frhetsgrader (effektve parametere). Jeg konkluderer med at den kkeparametrske GAM-analysen og AIC-mnmerngs-algortmen gr noenlunde samsvarende resultat. 61

62 Fgur GAM-plot for selvstendge forklarngsvarabler Possonmodell for skadefrekvens. Stplede lnjer er standardavvk. 6.3 Effekter av forklarngsvarablene på skadefrekvens GAM-plottene fgur 6.2 gr en god grafsk overskt over effektene av de ulke forklarngsvarablene på forventet skadefrekvens. Et annet godt utgangspunkt for å drøfte effekter, er å studere modellestmatene tl APOI-1. Denne modellen har lneære forklarngsvarabler. Det gjør den lettolkelg ettersom det gr en koeffsent per forklarngsvarabel, og denne koeffsentens fortegn vser hvlken retnng forventet skadefrekvens flytter seg ved en øknng verden på forklarngsvarabelen. 62

63 koeffsent for Estmat Standardfel p-verd exp(estmat) 1-1,7170 0,0246 0,0000 0, log( r ) 0,5403 0,0196 0,0000 1, t -0,0044 0,0062 0,4829 0, b -0,0125 0,0028 0,0000 0, p -0,0081 0,0008 0,0000 0, Tabell 6.4 APOI-1 estmater med standardfel og p-verder. exp(estmat) gr faktsk multplkatv effekt på forventet skadefrekvens. Som det fremgår av tabell 6.4 er årstallet, t, langt fra sgnfkant. Imdlertd er blalder, b, og personalder, p, begge svært sgnfkante, og begge har negatv effekt på forventet antall skader. At skadefrekvensen synker med personalder, stemmer med hypotesen jeg formulerte delkapttel At skadefrekvensen synker med blalder, strder mdlertd med hypotesen jeg formulerte delkapttel Det er rmelg å tro at gamle bler er dårlgere stand enn nye bler. Imdlertd kan andre effekter, som for eksempel kjøremønster, splle nn her slk at skadefrekvensen lkevel synker med blalder. APOI-1 har log-lnk, g( ) log( ), og er følgelg en multplkatv faktor-modell. Ut fra kolonnen exp(estmat) kan man s at forventet skadefrekvens for gjennomsnttlg blalder (5,9 år) og gjennomsnttlg personalder (50,3 år) er 0,18. Ved å se på tallene denne kolonnen, kan man også hevde at for hvert år blalder øker går skadefrekvensen ned med ca. 1 %. For hvert år personalder øker går også skadefrekvensen ned ca. 1 %. Eksponerngen har åpenbart en svært kraftg effekt, men denne regnes kke som en forklarngsvarabel på samme måte som blalder og personalder. Logartmejustert eksponerng er kun tatt med som en korreksjon. 63

64 7 Modellerng av skadeprs 7.1 Generelt om modellerng av skadeprs Mtt endelge mål er å modellere total utbetalng for alle skader på hver polse, U. Når jeg modellerer skadeprs for seg, baserer jeg meg på antagelsen om at skadefrekvens og skadeprs er uavhengge størrelser. Det er tre mulge valg av responsvarabel når skadeprs skal modelleres: - Skadeprs per skade, S. - Gjennomsnttlg skadeprs per skadepolse, G - Total utbetalng for alle skader per polse, U Den totale skadeprsen, U, modelleres drekte kapttel 8. Her kapttel 7 ser jeg først og fremst på S og G som kanddater. Fgur 4.7 vser at hstogrammene over log( S ) og log( G ) er bortmot dentske. En god regel for statstsk modellerng er å kke aggregere uten grunn, ettersom noe nformasjon alltd går tapt når man aggregerer. Denne regelen taler tl fordel for modellerng av S. På den annen sde har denne oppgaven som overordnet mål å modellere total utbetalng, U. Det vl s at ønsket sluttprodukt lgger naturlg på polsenvå og kke på skadenvå. Dette taler tl fordel av modellerng av G. Jeg antar på forhånd at modellerng av S og G vl g svært lke modeller. Jeg vl delkapttel undersøke hvorvdt dette stemmer. I det følgende menes G når uttrykket skadeprs tas bruk. Det fremgår av fgur 4.7 at det kan være aktuelt å se på bmodale modeller for skadeprs, tllegg tl unmodale. I selve modellerngen setter jeg G G A, slk at det kan korrgeres for antall skader, som beskrevet delkapttel Unmodale modeller for skadeprs Jeg bruker følgende generelle, unmodale modellformulerng for gjennomsnttlg skadeprs, G A, per skadepolse: (Det er underforstått at også z ). * a (se delkapttel 5.6) nngår x og eventuelt G A 1,1 2,2 f ( θ ) T g ( ) x β T g ( ) z γ 64

65 Skadeprs er en postv, kontnuerlg størrelse som kke nødvendgvs er symmetrsk. Det fnnes en rekke sannsynlghetsfordelnger som oppfyller dsse kravene. Jeg tester ut følgende varanter: Normalfordelng, lognormalfordelng, gammafordelng, IG-fordelng og Webullfordelng. Jeg bruker modellformulerngene som vses tabell 7.1. Normal Lognormal Gamma IG Webull G N G log N(, ) G (, ) G IG(, ) G WEI(, ) 2 (, ) T T T T T log( ) x β log( ) x β log( ) x β log( ) x β log( ) x β T T T T T log( ) z γ log( ) z γ log( ) z γ log( ) z γ log( ) z γ Tabell Generell formulerng av skadeprsmodellene for de ulke fordelngene På samme måte som for skadefrekvens, estmeres først parameterne for hver modell uten bruk av forklarngsvarabler (bortsett fra korreksjon for antall skader). Dette gr en pekepnn på hvlke fordelnger som best kan beskrve varablteten skadeprsen. Resultatet vses tabell 7.2. Responsfordelng Forventet skadeprs gtt 1 skade AIC Normal Lognormal Gamma IG Webull Tabell Estmater og AIC for normalmodell, lognormalmodell, gammamodell, IGmodell og Webullmodell for skadeprs. Ingen forklarngsvarabler er tatt bruk her. Fgur 7.1 vser tetthetskurvene tl dsse fordelngene et hstogram over de observerte skadeprser. Av dette plottet fremgår det at den observerte fordelngen er meget skev. Det er tydelg av denne grafen at normalfordelngens PDF er uegnet tl å beskrve de observerte skadeprser. IG-fordelngen ser ut tl å passe best, mens lognormalfordelngen passer nest best. Det er rmelg å anta at dsse to fordelnger best vl beskrve varablteten skadeprsen, også når forklarngsvarabler er nnført. Jeg velger derfor å gå vdere med dsse fordelnger og forkaste de resterende. Ettersom IG-fordelngen har den aller beste tlpasnngen, vl jeg også 65

66 teste den AIC-mnmerte IG-modellen for hvorvdt parameterne modellen forandrer seg når man bytter ut G A med S som responsvarabel. Fgur Hstogram av gjennomsnttlg skadeprs per skadepolse, G, sammen med PDF for de ulke fordelnger der parameterne er estmert uten bruk av forklarngsvarabler. Hstogrammet tar kun med gjennomsnttlge skadeprser der G Det vl s at ca. 91 % av polsene med skader er tatt med. Hstogrammet er kuttet av for å g et tydelgere blde. 66

67 7.3 Lognormalmodell for skadeprs Lognormalfordelngen er rmelg å bruke dersom logartmen tl skadeprsen er normalfordelt. Plottene fgur 4.7 ser kke ut normalfordelte ut, men, som nevnt delkapttel fører regstrerngsprakss forskrngsselskapet tl at observert skadeprs kke alltd opptrer som en kontnuerlg varabel. Dersom hstogrammene aggregeres tl et langt grovere format, gr det hstogrammene av log(skadeprs) som presenteres fgur 7.2. Fgur Grove hstogrammer av log(skadeprs) for total skadeprs U, gjennomsnttlg skadeprs G og skadeprs per skade S. Hstogrammene fgur 7.2 ser kke perfekt normalfordelte ut, men ser heller kke ut tl å være veldg langt unna. Heller enn å modellere logartmen tl skadeprsen ved normalfordelngen velger jeg å modellere skadeprsen drekte ved lognormalfordelngen. Dette gjør modellen lettere å tolke, og gjør AIC-verden drekte sammenlgnbar med AIC-verder tl andre modeller for skadeprs. Jeg velger log-lnk for både og. Etter å ha kjørt AIC-mnmerngs-algortmen ender jeg opp med en modell, GLOG-2, som er ekstremt kompleks. Den har hele 24 estmerte parametere, hvorav 6 er koeffsenter for 67

NA Dok. 52 Angivelse av måleusikkerhet ved kalibreringer

NA Dok. 52 Angivelse av måleusikkerhet ved kalibreringer Sde: av 7 orsk akkredterng Dok.d.: VII..5 A Dok. 5: Angvelse av måleuskkerhet ved kalbrernger Utarbedet av: Saeed Behdad Godkjent av: ICL Versjon:.00 Mandatory/Krav Gjelder fra: 09.05.008 Sdenr: av 7 A

Detaljer

Forventet antall leveår i god helse (HLY) Effekten av ulike helsedefinisjoner

Forventet antall leveår i god helse (HLY) Effekten av ulike helsedefinisjoner Magnar Lllegård og Jorun Ramm Forventet antall leveår god helse (HLY) Effekten av ulke helsedefnsjoner Statstsk sentralbyrå Statstcs Norway Oslo Kongsvnger Notater I denne seren publseres dokumentasjon,

Detaljer

Justeringsparameteren i inntektsreguleringen Vurdering av behov for endringer

Justeringsparameteren i inntektsreguleringen Vurdering av behov for endringer Justerngsparameteren nntektsregulerngen Vurderng av behov for endrnger Endre Bjørndal, Mette Bjørndal og Thore Johnsen Samfunns- og nærngslvsforsknng, SNF Jul 2008 Sammendrag Tdsforsnkelser regulerngsmodellen

Detaljer

2007/15 Notater Brukerveiledning for SHE-AR- modellen Statistisk sentralbyrå Statistics Norway

2007/15 Notater Brukerveiledning for SHE-AR- modellen Statistisk sentralbyrå Statistics Norway 2007/5 Notater Bente Halvorsen Notater Brukervelednng for SHE-ARmodellen En regnearkmodell for smulerng av usoldnngenes aggregerte elektrstetsetterspørsel Forsknngsavdelng/Seksjon for energ og mljøøkonom

Detaljer

Vir dato. Tidligere. dato. Kopi til. Intern kopi Iii. forbindelse med behandling av innstillinger, har

Vir dato. Tidligere. dato. Kopi til. Intern kopi Iii. forbindelse med behandling av innstillinger, har BFO Var saksbehandler Vr dato Tdlgere dato Var reteranse 15.05.2013/ER S/ers Tdlgere reteranse 1 av 11 fl, -fl I m-l v, Tl Leder og medlemmer Forsvarskomteen Utenrks- og Kop tl Internt Intern kop I Er

Detaljer

i i i i JUBILEUMSNUMMER i i 200 år er gått siden én av våre lokale menn dro til Eidsvoll og ble med på den på den viktigste

i i i i JUBILEUMSNUMMER i i 200 år er gått siden én av våre lokale menn dro til Eidsvoll og ble med på den på den viktigste 200 år er gått sden én av våre lokale menn dro tl Edsvoll og ble med på den på den vktgste begvenheten for utvklngen av det moderne Norge. Les om Chrstan Adolph Ddrks og sju av klubbens medlemmer som alle

Detaljer

Nr. 11994 PRIS I LOSSALG kr. 39 NORGES NATURVERNFORBUND Ç,/ -, i ii. r i

Nr. 11994 PRIS I LOSSALG kr. 39 NORGES NATURVERNFORBUND Ç,/ -, i ii. r i Nr. 11994 PRS LOSSALG kr. 39 NORGES NATURVERNFORBUND Ç,/ -, r. r Det Utgvor: Norges Naturvernforbund Postboks 2113 Grüner lølka, 0505 OSLO, Norge. B.søksadresse: Nedregate 7 Tf: 22 71 55 20 Telefa.x: 22715640

Detaljer

KLART VI KAN! MÅLET ER ØKT LÆRINGSUTBYTTE GJENNOM GOD KVALITET I BARNEHAGER OG SKOLER 2011-2013

KLART VI KAN! MÅLET ER ØKT LÆRINGSUTBYTTE GJENNOM GOD KVALITET I BARNEHAGER OG SKOLER 2011-2013 KLART VI KAN! MÅLET ER ØKT LÆRINGSUTBYTTE GJENNOM GOD KVALITET I BARNEHAGER OG SKOLER 20112013 LEDELSE PÅ ALLE NIVÅER d ledelse påvrker en organsasjons lv utvklng sterkere grad enn mange andre hold LÆRINGSFREMMENDE

Detaljer

Et naturlig, sentralt emne på. dagkirurgiske prosedyrer. Ordningen er gradvis innført. faglige og forskningsmessige Arbeidet med å modernisere

Et naturlig, sentralt emne på. dagkirurgiske prosedyrer. Ordningen er gradvis innført. faglige og forskningsmessige Arbeidet med å modernisere tl å s t tl re va res aktvteter kan gjøres dagkrurg maladresser. Norge oppsøke preoperatvt nmasjon samme om dag tte. V/ styreler Jørg nternasjonalt reg Nordafkonseptet Det selve er uansett operasjon, fall,

Detaljer

Lead-lag relationship

Lead-lag relationship Lead-lag relationship Et grundigere studium av lead-lag forholdet Kristian Bakkevig Valheim Veileder Valeri Zakamouline Masteroppgaven er gjennomført som ledd i utdanningen ved Universitetet i Agder og

Detaljer

HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet

HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet HYPOTESETESTING for mastergradsstudium i informasjonssikkerhet Hans Petter Hornæs E-post: hansh@hig.no Høgskolen i Gjøvik. Versjon per 4.11 2003 Dette er notater, oppgaver og formelsamling til støtte for

Detaljer

Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem?

Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem? Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem? Skrevet av: Thomas Konradsen Emnekode: BE320E. MBA HHB Tromsø. Innholdsfortegnelse...

Detaljer

NYE SEGMENTER PÅ OSLO BØRS

NYE SEGMENTER PÅ OSLO BØRS Deres ref: Vår ref: 266756 Dato: 30.10.2003 NYE SEGMENTER PÅ OSLO BØRS 1. Innlednng Oslo Børs har den senere td arbedet med en ny modell for segmenterng av de børsnoterte selskapene. Bakgrunnen for dette

Detaljer

Modell for optimering av investeringsbeslutninger resultater og anvendelse

Modell for optimering av investeringsbeslutninger resultater og anvendelse FFI-rapport 2011/00940 Modell for optimering av investeringsbeslutninger resultater og anvendelse Maria Fleischer Fauske Forsvarets forskningsinstitutt (FFI) 10. mai 2011 FFI-rapport 2011/00940 1185 P:

Detaljer

Tiltrekker lav lønn bedre ledere?

Tiltrekker lav lønn bedre ledere? NORGES HANDELSHØYSKOLE Bergen, Vår 2014 Tiltrekker lav lønn bedre ledere? Betydningen av lønnsnivå for selvseleksjon av ledere med ulik prososial adferd av Ole Fredrik Sørensen Veileder: Alexander W. Cappelen

Detaljer

Fritt sykehusvalg. En teoretisk analyse av konkurranse i det norske sykehusmarkedet* Elin Aasmundrud Mathiesen

Fritt sykehusvalg. En teoretisk analyse av konkurranse i det norske sykehusmarkedet* Elin Aasmundrud Mathiesen Fr sykehusvalg En eoresk analyse av konkurranse de norske sykehusmarkede* av Eln Aasmundrud Mahesen Sen Rokkan sener for flerfaglge samfunnssuder Unversesforsknng Bergen Jun * Hovedogave samfunnsøkonom

Detaljer

Prising av renteopsjoner

Prising av renteopsjoner NORGES HANDELSHØYSKOLE Bergen, våren 2006 Prising av renteopsjoner - med fokus på Hull-White modellen - Mari Bolling Hasven Veileder: Professor Kristian Miltersen Utredning i fordypningsområdet Finansiell

Detaljer

Holdninger til registrering av private domenenavn under.no

Holdninger til registrering av private domenenavn under.no Norsk Gallup Institutt AS Storgata 33a Postboks 9016 Grønland 0133 OSLO Norway t +47 23 29 16 00 f +47 23 29 16 01 e info@tns-gallup.no w www.tns-gallup.no Org nr NO 890 660 002 MVA Holdninger til registrering

Detaljer

"Eiendomsinvesteringers økonomiske risiko: Analyse og vurdering av case i Bergensområdet"

Eiendomsinvesteringers økonomiske risiko: Analyse og vurdering av case i Bergensområdet "Eiendomsinvesteringers økonomiske risiko: Analyse og vurdering av case i Bergensområdet" Hovedoppgave til mastergrad i Industriell økonomi og informasjonsledelse Av Thorleif Andersen Grimstad, juli 2004

Detaljer

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren?

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? av Anita E. Tobiassen Paul N. Gooderham SNF-prosjekt nr. 6300: Økt verdiskapning i SMB-sektoren: styrking av påvirkningen fra autoriserte

Detaljer

Naturskadeforsikring: organisering og dekningsomfang

Naturskadeforsikring: organisering og dekningsomfang Naturskadeforsikring: organisering og dekningsomfang Kandidatnummer: 217 Leveringsfrist: 03.06.2013 Antall ord: 27 540 Innholdsfortegnelse DEL 1 INNLEDENDE DEL... 1 1 INNLEDNING... 1 1.1 Tema... 1 1.1.1

Detaljer

1 SAMMENSETNING OG MANDAT...1 2 INNLEDNING...1 3 MARKEDET...3 4 DISTRIBUSJONSLEDD OG AKTØRENES VIRKEMIDLER...10 5 FORBRUKERHJELPEMIDLER...

1 SAMMENSETNING OG MANDAT...1 2 INNLEDNING...1 3 MARKEDET...3 4 DISTRIBUSJONSLEDD OG AKTØRENES VIRKEMIDLER...10 5 FORBRUKERHJELPEMIDLER... Sammendrag Det er en utfordring for forbrukeren å orientere seg i dagens norske mobilmarked. Produktene og prisbildet blir stadig mer kompliserte og operatørene bruker en rekke innelåsende eller lojalitetsskapende

Detaljer

LEAN BUSINESS - PLANDUGNAD I

LEAN BUSINESS - PLANDUGNAD I LEAN BUSINESS - PLANDUGNAD I Figur 1 Velkommen til kurset Dette kommer til å bli en veldig intens dugnad Kurset går over 5 samlinger og sluttproduktet skal bli en forretningsplan Figur 2 Det dreier seg

Detaljer

Matematikk på småskoletrinnet

Matematikk på småskoletrinnet Bokmål Kartlegging av matematikkforståelse Matematikk på småskoletrinnet Kartlegging av matematikkforståelse Bjørnar Alseth Matematikk på småskoletrinnet Utdanningsdirektoratet 1998 Trykk: GAN Grafisk

Detaljer

Denne utredningen utarbeidet våren 2013 utgjør en avsluttende del av mastergraden i Økonomi og Administrasjon på Handelshøyskolen ved UMB.

Denne utredningen utarbeidet våren 2013 utgjør en avsluttende del av mastergraden i Økonomi og Administrasjon på Handelshøyskolen ved UMB. FORORD Denne utredningen utarbeidet våren 2013 utgjør en avsluttende del av mastergraden i Økonomi og Administrasjon på Handelshøyskolen ved UMB. Valget av tema kom som følge av ønsket om å skrive en artikkel

Detaljer

Frode Drevland. Rett og riktig. En gjennomgang av Statens vegvesens analysemodell

Frode Drevland. Rett og riktig. En gjennomgang av Statens vegvesens analysemodell Frode Drevland Rett og riktig En gjennomgang av Statens vegvesens analysemodell Concept-programmet 2005 Concept rapport nr. 1070-6 Rett og riktig En gjennomgang av Statens Vegvesens analysemodell Frode

Detaljer

Scrum. en beskrivelse V 2012.12.13

Scrum. en beskrivelse V 2012.12.13 Scrum en beskrivelse Scrum prinsipper Verdier fra Agile Manifesto Scrum er det mest kjente av de smidige (Agile) rammeverkene. Scrum er også kilden til mye av tankegodset bak verdiene og prinsippene i

Detaljer

Un d er s ø ken d e mat emat ikkun d er v is n in g i v id er eg å en d e s ko l e

Un d er s ø ken d e mat emat ikkun d er v is n in g i v id er eg å en d e s ko l e Un d er s ø ken d e mat emat ikkun d er v is n in g i v id er eg å en d e s ko l e Ko mmun ik a s j o n - mo t iva s j o n - f o r s t å el s e Anne-Mari Jensen og Kjersti Wæge 2010 Matematikksenteret,

Detaljer

MED UNDRING SOM DRIVKRAFT. Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever

MED UNDRING SOM DRIVKRAFT. Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever MED UNDRING SOM DRIVKRAFT Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever O M D E T T E H E F T E T Hensikten med dette heftet er å gi elever i ungdoms- og videregående skole

Detaljer

Betalingskortsystem og formidlingsgebyr

Betalingskortsystem og formidlingsgebyr Betalingskortsystem og formidlingsgebyr av Eirik Lothe Hess Masteroppgave Masteroppgaven er levert for å fullføre graden Master i samfunnsøkonomi Universitetet i Bergen, Institutt for økonomi Juni 2010

Detaljer