www.nr.no Modellering og prediksjon av kundeavgang Clara-Cecilie Günther, Ingunn Fride Tvete, Geir Inge Sandnes, Ørnulf Borgan, Kjersti Aas Statistics for Innovation (SFI) 2 Årsmøte Norsk ASTIN-gruppe, 13.03.2012
Innledning Lett å bytte forsikringsselskap. Ustabil kundemasse. Vanskelig og dyrt å tiltrekke seg nye kunder. Ved å redusere avgangsraten kan inntektene økes. Men hvilke kunder har størst sannsynlighet for å forlate selskapet? www.clipart.com http://www.newsviewspedia.com/insurance.html
Data fra Gjensidige Bil, bolig og personforsikring November 2007 mai 2009 (19 måneder) 160 000 kunder www.clipart.com
Data Ikke alle kunder er med i hele perioden, noen kommer inn underveis. Kunder yngre enn 18 år eller eldre enn 75 år er utelatt. Kunder med årspremie høyere enn 50 000 kr er utelatt. Kunder som forsvinner på grunn av død er utelatt.
Definisjon kundeavgang Kunden har sagt opp alle forsikringer i selskapet. Kundeavgang kan være frivillig eller ufrivillig. Bytte av forsikringsselskap frivillig. Avgang på grunn av død ufrivillig.
Andre studier Kundeavgang har blitt studert i mange bransjer, f.eks. for mobilkunder og avisabonnenter. Vanlige modeller: Logistisk regresjon (GLM) Enkel og gir gode resultater, lett å tolke effektene. Antar lineære sammenhenger. Levetidsanalyse Data mining-metoder
Modell I La og Kunde Måned Respons Forklaringsvariable 1 2007/11 Y 1,2007/11 1 2007/12 Y 1,2007/12 X 1,2007/11... 1 2009/05 Y 1,2009/05 X 1,2009/04 2 2008/02 Y 2,2008/02 2 2008/03 Y 2,2008/03 X 2,2008/02.
Generalisert lineær modell (GLM)
Generalisert additiv modell (GAM) Bruker glattede ikke-parametriske funksjoner av forklaringsvariablene Erstatter med :
GAM II Ulemper med GAM: Overtilpasning. Vanskelig tolkning av effekter. Løsning: Bruke GAM til å oppdage ikke-lineære sammenhenger, men tilpasser vanlig GLM.
Model II Trinn 1: Bruk generaliserte additive modeller (GAM) til å oppdage ikke-lineære sammenhenger mellom og. Ved hjelp av GAM-plott defineres nye variable. Trinn 2: Tilpass generalisert lineær modell (GLM) med variable definert fra trinn 1.
Forklaringsvariable Alder Kjønn Årspremie (totalt, bil, bolig, person) Levetid Antall forsikringer (totalt, bil, bolig, person) Rabatt Partner www.clipart.com www.photos.com
Redefinerte forklaringsvariable ToHjem: Mer enn to boligforsikringer. Hovedforsikringer: Antall hovedtyper (bil, bolig, person) forsikringer. ReturnertKunde: Tidligere kunde har returnert til selskapet.
Endringsvariable Kan endringer i kundeforholdet indikere at kunden snart vil forlate selskapet? Har sett på endringer i bilforsikring og rabatt 1, 3 og 6 måneder tilbake i tid. BilKansellert: Bilforsikring sagt opp sist måned. RabattEndring: Fra rabatt til ingen rabatt sist måned.
Variable til GAM Alder Kjønn Årspremie Levetid Hovedforsikringer Rabatt Partner ToHjem BilKansellert Rabattendring Kontinuerlige variable plottes i GAM-plott.
GAM-plott av kontinuerlige variable Effekten av hver variabel er gitt de andre variablene i modellen.
Variabel definert fra GAM: Alder
Variabel definert fra GAM: Levetid
Variabel definert fra GAM: Årspremie
Endelig modell Variable i modellen: Originale variable: Partner, Kjønn, Rabatt Redefinert: Hovedforsikringer, ReturnertKunde, ToHjem Endringsvariable: BilKansellert, Rabattendring Fra GAM: log.årspremie, Alder.T, Levetid.K Samspill mellom: Partner og log.årspremie Hovedforsikringer og log.årspremie Rabatt og log.årspremie Rabatt og Hovedforsikringer Kjønn og Alder.T 10% av dataene brukes til å tilpasse modellen.
Estimerte hovedeffekter Variabel Estimert effekt Returnert kunde 0.58 ToHjem -0.47 Levetid.K=1 Levetid.K=2 0.61 0.34 BilKansellert 0.16 RabattEndring 1.79 Se opp for "røde" kunder - disse har større sansynlighet for avgang!
Estimerte samspill Kunder med høy årspremie er mer lojale hvis deres partner også er kunde hos Gjensidige. Dersom man får rabatt avtar avgangssannsynligheten, og den avtar videre dersom antallet hovedtyper forsikring øker.
Prediksjondatasett Samme tidsperiode: Gjenværende 90% av dataene, ikke brukt til modelltilpasning. Ny tidsperiode: Nye data: Juni 2009 januar 2010 Testsett A: Kundene fra opprinnelig testsett. Testsett B: Kundene fra opprinnelig treningssett.
Prediksjonsmål Klassifiseringsregel: Kunde med avgangssannsynlighet høyere enn valgt grenseverdi klassifiseres som avgått. 1. Telle opp antall treff (kunder som virkelig har avgått). Avhengig av grenseverdi. 2. ROC: Plotter sann positiv rate mot falsk positiv rate for alle mulige grenseverdier. Sann positiv rate: Andel riktig klassifiserte avgåtte kunder. Falsk positiv rate: Andel feilklassifiserte avgåtte kunder.
Resultater - opptelling Testsett Grenseverdi Forbedring i forhold til tilfeldig gjetting 90%, samme tidsperiode 1000 høyeste 15 ganger Testsett A, 90%, ny tidsperiode Testsett B, 10%, ny tidsperiode 1000 høyeste 16 ganger 100 høyeste 18 ganger
ROC for tre prediksjonsdatasett
Prediksjonsevne over tid Prediksjonsevnen sjekket måned for måned fra juni 2009 til januar 2010. Ingen tydelige trender. Stabilt mønster i kundeavgang i denne perioden.
Avsluttende kommentarer Denne modelleringsteknikken kan brukes i customer relationship management (CRM). Identifisere kunder som vil forlate selskapet. Bedre enn tilfeldig gjetting. Modellen kan kanskje forbedres med mer informasjon. Günther, Clara-Cecilie; Tvete, Ingunn Fride; Sandnes, Geir Inge; Aas, Kjersti and Borgan, Ørnulf: Modelling and predicting customer churn from an insurance company, Forthcoming in Scandinavian Actuarial Journal.