Modellering og prediksjon av kundeavgang



Like dokumenter
Modellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO

Introduksjon til Generaliserte Lineære Modeller (GLM)

Løsningsforslag eksamen 25. november 2003

UNIVERSITETET I OSLO

3.A IKKE-STASJONARITET

Modellering av fotballkamper og blodgiving ved hjelp av Poisson og binomisk fordeling

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Konkurransetrender i skade- og personforsikringsmarkedet

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Hvorfor har forskjellen. i t-testen på nå blitt redusert til ?

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Hvordan avslører vi svindel?

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Optimalisering av bedriftens kundeportefølje

Detaljerte forklaringer av begreper og metoder.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Forelesning 18 SOS1002

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Forelesning 16 Regresjonsanalyse 3. Regresjonsanalyse av timelønn. Modeller med samspill

EKSAMENSOPPGAVE STA-2004.

MÅLING ANALYSE AV MÅLEDATA VHA SPC

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kap. 4.5 STK1000 H11

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Prøveeksamen STK vår 2017

HØGSKOLEN I STAVANGER

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Regresjon med GeoGebra

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

1 10-2: Korrelasjon : Regresjon

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kapittel 4.5

Løsningsforslag Eksamen S2, våren 2017 Laget av Tommy O. Sist oppdatert: 25. mai 2017

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Kapittel 6 - modell seleksjon og regularisering

Introduksjon til Generaliserte Lineære Modeller (GLM)

Analyse av nasjonale prøver i regning,

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Sammendrag: Bilers alder og risiko. Bakgrunn. Formål. Metode

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Lese og presentere statistikk i medisinske forskningsartikler

Prøveeksamen i STK3100/4100 høsten 2011.

Forelesning 17 Logistisk regresjonsanalyse

HØGSKOLEN I STAVANGER

Oppgave 13.1 (13.4:1)

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

Statistikk og dataanalyse

Introduction to the Practice of Statistics

Modellering 2P, Prøve 1 løsning

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

LØSNINGER UKE 6, STK1100. Ekstraoppgave 5 a) Sannsynligheten for at en 75 år gammel kvinne skal bli minst 80 år

EKSAMEN I SOS1120 KVANTITATIV METODE 12. DESEMBER 2011 (4 timer)

STK1100 våren Betinget sannsynlighet og uavhengighet. Svarer til avsnittene 2.4 og 2.5 i læreboka

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Logistisk regresjon 2

Ridge regresjon og lasso notat til STK2120

UTSATT SKOLEEKSAMEN I SOS KVANTITATIV METODE. 29. Mars 2017 (4 timer)

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Pong. Oversikt over prosjektet. Steg 1: En sprettende ball. Plan. Sjekkliste. Introduksjon

Hvis kurset du trenger ikke finnes i oversikten under, ta kontakt med oss. Vi tilrettelegger gjerne kurs etter behov.

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksponensielle klasser og GLM

Forelesning 7 STK3100/4100

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Betinget sannsynlighet, total sannsynlighet og Bayes setning

Hvordan gjøre studentene fornøyd med studieprogram og læringsutbytte?

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

Løsningsforslag til obligatorisk oppgave i ECON 2130

Forelesning 7 STK3100/4100

Generalisering til mange klasser - feilrettingsmetodene

Skoleeksamen i SOS Kvantitativ metode

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Undersøkelse om frivillig innsats

Hvordan analysere måledata vha statistisk prosesskontroll? Side 2

Kort overblikk over kurset sålangt

Oppgave N(0, 1) under H 0. S t n 3

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Befolkningsvekst. Nico Keilman. Demografi grunnemne ECON 1710 Høst 2011

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

Klarer selvstendig næringsdrivende å opprettholde sin virksomhet over tid?

SPSS Statistics-kurs 2014

Transkript:

www.nr.no Modellering og prediksjon av kundeavgang Clara-Cecilie Günther, Ingunn Fride Tvete, Geir Inge Sandnes, Ørnulf Borgan, Kjersti Aas Statistics for Innovation (SFI) 2 Årsmøte Norsk ASTIN-gruppe, 13.03.2012

Innledning Lett å bytte forsikringsselskap. Ustabil kundemasse. Vanskelig og dyrt å tiltrekke seg nye kunder. Ved å redusere avgangsraten kan inntektene økes. Men hvilke kunder har størst sannsynlighet for å forlate selskapet? www.clipart.com http://www.newsviewspedia.com/insurance.html

Data fra Gjensidige Bil, bolig og personforsikring November 2007 mai 2009 (19 måneder) 160 000 kunder www.clipart.com

Data Ikke alle kunder er med i hele perioden, noen kommer inn underveis. Kunder yngre enn 18 år eller eldre enn 75 år er utelatt. Kunder med årspremie høyere enn 50 000 kr er utelatt. Kunder som forsvinner på grunn av død er utelatt.

Definisjon kundeavgang Kunden har sagt opp alle forsikringer i selskapet. Kundeavgang kan være frivillig eller ufrivillig. Bytte av forsikringsselskap frivillig. Avgang på grunn av død ufrivillig.

Andre studier Kundeavgang har blitt studert i mange bransjer, f.eks. for mobilkunder og avisabonnenter. Vanlige modeller: Logistisk regresjon (GLM) Enkel og gir gode resultater, lett å tolke effektene. Antar lineære sammenhenger. Levetidsanalyse Data mining-metoder

Modell I La og Kunde Måned Respons Forklaringsvariable 1 2007/11 Y 1,2007/11 1 2007/12 Y 1,2007/12 X 1,2007/11... 1 2009/05 Y 1,2009/05 X 1,2009/04 2 2008/02 Y 2,2008/02 2 2008/03 Y 2,2008/03 X 2,2008/02.

Generalisert lineær modell (GLM)

Generalisert additiv modell (GAM) Bruker glattede ikke-parametriske funksjoner av forklaringsvariablene Erstatter med :

GAM II Ulemper med GAM: Overtilpasning. Vanskelig tolkning av effekter. Løsning: Bruke GAM til å oppdage ikke-lineære sammenhenger, men tilpasser vanlig GLM.

Model II Trinn 1: Bruk generaliserte additive modeller (GAM) til å oppdage ikke-lineære sammenhenger mellom og. Ved hjelp av GAM-plott defineres nye variable. Trinn 2: Tilpass generalisert lineær modell (GLM) med variable definert fra trinn 1.

Forklaringsvariable Alder Kjønn Årspremie (totalt, bil, bolig, person) Levetid Antall forsikringer (totalt, bil, bolig, person) Rabatt Partner www.clipart.com www.photos.com

Redefinerte forklaringsvariable ToHjem: Mer enn to boligforsikringer. Hovedforsikringer: Antall hovedtyper (bil, bolig, person) forsikringer. ReturnertKunde: Tidligere kunde har returnert til selskapet.

Endringsvariable Kan endringer i kundeforholdet indikere at kunden snart vil forlate selskapet? Har sett på endringer i bilforsikring og rabatt 1, 3 og 6 måneder tilbake i tid. BilKansellert: Bilforsikring sagt opp sist måned. RabattEndring: Fra rabatt til ingen rabatt sist måned.

Variable til GAM Alder Kjønn Årspremie Levetid Hovedforsikringer Rabatt Partner ToHjem BilKansellert Rabattendring Kontinuerlige variable plottes i GAM-plott.

GAM-plott av kontinuerlige variable Effekten av hver variabel er gitt de andre variablene i modellen.

Variabel definert fra GAM: Alder

Variabel definert fra GAM: Levetid

Variabel definert fra GAM: Årspremie

Endelig modell Variable i modellen: Originale variable: Partner, Kjønn, Rabatt Redefinert: Hovedforsikringer, ReturnertKunde, ToHjem Endringsvariable: BilKansellert, Rabattendring Fra GAM: log.årspremie, Alder.T, Levetid.K Samspill mellom: Partner og log.årspremie Hovedforsikringer og log.årspremie Rabatt og log.årspremie Rabatt og Hovedforsikringer Kjønn og Alder.T 10% av dataene brukes til å tilpasse modellen.

Estimerte hovedeffekter Variabel Estimert effekt Returnert kunde 0.58 ToHjem -0.47 Levetid.K=1 Levetid.K=2 0.61 0.34 BilKansellert 0.16 RabattEndring 1.79 Se opp for "røde" kunder - disse har større sansynlighet for avgang!

Estimerte samspill Kunder med høy årspremie er mer lojale hvis deres partner også er kunde hos Gjensidige. Dersom man får rabatt avtar avgangssannsynligheten, og den avtar videre dersom antallet hovedtyper forsikring øker.

Prediksjondatasett Samme tidsperiode: Gjenværende 90% av dataene, ikke brukt til modelltilpasning. Ny tidsperiode: Nye data: Juni 2009 januar 2010 Testsett A: Kundene fra opprinnelig testsett. Testsett B: Kundene fra opprinnelig treningssett.

Prediksjonsmål Klassifiseringsregel: Kunde med avgangssannsynlighet høyere enn valgt grenseverdi klassifiseres som avgått. 1. Telle opp antall treff (kunder som virkelig har avgått). Avhengig av grenseverdi. 2. ROC: Plotter sann positiv rate mot falsk positiv rate for alle mulige grenseverdier. Sann positiv rate: Andel riktig klassifiserte avgåtte kunder. Falsk positiv rate: Andel feilklassifiserte avgåtte kunder.

Resultater - opptelling Testsett Grenseverdi Forbedring i forhold til tilfeldig gjetting 90%, samme tidsperiode 1000 høyeste 15 ganger Testsett A, 90%, ny tidsperiode Testsett B, 10%, ny tidsperiode 1000 høyeste 16 ganger 100 høyeste 18 ganger

ROC for tre prediksjonsdatasett

Prediksjonsevne over tid Prediksjonsevnen sjekket måned for måned fra juni 2009 til januar 2010. Ingen tydelige trender. Stabilt mønster i kundeavgang i denne perioden.

Avsluttende kommentarer Denne modelleringsteknikken kan brukes i customer relationship management (CRM). Identifisere kunder som vil forlate selskapet. Bedre enn tilfeldig gjetting. Modellen kan kanskje forbedres med mer informasjon. Günther, Clara-Cecilie; Tvete, Ingunn Fride; Sandnes, Geir Inge; Aas, Kjersti and Borgan, Ørnulf: Modelling and predicting customer churn from an insurance company, Forthcoming in Scandinavian Actuarial Journal.