Prediktiv analyse Segmentering av brukere hos Statens Innkrevingssentral Eivind Martinsen
SAP og Bouvet
Bouvet si6 SAP miljø Vi leverer hele prosjekter, Consulting og Forvaltning Har ca 100 konsulenter Et av de ledende SAP miljøer i Norge Forvaltningsoppgaver for over 30 SAP kunder Gullpartner med SAP Forsvaret
Utviklingen av SAP ERP
Utviklingen av rapportering
Prediktiv Analyse Hvorfor er det mer aktuelt nå enn tidligere? Har tilgang på strukturerte og ustrukturerte data Billigere å lagre data Har verktøy til å analysere data «real time» Hvorfor skal vi gjøre det? Konkurransefordel å segmentere målgrupper. Kan med større sannsynlighet forutse hva som kommer til å skje
Statens innkrevingssentral Prediktiv Analyse, hvordan utny4e dine data mer effektivt. «Vi er en aktiv pådriver og bidragsyter til samordning, forenkling og effektivisering av offentlig sektor»
Vi krever inn 188 kravtyper 35 oppdragsgivere 15 departement
Noen nøkkeltall 2014 Innkrevd beløp 4,5 mrd. kr. 15 mill. kr./årsverk 1,2 mill. nye krav Driftskostnad pr. innkrevd kr. er ca. 6,2 øre Fordeling innkrevd beløp: 528 Politi og domstoler Lånekassen Finanstilsynet NRK Regnskapsregisteret Andre 255 319 324 764 2,276
Noen flere nøkkeltall 200 000 utlegg årlig 60 000 løpende trekk i lønn og trygd 25 000 inngående telefonsamtaler fra brukere hver måned 25 000 unike brukere besøker nettstedet hver måned 2,8 millioner utgående brev per år
SI har hatt en betydelig vekst 130 % økning i innkrevd beløp per årsverk siden 2000 Over 90 % automatiseringsgrad i behandling av krav
Ekstern oppmerksomhet 2. plass beste Call Center Årets rakett DIFI Klart språk Beste standardbrev Brukervennlighet 2. plass beste nettsted Farmandprisen Årets IT-avdeling 2014 Statens klarspråkpris 2014 2012 2013 2014 2015
Hvorfor segmentere? Noen saker løses frivillig, mens andre krever tvangstiltak. Rasjonell ressursbruk får vi ved å fokusere på de sakene som ikke løses frivillig. Prediktiv analyse og segmentering kan brukes til å estimere sannsynligheten for at en sak løses frivillig eller ikke.
Oppdrag: Segmentere skyldnerne ut fra betalingssannsynlighet Identifisere mulige og sannsynlige parametre som kan påvirke betalingssannsynlighet. Analyse av data Lage en skåringsmodell
Hva skal vi bruke segmenteringen til? Ringe ut til skyldnere Tilpasse avdrag etter betalingsevne Gi automatisk avdragsordning Minske dokumentasjonskrav i saker Tilpassede eller sende ut ekstra varsel Anbefale gjeldsrådgivning til enkelte Avskrive enkelte skyldnere/saker Gi bedre styringsinformasjon for SI. F.eks. forutsi arbeidsmengde for saksbehandlere.
Segmentere skyldnerne som har misligholdte saker og predikere om de vil betale frivillig før utleggsforretning Segmentere før de går til utleggsforretning F.eks ringe de før utlegg iverksettes Bruksområder: Prioritere ressursbruk i SI Justere innkrevingsstrategien For å ringe opp skyldnere For å tilpasse brev som går ut til skyldnerne For å endre innkrevingsstrategi for utvalgte grupper
100% Sannsynlighet for frivillig oppgjør Modell basert på logis:sk regresjon 0% Modellen beregner skyldnernes sannsynlighet for frivillig oppgjør Skåre
100% Sannsynlighet for frivillig oppgjør Vi ønsker f.eks. å iden:fisere der vi tror utgående telefoner har effekt (ca 50% sannsynlighet?) 0% HØY SCORE MEDIUM SCORE LAV SCORE Skyldnerne plasseres i segmenter i forhold :l sannsynlighet for frivillig oppgjør. Skåre
Datagrunnlag
Datagrunnlag Vi har to sett datatabeller som er brukt som utgangspunkt for analysen: Kravdata Historiske kravdata fra SI Persondata Dette er satt sammen fra flere forskjellige kilder: Datavarehuset, Folkeregisteret og Utleggsdatabasen
Kravdata Data i rødt overføres :l persondatatabellen som brukes for selve analysene Kilde Felt Format Beskrivelse Datavarehuset OPPDRAGSGIVER_ID Tekst Oppdragsgiver Datavarehuset SISTE_TILTAK Tekst Siste :ltak Datavarehuset KRAV_TYPE_ID Tekst Krav type Datavarehuset OPPRINNELIG_BELOP Numerisk Opprinnelig beløp Datavarehuset RESTBELOP Numerisk Restbeløp Datavarehuset KRAV_ODATO Dato Krav dato Datavarehuset MISLIGHOLD_DATO Dato Datavarehuset AVSLUTTET_DATO Dato Følgende felt blir oppdatert (overskrevet) i løpet av saksbehandlingen : SISTE_TILTAK RESTBELOP Følgende felt se]es i løpet av saksbehandlingen : MISLIGHOLD_DATO AVSLUTTET_DATO Hvis ikke misligholdt = blank Hvis ikke avslu]et = blank
Persondata Data i rødt hentes fra Kravdatatabellen og blir overskrevet med siste krav som er misligholdt Kilde Felt Format Beskrivelse Datavarehuset ID Numerisk Anonymisert FNR Datavarehuset Kjønn 1/0 Kvinne - mann Datavarehuset Alder Numerisk Alder på skyldner Datavarehuset Kommunegruppe Tekst SSBs 16 kommunegrupper DSF Sivilstand Tekst Gic, samboer, aleneboer DSF Hjemmeboende barn Numerisk antall barn DSF Antall personer i husstanden Numerisk Antall personer i husstanden Al:nn? Enkeltmannsforetak 1/0 1 Skyldner med inntekt fra enkeltmannsforetak ellers 0 DSF Antall flyfnger siste 5 år Numerisk Antall ulike adresser siste fem år DSF Tid siden siste flyfng Numerisk Antall dager siden siste adresseendring FNR Utlending 1/0 1 FNR- Type utlending, ellers 0 Datavarehuset Gjeldsstørrelse Numerisk Sum alle krav hos SI Datavarehuset Tid siden siste missligholdte krav Numerisk Dager Datavarehuset Iverksa] tvangs:ltak 1/0 1 for IRT, Lønnstrekk, trygdetrekk, pant etc ellers 0 Utleggsdatabasen Månedlige trekkbeløp Numerisk Trekk uten SI Utleggsdatabasen Sum alle krav Numerisk Sum alle ak:ve krav i utleggsdatabasen Datavarehuset Oppdragsgiver Tekst Datavarehuset Kravtype - master Tekst Kravtype for "Hovedkrav" Datavarehuset Datostempel misgholdtmerket- master Dato Dato for når misligholdtmerke ble sa] Datavarehuset Kravstørrelse - master Numerisk Størrelse på "hovedkrav" Datavarehuset IRT- merket - master 0/1 1 dersom kravet er merket IRT ellers 0 Datavarehuset Datostempel IRT - merket - master Dato Dato for når IRT- merket er sa] Datavarehuset Utleggsforretning - master 0/1 1 dersom det er gjennomført utleggsforretning Datavarehuset Datostempel Utleggsforretning - master Dato Dato for når Utleggsforretning er holdt Datavarehuset Utleggspant - master 0/1 1 dersom kravet er gjort opp e]er utleggspant ellers 0 Datavarehuset Datostempel Utleggspant - master Dato Dato for når Utleggspant er sa]
Beregnede data Data for prediktiv analyse er beriket med aggregerte data fra sakshistorikken. Følgende data er tillegg til kildedata og beregnes fra alle krav en person har hatt Variabel Dager siden forrige sak Antall saker Antall åpne saker Antall avslu]ede saker Es:mert/Anta] utleggsforretning Frivillig Antall saker med utleggsforretning Antall saker uten utleggsforretning Beskrivelse Antall dager mellom siste og nest siste kravs misligholdsdato Antall krav en person har ha], inkluderer misligholdt krav (siste) og alle :dligere krav Antall krav en person har ha] og som fortsa] er åpen, dvs. ingen avslu]et dato Antall krav en person har ha] som er avslu]et, dvs. avslu]et dato er oppgi] Se beskrivelse i slide nedenfor Motsa] av Es:mert/Anta] utleggsforretning Antall :dligere krav en person har ha] og som er anta] å ha endt med utleggsforretning jfr. kode for siste :ltak. Se beskrivelse av Es:mert Utleggsforretning. Siste krav er ikke ta] med. Antall :dligere krav en person har ha] og som ikke er anta] å ha endt med utleggsforretning jfr. kode for siste :ltak. Se beskrivelse av Es:mert Utleggsforretning. Siste krav er ikke ta] med.
Prediktiv analyse
Prediktiv analysemodell Vi har brukt 2 forskjellige algoritmer: Robust Regression & Logis:c Regression. (Data som vises i de neste slidene er fra Robust Regressjon) Predic:ve power 0,6863 Predic:on Confidence (KR) 0,9887 CM - Classifica:on Rate 76,63 % CM - Sensi:vity 77,10 % CM - Specificity 76,14 % Modelleringsprogramvare brukt : SAP InfiniteInsight V7.0.1 Algoritme : Kxen.RobustRegression Antall modeller testet med denne algoritmen: 7 Beste modell predikerer riktig 69% av sakene CM - Precision 76,81 % CM - F1 Score 0,77
Den beste modellen inneholder følgende 13 variabler: Antall saker til Utleggsforretning Sum krav i Utleggsdatabasen Antall dager siden forrige sak Enkeltmannsforetak (J/N) Kravtype Kommune Sum krav hos SI Antall hjemmeboende barn Alder Antall dager siden siste flytting Antall saker hos SI Sivilstand Antall personer i husstanden
Bidrag fra hver variabel Grafen under viser hvor mye hver enkelt variabel bidrar i prediksjonsmodellen. Saker :l utleggsforretning Summen på kravene i utleggsdatabasen Antall dager siden vedkommende fly]et sist.
Antall saker til Utleggsforretning 0 saker gir posi:v skåre (Høyere sannsynlighet for frivillig oppgjør) Det er ingen forskjell på 1 eller flere saker.
Sum krav i Utleggsdatabasen Trolig forsinkelsesgebyret som slår ut i posi:v retning her og opphever effekten 0 eksisterende saker i utleggsdatabasen predikerer posi:vt. Mindre sammenheng mellom størrelse på kravene i UB.
Antall dager siden forrige sak 0 :dligere saker predikerer posi:vt. Tallene for 140-277 kan indikere at halvårlige periodiserte krav (som NRK) kan predikere nega:vt (mindre sannsynlighet for frivillig betaling). Altså en spuriøs sammenheng med dager siden forrige sak.
Skåringsmodell
Skåringsmodell Basert på logaritmen logistisk regresjon har vi utarbeidet en skåringsmodell som vil predikere hvem som vil betale før utleggsforretning avholdes. For hver person beregnes en sum som forteller sannsynlighet for at vedkommende vil betale Sum = konstantledd + sum av alle verdier for denne personen
Skåringsmodell Variabel Kategori Score 0. Konstantledd Legges :l for samtlige 0,905 1. Antall :dligere saker med UF En eller flere - 2,264 2. Sum krav UB Krav foreligger - 1,411 3. Dager mellom siste saker 181-315 - 0,373 4. Enkeltmannsforetak Ja 0,261 5. Krav type 114 (Bot Dom), 490 (NRK), 632 (Regress) - 0,335 6. Kommune 219, 220, 230, 235, 237, 403, 701, 906, 1103, 1201, 1601, 1805, 1833 0,087 7. Sum krav 1554,11 (NRK) 0,129 8. Hjemmeværende barn >0 0,135 9. Alder 30-55 0,080 10. Antall dager siden siste flyfng <1606-0,088 11. Antall saker 1-0,100 Antall saker 2-9 0,077 12. Sivilstand Gic 0,197 13. Personer i husstand 1 0,202 Personer i husstand 2-7 0,214
Skåringsmodell
Eksempel: Asbjørn Bakke Asbjørn er 43 år og fagarbeider i Oslo. Han er samboer og har tre barn. Samboer er i jobb. De eier en rekkehusleilighet. Asbjørn har kontinuerlig krav til tvangsinnkreving hos SI. Det har han hatt i flere år. Han har aldri sendt inn dokumentasjon på sin økonomiske situasjon til SI. Asbjørn har hatt påleggstrekk på kr 2700,00 og kr 3000,00 i flere toårsperioder.
Asbjørn Variabel Kategori Asbjørn Score 0. Konstantledd Legges :l for samtlige Ja 0,905 1. Antall :dligere saker med UF En eller flere Ja - 2,264 2. Sum krav UB Krav foreligger Ja - 1,411 3. Dager mellom siste saker 181-315 Nei - 0,373 4. Enkeltmannsforetak Ja Nei 0,261 5. Krav type 114 (Bot Dom), 490 (NRK), 632 (Regress) Nei - 0,335 6. Kommune 219, 220, 230, 235, 237, 403, 701, 906, 1103, 1201, 1601, 1805, 1833 Ja, Bor i Asker 0,087 7. Sum krav 1554,11 (NRK) Nei 0,129 8. Hjemmeværende barn >0 Ja 0,135 9. Alder 30-55 Ja 0,080 10. Antall dager siden siste flyfng <1606 Nei - 0,088 11. Antall saker 1 Nei - 0,100 2-9 Ja 0,077 12. Sivilstand Gic Ja 0,197 13. Personer i husstand 1 Nei 0,202 SUM 2-7 Ja 0,214-1,98
Eksempel: Asbjørn Bakke Asbjørn er 43 år og fagarbeider i Oslo. Han er samboer og har tre barn. Samboer er i jobb. De eier en rekkehusleilighet. Plassering i segmenteringsmodell
Asbjørn Skåre: 1,98 Ca 10% betalingssannsynlighet
Verdiskapningen for SI Utføre prediktiv analyse i systemet på SI så man kan få frem hva slags løsning man skal tilby brukeren. Sannsynligheten for at vedkommende betaler (skåringen) kommer opp i saksbehandlersystemet.
Videre arbeid
Utfordring for SI Datasettene er laget slik at vi ikke har historikk på prediksjonsøyeblikket. Vi vet ikke hvordan utfallet har vært. Tiltak: For å kunne predikere dette korrekt er SI nødt til å starte å logge data på nye måter.
Videre arbeid Teste ut modellen i praksis Etablere dette som en standard måte å måle og teste ut nye tiltak på Forbedre datakvalitet. Dette er en kontinuerlig prosess.
Forbedre datakvalitet Registrere flere data (historikk) gjennom innkrevingsprosessen for å kunne gi bedre prediksjon Vurdere å få tilgjengelig data fra flere kilder Eksisterende data som SI har Eksisterende data fra andre kilder