Hvorfor er det så vanskelig å forklare nedgangen i antall drepte i trafikken? Trafikdage på Aalborg universitet 2016 Rune Elvik
600 Antall drepte i trafikken i Norge 1970-2015 500 400 300 200 100 0 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 2020 Side 2
Hva forklarer nedgangen i antall drepte? Det er et spørsmål vi skulle ønske at vi hadde et godt svar på Det har vi dessverre ikke Det er ikke lett å gi et forskningsmessig godt begrunnet svar på spørsmålet Formålet med denne presentasjonen er å forklare hvorfor det er slik Side 3
Hva er problemene? Det finnes veldig mange mulige forklaringsvariabler: Vi har 45 år, men Mer enn 45 tenkelige forklaringsvariabler Noen av forklaringsvariablene varierer heller lite eller sakte: Utskiftning av kjøretøyparken Befolkningens aldersfordeling Noen av forklaringsvariablene er høyt korrelerte med tid og med hverandre: Eksempler vil bli gitt Det mangler data om mange forklaringsvariabler: Fart, promillekjøring, mye annen atferd Variabler som registreres har målefeil eller kjedebrudd: Lengde av motorveger; trafikkarbeid; forseelser Side 4
Et datasett til illustrasjon Antall drepte 1997-2013 (17 år) Forklaringsvariabler (15 i alt): År (omgjort til tellevariabel 1, 2, 17) Trafikkarbeid (millioner kjøretøykilometer) Andel tunge kjøretøy (prosent av trafikkarbeid) Andel moped og motorsykkel (prosent av trafikkarbeid) Beltebruk blant bilførere (spredtbygd strøk) Andel av trafikkarbeidet utført av biler med ESC Andel av trafikkarbeidet med biler med fem EuroNCAP-stjerner Andel av trafikkarbeidet med biler med nødbremseassistent Arbeidsledighet i prosent av arbeidsstyrken Andel av 18-årskull med førerkort Kontrollerte førere per million kjøretøykilometer Side 5
Datasett til illustrasjon, fortsettelse Forklaringsvariabler (fortsettelse): Forenklede forelegg per million kjøretøykilometer Promilleførere per 1.000 førere stanset av Utrykningspolitiet Kilometer veg med midtrekkverk Årlig nedbørmengde i prosent av normal mengde Andre variabler som gjerne skulle vært med: Fartsutvikling (sammenlignbare data bare etter 2006) Piggdekkbruk (sammenlignbare data bare etter 2004) Andel tunge kjøretøy med godkjente bremser (bare etter 2004) Andel av trafikkarbeidet på motorveg (bare etter 2005) Andel av trafikkarbeidet fordelt på fartsgrenser Barnehagedekning Og så videre, og så videre Side 6
Korrelasjoner skaper problemer Yrcount Millkm Heavyshare Mcshare Beltuse ShareESC Sharefive Sharebrake Unemploy Youngdrive Checkmill Ticketmill UP-rus Kmmidt Precip Fatals -0.922-0.910 0.414-0.896-0.791-0.924-0.892-0.922 0.014 0.643 0.706-0.561-0.683-0.915-0.154 Yrcount 0.995-0.470 0.967 0.882 0.995 0.950 0.988-0.160-0.781-0.861 0.562 0.759 0.959 0.051 Millkm -0.493 0.960 0.864 0.986 0.926 0.973-0.179-0.816-0.863 0.607 0.724 0.937 0.055 Heavyshare -0.512-0.451-0.422-0.292-0.387-0.015 0.553 0.535-0.173-0.316-0.290 0.116 McShare 0.857 0.947 0.886 0.937-0.122-0.731-0.917 0.440 0.701 0.892 0.043 Beltuse 0.879 0.861 0.882-0.246-0.677-0.793 0.377 0.784 0.857-0.005 ShareESC 0.975 0.998-0.193-0.775-0.829 0.557 0.765 0.979 0.051 Sharefive 0.986-0.256-0.706-0.753 0.475 0.785 0.993 0.055 Sharebrake -0.192-0.743-0.814 0.526 0.788 0.990 0.050 Unemploy 0.542 0.216-0.101-0.100-0.202-0.083 Youngdrive 0.715-0.675-0.419-0.684-0.014 Checkmill -0.320-0.689 0.509 0.170 Ticketmill 0.266 0.509 0.170 UP-rus 0.808 0.087 Kmmidt 0.104 Precip Side 7
De mest lovende variabler Andel tunge kjøretøy (positiv: økt andel = flere drepte) Arbeidsledighet (negativ: flere ledige = færre drepte) Andel av 18-årskull med førerkort (positiv: flere med førerkort = flere drepte) Forenklede forelegg per million kjøretøykilometer (negativ: flere forelegg = færre drepte) Promilleførere per 1.000 kontrollerte av UP (positiv: flere med promille = flere drepte) Andel av normalnedbør (negativ: mer nedbør = færre drepte) Side 8
Antall drepte 400 Antall drepte i trafikken 1997-2013 og modell til forklaring av utviklingen 350 300 250 200 150 100 50 0 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 År Data Modell Side 9
Er dette en god modell? Kjennetegn ved gode ulykkesmodeller (som forklarer utvikling over tid): Forventningsrette prediksjoner (predikerer ikke systematisk for lavt eller for høyt antall drepte) Høy (men ikke for høy) forklaringsgrad Ikke autokorrelerte restledd (fanger opp systematisk variasjon over tid) Normalfordelte restledd (har ikke avvikende datapunkter som ikke kan forklares) Homoskedastiske restledd (jevn restleddsvariasjon i hele datasettet) Signifikante koeffisienter med «riktig» fortegn (manglende signifikans kan indikere kollinearitet) Side 10
Estimerte koeffisienter Side 11
Dekomponering av varians All varians (100 %) Systematisk (92,7 %) Tilfeldig (7,3 %) Forklart av modell (83,1 %) Uforklart (16,9 %) Side 12
Er en bedre modell mulig? Modellen forklarte ikke all systematisk variasjon Det kan være plass til en eller to variabler til Ikke alle fortegn på koeffisientene var riktige Mange viktige variabler er utelatt Modellen ble forsøksvis utvidet med to variabler: Andel med elektronisk stabilitetskontroll Kilometer veg med midtrekkverk Disse variablene er imidlertid høyt korrelerte Kun elektronisk stabilitetskontroll inngikk i den nye modellen Side 13
Koeffisienter to modeller Panel A: Model 1 Panel B: Model 2 Variables and terms Estimate Standard error P-value Estimate Standard error P-value Constant term 4.795 0.529 0.000 8.255 0.735 0.000 Share of heavy vehicles -0.192 0.075 0.010 0.230 0.095 0.016 Unemployment -0.246 0.058 0.000 0.155 0.079 0.051 Young drivers at 18 0.056 0.013 0.000-0.066 0.022 0.002 Drivers cited per million vehicle km 0.060 0.043 0.163-0.113 0.045 0.011 Drivers testing positive for alcohol -0.560 0.107 0.000 0.361 0.181 0.046 Precipitation as percent of normal -0.003 0.002 0.067 Share of cars with electronic stability control -0.017 0.003 0.000 Over-dispersion parameter 0.001 0.000 Percent of systematic variation explained 83.1 99.2 Side 14
Når man bytter ut en variabel Endres fortegnet på alle variabler som er felles i de to modellene Det er dermed ikke mulig å gi noen meningsfull tolkning av resultatene Modellene ser formelt bra ut, men har et meningsløst innhold Variabler som er korrelerte med hverandre gir opphav til meningsløse resultater: Økt bruk av bilbelte har redusert antall drepte fotgjengere og syklister Side 15
Lærdom Man kan lage modeller som i det minste stort sett oppfyller formelle krav til gode modeller De estimerte koeffisientene kan likevel være mer eller mindre meningsløse Et viktig krav til en god modell må være at den gir rimelige resultater i lys av det vi ellers vet Vi vet, for eksempel at antall drepte i bil er redusert Det er rimelig å tro at økt bruk av bilbelter og elektronisk stabilitetskontroll har bidratt til dette En modell som tyder på det motsatte mangler troverdighet Side 16