www.nr.no Modellering av fotballkamper og blodgiving ved hjelp av Poisson og binomisk fordeling Magne Aldrin, Norsk Regnesentral og Universitetet i Oslo UiO april 2011
Norsk Regnesentral Forskningsinstitutt med 65 forskere 45 av disse innen statistisk modellering Prediksjon av oppmøte av blodgivere Prediksjon av utfall fotballkamper Hvor mye sild er det i havet? Spredning av sjukdommer mellom oppdrettsanlegg Klima, hvor mye vil global temperatur stige? Antibiotikaresistens Hva er strømprisen i morgen? Hvor mange eksemplarer av Dagblader bør leveres til hvert av de 11000 utsalgsstedene i morgen? 1
Oppmøte av blodgivere - binomisk fordeling 2
Bakgrunn Blodbanken i Oslo, oppmøte etter avtale Kun 59% med inngått avtale møter opp Må derfor overbooke Stor variasjon fra dag til dag (40%-90%) For få oppmøtte gir for lite blod og uutnyttet personell For mange oppmøtte gir køer og misfornøyde givere som kan forsvinne på sikt 3
Hva kan gjøres? Tiltak for økt oppmøteprosent (påminnelse på epost eller SMS) Prediksjon av oppmøte dagen i forveien Kan dermed kalle inn ekstra blodgivere eller omdisponere personell Prediksjon mulig pga. mye systematikk: Eldre møter oftere enn yngre Dårligere oppmøte på mandager 4
Data 180 000 avtaler fra 1/4 2001-30/11 2003 30-400 avtaler per dag Har registrert for hver avtale: Oppmøte/ikke oppmøte (respons) 17 forklaringsvariable: Alder Avtale ved personlig kontakt eller brev Tid siden avtaleinngåelse Ukedag 5
Statistisk modellering Y d = antall som møter opp dag d, vil predikere denne A d = antall inngåtte avtaler er kjent y id = 1 hvis i te potensielle giver møter opp, 0 ellers Y d = i y id p id = P (y id = 1) = sannsynlighet for at i te potensielle giver møter opp y id Bin(n = 1, p = p id ) Bernoulli forsøk 6
Hvis vi antar lik sannsynlighet p for alle givere og uavhengighet mellom giverne blir Y d Bin(A d, p) Forventa antall oppmøtte = E(Y d ) = A d p 7
Regresjon - modell for p id Modellerer p id som funksjon av forklaringsvariable p id = f(β 0 + β 1 alder + β 2 kjønn...) Forventa antall oppmøtte = E(Y d ) = i p id 8
Estimering Estimerer (tallfester) modellen fra tilgjengelige data Finner de β-er som passer best til dataene 9
Resultater Sannsynlighet for oppmøte er høyest hvis Avtale gjort ved personlig kontakt Kort tid siden avtalen blei inngått Kort tid siden siste blodgiving Giveren har gitt blod mange ganger, eller er førstegangsgiver Giveren har tidligere pleid å dukke opp Giveren er en eldre person Det er fredag Det er tidlig på morgenen 10
Prediksjontest Bruker data tom. 30/11 2002 til estimering Predikerer daglig oppmøte 1/12 2002-30/11 2003 Sammenlikner predikert oppmøteandel Ŷ d /A d hvor Ŷ d = predikert oppmøte dag d A d = antall avtaler dag d med sann oppmøteandel Y d /A d 11
Prediksjon December 1. 2002 June 5. 2003 0.4 0.5 0.6 0.7 0.8 0.9 true prediction 95% prediction limits 0 20 40 60 80 100 120 June 6. 2003 November 30. 2003 0.4 0.5 0.6 0.7 0.8 0.9 0 20 40 60 80 100 120 12
Gevinst Hvis en bruker individuell oppmøtesannsynlighet reduseres prediksjonsintervallet med 43% i forhold til å bruke samme oppmøtesannsynlighet for alle 13
Fotball - Poissonfordeling Vi går noen uker tilbake i tid Norge skal spille hjemmekamp mot Danmark i EM-kvalifisering 14
Antall mål Poissonfordelt Norge kan skåre 0, 1, 2, 3,... mål Danmark kan skåre 0, 1, 2, 3,... mål Antall mål til Norge = Y N P o(λ N ) Antall mål til Danmark = Y D P o(λ D ) 15
Forventning λ λ N λ D = M b F h S N /S D = M b S D /S N M b : Normalt antall mål til et bortelag F h : Hjemmebanefordel S N : Styrketall Norge S D : Styrketall Danmark 16
Parameterestimering Tallfester normalt antall mål og hjemmebanefordel fra tidligere kamper i tidligere EM-kvalifiseringer Normalt antall mål til et bortelag = 1.16 Hjemmebanefordel = 1.20 Tallfester styrke til hver lag ut fra FIFA-ranking Styrketall Norge = 93 Styrketall Danmark = 83 Styrketall Portugal = 100 17
Sannsynligheter Sannsynlighet i % for 0-5 mål for hver lag 0 1 2 3 4 5 Norge 21 33 26 13 5 2 Danmark 36 37 19 7 2 0 P(1-1) = 33 % x 37 % = 12 % P(Norsk seier) = 49 % P(Uavgjort) = 26 % P(Dansk seier) = 25 % 18
Etter kampen P(Norge kvalifiserer seg til EM) = 77 % 19