Modellering av fotballkamper og blodgiving ved hjelp av Poisson og binomisk fordeling



Like dokumenter
Analyse av data relatert til friksjonsmålinger og ulykkesfrekvens ved to veistrekninger i Oslo i perioden

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO

Modellering og prediksjon av kundeavgang

UNIVERSITETET I OSLO

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kap. 6, Kontinuerlege Sannsynsfordelingar

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

HØGSKOLEN I STAVANGER

BioAlder, et midlertidig verktøy for biologisk aldersvurdering

Rekrutteringsfunksjoner for sild, torsk og lodde

Eksponensielle klasser og GLM

Om eksamen. Never, never, never give up!

Oppgave 1 Vi lar X være antall tankskip som ankommer havnen i løpet av en dag. Vi har fått oppgitt at X poisson(λ) med

Kap. 6, Kontinuerlege Sannsynsfordelingar

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Oppgave N(0, 1) under H 0. S t n 3

Hypergeometrisk modell

NOTAT. Feiing og salting i Strømsås-tunnelen mars innledende analyse. Norsk Regnesentral SAMBA/27/04. Magne Aldrin. 9.

Plasmaferese en alvorlig hendelse å ta lærdom av

Bernoulli forsøksrekke og binomisk fordeling

Kort overblikk over kurset sålangt

TMA4240 Statistikk Høst 2015

Kap. 6, Kontinuerlege Sannsynsfordelingar

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

TMA4240 Statistikk Høst 2009

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

5.2 Diskret uniform fordeling. Midtveiseksamen (forts.) Kapittel 5. Noen diskrete sannsynlighetsfordelinger. TMA4245 V2007: Eirik Mo

Appendix 5. Letters of information

Noen diskrete sannsynlighetsfordelinger. (utarbeidet av Mette Langaas), TMA4245 V2007

Eksponensielle klasser

Inferens i regresjon

Statistikk og dataanalyse

Falske positive i lusetellinger?

Introduksjon til Generaliserte Lineære Modeller (GLM)

UNIVERSITETET I OSLO

Hypotesetesting av λ og p. p verdi.

Kontinuerlige sannsynlighetsfordelinger.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

b) Hva er sannsynligheten for at re tilfeldig utvalgte bilmotorer alle har en levetid på minst 17 år?

Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt

Forskningsresultater som brukes og synes ved Norsk Regnesentral

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Hypergeometrisk modell

TMA4240 Statistikk H2010

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Klimaendringene. - nye utfordringer for forsikring? Elisabeth Nyeggen - Gjensidige Forsikring

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Formelsamling i medisinsk statistikk

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Kontinuerlige sannsynlighetsfordelinger.

TMA4240 Statistikk Høst 2016

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Framtidige klimaendringer

UNIVERSITETET I OSLO

tirsdag_11_09_2018_binomisk_fordeling_poisson_fordeling.notebook September 11, 2018

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

God ressursstyring Erfaringer! Hjertepoliklinikken Avdeling for Hjertesykdommer Ahus. Avdeling for Hjertesykdommer Hjertepoliklinikken

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Statistikk og havressurser

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Kapittel 3: Studieopplegg

Løsningsforslag statistikkeksamen desember 2014

Klimaendringenes konsekvenser for kommunal og fylkeskommunal infrastruktur

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Introduksjon til Generaliserte Lineære Modeller (GLM)

Eksamensoppgave i TMA4240 Statistikk

Statistikk og havressurser

Beregning av trafikkvolum for sykler basert på basiskurvemetoden

Kap. 6.1: Fordelingen til en observator og stok. simulering

ÅMA 110 (TE 199) Sannsylighetsregning og statistikk Løsningsforslag til eksamen vår 2005, s. 1. Oppgave 1

UNIVERSITETET I OSLO

Effektevaluering av Ny GIV - foreløpige resultater

Bakgrunn. Data. Sammendrag Modellering av reisehensikts- og døgnfordelinger for togreiser

Oppgave 1 a) La X være massen til et tilfeldig valgt egg, målt i gram. Sannsynligheten for at et tilfeldig valgt egg veier mer enn 60 g er

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Erfaringer nytt spørreskjema for blodgivere

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Oppgave 1 En ansatt skal overvåke et prosjekt der en lapp velges tilfeldig fra en boks som inneholder 10 lapper nummerert fra 1 til 10.

UNIVERSITETET I OSLO

STK juni 2016

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Innbyggerundersøkelse - Nye Stavanger 2018

Transkript:

www.nr.no Modellering av fotballkamper og blodgiving ved hjelp av Poisson og binomisk fordeling Magne Aldrin, Norsk Regnesentral og Universitetet i Oslo UiO april 2011

Norsk Regnesentral Forskningsinstitutt med 65 forskere 45 av disse innen statistisk modellering Prediksjon av oppmøte av blodgivere Prediksjon av utfall fotballkamper Hvor mye sild er det i havet? Spredning av sjukdommer mellom oppdrettsanlegg Klima, hvor mye vil global temperatur stige? Antibiotikaresistens Hva er strømprisen i morgen? Hvor mange eksemplarer av Dagblader bør leveres til hvert av de 11000 utsalgsstedene i morgen? 1

Oppmøte av blodgivere - binomisk fordeling 2

Bakgrunn Blodbanken i Oslo, oppmøte etter avtale Kun 59% med inngått avtale møter opp Må derfor overbooke Stor variasjon fra dag til dag (40%-90%) For få oppmøtte gir for lite blod og uutnyttet personell For mange oppmøtte gir køer og misfornøyde givere som kan forsvinne på sikt 3

Hva kan gjøres? Tiltak for økt oppmøteprosent (påminnelse på epost eller SMS) Prediksjon av oppmøte dagen i forveien Kan dermed kalle inn ekstra blodgivere eller omdisponere personell Prediksjon mulig pga. mye systematikk: Eldre møter oftere enn yngre Dårligere oppmøte på mandager 4

Data 180 000 avtaler fra 1/4 2001-30/11 2003 30-400 avtaler per dag Har registrert for hver avtale: Oppmøte/ikke oppmøte (respons) 17 forklaringsvariable: Alder Avtale ved personlig kontakt eller brev Tid siden avtaleinngåelse Ukedag 5

Statistisk modellering Y d = antall som møter opp dag d, vil predikere denne A d = antall inngåtte avtaler er kjent y id = 1 hvis i te potensielle giver møter opp, 0 ellers Y d = i y id p id = P (y id = 1) = sannsynlighet for at i te potensielle giver møter opp y id Bin(n = 1, p = p id ) Bernoulli forsøk 6

Hvis vi antar lik sannsynlighet p for alle givere og uavhengighet mellom giverne blir Y d Bin(A d, p) Forventa antall oppmøtte = E(Y d ) = A d p 7

Regresjon - modell for p id Modellerer p id som funksjon av forklaringsvariable p id = f(β 0 + β 1 alder + β 2 kjønn...) Forventa antall oppmøtte = E(Y d ) = i p id 8

Estimering Estimerer (tallfester) modellen fra tilgjengelige data Finner de β-er som passer best til dataene 9

Resultater Sannsynlighet for oppmøte er høyest hvis Avtale gjort ved personlig kontakt Kort tid siden avtalen blei inngått Kort tid siden siste blodgiving Giveren har gitt blod mange ganger, eller er førstegangsgiver Giveren har tidligere pleid å dukke opp Giveren er en eldre person Det er fredag Det er tidlig på morgenen 10

Prediksjontest Bruker data tom. 30/11 2002 til estimering Predikerer daglig oppmøte 1/12 2002-30/11 2003 Sammenlikner predikert oppmøteandel Ŷ d /A d hvor Ŷ d = predikert oppmøte dag d A d = antall avtaler dag d med sann oppmøteandel Y d /A d 11

Prediksjon December 1. 2002 June 5. 2003 0.4 0.5 0.6 0.7 0.8 0.9 true prediction 95% prediction limits 0 20 40 60 80 100 120 June 6. 2003 November 30. 2003 0.4 0.5 0.6 0.7 0.8 0.9 0 20 40 60 80 100 120 12

Gevinst Hvis en bruker individuell oppmøtesannsynlighet reduseres prediksjonsintervallet med 43% i forhold til å bruke samme oppmøtesannsynlighet for alle 13

Fotball - Poissonfordeling Vi går noen uker tilbake i tid Norge skal spille hjemmekamp mot Danmark i EM-kvalifisering 14

Antall mål Poissonfordelt Norge kan skåre 0, 1, 2, 3,... mål Danmark kan skåre 0, 1, 2, 3,... mål Antall mål til Norge = Y N P o(λ N ) Antall mål til Danmark = Y D P o(λ D ) 15

Forventning λ λ N λ D = M b F h S N /S D = M b S D /S N M b : Normalt antall mål til et bortelag F h : Hjemmebanefordel S N : Styrketall Norge S D : Styrketall Danmark 16

Parameterestimering Tallfester normalt antall mål og hjemmebanefordel fra tidligere kamper i tidligere EM-kvalifiseringer Normalt antall mål til et bortelag = 1.16 Hjemmebanefordel = 1.20 Tallfester styrke til hver lag ut fra FIFA-ranking Styrketall Norge = 93 Styrketall Danmark = 83 Styrketall Portugal = 100 17

Sannsynligheter Sannsynlighet i % for 0-5 mål for hver lag 0 1 2 3 4 5 Norge 21 33 26 13 5 2 Danmark 36 37 19 7 2 0 P(1-1) = 33 % x 37 % = 12 % P(Norsk seier) = 49 % P(Uavgjort) = 26 % P(Dansk seier) = 25 % 18

Etter kampen P(Norge kvalifiserer seg til EM) = 77 % 19