Kap. 6.1: Fordelingen til en observator og stok. simulering Data, observatorer og relaterte fordelinger. Stokastisk simulering. Illustrasjon: - Sammenligning av jury bedømmelser i idrett.
Fra data til observator. La x 1,..., x n representere n observasjoner/målinger (data) av et fenomen vi ønsker å studerer, f.eks. terningkast, temperatur målinger, leveringstid til pakker, luftforurensning, antall skidager,.... I mange sammenhenger nyttig og også mer riktig å tenke på data som realisajoner fra et stokasisk ekspriment, i.e. X 1,..., X n. - Usikkerhet i måleapparatet. - Utvalget. - En underliggende egenskap i det vi observerer. Ofte er ikke de inviduelle observasjonene vårt hovedfokus, vi ønsker f.eks. å si noe om: - Hvor sannsynlig er det å få yatzy i tre kast? - Er det en ønkning i den globale gjennomsnittstemperaturen på jorda? - Hva er sannsynligheten for minst 100 skidager på Bjørnholt i 2017? Håpet er at vi kan bruke data, eller funksjoner av data, til å svare på denne typen spørsmål.
Fra data til observator. Eksemple 1: La x 1950,..., x 2014 være antall skidager på Bjørnholt siden 1950. Vi kan da prøve å beregne Pr{X 2017 100} med antall år x i med mer enn 100 skidager 64 Example 2: Andre klassiske statistiske observatorer er x n = 1 n n i=1 x i og s 2 = 1 n 1 n (x i x n ) 2 i=1 som sikter på forventning og varians i fordelingen. Generelle kan vi tenke på en observator som en funksjon H n = h(x 1,..., x n ) av data (med en konkret tolkning/betydning). De sikter på, eller estimerer, en underliggende egenskaper vi ønsker å studerer. Slike størrelser er i seg selv også stokastiske variable og har derfor sin egen sannsynlighetsfordeling (utvalgsfordelingen).
Fra data til observator. Egenskapene (f.eks. presisjonen) til en observator (f.eks. gjennomsnittet x n ) avhenger av utvalgsstørrelsen og den underliggende (antatte) fordelignen til observasjonene, i.e. den simultane tetthetsfunksjoenen (X 1,..., X n ) f(x 1,..., x n ). I prinsippet trenger vi hele f( ) for å svare på alle typer spørsmål, f.eks. for å beregne Pr{ X n µ > ɛ}, hvor µ er sann forventning og ɛ er et lite tall. Vi sier at observasjonene er uavhengig og identisk fordelt (uif.) hvis 1) Hvis alle X i -ene er uavhengige og 2) har alle samme fordeling/tetthetsfunksjon.
Fra data til observator. Hvis vi kan anta at sekvensen X 1,..., X n er uif. forenkler dette f.eks. f(x 1,..., x n ) = n f i (x i ) Dette betyr ikke nødvendigvis at fordelingen til h(x 1,..., x n ) er enkel. Eksempel 3: Anta at X 1,..., X n er uif. og at X i N(µ, σ 2 ), hva er da fordelingen til X n = 1 n X i. n i=1 Eksempel 4: Under samme antagelser, er 1 n i=1 n I(X i X n + 2s) i=1 en god estimator for Pr{X 0 µ + 2σ}? (hvor I( ) er en indikator funksjon).
Stokastisk simulering Hva er det stokastisk simulering. - Generering (ofte kunstig) av tilfeldige variable. - Representasjon av virkelige og abstrakte (stokastiske) fenomener (f.eks. fly, klima, økonomi,....). Hvorfor bruke stokastisk simulering. - Et verktøy for å modellere og tolke den virkelige verden. - Et tilleggsverktøy/alternativt for statistisk inferens. - Tilfeldighet løser noen problemer som er vanskelig (umulig) å løse deterministisk. Hvordan lage kunstig tilfeldighet? - Pseudotilfeldiget (pseudorandomness).
Hva er tilfeldighet? Anta vi kaster en mynt, hvilken sekvens (hvor 0 = kron og 1 = mynt) er mest sannsynlig? 1) 001001110101010010100111000101000011100110100101100010 2) 111111111111111111111111111111111111111111111111111111 Hva er stokastisk/tilfeldig i et myntkast? Pseudorandomness: deterministiske sekvenser som noen felles egenskaper med (ekte) tilfeldige sekvenser. Er fordelingen av desimalene i π tilfeldig? 3, 141592653589793238462643383279502884197169399375105820.... Et reelt tall sies å være et normalt tall hvis (den uendelige) sekvensen av desimaler (i enhver base) er uniformt fordelt.
Noen illustrasjoner Spørreundersøkelse. Random walk og Riemann hypotesen.
Generelle fordelinger fra enklere eksprimenter Delvis repetisjon av kap. 4.7.
Sammenligning av to jury regler Mange olympiske idrettsarrangementer blir avgjort av en bedømmelses jury. Anta at det er 7 dommere i en jury, normalt gir hver av disse en poengsum på en skala. Disse pongene blir transformert (f.eks. gjennomsnittet) til en endelig eller felles poengsum. Hva med juks? Det var en sak i vinter OL i 2002 om gullmedaljen i kunstløp. Et russisk lag ble anklaget for å ha bestukket en franskmann i juryen som førte til at Russland slo Cannada i kampen om topplasseringen. Vi skal her undersøke robustheten til to ulike transformasjoner for å lage en felles poengsum.
Sammenligning av to jury regler Vi skal i hovedsak se på to typer transformasjoner. 1) Største og minste poengsum fjernet før man tar snittet eller 2) middelverdien (medianen). Hvilken metode er best? - Robusthet i forhold til juks. - Presisjon under normal omstendigheter er også viktig. Eksempel: Ved kun å bruke den minste poengsummen får vi nok noe som er robust mot bestikkelser, men kan vi forvente at dette gir en retferdig eller presis poengsum for utøverne generelt? Vi skal først undersøke egenskapene til de to reglene/transformasjonene over ved bruk av stokastisk simulering.
A statistisk/probabilistisk modell Vi vil anta at det er en sann, eller riktig, poengsum g og at hver dommer i juryen sikter på denne med en stokastisk feil, i.e. Y i = g + U i for i = 1,..., 7, hvor U i -ene er uif. og hver U i er uniform på [ 0.5, 0.5]. Merk: Vi kan tenke på U i som støy/feil i en dommers forsøk på å treffe den ukjente g, eller vi kan tenke at U i representerer en underliggende uenighet i tolkning blant dommere. Er dette en rimelig modell og hvordan kan vi validere den? En matematisk beskrivelse av transformasjonene er: 6 og 1) h 1 (Y 1,..., Y 7 ) = 1 5 i=2 2) h 2 (Y 1,..., Y 7 ) = Y [4] Y [i] hvor Y [1],..., Y [7] er de sorterte Y 1,..., Y 7.
A statistisk/probabilistisk modell Vi har nå en (stokastisk) modell som simulerer juryavgjørelser. Vi skal her studere T = h 1 (Y 1,..., Y 7 ) g og M = h 2 (Y 1,..., Y 7 ) g Vi skal undersøke hvilken modell som gir minst avvik, altså, hvilken metode som oftest gir en verdi nærme 0. Hvorfor kan anta at g = 0? Vi skal derfor analysere (for g = 0) T = h 1 (y 1,..., y 7 ) og M = h 2 (y 1,..., y 7 ). Dette kan gjøres teoretisk, men her skal vi heller bruke datamaskinen til å lage inferense (trekke konklusjoner)
Hvordan analysere denne modellen? Under er 5 realisasjoner fra denne modellen: i Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 T M 1-0.45-0.08-0.38 0.11-0.42 0.48 0.02-0.15-0.08 2-0.37-0.18 0.05-0.10 0.01 0.28 0.31 0.01 0.01 3 0.08 0.07 0.47-0.21-0.33-0.22-0.48-0.12-0.21 4 0.24 0.08-0.11 0.19-0.03 0.02 0.44 0.10 0.08 5 0.10 0.18-0.39-0.24-0.36-0.25 0.20-0.11-0.24 Hvilken metode er å foretrekke? Siden modellen vår har med tilfeldighet (simulert usikkerhet) forventer vi at det vil være endel (kanskje mye) variasjon. Håpet er at det vil være mulig å trekke en konklusjon hvis vi simulerer nok tilfeller. Hvorfor?
Simulerte dommeravvik Over er n = 1000 simulerte avvik for første dommer.
Oppsummering av T og M Er det stor forskjell på transformasjonsregel M og T? Hvilken metode ser ut til å være best?
Realisasjoner fra simultanfordeling til T og M
Hvordan studere forskjellen mellom T og M? Hvor ofte gir regel M en større feil enn T, et mulig svar er Pr{ M T > 0} 0.70.
Hva med vår venn gjennomsnittet? La m = 1 7 7 i=1 Y i, er denne bedre eller dårligere enn T og M? Videre er Pr{ T m > 0} 0.74 og Pr{ M m > 0} 0.76.
Hva med juks og bestikkelser? Anta at en dommer er betalt for å gi en for høy poengsum. En måte å modellere dette på er å anta at f.eks. Y 1 = 1 + g + U 1, hvor U 1 fremdeles er uniform på [ 0.5, 0.5]. Hvilke konsekvenser har dette for resultatene over?