Utvalgsfordelinger (Kapittel 5)
Observator En observator er en funksjon av data for mange individer, for eksempel Gjennomsnitt Andel Stigningstall i regresjonslinje En observator er en tilfeldig variabel Har en sannsynlighetsfordeling som kalles observatorfordeling Beskriver hvordan observatoren varierer når utvalget/eksperimentet repeteres mange ganger Individuelle data: Populasjonsfordeling
Eksempel: Populasjonsfordelinger og utvalgsfordelinger Høyde kvinne N(64.5,2.5)-fordelt N(64.5,2.5): Populasjonsfordeling Gjennomsnitt av 100 kvinner N(64.5,0.25)-fordelt x observator N(64.5,0.25): Observatorfordeling
Observatorer Vi skal i dag se på observatorene: Gjennomsnitt Antall/andeler Er ute etter egenskaper til observatorer Forventning Spredning Sannsynlighetsfordeling
Utvalgsfordeling: Gir svaret på hva som ville skje dersom vi så på mange utvalg med størrelse n fra den samme populasjonen
Gjennomsnitt x : kontinuerlig tilfeldig variabel Gjenomsnitt er mindre variable enn individuelle observasjoner Gjennomsnitt mer normalfordelte enn individuelle observasjoner
Histogram over lengden av 3000 oppringninger Histogram over gjennomsnittlig lengde på oppringninger (500 utvalg av størrelse 80 fra populasjonen på 3000)
Kvantilplott for gjennomsnittlig lengde på oppringninger (500 utvalg av størrelse 80 fra populasjonen på 3000)
Forventning til gjennomsnitt Har et SRS av størrelse n fra en populasjon Observerer variabelen X for hvert individ i utvalget, som har forventning μ og standardavik σ (populasjonsparametre) De n observasjonene er verdier av n stokastiske variable X1,X2,...,Xn 1+x2+...+xn)/n=S/n (S er summen av alle xi -ene) x=(x Forventning til xi er μ μs= μ+μ+...+μ = nμ μx =nμ/n=μ
Varians og standardavvik til gjennomsnitt 1+x2+...+xn)/n=S/n x=(x Varians til xi er σ2 σs2=σ2+σ2+...+σ2=nσ2 2 2 2 2 σ = nσ /n = σ /n x σx = σ2x= σ/ n
Fordeling til gjennomsnitt Vi har beskrevet senter (forventningen) og spredning (standardavviket) til fordelingen til gjennomsnittet for et utvalg på størrelse n, men ikke formen Normalfordelte variable Anta Xi er uavhengige og N(μ,σ)-fordelte Da er x N(μ,σ/ n)-fordelt Sentralgrenseteoremet for SRS av størrelse n Forventning til Xi er μ Standardavvik til Xi er σ Anta n stor Da er x tilnærmet N(μ,σ/ n)-fordelt
Telefonoppringninger 31492 oppringninger til en banks kundesenter Fordelingen til de individuelle observasjonene er langt fra normal Repeter 10000 ganger: Trekk enkelt tilfeldig utvalg av størrelse n=80 Beregn x Lag histogram av de 10000 x 'er
Histogram over gjennomsnittet av de 10000 utvalgene av størrelse 80
Eksponensiell fordeling Mye brukt for levetider Lyspærer Elektroniske komponenter Individer Langt fra normal
a) Fordelingen til gj.sn av 1 observasjon fra en eksponensialfordelt populasjon b) Fordelingen til gj.sn av 2 observasjoner fra en eksponensialfordelt populasjon c) Fordelingen til gj.sn av 10 observasjon fra en eksponensialfordelt populasjon d) Fordelingen til gj.sn av 25 observasjoner fra en eksponensialfordelt populasjon
Eksponensiell - eksempel X: tid tekniker bruker for vedlikehold av system Eksponensiell fordeling, μ=1 time,σ=1 time min)=p(x>0.83 timer)=? 70 enheter, P(x>50 Sentralgrenseteoremet: x tilnærmet N(1,1/ 70)=N(1,0.12) =P(Z>-1.422) P(x>0.83)=P(Z>(0.83-1)/0.12) =1-P(Z<-1.422)=0.9225 Eksakt: 0.9294
Fordeling for x: Eksakt (stiplet) og tilnærmet normal (heltrukken)
Fordeling til en lineærkombinasjon av normalfordelte variabler At gjennomsnittet x av observerte verdier av n uavhengige normalfordelte variabler X1,X2,...,Xnogså er normalfordelt er et spesialtilfelle av en generell regel: X er N(μX,σX)-fordelt og Y er N(μY,σY)-fordelt X og Y er uavhengige (dvs korrelasjon=0) Da er Z = ax+by (der a og b er faste konstanter) også normalfordelt med forventning μz= aμx+ bμy 2 2 2 2 standardavvik σ = (a σ +b σ ) Z X Y
Antall og andeler Binære data (1/0, Ja/Nei, Suksess/Feil) Utvalgsundersøkelser: Ja/Nei-spørsmål Tilstedeværelse av arter: Tilstede/Ikke-tilstede (1/0) Overlevelse etter behandling: Ja/Nei Observator X = Antall Ja eller antall 1-ere for utvalget av størrelse n Observator p =X/n er andel i utvalget med Ja eller 1-ere
Binomisk setting Fast antall observasjoner n De n observasjonene er uavhengige To mulige utfall av hver observasjon: Kalles Suksess/Feil Tilsvarer f.eks. Ja/Nei eller 1/0 Sannsynlighet p for suksess for hver av de n observasjonene
Binomisk fordeling Fordeling til antallet X av suksesser Binomisk fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Viktig diskret fordeling (sannsynlighetsfordeling for en diskret stokastisk variabel X)
Binomisk fordelte data Myntkast med idealisert mynt Kaster en mynt n=10 ganger Sannsynlighet for kron er p=0.5 X=Antall kron i de 10 kastene (antallet suksesser) X er Bin(10,0.5)-fordelt Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt
Binomisk fordeling: Sannsynlighets-histogrammer
Eksempel Overlevelse etter behandling p er sannsynligheten for å overleve behandling n pasienter X overlever p =X/n er andel overlevd, estimat på p Anta sannsynlighet for tidligere behandling er 0.5 n=100, X=60, p =0.6. Hvor godt er observatoren p som et estimat/anslag på parameteren p? Kan vi si at ny behandling er bedre? Bruker sannsynlighetsfordeling
Utvalgsfordeling for antall suksesser Populasjon av størrelse N, andel suksess i populasjonen p Utvalg av størrelse n, observatoren X er antall suksesser i utvalget Utfall av 2. observasjon avhenger av utfall av 1. observasjon Eksempel N=52 kort, trekker n=2 kort P(1. Rødt)=26/52=0.5, P(2. Rødt 1. Rødt)=25/51<0.5 Avhengighet mellom observasjonene MEN: Hvis populasjonsstørrelsen N mye større enn utvalgsstørrelsen n (N>20n), kan man neglisjere slik avhengighet, og X er tilnærmet Bin(n,p)-fordelt Presisjonen til denne tilnærmelsen er bedre jo større forholdet N/n er
Binomiske sannsynligheter Fordeling til antallet X av suksesser Fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Sannsynligheten for at X=i, for i=0,1,...,n kan finnes i tabell (Table C i boken) eller ved å bruke dataprogram Avhenger kun av n og p, dvs for gitt n og p er sannsynligheten for at X=i bestemt Eksempel: n=6, p=0.35, da er P(X=2)=0.3280
Binomiske sannsynligheter: Eksempel Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt Hva er sannsynligheten for at minst 2 av barna får blodtype 0? P(X 2)=1-P(X<2) = 1-P(X 1) = 1 - (P(X=0)+P(X=1)) = 1 - (0.2373+0.3955) =0.3672
Table C: Bare for p 0.5 Dersom man ser etter sannsynlighetsfordelingen til X som er binomisk fordelt med p>0.5: Snu om på situasjonen slik Y teller antallet feil (i stedet for suksesser) Da blir p<0.5 for Y som teller antall feil Eksempel: Antall barn som ikke har blodtype 0 er Bin(5,0.75)-fordelt Antall barn som har blodtype 0 er Bin(5,0.25)-fordelt Tenk alltid nøye igjennom hva man teller som suksess og hva den riktige p er da!
Forventning i binomisk fordeling Anta X er Bin(n,p) La Si være en binær stokastisk variabel som indikerer om observasjon i er en suksess (Si=1) eller ikke (Si=0) Da er X=S1+S2+...+Sn (antallet suksesser) P(Si=1) = p = 1-P(Si=0) Forventningen til hver Si er μs=1*p + 0*(1-p) = p Forventningen til er μx=μs+μs+...+μs=np
Varians og standardavvik i binomisk fordeling σs2 =(1-p)2 *p + (0-p)2 *(1-p)=p(1-p) σs= [p(1-p)] X=S1+S2+...+Sn σx2=σs2+σs2+...+σs2=n*p(1-p) σx= [np(1-p)]
Antikolesterol og hjerteanfall Menn i alder 40-55, p=0.04 for hjerteinfarkt Gemfibrozil: 2000 menn Placebo: 2000 menn Hva er på forhånd forventet antall hjerteinfarkt blant 2000 menn dersom medikamentet ikke har effekt? p=0.04: μx=np=80 σx2=np(1-p)=76.8, σx=8.76 Observert i studie: Placebo: x=84 Gemfibrozil: x=56 Ser ut til at Gemfibrozil reduserer sjansen for hjerteinfarkt
Andeler p =X/n=antall suksesser/størrelse av utvalg: andelen suksesser i utvalget p er estimator for andelen suksesser i populasjonen X tar heltallsverdier mellom 0 og n og er Bin(n,p)-fordelt p tar verdier i intervallet [0,1] og er ikke binomisk fordelt! Men kan bruke forventning og varians til X til å finne forventning og varians til p: μp =np/n=p - Forventningsrett estimator for p! σp 2=np(1-p)/n2=p(1-p)/n σp = [p(1-p)/n] Variasjonen (usikkerheten) minker med økende n! n i nevneren for standardavviket betyr at dersom vi ønsker å halvere standardavviket til p, må vi firedoble utvalgsstørrelsen n
Antikolesterol og hjerteanfall Observert x=56, p =0.028 p=0.04 μp =p=0.04 σp 2=p(1-p)/n=0.0000192 σp = [p(1-p)/n]=0.0043
Antikolesterol og hjerteanfall Observert x=56, p =0.028 p=0.04 μp =p=0.04 σp 2=p(1-p)/n=0.0000192 σp = [p(1-p)/n]=0.0043 Hva hvis vi lurer på P(p 0.028)? Eller ekvivalent P(X 56)? p er ikke binomisk fordelt, men vi kan utnytte at X er Bin(2000,0.04)-fordelt: P(p 0.028) = P(X 56) = P(X=0)+P(X=1)+...+P(X=56) = 0.002497 Fullt mulig å gjøre, men litt tungvint, trenger en enklere metode
Tilnærming til normalfordeling X er Bin(n,p)-fordelt og n er stor. Da er X tilnærmet N np, np 1 p p tilnærmet N p, p 1 p /n Kan brukes for å beregne sannsynligheter Rimelig tilnærming når np>10 og n(1-p)>10
Kolesterol og hjerteanfall p=0.04, n=2000, X=56 P(X 56) = 0.002497 (Eksakt) Her np=80 og n(1-p)=1920, så normaltilnærmingen er OK å bruke X er tilnærmet N(np, (np(1-p))-fordelt Standardiserer: Z=(X-np)/ [np(1-p)]=(x-80)/8.76 P(X 56) = P(Z (56-80)/8.76) = P(Z -2.7386) P(Z -2.7397) 0.00308, ganske nær eksakt verdi basert på binomisk fordeling for X
Utvalgsfordeling: Gir svaret på hva som ville skje dersom vi så på mange utvalg med størrelse n fra den samme populasjonen
Sannsynlighetshistogram og normalfordelings-tilnærmingen når X er Bin(150,0.08)-fordelt (Her: np=12, n(1-p)=138) Sannsynlighetshistogrammet er litt høyreskjevt, noe normalfordelingen ikke kan fange opp
Andeler og normalfordeling Tidligere: p tilnærmet N p, p 1 p / n Si=1 hvis suksess, null ellers p =gjennomsnitt av Si'ene Tilnærmet normalfordeling følger av sentralgrenseteoremet