Utvalgsfordelinger (Kapittel 5)

Like dokumenter
Kap. 5.2: Utvalgsfordelinger for antall og andeler

Utvalgsfordelinger (Kapittel 5)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Fasit for tilleggsoppgaver

Kapittel 4.3: Tilfeldige/stokastiske variable

Kapittel 4.4: Forventning og varians til stokastiske variable

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

STK Oppsummering

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kapittel 9 og 10: Hypotesetesting

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

TMA4240 Statistikk Høst 2015

Denne uken: Kapittel 4.3 og 4.4

Seksjon 1.3 Tetthetskurver og normalfordelingen

Binomisk sannsynlighetsfunksjon

Introduction to the Practice of Statistics

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

6.2 Signifikanstester

Medisinsk statistikk Del I høsten 2009:

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

La U og V være uavhengige standard normalfordelte variable og definer

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Statistikk 1 kapittel 5

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Kapittel 7: Inferens for forventningerukjent standardavvik

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Statistikk 1 kapittel 5

TMA4245 Statistikk Eksamen desember 2016

Statistikk og dataanalyse

Verdens statistikk-dag.

Introduksjon til inferens

Inferens i fordelinger

TMA4240 Statistikk H2017 [15]

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

HØGSKOLEN I STAVANGER

Forelesning 3. april, 2017

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

ÅMA110 Sannsynlighetsregning med statistikk, våren

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Seksjon 1.3 Tetthetskurver og normalfordelingen

Kap. 8: Utvalsfordelingar og databeskrivelse

UNIVERSITETET I OSLO Matematisk Institutt

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Et lite notat om og rundt normalfordelingen.

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

UNIVERSITETET I OSLO

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Kapittel 7: Inferens for forventningerukjent standardavvik

Løsningskisse seminaroppgaver uke 15

Om eksamen. Never, never, never give up!

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Kontinuerlige sannsynlighetsfordelinger.

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere

FORMELSAMLING TIL STK1100 OG STK1110

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

TMA4240 Statistikk Høst 2018

Forelening 1, kapittel 4 Stokastiske variable

TMA4240 Statistikk Høst 2016

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

10.1 Enkel lineær regresjon Multippel regresjon

Forslag til endringar

i x i

Kort overblikk over kurset sålangt

DEL 1 GRUNNLEGGENDE STATISTIKK

ECON2130 Kommentarer til oblig

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Oppgaver fra 8.3, 8.4, , 8.51, 8.52, 8.231, 8.232, 8.250, 8.252

Formelsamling i medisinsk statistikk

Transkript:

Utvalgsfordelinger (Kapittel 5)

Observator En observator er en funksjon av data for mange individer, for eksempel Gjennomsnitt Andel Stigningstall i regresjonslinje En observator er en tilfeldig variabel Har en sannsynlighetsfordeling som kalles observatorfordeling Beskriver hvordan observatoren varierer når utvalget/eksperimentet repeteres mange ganger Individuelle data: Populasjonsfordeling

Eksempel: Populasjonsfordelinger og utvalgsfordelinger Høyde kvinne N(64.5,2.5)-fordelt N(64.5,2.5): Populasjonsfordeling Gjennomsnitt av 100 kvinner N(64.5,0.25)-fordelt x observator N(64.5,0.25): Observatorfordeling

Observatorer Vi skal i dag se på observatorene: Gjennomsnitt Antall/andeler Er ute etter egenskaper til observatorer Forventning Spredning Sannsynlighetsfordeling

Utvalgsfordeling: Gir svaret på hva som ville skje dersom vi så på mange utvalg med størrelse n fra den samme populasjonen

Gjennomsnitt x : kontinuerlig tilfeldig variabel Gjenomsnitt er mindre variable enn individuelle observasjoner Gjennomsnitt mer normalfordelte enn individuelle observasjoner

Histogram over lengden av 3000 oppringninger Histogram over gjennomsnittlig lengde på oppringninger (500 utvalg av størrelse 80 fra populasjonen på 3000)

Kvantilplott for gjennomsnittlig lengde på oppringninger (500 utvalg av størrelse 80 fra populasjonen på 3000)

Forventning til gjennomsnitt Har et SRS av størrelse n fra en populasjon Observerer variabelen X for hvert individ i utvalget, som har forventning μ og standardavik σ (populasjonsparametre) De n observasjonene er verdier av n stokastiske variable X1,X2,...,Xn 1+x2+...+xn)/n=S/n (S er summen av alle xi -ene) x=(x Forventning til xi er μ μs= μ+μ+...+μ = nμ μx =nμ/n=μ

Varians og standardavvik til gjennomsnitt 1+x2+...+xn)/n=S/n x=(x Varians til xi er σ2 σs2=σ2+σ2+...+σ2=nσ2 2 2 2 2 σ = nσ /n = σ /n x σx = σ2x= σ/ n

Fordeling til gjennomsnitt Vi har beskrevet senter (forventningen) og spredning (standardavviket) til fordelingen til gjennomsnittet for et utvalg på størrelse n, men ikke formen Normalfordelte variable Anta Xi er uavhengige og N(μ,σ)-fordelte Da er x N(μ,σ/ n)-fordelt Sentralgrenseteoremet for SRS av størrelse n Forventning til Xi er μ Standardavvik til Xi er σ Anta n stor Da er x tilnærmet N(μ,σ/ n)-fordelt

Telefonoppringninger 31492 oppringninger til en banks kundesenter Fordelingen til de individuelle observasjonene er langt fra normal Repeter 10000 ganger: Trekk enkelt tilfeldig utvalg av størrelse n=80 Beregn x Lag histogram av de 10000 x 'er

Histogram over gjennomsnittet av de 10000 utvalgene av størrelse 80

Eksponensiell fordeling Mye brukt for levetider Lyspærer Elektroniske komponenter Individer Langt fra normal

a) Fordelingen til gj.sn av 1 observasjon fra en eksponensialfordelt populasjon b) Fordelingen til gj.sn av 2 observasjoner fra en eksponensialfordelt populasjon c) Fordelingen til gj.sn av 10 observasjon fra en eksponensialfordelt populasjon d) Fordelingen til gj.sn av 25 observasjoner fra en eksponensialfordelt populasjon

Eksponensiell - eksempel X: tid tekniker bruker for vedlikehold av system Eksponensiell fordeling, μ=1 time,σ=1 time min)=p(x>0.83 timer)=? 70 enheter, P(x>50 Sentralgrenseteoremet: x tilnærmet N(1,1/ 70)=N(1,0.12) =P(Z>-1.422) P(x>0.83)=P(Z>(0.83-1)/0.12) =1-P(Z<-1.422)=0.9225 Eksakt: 0.9294

Fordeling for x: Eksakt (stiplet) og tilnærmet normal (heltrukken)

Fordeling til en lineærkombinasjon av normalfordelte variabler At gjennomsnittet x av observerte verdier av n uavhengige normalfordelte variabler X1,X2,...,Xnogså er normalfordelt er et spesialtilfelle av en generell regel: X er N(μX,σX)-fordelt og Y er N(μY,σY)-fordelt X og Y er uavhengige (dvs korrelasjon=0) Da er Z = ax+by (der a og b er faste konstanter) også normalfordelt med forventning μz= aμx+ bμy 2 2 2 2 standardavvik σ = (a σ +b σ ) Z X Y

Antall og andeler Binære data (1/0, Ja/Nei, Suksess/Feil) Utvalgsundersøkelser: Ja/Nei-spørsmål Tilstedeværelse av arter: Tilstede/Ikke-tilstede (1/0) Overlevelse etter behandling: Ja/Nei Observator X = Antall Ja eller antall 1-ere for utvalget av størrelse n Observator p =X/n er andel i utvalget med Ja eller 1-ere

Binomisk setting Fast antall observasjoner n De n observasjonene er uavhengige To mulige utfall av hver observasjon: Kalles Suksess/Feil Tilsvarer f.eks. Ja/Nei eller 1/0 Sannsynlighet p for suksess for hver av de n observasjonene

Binomisk fordeling Fordeling til antallet X av suksesser Binomisk fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Viktig diskret fordeling (sannsynlighetsfordeling for en diskret stokastisk variabel X)

Binomisk fordelte data Myntkast med idealisert mynt Kaster en mynt n=10 ganger Sannsynlighet for kron er p=0.5 X=Antall kron i de 10 kastene (antallet suksesser) X er Bin(10,0.5)-fordelt Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt

Binomisk fordeling: Sannsynlighets-histogrammer

Eksempel Overlevelse etter behandling p er sannsynligheten for å overleve behandling n pasienter X overlever p =X/n er andel overlevd, estimat på p Anta sannsynlighet for tidligere behandling er 0.5 n=100, X=60, p =0.6. Hvor godt er observatoren p som et estimat/anslag på parameteren p? Kan vi si at ny behandling er bedre? Bruker sannsynlighetsfordeling

Utvalgsfordeling for antall suksesser Populasjon av størrelse N, andel suksess i populasjonen p Utvalg av størrelse n, observatoren X er antall suksesser i utvalget Utfall av 2. observasjon avhenger av utfall av 1. observasjon Eksempel N=52 kort, trekker n=2 kort P(1. Rødt)=26/52=0.5, P(2. Rødt 1. Rødt)=25/51<0.5 Avhengighet mellom observasjonene MEN: Hvis populasjonsstørrelsen N mye større enn utvalgsstørrelsen n (N>20n), kan man neglisjere slik avhengighet, og X er tilnærmet Bin(n,p)-fordelt Presisjonen til denne tilnærmelsen er bedre jo større forholdet N/n er

Binomiske sannsynligheter Fordeling til antallet X av suksesser Fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Sannsynligheten for at X=i, for i=0,1,...,n kan finnes i tabell (Table C i boken) eller ved å bruke dataprogram Avhenger kun av n og p, dvs for gitt n og p er sannsynligheten for at X=i bestemt Eksempel: n=6, p=0.35, da er P(X=2)=0.3280

Binomiske sannsynligheter: Eksempel Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt Hva er sannsynligheten for at minst 2 av barna får blodtype 0? P(X 2)=1-P(X<2) = 1-P(X 1) = 1 - (P(X=0)+P(X=1)) = 1 - (0.2373+0.3955) =0.3672

Table C: Bare for p 0.5 Dersom man ser etter sannsynlighetsfordelingen til X som er binomisk fordelt med p>0.5: Snu om på situasjonen slik Y teller antallet feil (i stedet for suksesser) Da blir p<0.5 for Y som teller antall feil Eksempel: Antall barn som ikke har blodtype 0 er Bin(5,0.75)-fordelt Antall barn som har blodtype 0 er Bin(5,0.25)-fordelt Tenk alltid nøye igjennom hva man teller som suksess og hva den riktige p er da!

Forventning i binomisk fordeling Anta X er Bin(n,p) La Si være en binær stokastisk variabel som indikerer om observasjon i er en suksess (Si=1) eller ikke (Si=0) Da er X=S1+S2+...+Sn (antallet suksesser) P(Si=1) = p = 1-P(Si=0) Forventningen til hver Si er μs=1*p + 0*(1-p) = p Forventningen til er μx=μs+μs+...+μs=np

Varians og standardavvik i binomisk fordeling σs2 =(1-p)2 *p + (0-p)2 *(1-p)=p(1-p) σs= [p(1-p)] X=S1+S2+...+Sn σx2=σs2+σs2+...+σs2=n*p(1-p) σx= [np(1-p)]

Antikolesterol og hjerteanfall Menn i alder 40-55, p=0.04 for hjerteinfarkt Gemfibrozil: 2000 menn Placebo: 2000 menn Hva er på forhånd forventet antall hjerteinfarkt blant 2000 menn dersom medikamentet ikke har effekt? p=0.04: μx=np=80 σx2=np(1-p)=76.8, σx=8.76 Observert i studie: Placebo: x=84 Gemfibrozil: x=56 Ser ut til at Gemfibrozil reduserer sjansen for hjerteinfarkt

Andeler p =X/n=antall suksesser/størrelse av utvalg: andelen suksesser i utvalget p er estimator for andelen suksesser i populasjonen X tar heltallsverdier mellom 0 og n og er Bin(n,p)-fordelt p tar verdier i intervallet [0,1] og er ikke binomisk fordelt! Men kan bruke forventning og varians til X til å finne forventning og varians til p: μp =np/n=p - Forventningsrett estimator for p! σp 2=np(1-p)/n2=p(1-p)/n σp = [p(1-p)/n] Variasjonen (usikkerheten) minker med økende n! n i nevneren for standardavviket betyr at dersom vi ønsker å halvere standardavviket til p, må vi firedoble utvalgsstørrelsen n

Antikolesterol og hjerteanfall Observert x=56, p =0.028 p=0.04 μp =p=0.04 σp 2=p(1-p)/n=0.0000192 σp = [p(1-p)/n]=0.0043

Antikolesterol og hjerteanfall Observert x=56, p =0.028 p=0.04 μp =p=0.04 σp 2=p(1-p)/n=0.0000192 σp = [p(1-p)/n]=0.0043 Hva hvis vi lurer på P(p 0.028)? Eller ekvivalent P(X 56)? p er ikke binomisk fordelt, men vi kan utnytte at X er Bin(2000,0.04)-fordelt: P(p 0.028) = P(X 56) = P(X=0)+P(X=1)+...+P(X=56) = 0.002497 Fullt mulig å gjøre, men litt tungvint, trenger en enklere metode

Tilnærming til normalfordeling X er Bin(n,p)-fordelt og n er stor. Da er X tilnærmet N np, np 1 p p tilnærmet N p, p 1 p /n Kan brukes for å beregne sannsynligheter Rimelig tilnærming når np>10 og n(1-p)>10

Kolesterol og hjerteanfall p=0.04, n=2000, X=56 P(X 56) = 0.002497 (Eksakt) Her np=80 og n(1-p)=1920, så normaltilnærmingen er OK å bruke X er tilnærmet N(np, (np(1-p))-fordelt Standardiserer: Z=(X-np)/ [np(1-p)]=(x-80)/8.76 P(X 56) = P(Z (56-80)/8.76) = P(Z -2.7386) P(Z -2.7397) 0.00308, ganske nær eksakt verdi basert på binomisk fordeling for X

Utvalgsfordeling: Gir svaret på hva som ville skje dersom vi så på mange utvalg med størrelse n fra den samme populasjonen

Sannsynlighetshistogram og normalfordelings-tilnærmingen når X er Bin(150,0.08)-fordelt (Her: np=12, n(1-p)=138) Sannsynlighetshistogrammet er litt høyreskjevt, noe normalfordelingen ikke kan fange opp

Andeler og normalfordeling Tidligere: p tilnærmet N p, p 1 p / n Si=1 hvis suksess, null ellers p =gjennomsnitt av Si'ene Tilnærmet normalfordeling følger av sentralgrenseteoremet