Kap. 5.2: Utvalgsfordelinger for antall og andeler



Like dokumenter
Utvalgsfordelinger (Kapittel 5)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kapittel 4.3: Tilfeldige/stokastiske variable

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

STK Oppsummering

Kapittel 4.4: Forventning og varians til stokastiske variable

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Fasit for tilleggsoppgaver

Statistikk 1 kapittel 5

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

TMA4240 Statistikk Høst 2015

Utvalgsfordelinger (Kapittel 5)

ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

Denne uken: Kapittel 4.3 og 4.4

Introduction to the Practice of Statistics

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

UNIVERSITETET I OSLO Matematisk Institutt

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Forelening 1, kapittel 4 Stokastiske variable

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Medisinsk statistikk Del I høsten 2009:

Statistikk og dataanalyse

Kapittel 2: Hendelser

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ECON240 Vår 2018 Oppgaveseminar 1 (uke 6)

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

statistikk, våren 2011

Formelsamling i medisinsk statistikk

Binomisk sannsynlighetsfunksjon

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Oppgaver fra 8.3, 8.4, , 8.51, 8.52, 8.231, 8.232, 8.250, 8.252

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

FORMELSAMLING TIL STK1100 OG STK1110

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO

ECON240 Høst 2017 Oppgaveseminar 1 (uke 35)

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

UNIVERSITETET I OSLO

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Tabell 1: Beskrivende statistikker for dataene

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

Kapittel 5: Tilfeldige variable, forventning og varians.

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2009

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Kap. 7 - Sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Noen viktige sannsynlighetsmodeller

6.2 Signifikanstester

Kap. 8: Utvalsfordelingar og databeskrivelse

Kapittel 9 og 10: Hypotesetesting

Om eksamen. Never, never, never give up!

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

TMA4240 Statistikk H2017 [15]

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

HØGSKOLEN I STAVANGER

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Høgskoleni østfold EKSAMEN

Om eksamen. Never, never, never give up!

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

ÅMA110 Sannsynlighetsregning med statistikk, våren

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

DEL 1 GRUNNLEGGENDE STATISTIKK

FORMELSAMLING TIL STK1100 OG STK1110

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Transkript:

Kap. 5.2: Utvalgsfordelinger for antall og andeler Binære data (1/0, Ja/Nei, Suksess/Feil) Utvalgsundersøkelser: Ja/Nei-spørsmål Tilstedeværelse av arter: Tilstede/Ikke-tilstede (1/0) Overlevelse etter behandling: Ja/Nei Observator X = Antall Ja eller antall 1-ere for utvalget av størrelse n Observator p =X/n er andel i utvalget med Ja eller 1-ere

Binomisk setting Fast antall observasjoner n De n observasjonene er uavhengige To mulige utfall av hver observasjon: Kalles Suksess/Feil Tilsvarer f.eks. Ja/Nei eller 1/0 Sannsynlighet p for suksess for hver av de n observasjonene

Binomisk fordeling Fordeling til antallet X av suksesser i en binomisk setting Binomisk fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Viktig diskret fordeling (sannsynlighetsfordeling for en diskret stokastisk variabel X)

Binomisk fordelte data Myntkast med idealisert mynt Kaster en mynt n=10 ganger Sannsynlighet for kron er p=0.5 X=Antall kron i de 10 kastene (antallet suksesser) X er Bin(10,0.5)-fordelt Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt

Binomisk fordeling: Sannsynlighets-histogrammer

Utvalgsfordeling for antall suksesser Populasjon av størrelse N, andel suksess i populasjonen p Utvalg av størrelse n, observatoren X er antall suksesser i utvalget Utfall av 2. observasjon avhenger av utfall av 1. observasjon Eksempel N=52 kort, trekker n=2 kort P(1. Rødt)=26/52=0.5, P(2. Rødt 1. Rødt)=25/51<0.5 Avhengighet mellom observasjonene MEN: Hvis N mye større enn n (N>20n), kan man neglisjere slik avhengighet, og X er tilnærmet Bin(n,p)-fordelt Presisjonen til denne tilnærmelsen er bedre jo større forholdet N/n er

Binomiske sannsynligheter Fordeling til antallet X av suksesser Fordeling med parametre n (antall observasjoner) og p (sannsynligheten for suksess for hver observasjon) Utfallsrom {0,1,...,n} X er Bin(n,p)-fordelt Sannsynligheten for at X=i, for i=0,1,...,n kan finnes i tabell (Table C i boken) eller ved å bruke dataprogram Avhenger kun av n og p, dvs for gitt n og p er sannsynligheten for at X=i bestemt Eksempel: n=6, p=0.35, da er P(X=2)=

Binomiske sannsynligheter: Eksempel Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre To foreldre får n=5 barn sammen Hvert barn disse foreldrene får har sannsynlighet p=0.25 for å få blodtype 0 X=Antall barn som får blodtype 0 (antallet suksesser) X er Bin(5,0.25)-fordelt Hva er sannsynligheten for at minst 2 av barna får blodtype 0?

Binomiske sannsynligheter: Eksempel Hva er sannsynligheten for at minst 2 av barna får blodtype 0? P(X 2)=1-P(X<2) = 1-P(X 1) = 1 - (P(X=0)+P(X=1)) =

Table C: Bare for p 0.5 Dersom man ser etter sannsynlighetsfordelingen til X som er binomisk fordelt med p>0.5: Snu om på situasjonen slik at Y teller antallet feil (i stedet for suksesser) Da blir p<0.5 for Y som teller antall feil Eksempel: Antall barn som ikke har blodtype 0 er Bin(5,0.75)-fordelt Antall barn som har blodtype 0 er Bin(5,0.25)-fordelt Tenk alltid nøye igjennom hva man teller som suksess og hva den riktige p er da!

Binomiske sannsynligheter: Eksempel Tenk om eksempelet var formulert slik i stedet: Genetikk tilsier at barn av samme foreldre får gener fra foreldrene uavhengig av hverandre. To foreldre får n=5 barn sammen. Hvert barn disse foreldrene får har sannsynlighet p=0.75 for ikke å få blodtype 0 Y=Antall barn som ikke får blodtype 0 (antallet suksesser) Hva er sannsynligheten for at maksimalt 3 av barna ikke får blodtype 0, dvs at Y 3? Y er Bin(5,0.75)-fordelt kan ikke finne sannsynligheter i Table C (fordi p>0.5)! Omformuler: X= antall barn som får blodtype 0, X er Bin(5,0.25)-fordelt Finn sannsynligheten for at minst 2 av barna får blodtype 0

Forventning i binomisk fordeling Anta X er Bin(n,p) La S i være en binær stokastisk variabel som indikerer om observasjon i er en suksess (S i =1) eller ikke (S i =0) Da er X=S 1 +S 2 +...+S n (antallet suksesser) P(S i =1) = og P(S i =0) = Forventningen til hver S i er Forventningen til er

Varians og standardavvik i binomisk fordeling σ S 2 =(1-p) 2 *p + (0-p) 2 *(1-p)=p(1-p) σ S = [p(1-p)] X=S 1 +S 2 +...+S n S i -ene er uavhengige av hverandre (binomisk setting), dvs alle parvise korrelasjoner er 0 σ X2 =σ S 2+ σ S2 +...+σ S2 =n*p(1-p) σ X = [np(1-p)]

Andeler p =X/n=antall suksesser/størrelse av utvalg: andelen suksesser i utvalget p er estimator for andelen suksesser i populasjonen X tar heltallsverdier mellom 0 og n og er Bin(n,p)-fordelt p tar verdier i intervallet [0,1] og er ikke binomisk fordelt! Men kan bruke forventning og varians til X til å finne forventning og varians til p : μ p =np/n=p - Forventningsrett estimator for p! σ p 2=np(1-p)/n 2 =p(1-p)/n σ p = [p(1-p)/n] Variasjonen (usikkerheten) minker med økende n! n i nevneren for standardavviket betyr at dersom vi ønsker å halvere standardavviket til p, må vi firedoble utvalgsstørrelsen n

Tilnærming til normalfordeling X er Bin(n,p)-fordelt og n er stor. Da er Kan brukes for å beregne sannsynligheter Rimelig tilnærming når np>10 og n(1-p)>10

Utvalgsfordeling: Gir svaret på hva som ville skje dersom vi så på mange utvalg med størrelse n fra den samme populasjonen

Sannsynlighetshistogram og normalfordelings-tilnærmingen når X er Bin(150,0.08)-fordelt (Her: np=12, n(1-p)=138) Sannsynlighetshistogrammet er litt høyreskjevt, noe normalfordelingen ikke kan fange opp

Andeler og normalfordeling Tidligere: X i =1 hvis suksess, null ellers p =gjennomsnitt av x i 'ene Tilnærmet normalfordeling følger av sentralgrenseteoremet