ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Kapittel 7: Inferens for forventningerukjent standardavvik

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Binomisk sannsynlighetsfunksjon

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger (Kapittel 5)

ST0202 Statistikk for samfunnsvitere

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Kapittel 4.4: Forventning og varians til stokastiske variable

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Kap. 8: Utvalsfordelingar og databeskrivelse

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Kapittel 4.3: Tilfeldige/stokastiske variable

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO Matematisk Institutt

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Testobservator for kjikvadrattester

UNIVERSITETET I OSLO

Utvalgsfordelinger (Kapittel 5)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

UNIVERSITETET I OSLO

Forslag til endringar

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Høst 2014

TMA4240 Statistikk H2015

Statistikk og dataanalyse

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

STK Oppsummering

ST0202 Statistikk for samfunnsvitere

Kapittel 7: Inferens for forventningerukjent standardavvik

Kapittel 3: Studieopplegg

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Inferens i fordelinger

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Introduksjon til inferens

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Kort overblikk over kurset sålangt

Skoleeksamen i SOS Kvantitativ metode

Denne uken: Kapittel 4.3 og 4.4

Forelening 1, kapittel 4 Stokastiske variable

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Forelesning 3. april, 2017

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Et lite notat om og rundt normalfordelingen.

Kap. 5.2: Utvalgsfordelinger for antall og andeler

HØGSKOLEN I STAVANGER

TMA4245 Statistikk Eksamen desember 2016

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Seksjon 1.3 Tetthetskurver og normalfordelingen

Repeterbarhetskrav vs antall Trails

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 7: Utvalgsfordeling Bo Lindqvist Institutt for matematiske fag

2 Fra kapittel 1: Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Primær problemstilling: Hva kan vi konkludere om populasjonen ved å analysere utvalget? I kapittel 7 studeres spesielt observatoren utvalgsgjennomsnitt, dvs. x, som skal si noe om parameterenµ som er populasjonsgjennomsnittet.

Tilfeldig utvalg: ethvert utvalg av størrelse n har like stor sannsynlighet for å bli valgt.

Skillbuilder Applet Ønsker å estimere populasjonsgjennomsnittsalder ved å ta et utvalg på 100 fra populasjonen. Hvis vårt utvalg er nr. 8 som gir gjennomsnitt 38.04, hvor godt er dette estimatet?

5 Utvalgsfordeling: Sampling distribution (7.1) En observator er en tallverdi som oppsummerer utvalget. Eksempler på observatorer er x, s, Q 1, x, Q 3. Særlig viktig er utvalgsgjennomsnittet x, som er utvalgsversjonen av populasjonsparameteren µ. Merk: En observator er en tilfeldig variabel med tilhørende fordeling. (Engelsk: sampling distribution ) Oppgave: I hvilken forstand er x en tilfeldig variabel? Hva er da det underliggende eksperiment?

Utvalgsfordeling for en observator: Fordelingen av verdier for en observator når det tas repeterte utvalg, alle av samme størrelse og fra den samme populasjonen.

8 Fordelingen til utvalgsgjennomsnittet x (7.2) Som nevnt er x en tilfeldig variabel. Vi kan f.eks. ikke forutse gjennomsnittet av n = 10 terningkast. Det er også klart at dersom vi gjør 10 nye kast, vil gjennomsnittet vanligvis ikke bli det samme. Det er denne variasjonen som uttrykkes ved fordelingen til utvalgsgjennomsnittet. Empirisk faktum: Fordelingen til x ligner mer og mer på en normalfordeling når antall kast n øker (se neste side).

P P Eksempel: Kast en terning n ganger og la x betegne antall øyne. Hva blir fordelingen til x? 0.10 0.12 0.14 0.16 0.18 0.20 0.22 P 0.00 0.05 0.10 0.15 P 0.00 0.02 0.04 0.06 0.08 0.10 P 1 2 3 4 5 6 n= 1 1 2 3 4 5 6 n= 2 1 2 3 4 5 6 n=4 0.00 0.02 0.04 0.06 0.08 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.00 0.01 0.02 0.03 0.04 P 1 2 3 4 5 6 n=8 1 2 3 4 5 6 n=16 1 2 3 4 5 6 n=32

Karakteristiske trekk ved fordelingen til x: Fordelingen blir spissere og spissere (mindre variasjon) når n øker Fordelingen ser mer og mer ut som en normalfordeling når n øker 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.00 0.05 0.10 0.15 0.00 0.02 0.04 0.06 0.08 0.10 P P P 1 2 3 4 5 6 n= 1 1 2 3 4 5 6 n= 2 1 2 3 4 5 6 n=4 0.00 0.02 0.04 0.06 0.08 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.00 0.01 0.02 0.03 0.04 P P P 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 n=8 n=16 n=32

11 Generell regel 1. Forventningen til x, µ x, er lik forventningen til x, dvs. µ 2. Standardavviket til x, σ x, er lik σ n (som avtar når n øker) σ x = σ n kalles standardfeilen for x (engelsk: standard error )

Oppgave: Dersom en populasjon har standardavvik på 20, hva er standardavviket til utvalgsgjennomsnittet dersom utvalgsstørrelsen er 16?

13 Sentralgrenseteoremet: Fordelingen til utvalgsgjennomsnittet vil nærme seg normalfordelingen når utvalgsstørrelsen n øker. Dette betyr at hvis n er stor vil x kunne regnes som normalfordelt med forventning µ x = µ og standardavvik σ x = σ n, dvs. P(a < x < b) P( a µ σ/ n < z < b µ σ/ n ) MERK: Dersom populasjonen som x trekkes fra selv er normalfordelt, vil x være eksakt normalfordelt for alle utvalgsstørrelser.

14 Eksempel: Ta gjennomsnittet av 16 terningkast. Hva er sannsynligheten for at gjennomsnittet er større enn eller lik 3 og mindre enn eller lik 4? Direkte metode gir at sannsynligheten er summen av søylene over den grønne streken, men det er arbeidskrevende å finne søylene (sannsynlighetene for de enkelte utfallene). Dersom en gjør dette får en svaret P(3 X 4) = 0.7847462

Alternativt kan vi bruke sentralgrenseteoremet: P(a < x < b) P( a µ σ/ n < z < b µ σ/ n ) Trenger da µ og σ for ett terningkast: Velkjent at µ = 3.5 Standardavvik σ: σ 2 = Σx 2 P(x) µ 2 = 91 6 3.52 = 2.917 σ = σ 2 = 1.7078

P(3 x 4) = P( 3 µ σ/ n < z < 4 µ σ/ n ) 3.0 3.5 = P( 1.7078/ 16 < z < 4.0 3.5 1.7078/ 16 ) = P( 1.17 < Z < 1.17) = 2 P(0 < Z < 1.17) = 2 0.3790 = 0.7580 (eksakt metode: 0.7847462)

Mer nøyaktig: Søylene svarende til x = 3 og x = 4 har egentlig bredde 1/16. Hvorfor? Dermed vil vi få mer nøyaktig svar ved å forlenge intervallet for z med halvparten av 1/16 både til venstre for 3 og til høyre for 4. Dette gir: P(3 x 4) = P(3 1/16 < x < 4+ 1/16 2 2 ) = P( 2.96875 µ σ/ < z < 4.03125 µ n σ/ ) n 2.96875 3.5 = P( 1.7078/ 4.03125 3.5 < z < 16 1.7078/ 16 ) = P( 1.2443 < z < 1.2443) = 2 P(0 < z < 1.2443) = 2 0.3925 = 0.785 (mens altså eksakt metode gir 0.7847462)

19 Anvendelser med fordelingen til gjennomsnittet (7.3) Eksempel: Betrakt en populasjon med µ = 100 og σ = 16. Dersom et utvalg med størrelse 16 velges, hva er sannsynligheten for at utvalgsgjennomsnittet vil være mellom 90 og 110? Husk: Gjennomsnittet til normalfordelte variable er også eksakt normalfordelt. P(90 < x < 110) = P( 90 µ σ/ n < z < 110 µ σ/ n ) = P( 90 100 16/ 16 < z < 110 100 16/ 16 ) = P( 2.5 < z < 2.5) = 2 P(0 < z < 2.5) = 2 0.4938 = 0.9876

Oppgave: Et tilfeldig utvalg med n=36 blir trukket fra en populasjon som har forventning 50 og standardavvik 10. Finn forventningen til x Finn standardavviket til x Hva er sannsynligheten for at x vil være mellom 45 og 55?

De neste figurene skal illustrere de tidligere nevnte karakteristiske trekk ved fordelingen til x: Fordelingen blir spissere og spissere (mindre variasjon) når n øker Fordelingen ser mer og mer ut som en normalfordeling når n øker De to foregående punktene holder selv om utvalget tas fra en populasjon med skjev og uregulær form.

26 Eksamensoppgaver (MCQ) H2009, 1b La x være gjennomsnittet av et tilfeldig utvalg av størrelse n = 4 fra en normalfordelt populasjon med forventning µ = 5 og standardavvik σ = 4. Hva er sannsynligheten for at x ligger mellom 6 og 8? A) 0.24 B) 0.43 C) 0.19 D) 0.08 E) 0.37 H2008, 1b La x være gjennomsnittet av et tilfeldig utvalg av størrelse n = 3 fra en normalfordelt populasjon med forventning µ = 1 og standardavvik σ = 1. Hva er P( x > 2)? A) 0.67 B) 0.33 C) 0.08 D) 0.24 E) 0.04