ST0202 Statistikk for samfunnsvitere

Like dokumenter
Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Binomisk sannsynlighetsfunksjon

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Medisinsk statistikk Del I høsten 2009:

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Bernoulli forsøksrekke og binomisk fordeling

Oppfriskning av blokk 1 i TMA4240

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Seksjon 1.3 Tetthetskurver og normalfordelingen

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2008

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

STK1100 våren 2019 Mere om konfidensintevaller

Forelesning 3. april, 2017

TMA4240 Statistikk Høst 2015

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Forelening 1, kapittel 4 Stokastiske variable

DEL 1 GRUNNLEGGENDE STATISTIKK

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

TMA4240 Statistikk H2015

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

SFB LØSNING PÅ EKSAMEN HØSTEN 2018

Kapittel 4.3: Tilfeldige/stokastiske variable

Kapittel 3: Studieopplegg

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Midtveiseksamen i STK1100 våren 2017

STK Oppsummering

TMA4240 Statistikk Høst 2015

Kapittel 4.4: Forventning og varians til stokastiske variable

Utvalgsfordelinger (Kapittel 5)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk H2015

Formelsamling i medisinsk statistikk

Fasit for tilleggsoppgaver

Sensurveiledning for eksamen i lgu52003 våren 2015

UNIVERSITETET I OSLO Matematisk Institutt

TMA4240 Statistikk Høst 2012

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4245 Statistikk Eksamen desember 2016

GeoGebra finner nullpunktene til en innlagt polynomfunksjon f. GeoGebra finner nullpunktene til en innlagt funksjon f i intervallet [1, 8].

TMA4240 Statistikk Høst 2016

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4245 Statistikk Eksamen august 2014

ST0202 Statistikk for samfunnsvitere

Kap. 6, Kontinuerlege Sannsynsfordelingar

6.1 Kontinuerlig uniform fordeling

FORMELSAMLING TIL STK1100 OG STK1110

Kontinuerlige sannsynlighetsfordelinger.

Statistikk 1 kapittel 5

Kap. 6, Kontinuerlege Sannsynsfordelingar

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

UNIVERSITETET I OSLO

6.1 Kontinuerlig uniform fordeling

TMA4240 Statistikk Høst 2007

Transformasjoner av stokastiske variabler

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

ECON2130 Kommentarer til oblig

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

TMA4240 Statistikk Eksamen desember 2015

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

Situasjonen er som i quiz-eksempelet: n = 4, p = 1/3 ( suksess betyr å gjette riktig alternativ), q = 2/3. Oppgave: Finn P(x), x=0,1,2,3,4 fra den generelle formelen for binomisk sannsynlighetsfordeling Finn også P(x 3)

Løsning: dvs. P(0) = P(1) = P(2) = P(3) = P(4) = P(x) = ( 4 x ) ( 1 3 ) x ( ) 2 4 x 3 ( )( ) 4 1 0 ( ) 2 4 ( ) 2 4 = = 0.198 0 3 3 3 ( )( ) 4 1 1 ( ) 2 3 ( ) 1 1 ( ) 2 3 = 4 = 0.395 1 3 3 3 3 ( )( ) 4 1 2 ( ) 2 2 ( ) 1 2 ( ) 2 2 = 6 = 0.296 2 3 3 3 3 ( )( ) 4 1 3 ( ) 2 1 ( ) 1 3 ( ) 2 1 = 4 = 0.099 3 3 3 3 3 ( )( ) 4 1 4 ( ) 2 0 ( ) 1 4 = = 0.012 4 3 3 3 dvs. P(x 3) = 1 P(x = 4) = 1 0.012 = 0.988

4 Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B La x være antall dårlige egg i en tilfeldig eske. x har en binomisk fordeling med n = 12 forsøk og sannsynlighet for suksess lik 0.05. Sannsynligheten for at en kartong inneholder x dårlige egg er da gitt i Tabell 2 i Appendix B Leser ut av tabell: Sannsynligheten for å få en kartong med høyst ett dårlig egg er P(0) + P(1) = 0.540 + 0.341 = 0.881

5 Tabell 2 i Appendix B Leser av at med n = 12, p = 0.05 er P(0) = 0.540, P(1) = 0.341

6 Kap. 6: Normalfordelingen Eksempel: Intelligenstester (6.1)

7 Sannsynlighetstetthet og histogram

8 Sannsynlighetstetthet og histogram

9 Sannsynlighetstetthet Sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel x er gitt ved en såkalt sannsynlighetstetthet f(x) ( probability distribution function ). Sannsynligheten for å få et resultat i intervallet fra a til b finnes fra P(a < x < b) = b a f(x)dx som er lik arealet av det skraverte området på figuren under.

10 Normalfordelingen (6.2) Sannsynlighetstettheten til en normalfordelt tilfeldig variabel x har formel: f(x) = 1 e 1 2 ( x µ σ )2 2πσ Som for diskrete tilfeldige variable kan vi definere forventning og standardavvik også for kontinuerlige variable. For x med sannsynlighetstetthet f(x) ovenfor er: forventningen gitt ved µ (lik 100 i IQ-eksemplet) standardavviket gitt ved σ (lik 16 i IQ-eksemplet)

11 Standardnormalfordelingen (6.3) Dette er normalfordelingen med µ = 0, σ = 1. En standardnormalfordelt tilfeldig variabel betegnes ofte med z. Sannsynlighetstettheten er gitt ved formelen f(z) = 1 2π e 1 2 z2

12 Egenskaper for standardnormalfordelingen 1. Det totale areal under kurven er 1. 2. Sannsynlighetstettheten har en topp, er symmetrisk om 0, og strekker seg uendelig langt ut i hver retning uten å berøre den horisontale aksen. 3. Forventningen i fordelingen er 0 og standardavviket er 1. 4. Arealet på hver side av 0 er lik 0.5. 5. Nesten hele arealet ligger mellom z = 3 og z = 3.

13 z-score (standard score) Standardnormalfordelingen er fordelingen til såkalte z-score, som kan dannes fra en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved å beregne: z = x µ σ z-score kan også beregnes for et sett av data med gjennomsnitt x og utvalgsstandardavvik s ved å standardisere alle observasjonene med z = x x s

14 Beregning av sannsynligheter for standardnormalfordelingen Sannsynligheten for at z har en verdi i et intervall fra a til b er gitt som arealet under standardnormalfordelingskurven fra a til b. Formelt kan vi skrive dette arealet som P(a < z < b).

Tabell 3 i Appendix B viser arealet under kurven mellom a = 0 og ulike verdier av b, dvs. P(0 < z < b) Tabellen kan brukes til å finne arealer for alle valg av a, b.

Eksempel: Finn arealet under standard normalfordelingen fra z=0 til z=1.52. z 0.00 0.01 0.02. 1.5 0.4357. P(0 < z < 1.52) = 0.4357

Eksempel: Finn P(z>1.52) P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0) + P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643

Oppgave: Finn P(z>2.03)

Eksempel: Finn P(z<-1.52) P(z < 1.52) = P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0) + P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643 Oppgave: Finn P(z<-1.65)

Eksempel: Finn P(-1.5<z<2.1) P( 1.5 < z < 2.1) = P( 1.5 < z < 0) + P(0 < z < 2.1) = P(0 < z < 1.5) + P(0 < z < 2.1) = 0.4332 + 0.4821 = 0.9153

Eksempel: Finn P(0.7<z<2.1) P(0.7 < z < 2.1) = P(0 < z < 2.1) P(0 < z < 0.7) = 0.4821 0.2580 = 0.2241 Oppgave: Finn P(0.75<z<2.25)

24 Hvordan finne prosentiler for standard normalfordelingen? Eksempel: Finn 75% prosentilen, dvs. z-verdien p 75 slik at P(z < p 75 ) = 0.75 P(z < 0) + P(0 < z < p 75 ) = 0.75 P(0 < z < p 75 ) = 0.75 0.5 = 0.25

Fra Tabell 3 finner en areal-verdi nærmest til 0.25. Dette er 0.2486 med tilhørende z-verdi 0.67. Oppgave: Finn 95% prosentilen p 95 i standard normalfordelingen.

26 z-verdier som begrenser et areal Hvilke z-verdier begrenser det midterste 95% arealet i en standard normalfordeling? Løsning: Arealet på 95% deles i to like deler på hver side av 0, dvs. areal 0.4750 på hver side (se figur). Vi ser nå i Tabell 3 for å finne tabellverdien nærmest 0.4750. Dette er eksakt 1.96, og det følger altså at 95% av standard normalfordelingen ligger mellom 1.96 og 1.96, dvs. P( 1.96 < z < 1.96) = 0.95

Oppgave: Hvilke z-verdier begrenser det midterste 68% arealet i en standard normalfordeling?

28 Anvendelser av normalfordelingen (6.4) Generell regel: For x normalfordelt med forventning µ og standardavvik σ gjelder ( a µ P(a < x < b) = P < z < b µ ) σ σ der z er standard normalfordelt. Det essensielle er her at verdiene a og b for x regnes om til standard score. Husker fra tidligere at vi definerer z-score for en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved z = x µ σ

Eksempel: IQ-verdier er normalfordelte med forventning µ = 100 og standardavvik σ = 16. Trekk en tilfeldig person. Hva er sannsynligheten for at IQ-verdien er mellom 100 og 115? ( 100 100 P(100 < x < 115) = P < z < 16 = P(0 < z < 0.94) = 0.3264 ) 115 100 16 Vi har her regnet om verdiene 100 og 115 til z-score, og så funnet sannsynligheten for at z er mellom disse verdiene. Her blir z-score for 100: og z-score for 115: 100 100 16 = 0 115 100 16 = 0.94

Oppgave: Hva er sannsynligheten for at en tilfeldig valgt person har IQ over 140 (µ = 100.00, σ = 16.00)?

31 Hvordan finne prosentiler for en normalfordeling med µ og σ? Eksempel: Finn 75% prosentilen (x-verdien) når x er normalfordelt med forventning 100 og standardavvik 16, dvs. finn x-verdien slik at P(x < x verdi ) = 0.75 Vi har tidligere funnet for standard normalfordelingen at 75% percentilen i standard normalfordelingen er 0.67, dvs. P(z < z verdi ) = 0.75 gir z verdi = 0.67.

Nå bruker vi den vanlige sammenhengen x verdi µ σ = z verdi σ x verdi µ = z verdi σ x verdi = µ + z verdi σ x verdi = 100 + 0.67 16 = 110.72 Oppgave: Finn 33% IQ percentilen (forventning 100 og standardavvik 16)

33 Notasjon (6.5) z(α) kalles kritisk verdi og er z-verdien slik at areal α ligger til høyre, dvs P(z > z(α)) = α

Eksempler: z(0.25) = 0.67 z(0.10) = 1.28 z(0.05) = 1.65 z(0.005) = 2.58 Oppgave: Hva er z(0.5)?

37 Normaltilnærming til binomisk fordeling (6.6) La x være binomisk fordelt med n forsøk og sannsynligheter for suksess og fiasko henholdsvis p og q. Da er forventning µ = np og standardavvik σ = npq. Hvis np 5 og nq 5 kan vi regne ut sannsynligheter i binomisk fordeling ved å bruke standard normalkurven og regne som om x er normalfordelt.

0.5 0.0 0.5 1.0 1.5 2.0 2.5 0 1 2 3 4 0 1 2 3 4 0 2 4 6 8 10 0 2 4 6 8 10 12 14 0 10 20 30 40 n= 2, p= 0.1 n= 10, p= 0.1 n= 50, p= 0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.2 0.4 0.6 0.8 0.0 0.1 0.2 0.3 0.4 0.00 0.05 0.10 0.15 n= 2, p= 0.5 n= 10, p= 0.5 n= 50, p= 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.02 0.04 0.06 0.08 0.10

Eksempel: La x være binomisk fordelt med n = 10, p = 0.5. Hva er P(x = 6)? Siden np = 5 og nq = 5 er vi på grensen til bruk av normaltilnærming Videre er µ = 10 0.5 = 5, σ = 10 0.5 0.5 = 2.5 = 1.58 P(x = 6) = P(5.5 < x < 6.5) ( 5.5 5 = P 1.58 < z < 6.5 5 ) 1.58 = P(0.32 < z < 0.95) = P(0 < z < 0.95) P(0 < z < 0.32) = 0.3289 0.1255 = 0.2034 (Ved binomisk fordeling direkte: 0.205) n= 10, p= 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10

Eksempel: La x være binomisk fordelt med n = 25, p = 0.5. Hva er P(x 14)? Både np = 12.5 > 5 og nq = 12.5 > 5 så vi kan bruke normaltilnærmingen. P(x 14) = P(x < 14.5) = 14.5 12.5 P(z < ) 6.25 = P(z < 0.8) = 0.5 + P(0 < z < 0.8) = 0.5 + 0.2881 = 0.788 (Ved binomisk fordeling direkte: 0.7878) 0.00 0.05 0.10 0.15 0 5 10 15 20 25

Oppgave: For en type hudkreft overlever 90% av pasientene. Hva er sannsynligheten for at 200 eller flere overlever av en gruppe på 230?

Løsning: P(x 200) = P(x > 199.5) ( ) 199.5 230 0.9 = P z > 230 0.9 0.1 = P(z > 1.65) = P(z < 1.65) = 0.5 + P(0 < z < 1.65) = 0.5 + 0.45 = 0.95