ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen



Like dokumenter
Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ST0202 Statistikk for samfunnsvitere

Binomisk sannsynlighetsfunksjon

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

6.1 Kontinuerlig uniform fordeling

TMA4240 Statistikk H2015

6.1 Kontinuerlig uniform fordeling

Et lite notat om og rundt normalfordelingen.

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Et lite notat om og rundt normalfordelingen.

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Medisinsk statistikk Del I høsten 2009:

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Medisinsk statistikk Del I høsten 2008:

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Fra første forelesning:

Oppfriskning av blokk 1 i TMA4240

Seksjon 1.3 Tetthetskurver og normalfordelingen

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Kontinuerlige sannsynlighetsfordelinger.

Sannsynlighetsregning og Statistikk.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Bernoulli forsøksrekke og binomisk fordeling

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

Forelening 1, kapittel 4 Stokastiske variable

Løsningsforslag Til Statlab 5

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Kapittel 3: Studieopplegg

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

TMA4240 Statistikk Høst 2008

TMA4240 Statistikk H2015

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Kapittel 4.4: Forventning og varians til stokastiske variable

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

ST0202 Statistikk for samfunnsvitere

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Kontinuerlige stokastiske variable.

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

3.1 Stokastisk variabel (repetisjon)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

DEL 1 GRUNNLEGGENDE STATISTIKK

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

EKSAMEN I TMA4245 Statistikk

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4245 Statistikk Eksamen desember 2016

Mer om hypotesetesting

Tabell 1: Beskrivende statistikker for dataene

Løsningsforslag til obligatorisk innlevering 3.

Lær å bruke GeoGebra 4.0

Regler i statistikk STAT 100

UNIVERSITETET I OSLO

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

UNIVERSITETET I OSLO

Kapittel 4.3: Tilfeldige/stokastiske variable

Konfidensintervall for µ med ukjent σ (t intervall)

UNIVERSITETET I OSLO Matematisk Institutt

ST0202 Statistikk for samfunnsvitere

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Statistikk og dataanalyse

Kapittel 1 ser på. Statistikk i hverdagen

ST0202 Statistikk for samfunnsvitere

Sannsynlighet og statistikk S2 Løsninger

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Introduksjon til statistikk og dataanalyse

Øving 7: Statistikk for trafikkingeniører

TMA4240 Statistikk Høst 2015

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Statistikk 1 kapittel 5

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen Bo Lindqvist Institutt for matematiske fag

2 Kap. 6: Normalfordelingen Normalfordelingen regnes som den viktigste statistiske fordelingen! Veldig mange kontinuerlige tilfeldige variabler x kan beskrives ved en normalfordeling.

3 Sannsynlighetstetthet og histogram

4 Sannsynlighetstetthet og histogram

5 Fra diskret til kontinuerlig tilfeldig variabel Til nå har vi jobbet med en diskret tilfeldig variabel, x og med tilhørende sannsynlighetsfordeling (f.eks. binomisk), og vi har sett hvordan vi kan regne sannsynligheter for utfall ved hjelp av sannsynlighetsfunksjonen P(x). Normalfordelingen tilhører en kontinuerlig tilfeldig variable x, og da trenger vi to funksjoner: sannsynlighetfunksjonen: som vi kaller en sannsynlighetstetthet og skriver f (x) (formelen for den klokkeformede kurven), og en funksjon (eller tabell) som kan brukes for å regne ut sannsynligheten for å få en verdi som ligger i et intervall P(a x b).

6 Normalfordelingen Sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel x er gitt ved en såkalt sannsynlighetstetthet f (x) ( probability distribution function ). Sannsynlighetstettheten til en normalfordelt tilfeldig variabel x har formel: f (x) = 1 e 1 2 ( x µ σ )2 2πσ Som for diskrete tilfeldige variable kan vi definere forventning og standardavvik også for kontinuerlige variable. For x med sannsynlighetstetthet f (x) ovenfor er: forventningen gitt ved µ (lik 100 i IQ-eksemplet) standardavviket gitt ved σ (lik 16 i IQ-eksemplet)

7 Sannsynlighet Sannsynligheten for å få et resultat i intervallet fra a til b finnes fra P(a < x < b) = b a f (x)dx som er lik arealet av det skraverte området på figuren under.

8 IQ: spørsmål Poengsummen fra en IQ-test antas ofte å være normalfordelt, og flere av IQ-testene har en forventningsverdi på 100 og et standardavvik på 16. 140 and over Genius or near genius 120-140 Very superior intelligence 110-120 Superior intelligence 90-110 Normal or average intelligence 80-90 Dullness 70-80 Borderline deficiency Below 70 Definite feeble-mindedness Hva er sannsynligheten for å ha en IQ mellom 80 og 120? For å bli med i Mensa må man oppnå en poengsum høyere enn 98 percentilen i fordelingen for testen. Hvor høy poengsum må man ha for å blir medlem av Mensa?

9 Lokasjon og spredning

10 Mange normalfordelinger Det finnes et ubegrenset antall ulike normalfordelinger - en for hvert valg av forventningsverdi µ og standardavvik σ. Heldigvis - så er alle disse normalfordelingene tett knyttet til en normalfordeling - som heter standard normalfordelingen. Standard normalfordelingen har forveningsverdi µ = 0 og standardavvik σ = 1.

11 z-score (standard score) Standardnormalfordelingen er fordelingen til såkalte z-score, som kan dannes fra en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved å beregne: z = x µ σ z-score kan også beregnes for et sett av data med gjennomsnitt x og utvalgsstandardavvik s ved å standardisere alle observasjonene med z = x x s

12 Standardnormalfordelingen [6.2] Dette er normalfordelingen med µ = 0, σ = 1. En standardnormalfordelt tilfeldig variabel betegnes ofte med z, og kalles z-score (i læreboka). Sannsynlighetstettheten er gitt ved formelen f (z) = 1 2π e 1 2 z2 Vi bruker ikke direkte denne formelen til noe i dette kurset, vi er mest interessert i arealer under kurven - fordi areal er sannsynlighet!

14 Egenskaper for standardnormalfordelingen 1. Det totale areal under kurven er 1. 2. Sannsynlighetstettheten har en topp, er symmetrisk om 0, og strekker seg uendelig langt ut i hver retning uten å berøre den horisontale aksen. 3. Forventningen i fordelingen er 0 og standardavviket er 1. 4. Arealet på hver side av 0 er lik 0.5. 5. Nesten hele arealet ligger mellom z = 3 og z = 3.

15 Empirisk regel

16 Appendix B, Tabell 3 NBNB: utgave 10 har en annen tabell!

17 Sannsynligheter fra standardnormalfordelingen: Gitt z-score finn sannsynlighet for mindre/større Vi skal nå på tavla tegne og fortelle - og bruke Tabell 3 til å regne ut følgende sannsynligheter: Sannsynligheten for at en z-score er mindre enn -1.36. Sannsynligheten for at en z-score er mindre enn 2.14. Sannsynligheten for at en z-score er større enn -1.36. Sannsynligheten for at en z-score ligger mellom -1.36 og 2.14.

18 Areal mellom to grenser Finn arealet under normalkurven mellom z = 1.36 og z = 2.14: P( 1.36 < z < 2.14) Løsning:

19 Areal mellom to grenser Arealet til venstre for den øvre grensen, z = 2.14, inkluderer både arealet vi søker og arealet til venstre for den nedre grensen z = 1.36. Derfor må vi trekke fra det siste arealet. P( 1.36 < z < 2.14) = P(z < 2.14) P(z < 1.36) = 0.9838 0.0869 = 0.8969

20 Appendix B, Tabell 3: observasjoner Når du skal regne ut sannsynligheter: lag alltid en tegning og marker hvor sannsynligheten du skal regne ut (arealet) er på tegningen. z = 0.00 har areal 0.5 til venstre (og høyre). Sannsynlighet for positive z-scores er større enn 0.5 siden de inkludere minst halvparten av arealet under normalkurven. Arealet under HELE normalkurven er 1. Dette brukes når vi skal finne sannsynligheter større (til høyre) for en z-score. Bruk 2 desimaler på z-scores og 4 desimaler på sannsynligheter.

21 Gitt sannsynlighet, finn z-score Vi skal nå på tavla tegne og fortelle - og bruke Tabell 3 til å finne z-score gitt en sannsynlighet. Vi skal lete inne i tabell 3 - i sannsynlighetene og så se hvilken z-score dette tilsvarer ved å se på kolonne og rad headings. Hvilken z-score har areal (sannsynlighet) 30% til venstre for seg? Hvilken z-score har areal 10% til høyre for seg? Hvilke z-scores begrenser det midterste 95% arealet i standard normalfordelingen?

22 Finne to z-scores som begrenser et areal Hvilke z-scores begrenser det midterste 95% arealet i standard normalfordelingen? Vi kan splitte 95% i to slik at 0.4750 er arealet vi søker mellom den nedre z-scoren og z = 0, og 0.4750 er arealet vi søker mellom z = 0 og den øvre z-scoren. Det betyr at den nedre z-scoren skal ha 0.025 areal til venstre og den øvre z-scoren har 0.025 areal til høyre.

En z-score som har areal 0.025 til høyre har da areal 0.975 til høyre.

Vi leter opp tallene 0.0250 og 0.9750 i Tabell 3: Og vi ser at z-scoren som har 0.025 areal til venstre er -1.96, mens z-scoren som har areal 0.975 til venstre er 1.96. Dermed vil -1.96 og 1.96 begrense det midterste 95% arealet i en standardnormalfordeling. Tilleggsspørsmål: hvilke z-scores begrenser det midterste 68% arealet i en standardnormalfordling.

25 IQ: spørsmål Poengsummen fra en IQ-test antas ofte å være normalfordelt, og flere av IQ-testene har en forventningsverdi på 100 og et standardavvik på 16. 140 and over Genius or near genius 120-140 Very superior intelligence 110-120 Superior intelligence 90-110 Normal or average intelligence 80-90 Dullness 70-80 Borderline deficiency Below 70 Definite feeble-mindedness Hva er sannsynligheten for å ha en IQ mellom 80 og 120? For å bli med i Mensa må man oppnå en poengsum høyere enn 98 percentilen i fordelingen for testen. Hvor høy poengsum må man ha for å blir medlem av Mensa?

26 Anvendelser av normalfordelingen (6.3) Generell regel: For x normalfordelt med forventning µ og standardavvik σ gjelder ( a µ P(a < x < b) = P < z < b µ ) σ σ der z er standard normalfordelt. Det essensielle er her at verdiene a og b for x regnes om til standard score ved å trekke fra µ og dele på σ. Husker fra tidligere at vi definerer z-score for en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved z = x µ σ

Cartoon Guide to Statistics

28 Sannsynlighet for IQ mellom 80 og 120? IQ-verdier er normalfordelte med forventning µ = 100 og standardavvik σ = 16. Trekk en tilfeldig person. Hva er sannsynligheten for at IQ-verdien er mellom 80 og 120? P(80 < x < 120) = ( ) 80 100 120 100 P < z < 16 16 = P( 1.25 < z < 1.25) = P(z < 1.25) P(z < 1.25) = 0.8944 0.1057 = 0.7887

29 Sannsynlighet for IQ mellom 80 og 120? Vi har her regnet om verdiene 80 og 120 til z-score, og så funnet sannsynligheten for at z er mellom disse verdiene. Her blir z-score for 80: og z-score for 120: 80 100 16 = 1.25 120 100 16 = 1.25

30 Hands-on Hva er sannsynligheten for at en tilfeldig valgt person har IQ over 125? Bruk at µ = 100.00 og σ = 16.00.

31 Hvordan finne prosentiler for en normalfordeling med µ og σ? Eksempel: Finn 30% prosentilen (x-verdien) når x er normalfordelt med forventning 100 og standardavvik 16, dvs. finn x-verdien slik at P(x < x verdi ) = 0.30 Vi har tidligere funnet for standard normalfordelingen at 30% percentilen i standard normalfordelingen er -0.52, dvs. P(z < z verdi ) = 0.30 gir z verdi = 0.52.

Nå bruker vi den vanlige sammenhengen x verdi µ σ = z verdi x verdi µ = z verdi σ x verdi = µ + z verdi σ x verdi = 100 0.52 16 = 91.68 Oppgave: Finn 98% (Mensa) IQ percentilen (forventning 100 og standardavvik 16)

33 Eksamen H2010: 1a (MCQ) Et mobiltelefonselskap tilbyr et abonnement som er tilpasset kunder som ringer relativt lite, og som er spesielt gunstig dersom total ringetid i løpet av en måned er under 275 minutter. En potensiell kunde til dette abonnementet anslår sin totale ringetid for en måned til å være normalfordelt med forventning 250 minutter og standardavvik 20 minutter. Hva er sannsynligheten for at denne kunden i løpet av en måned har en total ringetid på mer enn 275 minutter? A) 0.11 B) 0.22 C) 0.39 D) 0.89 E) 0.06

34 Tidligere eksamener (MCQ) H2007, 1b En tilfeldig variabel X er normalfordelt med standardavvik σ= 4. Dersom P(X < 86.6) = 0.95, hva er P(75.0 < X < 80.0)? A) 0.55 B) 0.43 C) 0.39 D) 0.11 E) 0.23 H2005, 1g Anta at X er normalfordelt med gjennomsnitt 5.0 og varians 4.0. Bestem sannsynligheten P(X > 5 X > 3) A) 0 B) 0.59 C) 0.67 D) 0.75 E) 1

Data som er påvirket av mange små og urelatert tilfeldig effekter er tilnærmet normalfordelt. Cartoon Guide to Statistics

36 Notasjon (6.4) z(α) kalles kritisk verdi og er z-verdien slik at areal α ligger til høyre, dvs P(z > z(α)) = α

37 Finne z(0.05) Hvis areal til høyre er 0.05 så er areal til venstre 0.95.

38 Finne z(0.05) Slår opp i tabell 3 og finner tallet 0.95. Her er 0.95 midt mellom 1.64 og 1.65, og da bruker vi alltid det største tallet.

Eksempler: z(0.25) = 0.67 z(0.10) = 1.28 z(0.05) = 1.65 z(0.005) = 2.58 Oppgave: Hva er z(0.5)?

41 z(α) og z(1 α) Vi så at z(0.05) = 1.65 er tallet som har areal 0.05 til høyre i standard normalfordelingen. På grunn av symmetri vil arealet til venstre for z(0.05) = 1.65 være 0.05. Og, arealet til høyre for 1.65 vil være 0.95. Dette kan vi skrive som at α = 0.05 og 1 α = 0.95 og dermed z(α) = z(1 α). Hvis 1 α > 0.5 vil vi da heller skrive z(α) istedenfor z(1 α). Dvs. z(0.95) kaller vi heller z(0.05), og z(0.9) kaller vi heller z(0.1).

42 Hands-on - tabell 4 side 718 a) Hvilken z-score (kritisk verdi) har areal 0.25 vil høyre? Hva kaller vi tallet? b) Hvilken z-score har areal 0.1 til venstre for seg? Hva kaller vi tallet? c) Hvor stort areal ligger mellom 1.65 og 1.65? Hva kalles disse to tallene? d) Hvilke(n) kritisk verdier gir to like haler med totalt areal 0.1? e) Hvilke(n) kritisk verdier gir to like haler med totalt areal 0.05?

43 Normaltilnærming til binomisk fordeling (6.5) La x være binomisk fordelt med n forsøk og sannsynligheter for suksess og fiasko henholdsvis p og q. Da er forventning µ = np og standardavvik σ = npq. Hvis np 5 og nq 5 kan vi regne ut sannsynligheter i binomisk fordeling ved å bruke standard normalkurven og regne som om x er normalfordelt.

44 Binomisk og normal

Eksempel: La x være binomisk fordelt med n = 10, p = 0.5. Hva er P(x = 6)? Siden np = 5 og nq = 5 er vi på grensen til bruk av normaltilnærming Videre er µ = 10 0.5 = 5, σ = 10 0.5 0.5 = 2.5 = 1.58 P(x = 6) = P(5.5 < x < 6.5) ( 5.5 5 = P 1.58 < z < 6.5 5 ) 1.58 = P(0.32 < z < 0.95) (Ved binomisk fordeling direkte: 0.205) = P(z < 0.95) P(z < 0.32) = 0.8289 0.6255 = 0.2034

46 Regneeksempel fra Cartoon Guide Binomisk med n = 25, p = 0.5. Hva er P(X 14)?

Eksempel: La x være binomisk fordelt med n = 25, p = 0.5. Hva er P(x 14)? Både np = 12.5 > 5 og nq = 12.5 > 5 så vi kan bruke normaltilnærmingen. P(x 14) = P(x < 14.5) = 14.5 12.5 P(z < ) 6.25 (Ved binomisk fordeling direkte: 0.7878) = P(z < 0.8) = 0.7881

48 Kontinuitetskorreksjon Figur fra Cartoon Guide to Statistics.

49 Hands-on For en type hudkreft overlever 90% av pasientene. Hva er sannsynligheten for at 200 eller flere overlever av en gruppe på 230?

Løsning: P(x 200) = P(x > 199.5) ( ) 199.5 230 0.9 = P z > 230 0.9 0.1 = P(z > 1.65) = P(z < 1.65) = 0.5 + P(0 < z < 1.65) = 0.5 + 0.45 = 0.95