Seksjon 1.3 Tetthetskurver og normalfordelingen

Like dokumenter
Seksjon 1.3 Tetthetskurver og normalfordelingen

Eksempel på data: Karakterer i «Stat class» Introduksjon

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Utvalgsfordelinger (Kapittel 5)

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 4.4: Forventning og varians til stokastiske variable

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

UNIVERSITETET I OSLO

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Utvalgsfordelinger (Kapittel 5)

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Inferens i fordelinger

UNIVERSITETET I OSLO

Binomisk sannsynlighetsfunksjon

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Statistikk og dataanalyse

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Kapittel 3: Studieopplegg

Deskriptiv statistikk., Introduksjon til dataanalyse

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

Deskriptiv statistikk., Introduksjon til dataanalyse

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Medisinsk statistikk Del I høsten 2009:

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Tabell 1: Beskrivende statistikker for dataene

TMA4240 Statistikk H2010

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ST0202 Statistikk for samfunnsvitere

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Løsningsforslag til obligatorisk oppgave i ECON 2130

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

ST0202 Statistikk for samfunnsvitere

Kort overblikk over kurset sålangt

Forkurs i kvantitative metoder ILP 2019

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Matematisk Institutt

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Forelesning 3. april, 2017

Denne uken: Kapittel 4.3 og 4.4

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

TMA4245 Statistikk Eksamen desember 2016

DEL 1 GRUNNLEGGENDE STATISTIKK

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Transformasjoner av stokastiske variabler

UNIVERSITETET I OSLO

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Kap. 8: Utvalsfordelingar og databeskrivelse

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Formelsamling i medisinsk statistikk

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 4.3: Tilfeldige/stokastiske variable

TMA4240 Statistikk H2017 [15]

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

STK Oppsummering

Inferens i regresjon

Forslag til endringar

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Transkript:

Seksjon 1.3 Tetthetskurver og normalfordelingen Har sett på ulike metoder for å plotte eller oppsummere data ved tall Vil nå starte på hvordan beskrive data ved modeller Hovedmetode er tetthetskurver

Tetthetskurver Alternativ til histogram Glatt tilnærming av de irregulære boksene i histogram

Tetthetskurve og histogram gir det samme bildet med hensyn til både entoppethet og at fordelingen er symmetrisk

Tetthetskurve og histogram gir det samme bildet med hensyn til både småtopper i høyre hale og at fordelingen er skjev Tetthetskurven har høyere topp ved senter av fordelingen, dette er fordi histogrammet fordeler observasjonene rundt toppene i to klasser

Tetthetskurver Mer robuste Resultatene man får fra dataprogrammer er mindre tilfeldige enn ved å velge klasser for et histogram En idealisering som viser det generelle mønsteret til dataene, uten å vise mindre irregulariteter

Figur viser histogram og tetthetskurve for poengene til 947 syvendeklasse-elever på en nasjonal, amerikansk prøve. Histogrammet er relativt symmetrisk, en-toppet og uten gap eller klare uteliggere Tetthetskurven stemmer godt overens med mønsteret i histogrammet

Andel mindre enn 6 i histogrammet (farget rødt) er 287/947=0.303 (287 er antallet i hver av klassene opp til 6) Dersom histogrammet var angitt med relativ andel (frekvens), kunne vi lagt sammen andelene i klassene opp til 6 og fått 0.303

Arealet av tetthetskurven til venstre for 6 (farget rødt) er 0.293, tett på 0.303. Stemmer godt med at man ser at arealet under tetthetskurven gir en god tilnærming til arealene gitt av histogrammet

Tetthetskurver En tetthetskurve er en kurve som Alltid er ovenfor den horisontale aksen Har areal eksakt lik 1 Modell (idealisert) for beskrivelse av data Uteliggere, som avviker fra det overordnede mønsteret, beskrives ikke av kurven/modellen

En tetthetskurve beskriver det overordnede mønstret i en fordeling. Arealet nedenfor en verdi beskriver andelen av observasjoner som faller innenfor dette området.

Senter og spredning for tetthetskurver Har tidligere sett på mål for senter og spredning for data Ønsker tilsvarende mål for tetthetskurver

Median i en tetthetskurve Punktet der halvparten av arealet under kurven er nedenfor og halvparten er ovenfor Mål på senter i fordeling Kaller denne noen ganger for teoretisk median for å skille den fra median av data som kalles empirisk median

Forventning i tetthetskurve Forventning av en tetthetskurve er balansepunktet der kurven ville balansere hvis den var laget av solid materiale På engelsk, mean svarer både til gjennomsnitt og forventning På norsk skiller vi mellom disse

Matematisk formel forventning Kan matematisk regne ut forventing ved Et slags vektet gjennomsnitt

Idealisering Tetthetskurve: Idealisert beskrivelse av fordeling til data Teoretisk median: Idealisert beskrivelse av empirisk median Forventning: Idealisert beskrivelse av gjennomsnitt Vi vil også skille mellom empirisk og teoretisk standardavvik

Symmetriske fordelinger Ofte brukt i statistikk Matematisk bekvemme Realistiske i mange sammenhenger Positive og negative målefeil har samme fordeling For symmetriske fordelinger er forventning og median like

Normalfordelingen Ofte bekvemt å anta kurven har en bestemt form Normalfordelingen: Viktig klasse av tetthetskurver Unimodal, klokkeformet, symmetrisk God beskrivelse av fordeling for reelle data for mange individer, f.eks. Poeng på prøver tatt av mange mennesker Gjentatte målinger av samme størrelse i et laboratorium Egenskaper til individer, som f.eks. høyde eller vekt

Normalfordeling Viktigste fordeling innen statistikk God tilnærming til fordeling av mange oppsummerende mål (gjennomsnitt etc) Statistiske metoder basert på normalfordeling fungerer godt for data som er tilnærmet symmetrisk fordelte.

Normalfordelingen Spesifisert av senterpunkt μ og spredningsmål σ Senterpunkt μ svarer til forventning (og median) Spredningsmål σ svarer til standardavvik Matematisk beskrivelse Bruker ofte N(μ,σ)

68-95-99.7 regelen Tilnærmet 68% av fordelingen faller innenfor intervallet [μ-σ,μ+σ] Tilnærmet 95% av fordelingen faller innenfor intervallet [μ-2σ,μ+2σ] Tilnærmet 99.7% av fordelingen faller innenfor intervallet [μ-3σ,μ+3σ]

Eksempel høyde kvinner Høyden til kvinner mellom 18 og 24 er tilnærmet normalfordelt med forventning μ=64.5 tommer og standardavvik σ=2.5 tommer. 95% innenfor [64.5-2*2.5,64.5+2*2.5] eller [59.5,69.5] (tilnærmet fordi fordelingen er en tilnærming) 2.5% lavere enn 59.5 2.5% over 69.5

ph-målinger i 105 prøver av regnvann Gjennomsnitt = 5.4256 og standardavvik s=0.5379 Omtrent 68% (71/105 ) av ph-målingene er i intervallet +/- s = 4.89 til 5.96. Omtrent 95% (100/105) av målingene er i intervallet +/- 2s = 4.35 til 6.50 Alle (100%) målingene er i intervallet +/-3s = 3.81 to 7.04

Standardisering 68-95-99.7-regelen er et eksempel på at alle normalfordelinger deler egenskaper Dersom vi måler i enheter standardavvik σ rundt forventningen μ er alle normalfordelinger like Dette gjør det nyttig å standardisere normalfordelte variable

Standardisering og z-skår Hvis x er en observasjon fra en fordeling som har forventing μ og standard avvik σ, så er den standardiserte verdien av x lik z = (x-μ)/σ En standardisert verdi kalles ofte z-skår

z-skår Forteller hvor mange standard avvik den opprinnelige observasjon er forskjellig fra forventningen x større enn forventningen μ får positiv z- skår x mindre enn μ får negativ z-skår

Eksempel, høyde kvinner Høyden til kvinner mellom 18 og 24 er tilnærmet normalfordelte med forventning μ=64.5 tommer og standardavvik σ=2.5 tommer Standardisert høyde: z=(høyde-64.5)/2.5 Høyde=68 gir z=(68-64.5)/2.5=1.4, dvs 1.4 standardavvik større enn forventningen Høyde=60 gir z=(60-64.5)/2.5 = -1.8, dvs 1.8 standardavvik mindre enn forventningen Store eller små z-verdier svarer til ekstreme observasjoner

(Fra kapittel 1.2) Lineær transformasjon x har forventning μ og standardavvik σ En lineær transformasjon z=a+bx har samme form på fordeling som x, men forventning og standardavvik endres z har forventning a+bμ z har standardavvik bσ

Standardisering=lineær transformasjon x har forventning μ og standard avvik σ z = (x-μ)/σ = - μ/σ + x/σ = a + bx der a = - μ/σ og b = 1/σ Fra forrige slide: z har forventning a+bμ=0 z har standard avvik bσ=1

Standard normalfordeling Standard normalfordeling er normalfordeling med forventning=0 og standardavvik=1 dvs. N(0,1) Hvis en variabel X har en normalfordeling N(μ,σ) med forventning=μ og standardavvik=σ, da har den standardiserte variabelen Z = (X-μ)/σ en standard normalfordeling

Beregninger for normalfordeling Arealet av normalfordelingskurven nedenfor en verdi x beskriver andelen av observasjoner som er mindre enn x kalles også kumulativ andel

Beregninger for normalfordeling Vanskelig å beregne slike arealer for generelle normalfordelinger Arealene er regnet ut for standard normalfordeling og kan finnes i tabell Enkelt å slå opp i tabell for standard normalfordeling Derfor standardiserer man normalfordelte observasjoner slik at tabellen kan brukes

Eksempel Ønsker å beregne andelen med høyde x < 60 Standardiser! x < 60 er ekvivalent med z = (x-64.5)/2.5 < 60-64.5/2.5 = -1.8 Fra tabell: z < -1.8 har sannsynlighet 0.0359 eller 3.59%

Andre beregninger Vi har sett at arealet av normalfordelingskurven nedenfor en verdi x beskriver andelen av observasjoner som er mindre enn x Arealet av kurven ovenfor en verdi x beskriver andelen av observasjoner som er større enn x Arealet av kurven mellom verdiene x1 og x2 beskriver andelen av observasjoner som er større enn x1 og mindre enn x2

Beregninger: Eksempel SAT-poeng for 1.4 mill studenter har forventning 1026 og standardavvik 209. Idrettsutøvere må ha minst 820 poeng for å få lov til å konkurrere. Hvor stor andel av studentene har minst 820 poeng? Areal over 820 = totalareal - areal under 820 Totalareal = 1 Areal under 820 = areal under z=(820-1026)/209=-0.9856 i standard normalfordelingen 0.1611 (eller mer eksakt 0.1621 ved bruk av dataprogram) Areal over 820 = 1 0.1621 = 0.8379 ( 84%)

Beregninger: Eksempel Idrettsutøvere med mellom 720 og 820 poeng får stipend, men ikke lov til å konkurrere. Hvor stor andel av studentene har mellom 720 og 820 poeng poeng? Areal mellom 720 og 820 = areal under 820 - areal under 720 Areal under 820 = 0.1621 Areal under 720 = areal under z= Areal mellom 720 og 820 =

Beregninger: Eksempel

Inverse beregninger Vi har sett hvordan vi kan finne andelen observasjoner som faller i et gitt sett av verdier, f.eks. lavere enn 60 Inverse beregninger er å finne hvilket sett av verdier som svarer til en gitt andel Eksempel: Poeng på en verbal test følger tilnærmet en N(505,110)- fordeling. Hvor høy poengsum må en student ha for å være blant de 10% beste? Hvilken x-verdi har 10% av arealet over seg Hvilken z=(x-505)/110 har 10% av arealet over seg?

Finner z=1.28 i tabell z=1.28 = (x-505)/110 gir = 1.28*110+505 = 645.8 Intuitivt riktig fordi z=1.28 betyr at x ligger 1.28 standardavvik (110) over forventningen (505), dvs x=1.28*110+505 Generelt for å tilbakestille standardisering: x=μ+zσ x

Sjekking av normalfordeling Normalfordeling ofte brukt Bør sjekke om data er tilnærmet normalfordelt Histogram/tetthetsplot nyttige men litt vanskelige å evaluere Bedre metode: Kvantil-plott

Fremgangsmåte: Kvantil-plott 1. Sorter data fra minste til største verdi. Finn hvilken persentil hver dataverdi svarer til (dvs hvor mange prosent av observasjonene har samme eller lavere verdi enn dette) 2. Finn z-skårene som hører til disse persentilene (invers bruk av tabellen). F.eks. får 1%-persentilen z=-2.33 3. Plott hver observasjon x mot den tilhørende z-skår som ble funnet i punkt 2 Dersom observasjonene er tilnærmet normalfordelte vil punktene ligge omtrent langs en rett linje Se etter systematiske avvik fra rett linje, som indikerer en annen fordeling enn normal Uteliggere vil sees som punkter som ligger langt unna det overordnede mønsteret

Eksempel ph-målinger i regnvann Formen på histogrammene varierer med valg av klasser Derfor vanskelig å se om dataene er tilnærmet normalfordelt fra histogrammer Lager histogrammer med forskjellige klasser (Minitab)

Kvantilplott (Minitab)

Kvantil-plott av bruddstyrker i ledninger Ligger omtrent langs en rett linje Granularitet: Noen målinger har eksakt samme verdi, som gir små, horisontale linjer. Dette pga begrenset presisjon i måleinstrumentet En høy og to lave uteliggere som bør undersøkes nærmere

Kvantil-plott til levetidene til marsvin Dersom man trekker en linje gjennom hovedmønsteret, ser man at de høye verdiene ligger langt over linjen Dette indikerer sterk høyre-skjevhet, dvs en lang hale mot høyre Dataene følger altså ikke normalfordelingen