Seksjon 1.3 Tetthetskurver og normalfordelingen

Seksjon 1.3 Tetthetskurver og normalfordelingen Har sett på ulike metoder for å plotte eller oppsummere data Vil nå starte på hvordan beskrive data ved modeller Hovedmetode er tetthetskurver

Tetthetskurver Alternativ til histogram Glatt tilnærming av de irregulære boksene i histogram Mer robuste

Andel mindre enn 6 er 0.303

Andel mindre enn 6 er 0.293, tett på 0.303

Tetthetskurver En tetthetskurve er en kurve som Alltid er ovenfor den horisontale aksen Har areal eksakt lik 1 En tetthetskurve beskriver det overordnede mønstret i en fordeling. Arealet nedenfor en verdi beskriver andelen av observasjoner som faller innenfor dette området. Modell for beskrivelse av data

Senter og spredning for tetthetskurver Har tidligere sett på mål for senter og spredning for data Ønsker tilsvarende mål for tetthetskurver

Median i en tetthetskurve Punktet der halvparten av arealet under kurven er nedenfor og halvparten er ovenfor Mål på senter i fordeling Kaller denne noen ganger for teoretisk median for å skille den fra median av data som kalles empirisk median

Forventning i tetthetskurve Forventning av en tetthetskurve er balansepunktet der kurven ville balansere hvis den var laget av solid materiale På engelsk, mean svarer både til gjennomsnitt og forventning På norsk skiller vi mellom disse

Matematisk formel forventning Kan matematisk regne ut forventing ved = x xf x dx Et slags gjennomsnitt av funksjonsverdiene

Idealisering Tetthetskurve: Idealisert beskrivelse av fordeling til data Teoretisk median: Idealisert beskrivelse av empirisk median Forventning: Idealisert beskrivelse av gjennomsnitt Vi vil også skille mellom empirisk og teoretisk standardavvik

Symmetriske fordelinger Ofte brukt i statistikk Matematisk bekveme Realistiske i mange sammenhenger Positive og negative målefeil har samme fordeling For symmetriske fordelinger er forventning og median like

Normalfordeling Ofte bekvemt å anta kurven har en bestemt form Normalfordeling: Viktig klasse av tetthetskurver Unimodal, klokkeformet, symmetrisk Spesifisert av senterpunkt μ og spredningsmål σ Senterpunkt μ svarer til forventning (og median) Spredningsmål σ svarer til standardavvik Matematisk beskrivelse 1 exp 0.5 x 2 / 2 2 Bruker ofte N(μ,σ)

Normalfordeling Viktigste fordeling innen statistikk God beskrivelse av fordeling for reelle data x μ svarer til σ svarer til s God tilnærming til fordeling av mange oppsummerende mål (gjennomsnitt etc) Statistiske metoder basert på normalfordeling fungerer godt for data som er tilnærmet symmetrisk fordelte.

68-95-99.7 regelen Tilnærmet 68% av fordelingen faller innenfor intervallet [μ-σ,μ+σ] Tilnærmet 95% av fordelingen faller innenfor intervallet [μ-2σ,μ+2σ] Tilnærmet 99.7% av fordelingen faller innenfor intervallet [μ-3σ,μ+3σ]

Eksempel høyde kvinner Kvinner mellom 18 og 24 er tilnærmet normal fordelte med forventning μ=64.5 tommer og standard avvik σ=2.5 tommer. 95% innenfor [64.5-2*2.5,64.5+2*2.5] eller [59.5,69.5] (tilnærmet) 2.5% under enn 59.5 2.5% over 69.5

Standardisering og z-skår Hvis x er en observasjon fra en fordeling som har forventing μ og standard avvik σ, så er den standardiserte verdien av x lik z = (x-μ)/σ En standardisert verdi kalles ofte z-skår Forteller hvor mange standard avvik den opprinnelige observasjon er forskjellig fra forventningen

Eksempel, høyde kvinner Standardisert høyde: z=(høyde-64.5)/2.5 Høyde=68 gir z=(68-64.5)/2.5=1.4 Høyde=60 gir z=(60-64.5)/2.5 = -1.8 Store eller små z-verdier svarer til ekstreme observasjoner

Standardisering lineær transformasjon x har forventning μ og standard avvik σ z = (x-μ)/σ = x/σ - μ/σ x/σ har forventning μ/σ og standard avvik 1 z har forventning 0 og standard avvik 1

Beregninger for normalfordeling Ønsker ofte å gjøre ulike beregninger for normalfordelingen Vanskelig for generelle normalfordelinger Enkelt å slå opp i tabell for standard normalfordeling

Eksempel Ønsker å beregne Sanns for høyde x < 60 x < 60 ekvivalent med x-64.5 < 60-64.5=-4.5 x-64.5 < -4.5 ekvivalent med z = (x-64.5)/2.5 < -4.5/2.5 = -1.8 z < -1.8 har sannsynlighet 0.0359 eller 3.59%

Sjekking av normalfordeling Normalfordeling ofte brukt Bør sjekke om data er tilnærmet normalfordelt Histogram/tetthetsplot nyttige men litt vanskelige å evaluere Bedre metode: Kvantil-plot Detaljer i boka Hovedpoeng: Data bør ligge på rett linje