Seksjon 1.3 Tetthetskurver og normalfordelingen

Like dokumenter
Seksjon 1.3 Tetthetskurver og normalfordelingen

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Eksempel på data: Karakterer i «Stat class» Introduksjon

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Kapittel 4.4: Forventning og varians til stokastiske variable

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Binomisk sannsynlighetsfunksjon

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

Utvalgsfordelinger (Kapittel 5)

Statistikk og dataanalyse

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Formelsamling i medisinsk statistikk

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Forelesning 3. april, 2017

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

UNIVERSITETET I OSLO

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Medisinsk statistikk Del I høsten 2009:

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Deskriptiv statistikk., Introduksjon til dataanalyse

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Inferens i fordelinger

Deskriptiv statistikk., Introduksjon til dataanalyse

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Tabell 1: Beskrivende statistikker for dataene

UNIVERSITETET I OSLO

Kapittel 3: Studieopplegg

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

Forslag til endringar

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

Løsningsforslag til obligatorisk oppgave i ECON 2130

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Fra første forelesning:

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk H2017 [15]

Oppfriskning av blokk 1 i TMA4240

ECON2130 Kommentarer til oblig

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

UNIVERSITETET I OSLO

Kapittel 1: Data og fordelinger

Statistikk for språk- og musikkvitere 1

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2016

Gammafordelingen og χ 2 -fordelingen

Kap. 8: Utvalsfordelingar og databeskrivelse

UNIVERSITETET I OSLO

Denne uken: Kapittel 4.3 og 4.4

LØSNING: Oppgavesett nr. 1

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

UNIVERSITETET I OSLO Matematisk Institutt

Kort overblikk over kurset sålangt

Forkurs i kvantitative metoder ILP 2019

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Normalfordelingen. Univariat normalfordeling (Gaussfordelingen): der µ er forventningsverdien og σ 2 variansen. Multivariat normalfordeling:

Kapittel 4.3: Tilfeldige/stokastiske variable

Inferens i regresjon

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

STK Oppsummering

TMA4245 Statistikk Eksamen desember 2016

Transformasjoner av stokastiske variabler

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

Introduksjon til statistikk og dataanalyse

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ECON Statistikk 1 Forelesning 2: Innledning

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

TMA4240 Statistikk Høst 2012

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

TMA4240 Statistikk Høst 2015

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Kapittel 7: Inferens for forventningerukjent standardavvik

Transkript:

Seksjon 1.3 Tetthetskurver og normalfordelingen Har sett på ulike metoder for å plotte eller oppsummere data Vil nå starte på hvordan beskrive data ved modeller Hovedmetode er tetthetskurver

Tetthetskurver Alternativ til histogram Glatt tilnærming av de irregulære boksene i histogram Mer robuste

Andel mindre enn 6 er 0.303

Andel mindre enn 6 er 0.293, tett på 0.303

Tetthetskurver En tetthetskurve er en kurve som Alltid er ovenfor den horisontale aksen Har areal eksakt lik 1 En tetthetskurve beskriver det overordnede mønstret i en fordeling. Arealet nedenfor en verdi beskriver andelen av observasjoner som faller innenfor dette området. Modell for beskrivelse av data

Senter og spredning for tetthetskurver Har tidligere sett på mål for senter og spredning for data Ønsker tilsvarende mål for tetthetskurver

Median i en tetthetskurve Punktet der halvparten av arealet under kurven er nedenfor og halvparten er ovenfor Mål på senter i fordeling Kaller denne noen ganger for teoretisk median for å skille den fra median av data som kalles empirisk median

Forventning i tetthetskurve Forventning av en tetthetskurve er balansepunktet der kurven ville balansere hvis den var laget av solid materiale På engelsk, mean svarer både til gjennomsnitt og forventning På norsk skiller vi mellom disse

Matematisk formel forventning Kan matematisk regne ut forventing ved = x xf x dx Et slags gjennomsnitt av funksjonsverdiene

Idealisering Tetthetskurve: Idealisert beskrivelse av fordeling til data Teoretisk median: Idealisert beskrivelse av empirisk median Forventning: Idealisert beskrivelse av gjennomsnitt Vi vil også skille mellom empirisk og teoretisk standardavvik

Symmetriske fordelinger Ofte brukt i statistikk Matematisk bekveme Realistiske i mange sammenhenger Positive og negative målefeil har samme fordeling For symmetriske fordelinger er forventning og median like

Normalfordeling Ofte bekvemt å anta kurven har en bestemt form Normalfordeling: Viktig klasse av tetthetskurver Unimodal, klokkeformet, symmetrisk Spesifisert av senterpunkt μ og spredningsmål σ Senterpunkt μ svarer til forventning (og median) Spredningsmål σ svarer til standardavvik Matematisk beskrivelse 1 exp 0.5 x 2 / 2 2 Bruker ofte N(μ,σ)

Normalfordeling Viktigste fordeling innen statistikk God beskrivelse av fordeling for reelle data x μ svarer til σ svarer til s God tilnærming til fordeling av mange oppsummerende mål (gjennomsnitt etc) Statistiske metoder basert på normalfordeling fungerer godt for data som er tilnærmet symmetrisk fordelte.

68-95-99.7 regelen Tilnærmet 68% av fordelingen faller innenfor intervallet [μ-σ,μ+σ] Tilnærmet 95% av fordelingen faller innenfor intervallet [μ-2σ,μ+2σ] Tilnærmet 99.7% av fordelingen faller innenfor intervallet [μ-3σ,μ+3σ]

Eksempel høyde kvinner Kvinner mellom 18 og 24 er tilnærmet normal fordelte med forventning μ=64.5 tommer og standard avvik σ=2.5 tommer. 95% innenfor [64.5-2*2.5,64.5+2*2.5] eller [59.5,69.5] (tilnærmet) 2.5% under enn 59.5 2.5% over 69.5

Standardisering og z-skår Hvis x er en observasjon fra en fordeling som har forventing μ og standard avvik σ, så er den standardiserte verdien av x lik z = (x-μ)/σ En standardisert verdi kalles ofte z-skår Forteller hvor mange standard avvik den opprinnelige observasjon er forskjellig fra forventningen

Eksempel, høyde kvinner Standardisert høyde: z=(høyde-64.5)/2.5 Høyde=68 gir z=(68-64.5)/2.5=1.4 Høyde=60 gir z=(60-64.5)/2.5 = -1.8 Store eller små z-verdier svarer til ekstreme observasjoner

Standardisering lineær transformasjon x har forventning μ og standard avvik σ z = (x-μ)/σ = x/σ - μ/σ x/σ har forventning μ/σ og standard avvik 1 z har forventning 0 og standard avvik 1

Beregninger for normalfordeling Ønsker ofte å gjøre ulike beregninger for normalfordelingen Vanskelig for generelle normalfordelinger Enkelt å slå opp i tabell for standard normalfordeling

Eksempel Ønsker å beregne Sanns for høyde x < 60 x < 60 ekvivalent med x-64.5 < 60-64.5=-4.5 x-64.5 < -4.5 ekvivalent med z = (x-64.5)/2.5 < -4.5/2.5 = -1.8 z < -1.8 har sannsynlighet 0.0359 eller 3.59%

Sjekking av normalfordeling Normalfordeling ofte brukt Bør sjekke om data er tilnærmet normalfordelt Histogram/tetthetsplot nyttige men litt vanskelige å evaluere Bedre metode: Kvantil-plot Detaljer i boka Hovedpoeng: Data bør ligge på rett linje