Medisinsk statistikk Del I høsten 2009:

Like dokumenter
Medisinsk statistikk Del I høsten 2008:

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen.

DEL 1 GRUNNLEGGENDE STATISTIKK

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Binomisk sannsynlighetsfunksjon

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

TMA4245 Statistikk Eksamen desember 2016

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Oppfriskning av blokk 1 i TMA4240

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

TMA4240 Statistikk Høst 2016

Kap. 8: Utvalsfordelingar og databeskrivelse

Fasit for tilleggsoppgaver

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

TMA4240 Statistikk Høst 2015

Forelesning 3. april, 2017

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk H2010

Kapittel 3: Studieopplegg

ÅMA110 Sannsynlighetsregning med statistikk, våren

Gammafordelingen og χ 2 -fordelingen

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk Høst 2008

Seksjon 1.3 Tetthetskurver og normalfordelingen

Bootstrapping og simulering Tilleggslitteratur for STK1100

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4240 Statistikk Høst 2009

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Formelsamling i medisinsk statistikk

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Utvalgsfordelinger (Kapittel 5)

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Forslag til endringar

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Bernoulli forsøksrekke og binomisk fordeling

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Seksjon 1.3 Tetthetskurver og normalfordelingen

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

TMA4240 Statistikk H2010 (22)

ÅMA110 Sannsynlighetsregning med statistikk, våren

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

TMA4240 Statistikk Høst 2015

Kontinuerlige sannsynlighetsfordelinger.

TMA4245 Statistikk Høst 2016

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

ECON2130 Kommentarer til oblig

UNIVERSITETET I OSLO

Emnenavn: Deleksamen i Statistikk. Eksamenstid: Faglærer: Tore August Kro. Oppgaven er kontrollert:

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

STK Oppsummering

Statistikk 1 kapittel 5

Løsning eksamen desember 2017

TMA4240 Statistikk Eksamen desember 2015

ST0202 Statistikk for samfunnsvitere

Statistikk 1 kapittel 5

TMA4245 Statistikk Eksamen august 2014

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Fra første forelesning:

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

UNIVERSITETET I OSLO Matematisk Institutt

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Statistikk 1 kapittel 5

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

i x i

TMA4240 Statistikk H2017 [15]

Bootstrapping og simulering

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk H2010

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Transkript:

Medisinsk statistikk Del I høsten 2009: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Beregning av sannsynlighet i en binomisk forsøksrekke generelt Sannsynligheten for at suksess intreffer X = k antall ganger ved n uavhengige forsøk er gitt av: n k Pr( X = k) = p q k n k og er kjent som den binomiske fordelingen n uavhengige forsøk med to mulige utfall ( suksess og failure ) sannsynligheten p, for suksess, er den samme i hvert forsøk I dag Sannsynlighetsfordeling for kontinuerlig variabel Forventningsverdi og varians Normalfordeling (5.3) Standardisert N-fordeling (5.4, 5.5) Praktisk bruk Normaltilnærming til binomisk fordeling (5.7) Litt om andre, kontinuerlige fordelinger (T, χ 2, F) Fig. 4.4a Diskret, binomisk sannsynlighetsfordeling med n = 0 og p = 0.05, dvs. X ~ bin (0, 0.05) X {0,, 2,, 0} dvs. bare heltallsverdier for X har noen sannsynlighet Men hva med en kontinuerlig variabel som kan anta alle mulige verdier på tall-linjen.? (her DBP-menn 35-44 år) Sannsynlighetstetthet Def. 5., s. 23 En funksjon av en (kontinuerlig) tilfeldig variabel X, slik at arealet under kurven mellom to punkter a og b svarer til sannsynligheten for at X faller mellom a og b. Matematisk, et integral: Fig. 5. Hva er f.eks. sannsynligheten for at én bestemt person har nøyaktig DBP = 7.300 mmhg? Pr( a < X b) = f ( x) dx. b a a b

0,5 0,4 0,3 0,2 0, 0,0-4 -3-2 - 0 2 3 4 Kontinuerlig tilfeldig variabel (målevariabel) En kontinuerlig variabel er en tilfeldig variabel der antall mulige verdier ikke kan telles ( ) Resultat av målinger langs en kontinuerlig skala Eks: Høyde i cm, vekt i kg, hastighet i km/h Sannsynlighetsfordeling En beskrivelse av hvilke verdier en tilfeldig variabel kan ta, og sannsynligheten for hver enkelt verdi teoretisk Z Synonym: målevariabel, skalavariabel Egenskap: sannsynligheten for en bestemt verdi = 0 sannsynlighetstetthet beregnes over intervall av enkeltverdier Et histogram beskriver den empiriske (observerte) sannsynlighetsfordelingen 2000 2500 3000 3500 4000 Eks. 5.3 (Fig. 5.) Diastolisk blodtrykk hos menn alder 35 44. Arealene A, B og C svarer til hhv. BT (90, 00), BT (00, 0) og BT (0, ) Eks. 5.4 (Fig. 5.2) Asymmetrisk, høyre-skjev fordeling. (Forekommer ganske ofte for biologiske variable) Forventningsverdi Definisjon (Rosner def. 5.3) Forventningsverdien E(X) angir tyngdepunktet, gjennomsnittet i sannsynlighetsfordelingen. En teoretisk egenskap, betegnes ofte μ eller λ. Estimeres ved hjelp av (utvalgs-) middelverdi. X Matematisk: x E ( X ) f ( x) dx Eks. 5.5 (Fig. 5.3) Sannsynlighetsfordeling for fødselsvekt. Sannsynligheten for fødselsvekt 88 oz (2495 g) tilsvarer det skraverte arealet. Sml. def. 4.5: E( X ) xi Pr ( X = xi ) i= der x betegner de verdier X kan ta (x R). i R 2

Varians og standard avvik Matematisk... Definisjon (Rosner def. 5.4) Variansen til en kontinuerlig variabel uttrykker det gjennomsnittlige kvadrerte avvik fra forventningsverdien, μ for alle mulige verdier av variabelen. En teoretisk egenskap, betegnes ofte σ 2. Estimeres fra data ved hjelp av empirisk (utvalgs-) varians S 2. Standardavvik SD( X) = Var( X) = Estimeres fra data ved hjelp av empirisk (utvalgs-) standardavvik S. σ 2 = σ Var( X ) = Var( X ) = i= ( x E( X )) Pr ( X = x ) der x betegner de verdier X kan ta (X R). i R 2 ( x E( X )) f ( x) dx. Sml. def. 4.6 for diskret variabel: i 2 i E(X) = np = 0,5 Var (X) = np(-p) = 0,475 0,5 0,4 0,3 E(Z) = 0 Var (Z) = 0,2 0, 0,0-4 -3-2 - 0 2 3 4 Z Fig. 5.5 Normalfordeling (Gauss-fordeling). Inntegnet parametere E (X) = μ = 50 og SD (X) = σ = 0. I kortform: X ~ N (50, 0 2 ) Fig. 5.6 To N-fordelinger med samme varians, men med forskjellig forventningsverdi. Fig. 5.7 To N-fordelinger med samme forventningsverdi, men med forskjellig varians. 3

Fig. 5.8 Standard normalfordeling med E(X) = 0 og Var (X) =. Kortform: X ~ N (0,). Betegnes ofte Z. Standard normalfordeling - egenskaper f ( x) = e 2π 2 ( ) x 2 Målestokken (x-aksen) er antall standardavvik Omtrent 68 % av arealet ligger mellom - og Omtrent 95 % av arealet ligger mellom -2 og 2 Omtrent 99 % av arealet ligger mellom -2,5 og 2,5 Dvs: Pr( X ) = 0,6827 Pr(,96 X,96) = 0,95 Pr( 2,576 X 2,567) = 0,99 Fig. 5.9 Egenskaper til standard normalfordeling. Fig. 5.0, Def. 5.8 Kumulativ fordelingsfunksjon Φ (x). Arealet til venstre for x tilsvarer Pr (X x). Tabell, 3 kolonne A. Fig. 5. Kumulativ fordelingsfunksjon, Φ (x), for standard normalfordeling. (Tabell, 3 kolonne A). 4

Eks. 5., s. 3 Gitt X ~ N (0,), Finn Pr (X,96) Fra Tabell 3, kolonne A: Pr (X,96) = Φ (,96) = 0,975 Gitt X ~ N (0,), Finn Pr (X ) Fra Tabell 3, kolonne A: Pr (X ) = Φ () = 0,843 Tabell 3 Likning 5.3 Symmetri Φ(-x) = Pr (X -x) = Pr (X > x) = - Pr (X x) = - Φ(x) Eks. 5.2, s. 3 Gitt X ~ N (0,), Finn Pr (X -,96) Fra Tabell 3, kolonne B: Pr (X -,96) = Pr (X >,96) = 0,025 Fig. 5.2 Eks. 5.3, s. 32 Gitt X ~ N (0,), Finn Pr (- X,5) Pr (- X,5) = Pr (X,5) Pr (X -) = Pr (X,5) Pr (X > ) = 0,9332 0,587 = 0,7745 Kvantiler/percentiler i standard normalfordeling Eks. 5.8 Gitt X N (0,) Fra tabell 3, kolonne A: z 0,975 =,96 fordi Φ (,96) = 0,975 Def. 5.0 Pr( X z ) = u u z 0,95 =,645 Φ (,645) = 0,95 z 0,5 = 0 Φ (0) = 0,5 z 0,025 = -,96 Φ (-,96) = 0,025 5

5.5 Hvorfor standard normalfordeling? Hvorfor standard normalfordeling? Fig. 5.4 a Gitt X ~ N (80,44). Hva er Pr (90 X 00)? Enhver normalfordelt variabel X kan konverteres til en standard normalfordelt Z. Likning 5.4 2 X μ Hvis X ~ N( μ, σ ) og Z =, σ så er Z ~ N(0,) Dermed trenger vi bare ett tabellverk i stedet for uendelig mange! Eks. 5.20 forts. Gitt X ~ N (80,44). Hva er Pr (90 X 00)? x = 90 tilsv. z = (90 80)/2 = 0,83 x = 00 tilsv. z = (00 80)/2 =,67 Dvs. vi søker Pr (0,83 Z,67) = 0,9522 0,7977 = 0,55 Litt om andre, kontinuerlige fordelinger T fordeling Symmetrisk om X og likner en Z- fordeling, men med tykkere haler. Defineres av antall frihetsgrader (degrees of freedeom, df ) Variansen ukjent, må estimeres fra data. χ 2 fordeling Høyreskjev. Formen bestemmes av antall frihetsgrader (df) Mange forskjellige prosedyerer. Varians, modellbygging, tabeller. F fordeling (ratio) Høyreskjev. Formen bestemmes av antall frihetsgrader (df) i både teller og nevner. Variansanalyse, regresjon, modellbygging. Så kan vi gå baklengs! Eks. 5.23 Gitt IOP = X ~ N (6, 3 2 ). Hvilke percentiler utgjøres av x = 2 og x = 20 og hva er Pr (2 X 20)? Likning 5.7 X μ Hvis Z = ~ N(0,) σ er dermed x = μ + z σ p p der p er samme percentil i begge fordelinger x = 2 tilsv. z = (2-6)/3 =,33; omtrent 9-percentilen. x = 20 tilsv. z = (20-6)/3 =,33; omtrent 90-percentilen. 6

Fig. 5.2 Normaltilnærming til binomisk fordeling er OK hvis npq = np(-p) 5 npq =,6 npq = 3,2 npq = 8 npq = 6 Normaltilnærming til binomisk fordeling Eks. 5.33 Gitt X ~ bin (25, 0,4). Hva blir Pr (7 X 2)? Hvordan benytte normalfordeling? E (X) = np = 25 0,4 = 0 Var (X) = npq = 25 0,4 0,6 = 6 Vi later som X ~ N (0, 6) i stedet, med kontinuitetskorreksjon [Rosner likn. 5.4, trekker fra og legger til ½] 6,5 0 2,5 0 x = 7 tilsv. z = =,42 x = 2 tilsv. z = =,02 6 6 Normaltilnærming til binomisk fordeling Fig. 5.8 (med kontinuitets - korreksjon) Pr (7 X 2) Pr (-,42 Z,02) = Φ (,02) - Φ (-,42) = 0,85 0,08 = 0,77 (Ved bruk av binomisk fordeling fås samme svar) Er data normalfordelt? Ingen naturlig forekommende variabel er perfekt normalfordelt Eks. 5.35, Fig. 5.9 X = {antall nøytrofile blant 00} dvs. X bin (n = 00, p = 0,6), E(X) = np = 60, Var (X) = np(-p) = 24, SD (X) = 24 Tilnærmer med Y N (60, 24) Hva er formålet med analysen? Deskriptiv statistikk? (avhenger av formålet!) Test/ konfidensintervall? At vi har et tilfeldig utvalg med uavhengige observasjoner kan være viktigere enn fordelingen! (kfr. sentralgrenseteoremet) Variansanalyse (lik varians i alle grupper?) Lin regresjon? (bare residual skal være N-fordelt) 7

Hvordan sjekke normalfordeling? 20 Normal Q-Q Plot of BASHRTRT Symmetri? middelverdi, median, unimodalitet? (lag histogram!) 00 80 Q-Q plott, P-P plott Normalitetstest Kolmogorov Shapiro-Wilk nifed.sav Expected Normal Value 60 40 20 20 40 60 80 00 20 Problem : Har vi stor nok n kan vi alltid forkaste H 0 om normalfordeling!!!! Problem 2: Hvor store avvik fra det ideelle kan vi godta? Observed Value Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. BASHRTRT,87 34,004,93 34,00 Significance Correction a. Lilliefors Kan man oppnå normalfordeling? Transformasjon: uttrykke noe på en mer hensiktsmessig målestokk/skala Transformasjon fra skjev fordeling (X) til nær normal fordeling (Y) Noen vanlige eksempler: Lengde: tomme = 2,54 cm Surhetsgrad: ph = - lg [H + ] db = log (lydtrykk) Hastighet = tid - = /tid Absolutt temperatur: K = 273,5 + C Idrett:.plass = korteste tid, 2. plass = nest korteste tid osv. Ikke noe suspekt med dette!! Såkalte ikke-parametriske prosedyrer kan være et bra alternativ Y = X Y = k X Y = ln(x ) Y = ln( k X ) Y = Y = X ( k X ) Tabachnick & Fidell, 996 Andre tilnærminger ved analyse T 3 -fordeling vs. Z-fordeling Ikke paramtriske metoder: rangeringstester Bootstrapping Mange (> 000) repeterte utvalg (med tilbakelegging) 0.4 0.3 0.2 Z: mer samlet omkring 0 Robust standard error Estimere SE basert på variabilitet i data (residualer) Sandwich varians estimat Fungerer best for store utvalg 0. 0.0 T 3 : tykkere haler -4-2 0 2 4 8

Sannsynlighetsfordeling for kontinuerlig variabel Normalfordeling (Gaussfordeling) Samme (prinsipielle) egenskaper gjelder også for: Standard normalfordeling (såk. Z - fordeling) T - fordeling χ 2 - fordeling F - fordeling 9