Inference for Distributions

Inference for Distributions IPS Chapter 7 7.1: Inference for the Mean of a Population 7.2: Comparing Two Means 7.3: Optional Topics in Comparing Distributions 2012 W.H. Freeman and Company

7.1 Inferens for forventningen i en fordeling t-fordelingen Ett-utvalgs t-konfidensintervall Ett-utvalgs t-test Matchede par t-prosedyrer Robusthet

Sweetening colas Cola manufacturers want to test how much the sweetness of a new cola drink is affected by storage. The sweetness loss due to storage was evaluated by 10 professional tasters (by comparing the sweetness before and after storage): Taster Sweetness loss 1 2.0 2 0.4 3 0.7 4 2.0 5 0.4 6 2.2 7 1.3 8 1.2 9 1.1 10 2.3 Obviously, we want to test if storage results in a loss of sweetness, thus: H 0 : µ = 0 versus H a : µ > 0 This looks familiar. However, here we do not know the population parameter σ. The population of all cola drinkers is too large. Since this is a new cola recipe, we have no population data. This situation is very common with real data.

Når σ er ukjent Empirisk standardavvik s gir oss et estimat for populasjonens standardavvik σ. Når utvalgsstørrelsen er stor, er det sannsynlig at utvalget representerer populasjonen godt. Da er s et godt estimat for σ. Men hvis utvalgsstørrelsen er liten, er s et dårlig estimat for σ. Population distribution Large sample Small sample

Husk empirisk standardavvik s = 1 n 1 ( x i x) 2 der n-1 kaltes antall frihetsgrader (degrees of freedom, df)

En populasjon Anta x 1,...,x n uavhengige fra N(μ,σ) Observator: x σ kjent: z=(x -μ)/(σ/ n) σ/ n standardavvik for observator x s/ n estimert standardavvik for observator x Kalles standard feil Standard Error, SE = s/ n

t-fordeling z=(x -μ)/(σ/ n) er N(0,1) t=(x -μ)/(s/ n) er t-fordelt med n-1 frihetsgrader t = x µ s n Form som normalfordeling Kalles ett-utvalgs t- observator Ekstra spredning/usikkerhet pga. ukjent σ Nærmer seg N(0,1) når n vokser

Ett-utvalgs t-konfidensintervall σ kjent: [x -z*σ/ n,x +z*σ/ n] z* er verdien slik at arealet mellom -z* og z* i N(0,1) fordelingen er C σ ukjent: [x -t*s/ n,x +t*s/ n] t* er verdien slik at arealet mellom -t* og t* i t(n-1) fordelingen er C

C m m t* t* t*s/ n er feilmarginen m Eksakt hvis normalfordelte data Tilnærmet riktig ellers

Tabell D Når σ er ukjent, bruker vi t-fordeling med n 1 frihetsgrader (degrees of freedom df). Tabell D viser z-verdier og t-verdier knyttet til typiske P- verdier/ konfidensnivåer t = x µ s n Når σ er kjent, bruker vi normalfordeling og den standardiserte z-verdien.

Red wine, in moderation Drinking red wine in moderation may protect against heart attacks. The polyphenols it contains act on blood cholesterol, likely helping to prevent heart attacks. To see if moderate red wine consumption increases the average blood level of polyphenols, a group of nine randomly selected healthy men were assigned to drink half a bottle of red wine daily for two weeks. Their blood polyphenol levels were assessed before and after the study, and the percent change is presented here: Firstly: Are the data approximately normal? 0.7 3.5 4 4.9 5.5 7 7.4 8.1 8.4 Frequency 4 3 2 1 0 Histogram 2.5 5 7.5 9 More Percentage change in polyphenol blood levels Percent change 9 8 7 6 5 4 3 2 1 0-2 -1 0 1 2 Normal quantiles There is a low value, but overall the data can be considered reasonably normal.

What is the 95% confidence interval for the average percent change? Sample average = 5.5; s = 2.517; df = n 1 = 8 ( ) The sampling distribution is a t distribution with n 1 degrees of freedom. For df = 8 and C = 95%, t* = 2.306. The margin of error m is: m = t*s/ n = 2.306*2.517/ 9 1.93. With 95% confidence, the population average percent increase in polyphenol blood levels of healthy men drinking half a bottle of red wine daily is between 3.6% and 7.4%. Important: The confidence interval shows how large the increase is, but not if it can have an impact on men s health.

Ett-utvalgs t-test Fremgangsmåten for å teste en hypotese er som tidligere: 1. Formuler null- og alternativ-hypoteser (H 0 versus H a ) 2. Velg signifikansnivå α 3. Beregn t-observator og antall frihetsgrader 4. Finn ønsket sannsynlighet fra Tabell D 5. Oppgi P-verdi og formuler en konklusjon

Tabell D For df = 9 ser vi bare på denne linjen i tabellen For en en-sidig H a, er dette P-verdien (mellom 0.01 og 0.02); for en to-sidig H a, er P-verdien det dobbelte (mellom 0.02 og 0.04). Den beregnede verdi av t er 2.7. Vi finner de to nærmeste t-verdiene: 2.398 < t = 2.7 < 2.821 så 0.02 > upper tail p > 0.01

Sweetening colas (continued) Is there evidence that storage results in sweetness loss for the new cola recipe at the 0.05 level of significance (α = 5%)? H 0 : µ = 0 versus H a : µ > 0 (one-sided test) x µ 0 1.02 0 t = = = 2.70 s n 1.196 10 2.398 < t = 2.70 < 2.821 thus 0.02 > p > 0.01. p < α thus the result is significant. Taster Sweetness loss 1 2.0 2 0.4 3 0.7 4 2.0 5-0.4 6 2.2 7-1.3 8 1.2 9 1.1 10 2.3 Average 1.02 Standard deviation 1.196 Degrees of freedom n 1 = 9 The t-test has a significant p-value. We reject H 0. There is a significant loss of sweetness, on average, following storage.

Sweetening colas (continued) Minitab x µ 1.02 0 t = = = s n 1.196 10 df = n 1= 9 2.70

Parrede (matchede) t-prosedyrer Noen ganger vil vi sammenligne behandlinger på de samme individene. Dette gir oss observasjoner som ikke er uavhengige de er parret eller matchede to og to: Eks. Før og etter behandling (blodtrykk før og etter behandling med betablokker, søtsmak før og etter lagring) Eks. Tvillingstudier, begrenser effekten av genetiske forskjeller ved å se på en variabel i sett av tvillinger Eks. Ved å bruke folk som matcher hverandre i alder, kjønn, utdanning i sosiale studier, kan man kansellere ut effekten av slike underliggende lurevariable

I slike situasjoner kan vi bruke par-data til å teste forskjell i forventning mellom de to fordelingene. Vi studerer variabelen X diff = (X 1 X 2 ), og tester H 0 : µ diff = 0 ; H a : µ diff > 0 (eller <0, eller 0) Dette er det samme som å teste i en ett-utvalgssituasjon.

Sweetening colas (revisited) The sweetness loss due to storage was evaluated by 10 professional tasters (comparing the sweetness before and after storage): Taster Sweetness loss 1 2.0 2 0.4 3 0.7 4 2.0 5 0.4 6 2.2 7 1.3 8 1.2 9 1.1 10 2.3 We want to test if storage results in a loss of sweetness, thus: H 0 : µ = 0 versus H a : µ > 0 Although the text didn t mention it explicitly, this is a pre-/post-test design and the variable is the difference in cola sweetness before minus after storage. A matched pairs test of significance is indeed just like a one-sample test.

Does lack of caffeine increase depression? Individuals diagnosed as caffeine-dependent are deprived of caffeine-rich foods and assigned to receive daily pills. Sometimes, the pills contain caffeine and other times they contain a placebo. Depression was assessed. Subject Depression with Caffeine Depression with Placebo Placebo - Cafeine 1 5 16 11 2 5 23 18 3 4 5 1 4 3 7 4 5 8 14 6 6 5 24 19 7 0 6 6 8 0 3 3 9 2 15 13 10 11 12 1 11 1 0-1 There are 2 data points for each subject, but we only look at the difference. The sample distribution appears appropriate for a t-test. 11 difference data points. DIFFERENCE 20 15 10 5 0-5 -2-1 0 1 2 Normal quantiles

Does lack of caffeine increase depression? For each individual in the sample, we have calculated a difference in depression score (placebo minus caffeine). There were 11 difference points, thus df = n 1 = 10. We calculate that x = 7.36; s = 6.92 H 0 : µ diff = 0 ; H 0 : µ diff > 0 x 0 t = s n 7.36 = = 3.53 6.92 / 11 Depression with Caffeine Depression with Placebo 1 5 16 11 2 5 23 18 3 4 5 1 4 3 7 4 5 8 14 6 6 5 24 19 7 0 6 6 8 0 3 3 9 2 15 13 10 11 12 1 11 1 0-1 Subject Placebo - Cafeine For df = 10, 3.169 < t = 3.53 < 3.581 0.005 > p > 0.0025 Caffeine deprivation causes a significant increase in depression.

Robusthet t-prosedyrene er eksakt riktige når populasjonen er eksakt normalfordelt. I praksis vil vi ikke alltid ha eksakt normalfordeling, men t-prosedyrene er robuste i forhold til mindre avvik fra normalitet resultatene blir ikke så gale selv om normalitetsantakelsen ikke holder. Viktige faktorer er: Tilfeldig utvalg. Utvalget må være et SRS fra populasjonen. Uteliggere og skjevhet. Påvirker gjennomsnittet og derfor også t-prosedyrene. MEN, betydningen av dette avtar med økende antall observasjoner på grunn av sentralgrenseteoremet (CLT).

Spesielt: Når n < 15, må data være tilnærmet normalfordelte og uten uteliggere Når 15 > n > 40, er det ok med noe skjevhet, men ikke uteliggere Når n > 40, er t-observatoren ok selv med sterk skjevhet i underliggende fordeling