Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen gir testobservatoren t mer spredning enn testobservatoren z, der variansen en kjent.
I dag Inferens for to populasjoner : Konfidensintervall for forskjeller i forventning Hypotesetesting μ1 μ2
Sammenlikning av to forventninger med ukjent standardavvik F.eks: Effekt av økt kalsiuminntakpå blodtrykk En gruppe får økt kalsium i diett Kontrollgruppe får placebo To-utvalgsproblem: Sammenlikne respons fra to grupper Hver gruppe utvalg fra forskjellige populasjoner Respons i forskjellige grupper uavhengige
Notasjon Populasjonsparametre: Populasjon Variabel Forventning Standardavvik 1 X 1 µ 1 s 1 2 X 2 µ 2 s 2 Tall for utvalg: Populasjon Utvalgsstørrelse Gjennomsnitt Standardavvik 1 n 1 x 1 s 1 2 n 2 x 2 s 2
To uavhengige utvalg Interesseparameter: µ 1 - µ 2 Naturlig essmator: x 1 - x 2 (forventningsret for µ 1 -µ 2 ) Varians for x 1 - x 2 er lik s n 2 2 1 s2 1 2 Hvis populasjonsfordelingene er normale: x 1 - x 2 er også normal + n
Eksempel 7.10 Klasse: 12 jenter (n 1 ) og 8 guter (n 2 ). Høyde måles på 10 årsdag. X 1 : høyde jenter, X 2 : høyde guter Hva er sannsynlighet for at gjennomsnitlig høyde for jenter er større enn gjennomsnitlig høyde for guter? Dvs. hva er P( x 1 > x 2) = P( x 1- x 2 > 0) =? X 1 er N(56.9,2.8), X 2 er N(56.0,3.5): differanse x 1- x 2 også normalfordelt! med Forventning: µ 1 - µ 2 = 56.9 56.0 = 0.9 Varians: Standardavvik: 2.18 = 1.48 Får da
Observator for to uavhengige utvalg Interesseparameter: µ 1 - µ 2 Naturlig essmator: x 1 - x 2 Varians for x 1 - x 2 er lik s n 2 2 1 s2 + n 1 2 Testobservatoren Z = ( x -x ) - ( µ -µ ) 1 2 1 2 2 2 s1 / n1 + s2/ n2 er N(0,1) fordelt Men kan bare brukes hvis standardavvikene er kjent
To-utvalg ukjente varianser I praksis: σ 1 og σ 2 ukjente Estimeres ved empiriske standardavvik s 1 og s 2, får da testobservator ( x1-x2) - ( µ 1-µ 2) t = 2 2 s / n + s / n Ikke t-fordelt! En t-fordeling erstatter en N(0,1)-fordeling bare når et enkelt standardavvik σ i en z-observator erstattes med et empirisk standardavvik s Men: Tilnærmet t(k)-fordelt med passende k To måter å estimere k på: 1 1 2 2 En metode som beregnes fra data (med dataprogram), eller den minste verdien av (n 1-1) og (n 2-1)
Formel for beregning av frihetsgrader på datamaskin Som oftest ikke et heltall. Beregnes av R og annen programvare med denne el. lignende formler NB. Ikke bruk denne på eksamen, bruk den minste av (n 1-1) og (n 2-1)
Ny læringsmetode 21 elever prøver ny metode (klasse 1) 23 elever følger dagens metode (klasse 2) Klassene ble valgt slik at de var så like som mulig, slik at en eventuell effekt av forskjellen på metodene er minst mulig konfundert med andre forskjeller mellom klassene TABLE 7.3 DRP Scores for Third-Graders Treatment group Control group 24 61 59 46 42 33 46 37 43 44 52 43 43 41 10 42 58 67 62 57 55 19 17 55 71 49 54 26 54 60 28 43 53 57 62 20 53 48 49 56 33 37 85 42
Ny læringsmetode: (Normale) Kvantilplott
Ny læringsmetode - konfidensintervall 21 elever prøver ny metode 23 elever følger dagens metode Gruppe n Gj.sn. Std.avvik 1 (Behandling) 21 51.48 11.01 2 (Kontroll) 23 41.52 17.15 For å beskrive størrelsen av behandlingseffekten, lager vi et 95% konfidensintervall: SE s / n s / n 11.01 /21 17.15 /23 4.31 2 2 2 2 x - x = 1 1 + 2 2 = + = 1 2 Frihetsgrader min(n 1-1, n 2-1)=20 gir 97.5-persentil t*= 2.086 gir 95% KI: x # x % ± t SE +, -+. = 51.48 41.52 ± 2.086 4.31 = 0.97,18.95 Datagenererte frihetsgrader=37.86 gir 97.5-persentil t*= 2.023 gir 95% KI: x # x % ± t SE +, -+. = 51.48 41.52 ± 2.023 4.31 = 1.24,18.68
Ded Det vanligste er at Δ > = 0
To-utvalgs t-tester For å teste H 0 : μ 1 =μ 2 mot H a : μ 1 >μ 2 (H a : μ 1 -μ 2 >0) P-verdi = P( T t ) For å teste H 0 : μ 1 =μ 2 mot H a : μ 1 <μ 2 (H a : μ 1 -μ 2 <0) P-verdi = P( T t ) For å teste H 0 : μ 1 =μ 2 mot H a : μ 1 μ 2 (H a : μ 1 -μ 2 0) P-verdi = 2P( T t ), For alle alternativer er T (tilnærmet) t-fordelt med k frihetsgrader (når begge populasjonene er normalfordelte)
2 flervalgsspørsmål
Ny læringsmetode 21 elever prøver ny metode 23 elever følger dagens metode Gruppe n Gj.sn. Std.avvik 1 (Behandling) 21 51.48 11.01 2 (Kontroll) 23 41.52 17.15 Håper å vise at leseferdigheter i behandlingsgruppen er bedre enn i kontrollgruppen: H 0 : μ 1 = μ 2 mot H a : μ 1 >μ 2 t ( x -x ) - ( µ -µ ) (51.48-41.52) - 0 = = = / / 11.01 /21 17.15 /23 1 2 1 2 2 2 2 2 s1 n1 + s2 n2 + 2.31 Frihetsgrader min(n 1-1, n 2-1) =20 gir p-verdi P(T>2.31) = 0.016 (eller mellom 0.01 og 0.02 fra Tabell D) Datagenererte frihetsgrader=37.86 gir p-verdi P(T>2.31) = 0.013
Tungt jaktet LeT jaktet vs μ1 μ2 Forskjell på de ukjente, sanne forventningene i corssol-fordelingen i de to ulve-gruppene (tungt og let jaktet)? H0: Det er ingen forskjell i de sanne forventningene Ha: Det er en forskjell i de sanne forventningene Dvs: H0: μ1= μ2 mot Ha: μ1 μ2 (tosidig alternasv) H0: μ1- μ2=0 mot Ha: μ1- μ2 0 n1 = 103, n2 = 45, x1 = 17.07495, x2 = 15.56222
EsSmat for μ 1 - μ 2 : x 1 - x 2 = 1.51273 pg/mg Videre har vi s 1 = 30.72916, s 2 = 53.27226 og SE x 1 - x 2 = 1.217444 Gir t-observator t = (1.51273 0)/1.217444 = 1.2425 Bruker Slnærmelsen 44 frihetsgrader. Fra tabellen finner vi da at P-verdien (tosidig) må være større enn 0.2 Så ingen grunn Sl å forkaste H 0, kan ikke påstå at data viser en signifikant forskjell mellom de to populasjonene. Men la oss sjekke det i R:
To-utvalgs-t-test og konfidensintervall i R > t.test(wolf.tung$cpmg,wolf.lett$cpmg) Welch Two Sample t-test data: wolf.tung$cpmg and wolf.lett$cpmg t = 1.2425, df = 67.133, p-value = 0.2184 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.9172105 3.9426690 sample estimates: mean of x mean of y 17.07495 15.56222
Egenskaper to-utvalgs t-test Mer robust enn ett-utvalgs t-test Svært presise når n 1 n 2 og formene på fordelingene er ganske like (altså selv om fordelingene ikke er normale) Større utvalg trengs når ulike former på fordelinger Velg så like utvalgsstørrelser som mulig!
Små utvalg Ikke nok observasjoner til å sjekke fordeling Kun ekstreme uteliggere mulig å se Feilmarginer i konfidensintervaller store Ofte mulig å trekke konklusjoner likevel, hvis størrelsen på en effekt / forskjell er veldig stor
To utvalg med samme standardavvik σ 1 = σ 2 Hvis vi kan anta σ 1 = σ 2 = σ kan vi utrykke variansen Sl x 1 - x 2 2 2 1 s + 2 = s 2 + s 1 1 ( ) n n n n 1 2 1 2 Med kjent σ blir dermed z-observatoren z = ( x -x ) - ( µ -µ ) 1 2 1 2 s 1/ n + 1/ n 1 2 Når σ er ukjent må den essmeres. Men begge de empiriske variansene s 12 og s 2 2 essmerer σ 2. Den beste måten å slå sammen disse essmatene er ved 2 2 formelen ( n - 1) s + ( n -1) s s = 2 1 1 2 2 pooled n1+ n2-2
t-test for to utvalg med like varianser Vi får da følgende t-observator t = ( x -x ) - ( µ -µ ) 1 2 1 2 s 1/ n + 1/ n pooled 1 2 Hvis dataene i begge utvalg er fra normalfordelinger (med lik varians) så er faktisk denne t-observatoren eksakt t-fordelt med k = n 1 + n 2-2 frihetsgrader. Vi kan vinne noen frihetsgrader på denne metoden men metoden er bare gyldig under den strenge antagelsen σ 1 = σ 2 Det finnes metoder for å teste om σ 1 = σ 2, men disse krever antagelse om normalfordeling.
t-test for to utvalg med like varianser og sammenslått (pooled) variansestimat
Eksempel: Kalsium og blodtrykk Gir økt inntak av kalsium redusert blodtrykk? TABLE 7.4 Seated Systolic Blood Pressure (mm Hg) Calcium Group Placebo Group Begin End Decrease Begin End Decrease 107 100 7 123 124 1 110 114 4 109 97 12 123 105 18 112 113 1 129 112 17 102 105 3 112 115 3 98 95 3 111 116 5 114 119 5 107 106 1 119 114 5 112 102 10 114 112 2 136 125 11 110 121 11 102 104 2 117 118 1 130 133 3 NB: Nedgang (decrease) er positiv når det er en reduksjon, negativ ved oppgang
Eksempel: Kalsium og blodtrykk Kvantilplott: Ingen alvorlige avvik fra normalfordeling for begge grupper Må gjøre en signifikanstest for å besvare spørsmålet om økt inntak av kalsium reduserer blodtrykk?
Eksempel: Kalsium og blodtrykk Gruppe 1 med forventning μ 1 fikk kalsium-tilskudd, gruppe 2 med forventning μ 2 fikk placebo Naturlig med ensidig null-hypotese, for forsøk med rotter hadde vist at kalsium ga en nedgang, ingen grunn til å tro at det skulle øke blodtrykket. Hypoteser: H 0 : μ 1 = μ 2, H a : μ 1 > μ 2 Numeriske beskrivelser av data Gruppe Behandling n x s 1 Kalsium 10 5.000 8.473 2 Placebo 11-0.273 5.901 De empiriske standardavvikene utelukker ikke like populasjonsstandardavvik, forskjell i estimatene kan lett være pga tilfeldigheter Vi vil anta like standardavvik i begge grupper
Eksempel: Kalsium og blodtrykk Vi vil anta like standardavvik i begge grupper Det sammenslåtte standardavviket blir s pooled Dette gir en t-observator t 2 2 1-1 + 2-2 ( n 1) s ( n 1) s = = 7.385 n + n -2 1 2 ( x -x ) - ( µ -µ ) (5-(-0.273)) - 0 = 1 2 1 2 = = s 1/ n + 1/ n 7.385 1/10 + 1/11 pooled 1 2 1.634 som under nullhypotesen H 0 : μ 1 = μ 2 er t-fordelt med k = n 1 + n 2 2 = 19 frihetsgrader. P-verdi for testen med H a : μ 1 > μ 2 - blir dermed 5.9% > 5% og altså insignifikant. Tilsvarende blir 95% konfidensintervallet (med 95 persentil t*=1.729) x - x ± t s 1/ n + 1/ n = [-0.31, 10.85] * 1 2 pooled 1 2 og overlapper 0.
Antagelsen om like populasjonsstandardavvik Vanskelig å verifisere Derfor kan t-metodene for samlede («pooled») to-utvalg noen ganger være risikable å bruke Ganske robuste mot både ikke-normalitet og ulike populasjons-standardavvik når utvalgsstørrelsene n 1 og n 2 er ganske like Når utvalgsstørrelsene n 1 og n 2 er veldig forskjellige, er metodene sensitive for ulike populasjons-standardavvik, og man skal være forsiktige med å bruke dem med mindre utvalgsstørrelsene er store
Oppsummering Konfidensintervall og t-test for to uavhengige utvalg med ukjent standardavvik t-test to metoder: ulike standardavvik i de to populasjonene like standardavvik pooled standard deviation