Inferens i fordelinger

Like dokumenter
Introduksjon til inferens

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

7.2 Sammenligning av to forventinger

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kapittel 3: Studieopplegg

Kort overblikk over kurset sålangt

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Fasit for tilleggsoppgaver

Verdens statistikk-dag.

6.2 Signifikanstester

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Inferens i regresjon

Kapittel 7: Inferens for forventningerukjent standardavvik

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Kapittel 7: Inferens for forventningerukjent standardavvik

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Kapittel 9 og 10: Hypotesetesting

ST0202 Statistikk for samfunnsvitere

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

i x i

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

UNIVERSITETET I OSLO

Løsningsforslag Til Statlab 5

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

EKSAMENSOPPGAVER STAT100 Vår 2011

Et lite notat om og rundt normalfordelingen.

TMA4245 Statistikk Eksamen desember 2016

Seksjon 1.3 Tetthetskurver og normalfordelingen

HØGSKOLEN I STAVANGER

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Hypotesetest: generell fremgangsmåte

Løsningsforslag eksamen 27. februar 2004

LØSNINGSFORSLAG ) = Dvs

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk H2010 (20)

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Et lite notat om og rundt normalfordelingen.

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Eksempel på data: Karakterer i «Stat class» Introduksjon

TMA4240 Statistikk H2010 (22)

TMA4240 Statistikk 2014

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4240 Statistikk H2010

Hypotesetesting. mot. mot. mot. ˆ x

Kapittel 9 og 10: Hypotesetesting

HØGSKOLEN I STAVANGER

Kapittel 4.4: Forventning og varians til stokastiske variable

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Seksjon 1.3 Tetthetskurver og normalfordelingen

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Kp. 9.8 Forskjell mellom to forventninger

Løsningsforslag eksamen 25. november 2003

UNIVERSITETET I OSLO Matematisk Institutt

Løsningsforslag: STK2120-v15.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

ST0202 Statistikk for samfunnsvitere

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2015

Fra første forelesning:

TMA4240 Statistikk Høst 2018

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Utvalgsfordelinger (Kapittel 5)

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Transkript:

Inferens i fordelinger Modifiserer antagelsen om at standardavviket i populasjonen σ er kjent Mer kompleks systematisk del ( her forventningen i populasjonen). Skal se på en situasjon der populasjonsfordelingen kan beskrives med to fordelinger. Derfor både: ett utvalg og to utvalg

Inferens om forventningsverdien til populasjonen Fortsatt primært interessert i forventningen μ, men populasjonsfordelingen beskrives nå med to ukjente parametre μ og σ. Fortsatt enkelt tilfeldig utvalg, ETU, SRS, av størrelse n. Estimerer μ med x og det teoretiske standardavviket σ med det empiriske standardavviket s x = (X i X) 2 /(n 1)

Antar her i tillegg at populasjonsfordelingen er N(μ,σ). Standardavviket til gjennomsnittet i utvalget, σ x = σ/ n,estimeres med med s x / n. Denne estimatoren kalles kalles standardfeilen til gjennomsnittet og betegnes med SE x. Mer generelt: Når standardavviket til en observator estimeres fra data, kalles estimatet standardfeilen til observatoren. Standardfeilen til gjennomsnittet av observasjonene i utvalget er altså s x / n.

Når σ kjent er det standardiserte gjennomsnittet Z= x μ σ/ n standard normalfordelt, dvs. N(0,1) Når σ er ukjent, må en i stedet bruke s x / n for å standardisere. Da er fordelingen til den standardiserte variabelen ikke lenger normal vil fordelingen til den standardiserte variabelen avhenge av antallet observasjoner i utvalget, altså en fordeling for hver n.

t-fordeling: Anta at observasjonene X 1, X n er et enkelt tilfeldig utvalg fra en populasjon der populasjonsfordelingen er N(μ, σ). t-observatoren for ett utvalg t= x μ s/ n er t-fordelt med n-1 frihetsgrader.

Legg merke til følgende: En fordeling for hver utvalgsstørrelse n. Det kommer av at (X i X ) 2 /(n-1) = [ (X 1 X ) 2 + +(X n X ) 2 ]/(n-1) har en fordeling som avhenger av n. n-1 frihetsgrader: En restriksjon siden (X i X) =0 Betegner t-fordelingen med k frihetsgrader med t(k). t-fordeling symmetrisk og har en klokkeformet tethetskurve. Den har tyngre haler enn N(0,1) p.g.a. usikkerheten knyttet til estimatoren s x for σ.

Definerer t* analogt med z*: t* er den verdien som gjør at tetthetskurven til t(k) har areal C mellom -t* og t* Tabell D angir kritiske verdier, p=p(t>t*)= (1-C)/2 siden 2p+C=1. t* tabullert både som funksjon av p og C. Ser at når utvalgsstørrelsen øker nærmer de kritiske verdiene seg de tilsvarende fra N(0,1).

Fra tabell D bak i læreboka: For p=0.025, C=0.95: frihetsgrader kritisk verdi 1 12.71 5 2.571 10 2.228 25 2.060 100 1.984 1.96

Husk at vi antar at populasjonsfordelingen er N(μ,σ), der både μ og σ er ukjente. Siden σ ikke lenger er kjent, kan den ikke brukes til å standardisere. I stedet estimeres σ med s x. Observatoren blir i dette tilfelle t = x μ s/ n som vi har sett er t-fordelt med n-1 frihetsgrader. Siden dette er en fordeling som er tabulert på ``samme måte'' som normalfordelingen, kan vi bruke t-observatoren til å konstruere konfidensintervall og hypotesetester som tidligere for z- observatoren. Den eneste forskjellen er at P-verdier og kritiske verdier baseres på t-fordelingen

Her er detaljene for konfidensintervall: Anta observasjonene er et enkelt tilfeldig utvalg av størrelse n fra en populasjon med ukjent forventning μ. Et konfidensintervall med konfidenskoeffesient C har grenser x ± t* s/ n der t* er verdien som gjør at tetthetskurven til t(n-1)-fordelingen har areal C mellom -t* og t*. Intervallet er eksakt når populasjonsfordelingen er normal og tilnærmet eksakt for store verdier av n. Tolkningen er den samme som for konfidensintervallene vi har sett tidligere.

Eksempel: Videoer på mobil Et enkelt tilfeldig utvalg, SRS, amerikanske studenter gir følgende n=8 verdier for bruk av mobiltelefoner til å se på videoer 7 9 1 6 13 10 3 5 (timer per måned) Gjennomsnitt x =( 7+9 + 5)/8= 6.75 Empirisk standardavvik s= (7 6.75)2 + (5 6.75) 2 8 1 = 3.88 Standardfeilen er SE x = s x / n = 3.88/ 8 = 1.37. Med C= 0.95 er t*=2.365, ( 7 frihetsgrader) og konfidensintervallet x ± t* s/ n= 6.75± 2.365 3.88/ 8 = 6.75 ± 3.25

Konfidensintervallet blir (4.2, 10.1). Men det er viktig å sjekke forutsetningene. Enkelt tilfeldig utvalg av amerikanske studenter. Populasjonsfordelingen normal. Her er normalfordelingsplott nyttige Også for testing er resultatene en direkte modifikasjon av det vi kjenner fra tilfellet med kjent standardavvik σ.

Et utvalgs t-test Data består av et enkelt tilfeldig utvalg (ETU, SRS) der fordelingen i populasjonen har forventning μ og standardavvik σ. Nullhypotsen er H 0 : μ=μ 0 Testen baseres t-observatoren for et utvalg t= x μ 0 s/ n Under nullhypotesen er den tilsvarende tilfeldige variabelen,, t-fordelt med n-1 frhetsgrader, dvs. t(n-1) fordelt.

Derfor er P-verdiene: Hvis alternativet er ensidig, H a : μ > μ 0, P(T t). Hvis alternativet er ensidig, H a : μ < μ 0, P(T t). Hvis alternativet er tosidig, H a : μ μ 0, 2P(T t ). Disse verdiene gjelder eksakt hvis populasjonsfordelingen er normal, og gjelder ellers som en tilnærmelse når n er stor.

Eksempel: Videoer på mobil Gjennomsnittet i USA er 3.7 timer per måned. Hvoran er forventningen blant amerikanske studenter i forhold til det? H 0 : μ = 3.7 H a : μ 3.7 Her er n=8, x =6.75, s= 3.88. Det gir testobservatoren t= x μ 0 6.75 3.7 = s/ n 3.88/ = 2.22 8 Antallet frihetsgrader er n-1=7. Fra tabell D er P(T 1.895)= 0.05 og P(T 2.365)= 0.025, slik at P-verdien 2 P(T 2.22) ligger mellom 2x0.05=0.1 og 2x0.025=0.05. Fra en statistikkpakke får man 2 P(T 1.40) = 0.0617. Derfor: Ingen forkastning med nivå 0.05.

Men det kan også forsvares med en ensidig test i dette tilfellet, altså H 0 : μ = 3.7 H a : μ > 3.7 Verdien på testobservatoren er den samme t=2.22. P-verdien er 0.025<P(T 2.22)= 0.0308< 0.05. Så i dette tilfellet vil vi forkaste nullhypotesen med nivå 0.05.

Eksempel: Aksjer, månedlig avkastning n= 39, x = -1.10. H 0 : μ = 0.95 H a : μ ± 0.95 (S&P gjennomsnitt)

Først sjekkes normalitetsforutsetningen

Her er x = -1.1, t=-2.14, df (f.gr.) =38, P=0.039, så med nivå 0.05 ser det ut for at avkastningen er dårligere enn S&P indeks.

Utskrifter fra Minitab og SPSS.

Her er beregningene for et konfidensintervall fra Minitab, SPSS og Excel.

Fra diskusjonen om forsøksplanlegging var en av hovedkonklusjonene at bruk av kontrollgrupper var viktig. Vi skal nå se at en-utvalgstesten vi har sett på, også kan anvendes i denne sammenhengen. I parplanen ble enhetene delt inn i par som er så like som mulig etter kriterier man kan kontrollere. Deretter sammenlignes en behandling innen parene. Spesielt kan parene være målinger fra samme enhet på to ulike tidspunkt før og etter en intervensjon.

Eksempel: Demens og voldelig adferd For n=15 demenspasienter ble antall voldsepisoder klassifisert etter månefasen, nær fullmåne eller ikke, de forekom i. Deretter ble de 15 differansene analysert.

Stilk-blad plottet for differansene ser slik ut. Som man ser kan antagelsen om normalfordelte observasjoner diskuteres.

Vi bruker enutvalgsmetodene på differansene.månefase ikke månefase. Da svarer «ingen effekt» til H 0 : μ=0 H a : μ 0 Basert på differansene er x = 2.433 og s=1.460 slik at t= x 0 s/ = 2.433 n 1.460/ = 6.45 15 Fordelingen under H 0 er t(14). Med en tosidig test blir P-verdien derfor mindre enn 2 0.0005 =0.0010, der 0.0005 er minste kritiske verdi fra tabell D i læreboka. Eksakt verdi er 5.5E-5.

P(T 2.145)= 0.025 hvis T er t(14) fordelt. Et 95% Konfidensintervall har derfor grenser x ± t* s/ n = 2.43± 2.145 s 1.460/ 15 = 2.43 ± 0.81. Intervallet inneholder ikke null, så det er en annen måte at verifisere at hypotesen forkastes med nivå 0.05. Merk: Ikke randomisering i denne studien Bare pasienter med voldelig adferd Data tyder ikke på normalfordeling, jfr. stilk-blad plottet.

Metodene bygger på forutsetning om at populasjonsfordelingen N(μ,σ). Hvor store avvik kan tolereres? Metoder for statistisk inferens (slutninger) kalles robuste hvis sannsynlighetsberegningene som trengs i liten grad påvirkes av brudd på de forutsetningene de er utledet under. t-tester og konfidensintervall er ganske robuste mot avvik fra normalitet, bortsettfra ``outliere'' og sterk skjevhet. Særlig er ``outliere'' problematisk, siden x og s påvirkes. Det er derfor viktig å undersøke om dette forekommer, spesielt når utvalget er lite. Bruk normalfordelingsplott, histogrammer, stilk og blad plott og boksplott.

Tommelfinger regler: n < 15: Bruk t-metoder når data ser normale ut. Pass på hvis klare brudd normalitet eller data inneholder ``outliere''. I så fall, bruk noe annet. n 15: Her kan t-teste/t k.i. brukes bortsett fra der det er tydelig skjevhet eller ``outliere''. n 40 : Da kan selv klare brudd tolereres.

Sammenligning av to utvalg Ønsker å sammenligne responsen i to grupper. Hver gruppe er et utvalg fra en populasjon. I utgangspunktet er det altså to populasjoner. Responsene i en av gruppene er uavhengig av responsene i den andre. De to gruppene kan dannes ved et randomisert forsøk eller ved at tilfeldige utvalg trekkes fra hver av populasjonene.

Notasjon: Populasjon variabel forventning st. avvik 1 x 1 μ 1 σ 1 2 x 2 μ 2 σ 2 Vi er interessert i å sammenligne forventningen i de to gruppene, dvs μ 1 - μ 2 Det gjør vi ved enten å lage konfidensintervall for μ 1 - μ 2 eller ved å teste H 0 : μ 1 = μ 2.

Testen og konfidensintervallet baseres på data fra de to utvalgene Populasjon utvalgsstørrelese gj.snt. utvalg st. avvik utvalg 1 n 1 x 1 s 1 2 n 2 x 2 s 2 Størrelsen μ 1 - μ 2 estimerer man med x1 - x 2. Her er μ x 1 x 2 = μ 1 - μ 2, og σ 2 x 1 x 2 = σ2 1/ n 1 + σ 2 2/ n 2.

For den nokså urealistiske situasjonen at σ 1 og σ 2 er kjente ville man basert seg på den standariserte variabelen z= ( x 1 x 2 ) ( μ 1 μ 2 ) σ 2 1/ n 1 + σ 2 2/ n 2. Under forutsetning at x1 er gjennomsnitt i et enkelt tilfeldig utvalg fra en N(μ 1, σ 1 ) populasjon, og at x 2 er gjennomsnitt i et annet uavhengig enkelt tilfeldig utvalg fra en N(μ 2, σ 2 ) populasjon, er z standard N(0,1) fordelt.

Eksempel: Figuren nedenfor illustrerer inferens basert på fordelingen for høyde av tiårige jenter og gutter i USA som er tilnærmet N(56.4, 2.7) og N(55.7, 3.8) ( i tommer) fordelt. Antar vi disse standardavvikene kan man beregne sannsynligheten for at forskjellen i to tilfeldige utvalg er større enn null.

Det vanlige er altså at standadavvikene må estimeres. Vi bruker samme fremgangsmåte som i ett utvalgssituasjonen. Når standardavviket i de to populasjonene ikke er kjent, estimeres de ved de empiriske standardavvikene i de to to utvalgene. Dette gir t-observatoren for to utvalg t= ( x 1 x 2 ) ( μ 1 μ 2 ) s 2 1/ n 1 + s 2 2/ n 2. N.B. Denne fordelingen avhenger av n 1 og n 2 og σ 1 og σ 2, så fordelingen er ikke t-fordelt. Dette gjelder selv om de to utvalgene er enkle tilfeldige utvalg fra uavhengige N(μ 1, σ 1 ) og N(μ 2, σ 2 ) populasjoner.

Selv om t-observatoren for to utvalg, t, ikke er eksakt t-fordelt, kan fordelingen tilnærmes svært godt med en t(k) fordeling, der k kan beregnes. Fra denne tilnærmede fordelingen kan en finne de nødvendige kritiske verdiene og P-verdiene som trengs. Observatoren kan modifiseres slik at den er t-fordelt i spesialtilfellet σ 1 = σ 2.

To måter å beregne k på Beregn k fra data. Dette gjøres i de fleste statistikkpakker inkludert MINITAB. La k være den minste verdien av n 1-1 og n 2-1, dvs. k= min (n 1-1,n 2-1).

To utvalgs konfidensintervall: Under forutsetning at x1 er gjennomsnitt i et enkelt tilfeldig utvalg fra en N(μ 1, σ 1 ) populasjon, og at x 2 er gjennomsnitt i et annet uavhengig enkelt tilfeldig utvalg fra en N(μ 2, σ 2 ) populasjon vil et konfidensintervall med konfidenskoeffesient minst lik C for μ 1 - μ 2 ha grenser x1 - x 2 ± t* s 1 2 /n 1 + s 2 2 /n 2 Her er t* den verdien som gjør at arealet under tetthetskurven til en t(k) fordeling er C mellom -t* og t*. Antallet frihetsgrader k er enten beregnet i en statistikkpakke eller som k= min (n 1-1,n 2-1).

Eksempel: Lesevansker, sammenligning med kontrollgruppe Fra de to gruppene Gruppe n x s Behandling 21 51.48 11.01 Kontroll 23 41.52 17.15

Et 95% konfidensintervall har grenser x1 - x 2 ± t* s 1 2 /n 1 + s 2 2 /n 2 =(51.48-41.52) ± t* 11.01 2 /21 + 17.15 2 /23 = 9.96 ± 4.31 t* Fra en statistikkpakke er antallet frihetsgrader k=37.9 og t*=2.025. Det gir tilnærmelsen 9.96 ± 4.31 2.025 = 9.96 ± 8.72 Med antallet frihetsgrader lik k = min ( 21-1, 23-1) = 20 blir t*=2.086 fra tabell D, og det tilnærmede k.i. blir 9.96 ± 4.31 2.086 = 9.96 ± 8.99 Den konservative varianten gir det lengste k.i

To utvalgs tester: Anta at x1 er gjennomsnitt i et enkelt tilfeldig utvalg fra en N(μ 1, σ 1 ) populasjon, og at x 2 er gjennomsnitt i et annet uavhengig enkelt tilfeldig utvalg fra en N(μ 2, σ 2 ) populasjon. For å tests H 0 : μ 1 = μ 2 beregnes observatoren for to utvalg ( x 1 x 2 ) t=. s 2 1/ n 1 + s 2 2/ n 2 P-verdiene beregnes fra en t(k) fordeling, der antallet frihetsgrader, k, enten er beregnet i en statistikkpakke eller k= min (n 1-1,n 2-1).

Eksempel: Lærevansker Tester H 0 : μ 1 = μ 2 mot H a : μ 1 > μ 2 Beregner to utvalgs t observatoren ( x 1 x 2 ) 51.48 41.52 t= = s 2 1/ n 1 + s 2 2/ n 2 11.01 2 /21 + 17.15 2 /23 = 2.31 P-verdi: P( T 2.31). Fra statistikkpakke: P-verdi 0.0132 og 37.9 frihetsgrader. Med k= min (n 1-1,n 2-1). = 20 frihetsgrader er P-verdien mellom 0.01 og 0.02. Konklusjon: Lav P-verdi viser at data lite forenelig med H 0 : μ 1 = μ 2, slik at det ser ut til at er en reel forbedring.

Opplegget av undersøkelsen ikke ideel: Umulig med randomisering, slik at effekt av bakenforliggende variable ikke kan utelukkes, for eksempel forskjell mellom klassene og lærerens ferdigheter. Botemiddel: Mye pretesting av klassene før forsøket startet for å avdekke forskjeller. Dessuten samme lærer.

Metodene for to utvalg er mer robuste enn metodene i et utvalg. Hvis utvalgene er like store, n 1 = n 2, kan sannsynligheter basert på t-fordelinger være ganske nøyaktige fra n 1 = n 2 =5. Forutsetningen for dette er at de to populasjonsfordelingene har nokså lik form. Tilnærmelsene best for n 1 = n 2, så det er lurt å tilstrebe at de to utvalgene blir like store hvis det er mulig.

Reglene fra ett uttvalg gjelder med n=n 1 + n 2 n 1 + n 2 < 15: Bruk t-metoder når data ser normale ut. Pass på hvis klare brudd normalitet eller data inneholder ``outliere''. I så fall, bruk noe annet. n 1 + n 2 15: Her kan t-tester/t-konfidensintervaller brukes bortsett fra der det er tydelig skjevhet eller ``outliere''. n 1 + n 2 40: Da kan selv klare brudd tolereres. Små utvalg krever ekstra oppmerksomhet. Det er lite informasjon i boksplott og normalfordelingsplott i slike tilfeller. Det kan derfor være vanskelig å oppdage outliere. Utvalg av tilnærmet samme størrelse er å foretrekke.

I spesialtilfellet der de to normalfordelte populasjonene har samme standardavvik, kan dette utnyttes. Begge variansestimatorene 2 2 s 1 og s 2 er da forventningsrette estimatorer for σ 2, og ved å kombinere dem kan man få en bedre estimator. Denne er s 2 p = (n 2 1 1)s 1 +(n2 1)s 2 2. n 1 + n 2 2 Dette kalles «the pooled etimator» for σ 2, derav fotskrift p. Den kombinerer informasjon fra begge utvalg, og brukes til å standarisere på samme måte som tidligere.

Nå er variansen til x1 - x 2 er siden de to utvalgene er uavhengige σ 2 x 1 x 2 = σ2 ( 1 n 1 + 1 n 2 ), slik at den tilfeldige variabelen z = (x 1 x 2 ) (μ 1 μ 2 ) σ 1 + 1 n1 n2 er standard normalfordelt N(0,1). Ved å erstatte σ med estimatoren s p 2 får man en t-fordelt variabel med n 1 + n 2-2 frihetsgrader. Det gir konfidensintervall og tester av formen.

For konfidensintervaller: Anta at x1 er gjennomsnittet av et enkelt tilfeldig utvalg fra en populasjon som er normalfordelt med ukjent forventning μ 1, og at x 2 er gjennomsnittet av et annet uavhengig enkelt tilfeldig utvalg fra en populasjon som er normalfordelt med ukjent forventning μ 2. Anta at standardavviket i de to fordelingene er det samme. Et konfidensintervall med konfidenskoeffesient lik C for μ 1 μ 2 har grenser (x1 - x 2) ± t* s p 1 n 1 + 1 n 2. Her er t* den verdien som gjør at arealet under tetthetskurven til en t(n 1 + n 2-2) fordeling mellom -t* og t* er C.

For tester: Anta at x1 er gjennomsnittet av et enkelt tilfeldig utvalg fra en populasjon som er normalfordelt med ukjent forventning μ 1, og at x 2 er gjennomsnittet av et annet uavhengig enkelt tilfeldig utvalg fra en populasjon som er normalfordelt med ukjent forventning μ 2. Anta at standardavviket i de to fordelingene er det samme. For å teste nullhypotesen H 0 :μ 1 =μ 2 beregn ``the pooled'' t-observator t = x 1 x 2 s p 1 n1 + 1 n2

Under nullhypotesen er den tilsvarende tilfeldige variabelen, T, t(n 1 + n 2-2) fordelt. Derfor er P-verdiene Hvis alternativet er ensidig H a :μ 1 > μ 2, P(T t). Hvis alternativet er ensidig H a :μ 1 < μ 2, P(T t). Hvis alternativet er tosidig H a :μ 1 μ 2, 2 P(T t ).

Eksempel: Kalsium supplement og blodtrykk (i mm kvikksølv) To grupper svarte menn målt på to tidspunkter. Placebo og behandlingsgruppe, dobbelt blindt

Data for nedgang: Behandling n x s Kalsium 10 5.000 8.743 Placebo 11-0.273 5.901 Vi tester H 0 :μ 1 = μ 2 mot H a :μ 1 > μ 2 Beregner først «pooled variance» s p 2 = (n 1 1)s 1 2 +(n2 1)s 2 2 n 1 + n 2 2 = 10 1 8.7432 +(11 1)5.901 2 10+11 2 = 54.536

Da er s p = 54.536 = 7.385 kombinerte t-observatoren og den t = x 1 x 2 s p 1 n1 + 1 n2 = 5.000 ( 0.273) 7.385 1 10 + 1 11 = 5.273 3.227 =1.634 P-verdien er P(T 1.634) = 0.059 beregnet fra en t(19)-fordeling, slik at dataene tyder på en viss reduksjon av blodtrykket, men ikke nok til forkastning på nivå 1% eller 5%.

Et 90% konfidens intervall har grenser ( x1 - x 2) ± t* s p 1 n 1 + 1 n 2 der P(T t*) = 0.05 slik at t*= 1.729 fra en tabell over t(19)- fordeling. Der gir grensene [5.000- (-0.273)] ± 1.729 7.385x 1 10 + 1 11 = 5.273 ± 5.579, slik at 90% konfidensintervallet blir (-0.306, 10.852).

Det er vanskelig å verifisere antagelsen om at σ 1 = σ 2, slik at man skal være forsiktig med å bruke «the pooled procedure». Hvis utvalgene er omtrent like store, er metoden rimelig robust. Hvis utvalgene er av svært ulik størrelse, er metoden meget følsom for antagelsen om lik vatians. Forskjellig varians i de to populasjonene er vanlig.