Kap. 12: Variansanalyse

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSAMEN I FAG ST2202 ANVENDT STATISTIKK

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Testobservator for kjikvadrattester

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

TMA4240 Statistikk Høst 2007

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

TMA4240 Statistikk H2010 (22)

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

TMA4240 Statistikk Høst 2009

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppgave 14.1 (14.4:1)

Hypotesetest: generell fremgangsmåte

ECON240 VÅR / 2016 BOKMÅL

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Kp. 14 Flerfaktoreksperiment. Kp. 14: Flerfaktor-eksperiment; oversikt

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

TMA4240 Statistikk H2010

Oppgave 1. Kilde SS df M S F Legering Feil Total

Eksamensoppgave i ST0103 Brukerkurs i statistikk

MOT310 Statistiske metoder 1, høsten 2011

UNIVERSITETET I OSLO

STK juni 2016

HØGSKOLEN I STAVANGER

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Kapittel 3: Studieopplegg

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

UNIVERSITETET I OSLO

Løsningsforslag eksamen STAT100 Høst 2010

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

LØSNINGSFORSLAG ) = Dvs

Oppgave N(0, 1) under H 0. S t n 3

Hypotesetesting av λ og p. p verdi.

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

ST1201 Statistiske metoder

10.1 Enkel lineær regresjon Multippel regresjon

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

UNIVERSITETET I OSLO

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Binomisk sannsynlighetsfunksjon

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

TMA4240 Statistikk H2010

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Eksamensoppgave i TMA4255 Anvendt statistikk

Inferens i fordelinger

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

2 Kap. 12: Variansanalyse Situasjon: c populasjoner, hver med sitt populasjonsgjennomsnitt μ i. Vi tester ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag H 0 : Alle populasjonene har samme gjennomsnitt, dvs. μ 1 = μ 2 =...= μ c H a : Ikke alle populasjonsgjennomsnittene er like. Tilfellet med to populasjoner ble behandlet i kap. 10. Eksempel 12.1: Effekt av temperatur på produsert antall. Temperaturnivå 68 o F 72 o F 76 o F Populasjon nr. i = 1 i = 2 i = 3 Utvalg 10 7 3 12 6 3 10 7 5 9 8 4 7 Populasjons- μ 1 μ 2 μ 3 gjennomsnitt Vil teste: H 0 : μ 1 = μ 2 = μ 3 Fra kapittel 10: Testet H 0 : μ 1 = μ 2 mot μ 1 μ 2 t = x 1 x 2 μ 1 μ 2 s 2 1 n 1 + s2 2 n 2 Med flere enn to populasjoner, dvs. H 0 : μ 1 = μ 2 =...= μ c kunne man teste to og to μ-er, men det ville bli mange tester å utføre. Isteden testes ved såkalt variansanalyse ANOVA, der det regnes ut én testobservator som kombinerer informasjon fra alle utvalgene.

5 ANOVA Antagelser: c populasjoner skal sammenlignes populasjonsgjennomsnittene er μ 1,μ 2,...,μ c populasjonsvariansene σ 2 er de samme for alle populasjonene populasjonene antas normalfordelte populasjonene svarer ofte til ulike nivåer av en faktor, f.eks. temperatur vi har tilfeldige og uavhengige utvalg fra hver populasjon, av størrelse henholdsvis k 1, k 2,...,k c Eksempel 12.1: Effekt av temperatur på produsert antall. Temperaturnivå 68 o F 72 o F 76 o F Utvalg nr. i = 1 i = 2 i = 3 10 7 3 12 6 3 10 7 5 9 8 4 7 Utvalgsstørrelse k 1 = 4 k 2 = 5 k 3 = 4 Kolonnesum C 1 = 41 C 2 = 35 C 3 = 15 Utvalgs- x 1 = 10.25 x 2 = 7.0 x 3 = 3.75 observatorer s1 2 = 1.5833 s2 2 = 0.5000 s2 3 = 0.9167 Populasjons- μ 1 μ 2 μ 3 parametre σ σ σ Intuitivt: Forkast H 0 : μ 1 = μ 2 = μ 3 dersom x 1, x 2, x 3 er tilstrekkelig forskjellige. 7 Kvadratsummer Sums of Squares Total Sum of Squares SStotal = x x 2 = x 2 x 2 n der n er det totale antall observasjoner i alle utvalgene x er gjennomsnittet av alle observasjonene grand mean det summeres over alle de n observasjonene Merk: Hvis dette divideres med n 1 får vi den vanlige s 2. Sum of Squares Due to Factor SSfactor = k 1 x 1 x 2 + k 2 x 2 x 2 + k 3 x 3 x 2 + der k i er antall i utvalg nr. i, x i er gjennomsnitt i utvalg nr. i og x er grand mean. Fortolkning: SSfactor blir stor hvis det er stor forskjell mellom populasjonsgjennomsnittene, dvs. stor SSfactor tyder på at H 0 skal forkastes. SSfactor fortolkes som variasjon mellom populasjoner. Regneformel fra boka: SSfactor = 2 + C2 2 + x 2 k 1 k 2 k 3 n der C i er kolonnesummer, og n og x gjelder observasjonene i alle utvalgene.

Sum of Squares Due to Error SSerror =k 1 1 s 2 1 +k 2 1 s 2 2 +k 3 1 s 2 3 + der k i er antall i utvalg nr. i, s 2 i er utvalgsvarians i utvalg nr. i. Fortolkning: SSerror fortolkes som variasjon innen populasjoner. Hvis den divideres med n c er den et punktestimat for populasjonsvariansen σ 2. Regneformel fra boka: SSerror = x 2 2 + C2 2 + k 1 k 2 k 3 der C i er kolonnesummer, og x 2 gjelder observasjonene i alle utvalgene. Frihetsgrader for kvadratsummene: Generelle sammenhenger: Mean Squares: dftotal = n 1 dffactor = c 1 dferror = n c SStotal = SSfactor + SSerror dftotal = dffactor + dferror MSfactor = SSfactor dffactor MSerror = SSerror dferror Merk at MSerror er et punktestimat for σ 2. Mean Square for Factor Mean Square for Error 11 Testobservator for ANOVA F = MSfactor MSerror Hvis H 0 gjelder har F en F -fordeling med df 1 = c 1og df 2 = n c frihetsgrader. ANOVA-tabell: Kilde df SS MS F P Factor dffactor SSfactor MSfactor F p-value Error dferror SSerror MSerror Total dftotal SStotal Eksempel 12.1 forts: Effekt av temperatur på produsert antall. Her er x 2 =10 2 + 12 2 + 10 2 + 9 2 + 7 2 + = 731 og x = 10 + 12 + 10 + 9 + 7 + = 91 slik at SStotal = x 2 x 2 = 731 912 = 731 637 = 94 n 13 2 SSfactor = + C2 2 + x 2 k 1 k 2 k 3 n = 41 2 4 + 352 5 + 152 912 4 13 = 84.5 SSerror = SStotal SSfactor = 94 84.5 = 9.5 eller bruk egen formel

ANOVA-tabell: Kilde df SS MS F P Temperatur 2 84.5 42.25 44.47 0.00001 Error 10 9.5 0.95 Total 12 94.0 F = MSfactor MSerror = 42.25 0.95 = 44.47 Hvis H 0 gjelder har F en F -fordeling med df 1 = 3 1 = 2og df 2 = 13 3 = 10 frihetsgrader. Tabell 9A: Med α = 0.05 forkastes H 0 hvis F > F 2, 10, 0.05 =4.10, dvs. klar forkastning. p-verdi: PF > 44.47 =0.00001 fra CD. Eksempel: Sammenligning av slaglengde for ulike typer golfballer. Type 1 2 3 4 5 Utvalg 286 279 270 284 281 276 277 262 271 293 281 284 277 269 276 274 288 280 275 292 Sum C i 1117 1128 1083 1099 1142 Gj. snitt x i 279.25 282 272.25 274.75 285.5 Populasjons- μ 1 μ 2 μ 3 μ 4 μ 5 gjennomsnitt Vil teste: H 0 : μ 1 = μ 2 = μ 3 = μ 4 = μ 5 Idé bak ANOVA 12.3 MSfactor er et mål for variasjonen mellom populasjonene MSerror er et mål for variasjonen innen populasjonene F er forholdet mellom disse, og vi forkaster H 0 hvis dette blir for stort. x 2 = 286 2 + + 292 2 = 1555185 x = 286 + + 292 = 5575 SStotal = x 2 x 2 = 1555185 55752 = 1153.75 n 20 2 SSfactor = + C2 2 + C2 4 + C2 5 x 2 k 1 k 2 k 3 k 4 k 5 n = 11172 + 11282 + 10892 + 10992 + 11422 55752 4 4 4 4 4 20 = 458.5 SSerror = SStotal SSfactor = 1153.75 458.5 = 695.25

ANOVA-tabell: Kilde df SS MS F P Balltype 4 458.5 114.625 2.47 0.0894 Error 15 695.25 46.35 Total 19 1153.75 F = MSfactor MSerror = 114.625 46.35 = 2.47 Hvis H 0 gjelder har F en F -fordeling med df 1 = 5 1 = 4og df 2 = 20 5 = 15 frihetsgrader. Oppgave: Gitt følgende utvalg fra tre populasjoner: Populasjon 1 2 3 x 9 7 6 11 9 8 Beregn en komplett ANOVA-tabell! Tabell 9A: Med α = 0.05 forkastes H 0 hvis F > F 4, 15, 0.05 =3.06, dvs. vi forkaster ikke H 0. p-verdi: PF > 2.47 =0.0894 fra CD. Fra eksamen 16. desember 2006 Oppgave 3 Rottegift blir vanligvis laget ved å blande gift med havremel. I byområer kan imidlertid rottene ofte nne mat som de foretrekker før havremel, slik at giften forblir urørt. En løsning er å tilsette mat som smør eller kjøtt. Dette er eektivt, men kostnaden er høy og maten skjemmes fort. Hensikten med eksperimentet beskrevet her er å nne ut om kunstige smakstilsetninger har lignende eekt. Det ble lagt ut lokkemat med re smaker: smakløs, vanilje, kjøtt og brød. Alle typer lokkemat ble lagt i nærheten av hverandre slik at en rotte ville ha lik tilgang til alle re. Dette ble gjort i 5 ulike områder, og to uker etter at lokkematen ble lagt ut ble det registrert hvor stor andel av lokkematen som hadde blitt spist. Resultatene i prosent er oppsummert under. område smakløs vanilje kjøtt brød 1 13.8 14.7 14.0 12.6 2 12.9 16.7 15.5 13.8 3 25.9 29.8 27.8 25.0 4 18.0 23.1 23.0 16.9 5 15.2 20.2 19.0 13.9 Løsning: Oppgave 3 a H 0 :Forventningen er den samme for de 4 populasjonene. H 1 : Minst en populasjon har forskjellig forventning. F = MSfactor MSerror, dvs ikke grunnlag for å forkaste H 0. SSfactor/4 1 = =0.757 <F3, 16, 0.05 = 3.24 SSerror/20 4 Det er oppgitt at SSfactor=68.082 og SSerror = 479.636. a Utfør en variansanalyse for å teste om det er forskjell mellom ulike smakstilsetninger med hensyn på andel lokkemat som er spist. Bruk signikansnivå 5%.

Løsning forts.: b For alle smakstilsetningene er det spist klart mest i område 3. Dette tyder på at de re utvalgene ikke er uavhengige, men at de har et felles områdespesikt tilfeldig element. Fra eksamen 16. desember 2006 forts. Oppgave 3 b Hva er det med andelene som tyder på at ikke alle antagelsene gjort i variansanalysen over er oppfylt? c Betrakt utvalget for smakløs lokkemat og utvalget for lokkemat med vaniljesmak. Er de to utvalgene uavhengige? Test om forventningene er like for de to utvalgene ved 5% signikansnivå. d Kommenter resultatet i c i forhold til resultatet i a. Basert på analysen over, hvilke slutninger vil du trekke? c Utvalgene er avhengige siden de har felles områdespesikt tilfeldig element. H 0 : Forventet spist andel er den samme for smakløs lokkemat og lokkemat med vaniljesmak. H 1 : Forventningene er ikke like. Betrakt parvise dieranser: område smakløs vanilje d 1 13.8 14.7 0.9 2 12.9 16.7 3.8 3 25.9 29.8 3.9 4 18.0 23.1 5.1 5 15.2 20.2 5.0 t = d s D / n = 3.74 1.698/ =4.93 >t4, 0.025 = 2.78 5 Så vi forkaster H 0. d I a klarer vi ikke å påvise forskjell i forventning for smakstilsetningene. I c nner vi signikant forskjell mellom smakløs og vaniljesmak. I den parvise t-testen kontrolleres eekten av område og forskjellen i gjennomsnitt mellom de to populasjonene blir signikante. Vi kan trekke slutningen at det er forskjell mellom smakstilsetningene, og at vi ved å tilsette smak f.eks vaniljesmak kan øke andelen lokkemat som blir spist.