ST0202 Statistikk for samfunnsvitere

Like dokumenter
Testobservator for kjikvadrattester

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Forelesning 10 Kjikvadrattesten

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

ECON240 VÅR / 2016 BOKMÅL

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2007

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

TMA4240 Statistikk H2010 (19)

TMA4240 Statistikk H2010 (20)

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2016

Fra i går Signifikanssannsynlighet (p verdi) vs. signifikansnivå Utgangspunkt for begge: Signifikansnivå α. evt.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

i x i

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2009

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Kapittel 3: Studieopplegg

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

Eksamensoppgave i ST3001

Eksamensoppgave i TMA4295 Statistisk inferens

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

β(µ) = P(akseptere H 1 µ)

Hypotesetest: generell fremgangsmåte

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Løsning eksamen desember 2017

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen august 2014

MOT310 Statistiske metoder 1, høsten 2011

Eksamensoppgave i TMA4240 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

TMA4240 Statistikk H2010 (22)

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

Eksamensoppgave i TMA4255 Anvendt statistikk

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

TMA4240 Statistikk Eksamen desember 2015

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Eksamensoppgave i TMA4245 Statistikk

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

TMA4245 Statistikk Eksamen desember 2016

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

ST0202 Statistikk for samfunnsvitere

Målenivå: Kjønn: Alle bør kunne se at denne variabelen må plasseres på nominalnivå

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0103 Brukerkurs i statistikk Høst 2014

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Løsningsforslag eksamen STAT100 Høst 2010

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg.

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer)

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Kap. 11: Anvendelser av kjikvadratfordelingen: Kjikvadrattester Situasjon: Et tilfeldig utvalg av n individer er trukket fra en populasjon. Hvert individ kan klassifiseres ifølge en kategorisk variabel med k mulige verdier, og det telles opp hvor mange (O) som faller i hver kategori (observerte frekvenser). Disse skal så sammenlignes med forventede frekvenser (E) ifølge den teori som skal testes. Kategorier kalles ofte celler i tabeller som den nedenfor. k kategorier 1 2 3 k Totalt Observerte frekvenser O 1 O 2 O 3 O k n Forventede frekvenser E 1 E 2 E 3 E k n

3 Testobservator for kjikvadrattester k celler 1 2 3 k Totalt Observerte frekvenser O 1 O 2 O 3 O k n Forventede frekvenser E 1 E 2 E 3 E k n χ 2 (O E) 2 = E alle celler Hvis (null)hypotesen som svarer til de forventede frekvenser er sann, vil χ 2 være kjikvadratfordelt med df frihetsgrader, som avhenger av situasjonen. Hvis χ 2 blir for stor vil vi forkaste nullhypotesen.

Eksempel med terningkast: Kast en terning 60 ganger, observer antall 1 ere, 2 ere... osv. Vi vil teste nullhypotesen at terningen er korrekt, dvs. at sannsynlighetene er 1/6 for hvert antall øyne. Forventede frekvenser under denne hypotesen er 60 1 6 = 10. Antall øyne 1 2 3 4 5 6 Observerte frekvenser 7 12 10 12 8 11 Forventede frekvenser 10 10 10 10 10 10

Beregning av testobservator: χ 2 (O E) 2 = E alle celler Øyne O E O-E (O E) 2 (O E) 2 /E 1 7 10-3 9 0.9 2 12 10 2 4 0.4 3 10 10 0 0 0.0 4 12 10 2 4 0.4 5 8 10-2 4 0.4 6 11 10 1 1 0.1 Totalt n=60 n=60 0-2.2 dvs. at χ 2 = 2.2. Er dette et stort tall? Vi kommer tilbake til dette, siden vi her har et spesialtilfelle av multinomiske eksperimenter - se neste side:

6 Multinomiske eksperimenter (11.3) 1. n identiske uavhengige forsøk. 2. Utfallet av hvert forsøk havner i en av k mulige kategorier (celler) 3. Sannsynlighetene for å havne i hver kategori er konstante i hele forsøket. p 1 er sannsynligheten for å falle i kategori 1, osv. Vi må ha at p 1 + p 2 + + p k = 1 4. Eksperimentet resulterer i et sett av observerte frekvenser O 1, O 2,, O k ( med sum lik n)

Vi sier at (O 1, O 2,...,O k ) er multinomisk fordelt med n forsøk og sannsynligheter p 1, p 2,, p k Vi tester nullhypoteser av formen H 0 : p 1, p 2,...,p k har gitte verdier mot alternativet H a at minst en p-ene har en annen verdi. De forventede frekvenser når H 0 gjelder er: E 1 = np 1, E 2 = np 2,..., E k = np k ( med sum lik n) Det grunnleggende fordelingsresultat er nå at hvis H 0 gjelder, er testobservatoren χ 2 (O E) 2 = E alle celler kjikvadratfordelt med df = k 1 frihetsgrader.

Analyse av terningeksemplet I terningeksemplet hadde vi n = 60, k = 6, og testet nullhypotesen at alle p ene er lik 1/6, dvs. at alle E-ene er lik 60 1/6 = 10. Hypotestetest ved bruk av p-verdi: p verdi = P(χ 2 > χ 2 ) = P(χ 2 > 2.2) = 0.821 der χ 2 er kjikvadratfordelt med 6 1 = 5 frihetsgrader. p-verdien er større enn signifikansnivå α=0.05, og nullhypotesen forkastes ikke.

Analyse av terningeksemplet Hypotetsetest ved bruk av kritisk verdi: H 0 forkastes med signifikansnivå α hvis χ 2 > χ 2 (k 1, α). Vi har χ 2 (5, 0.05) = 11.1 og siden χ 2 = 2.2 < 11.1 kan vi ikke forkaste nullhypotesen.

Oppgave: En produsent av poleringsmiddel for gulv utførte et eksperiment for å finne ut hvilket av 5 poleringsmidler som hadde det beste resultatet. Et utvalg med 100 konsumenter betraktet fem overflater behandlet med de ulike poleringsmidlene. Hver konsument indikerte hvilken av de 5 overflatene som var finest. Svarene fordelte seg slik: poleringsmiddel A B C D E frekvens 27 17 15 22 19 a) Sett opp nullhypotesen for konsumentene har ingen spesiell preferanse b) Hvilken testobservator vil du bruke for å teste nullhypotesen? c) Fullfør hypotesetesten med α = 0.1

Fra!"# eksamen 9. desember 2008 $%& $ " '" (# )#* (" $.- / 0 1 *$+ " '", &"$ -"-"." "$ "$

2345678 Løsning SRQLOLQ JKLMLNMOPOQMOR H IF;AE:;>9I; 0UVZ[\Z]UV\UW\X^WUV_`\XVUa TUVWXYH χ 2 = (O i E i ) 2 E i χ 2bcXVdUe\YUdfbghicVZjU\W]V`dUVkl[WUm\XYVndU^eZV(0,χ2 (2, 0.05)) = (0, 5.99)k qz[àè\wnz[ucxv[ẁ\ujrmx\uwuaxỳ\^`vas[_zauvx]yua]nvez[uyru\zecẁ\eu]uak ov`\`^ueuax_uvpauvuaχ 0k 2 = (O i E i ) 2 = 3.26 E i WXYUVZ`[WUm\XYVndU\X]Ua^UjXedUVH H 0 : p barn = 375/1500,p kvinne = 607/1500,p mann = 522/1500 H A :9:;<=>;p?@:ABCD:=E>FG:

13 Inferens i kontingenstabeller (krysstabeller) (11.4) Individene klassifiseres nå etter to faktorer (kjennetegn). Ønsker å undersøke om faktorene er uavhengige.

14 Uavhengighetstesten Hypoteser i uavhengighetstesten: H 0 : Fagpreferanse (MS, SS eller H) er uavhengig av kjønn. H a : Fagpreferanse er avhengig av kjønn. Bruker igjen kjikvadratobservatoren χ 2 (O E) 2 = E alle celler med forventede frekvenser E beregnet for hver celle ved: E = radsum kolonnesum totalt antall i utvalg

Begrunnelse for forventede responser: Ved uavhengighet skulle vi forvente at sannsynligheten for at en uttrukket er Male med område MS er lik sannsyligheten for Male multiplisert med sannsynligheten for MS, dvs. 122 300 72 300 Forventet antall uttrukne med denne kombinasjonen ville i så fall være 300 122 300 72 122 72 = = 29.28 300 300

Frihetsgrader ved kontingenstabeller: df = (r 1) (c 1) der r er antall rader og c er antall kolonner i tabellen. I eksempel: df = (2 1) (3 1) = 1 2 = 2. Klassisk metode med signifikansnivå 5%: Forkast H 0 hvis χ 2 > χ 2 (2, 0.05) = 5.99, dvs. ikke forkast. Metode med p-verdi: p-verdi = P(χ 2 > 4.61) = 0.10 i Tabell 8, så p-verdi er ca. 0.10.

18 Homogenitetstesten Tilfeldige utvalg fra r = 3 populasjoner, klassifisert i c = 2 kategorier. H 0 : Andelen stemmeberettigede som er for lovforslaget er den samme i alle de tre bostedsgruppene H a :... er ikke den samme i alle de tre bostedsgruppene

Beregner forventede frekvenser som for uavhengighetstesten, f.eks. for øverste venstre celle: 200 254 500 = 101.6 Antall frihetsgrader er som for uavhengighetstesten, dvs. df = (r 1) (c 1) = (3 1) (2 1) = 2 p-value = P(χ 2 > 91.72) = 0.000..., så H 0 forkastes klart med alle tenkelige signifikansnivå!