Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

TMA4240 Statistikk H2010 (20)

ST0202 Statistikk for samfunnsvitere

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

ECON240 VÅR / 2016 BOKMÅL

TMA4240 Statistikk Høst 2007

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Inferens i fordelinger

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Kap. 9: Inferens om én populasjon

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Fra første forelesning:

TMA4240 Statistikk Høst 2016

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2015

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Binomisk sannsynlighetsfunksjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

i x i

TMA4240 Statistikk H2010 (19)

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

1 10-2: Korrelasjon : Regresjon

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Hypotesetest: generell fremgangsmåte

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk H2010 (22)

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

Løsning eksamen desember 2017

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Statistikk og dataanalyse

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Eksamensoppgave i TMA4240 Statistikk

7.2 Sammenligning av to forventinger

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

TMA4245 Statistikk Eksamen august 2014

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk 2014

Kapittel 3: Studieopplegg

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Introduksjon til inferens

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

HØGSKOLEN I STAVANGER

Kapittel 2: Hendelser

TMA4240 Statistikk Eksamen desember 2015

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

Verdens statistikk-dag.

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

ÅMA110 Sannsynlighetsregning med statistikk, våren

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Eksamensoppgave i TMA4240 Statistikk

HØGSKOLEN I STAVANGER

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

TMA4240 Statistikk Høst 2009

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Hypotesetesting. mot. mot. mot. ˆ x

Transkript:

2 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.4) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ 2 -fordelingen.) ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 1. χ 2 er positiv 2. χ 2 er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ 2 -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning μ = df 5. Varians σ 2 = 2df Rød kurve χ 2 -fordeling med df=1 frihetsgrad Grønn kurve χ 2 -fordeling med df=4 frihetsgrader Blå kurve χ 2 -fordeling med df=10 frihetsgrader Lilla kurve χ 2 -fordeling med df=20 frihetsgrader 4 Notasjon og Tabell 8 χ 2 (df,α) er χ 2 -verdien slik at areal α ligger til høyre, dvs P(χ 2 >χ 2 (df,α)) = α f(x) 0.0 0.1 0.2 0.3 0.4 der χ 2 er χ 2 -fordelt med df frihetsgrader. 0 10 20 30 40 x

Eksempel: Finn χ 2 (20, 0.05) Bruk Tabell 8 α 0.05. df 20 31.4. 6 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ 2 = (n 1)s2 σ 2 som kan vises å være χ 2 -fordelt med df=n-1 frihetsgrader. Merk: Dette er analogt med at vi ved inferens om μ har brukt observatorer z = x μ σ/ x μ og t = n s/ som har kjente, tabellerte n fordelinger. Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien. Punktestimat for σ er s = 2.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ 2 = (n 1)s2 (n 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ 2 (n 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ 2 blir enten for liten eller for stor.

Metode med p-verdi: Beregner først Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ 2 ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ 2 <χ 2 (df, 1 α/2)) = α/2 P(χ 2 >χ 2 (df,α/2)) = α/2 P(χ 2 9 < 3.92) =1 P(χ2 9 > 3.92) =1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 2 9 > 3.33) =0.95 og P(χ 2 9 > 4.17) =0.90. Siden 3.92 er nærmere 4.17 enn 3.33 beregner vi P(χ 2 9 > 3.92) =0.92 (som vi også ville få ved interpolasjon). I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ 2 < 3.33 eller χ 2 > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ 2 = 3.92. Siden alternativ hypotese er at σ 4erp-verdien lik arealet av begge halene, dvs p-verdi=2 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ = 2, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.) Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning μ og standardavvik σ. Tallene ble 51.18 49.62 48.84 51.22 48.29 46.93 51.84 50.96 47.70 48.18 med s=1.73. La H 0 være at σ = 4 for populasjonen, mens H a er at σ<4. Finn p-verdien og bruk denne til å velge mellom hypotesene når signifikansnivå α = 0.1. Det er oppgitt at χ 2 (9, 0.992) =1.678 12 Inferens om forholdet mellom varianser ved to uavhengige utvalg (10.6) Ser på to normalfordelte populasjoner med standardavvik henholdsvis σ 1 og σ 2. Ønsker å teste: σ2 2 σ2 2 > 1 som er det samme som H 0 : σ 1 = 1motH a : σ 1 > 1 σ 2 σ 2 og det samme som H 0 : σ 1 = σ 2 mot H a : σ 1 >σ 2 Kan selvsagt også ha < og i H a

13 F-fordelingen Blå kurve F-fordeling med df 1 = 20, df 2 = 20 frihetsgrader Rød kurve F-fordeling med df 1 = 10, df 2 = 10 frihetsgrad Grønn kurve F-fordeling med df 1 = 4, df 2 = 4 frihetsgrader Egenskaper til F-fordelingen: 1. F er aldri negativ, den er 0 eller positiv. 2. F er ikke symmetrisk, men såkalt skjev mot høyre (som kjikvadrat-fordelingen) 3. F bestemmes ved de såkalte frihetsgradene df 1 og df 2. f(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 x 15 Tabell 9A, 9B, 9C for F -fordelingen I samsvar med notasjon introdusert før vil F (df 1, df 2,α) betegne F -verdien slik at et areal α er til høyre: 16 Testobservator og test (kalt F -test ) > 1 Antagelser: begge populasjonene er normalfordelte utvalgene blir trukket uavhengige av hverandre Bruker testobservatoren f = s2 1 s 2 2 F (10, 10, 0.05) =2.98 Oppgave: Hva er F (10, 10, 1)? som hvis H 0 gjelder er F -fordelt med df 1 = n 1 1ogdf 2 = n 2 1 frihetsgrader.

Eksempel 10.17 i boka: Sammenligning av standardavvik for påfylt mengde for to tappemaskiner for brus. La σ 1 være standardavvik for ny maskin, mens σ 2 er standardavvik for nåværende maskin. Vil teste > 1 med signifikansnivå 5%. De relevante dataene er: Beregner Utvalg n s 2 Ny maskin (1) 25 0.0018 Nåværende maskin (2) 22 0.0008 f = s2 1 s 2 2 = 0.0018 0.0008 = 2.25 Er dette for stort til å kunne komme fra F -fordelingen med (24,21) frihetsgrader? Klassisk metode: Forkast H 0 hvis f > F (24, 21, 0.05) =2.05 dvs. H 0 forkastes siden vi har observert f = 2.25. Vi bruker her Tabell 9A, i kolonnen med 24 og linjen med 21. Husk at numerator betyr teller, og denominator betyr nevner Metode med p-verdi: p-verdi = P(f > 2.25) når f er F -fordelt med 24 og 21 frihetsgrader. Vi kan ikke finne denne i tabellene, men bruk av 9A gir at P(f > 2.25) < 0.05 mens 9B gir at P(f > 2.25) > 0.025, dvs. p-verdi er mellom 0.025 og 0.05. Anta at vi isteden skal teste σ2 2 Dette er det samme som H 0 : σ2 2 σ 2 1 = 1motH a : σ2 2 σ 2 1 < 1 > 1 dvs. vi kan ganske enkelt bytte om rollene til de to utvalgene (og populasjonene). Bruker da testobservatoren f = s2 2 s 2 1 som hvis H 0 gjelder er F -fordelt med df 1 = n 2 1ogdf 2 = n 1 1 frihetsgrader. (Merk at frihetsgradene df 1 alltid gjelder telleren, mens df 2 gjelder nevneren.) Tosidig test om likhet av varianser Anta at vi skal teste 1 med signifikansnivå α. Med testobservatoren f = s2 1 skal vi s2 2 forkaste H 0 både hvis den blir for liten (under 1) eller stor (større enn 1). Siden våre tabeller bare gjelder store verdier av f (høyre hale), foreslår boka følgende metode i Example 10.19 side 598: 1. Beregn s 2 1 og s2 2 2. Beregn f som forholdet mellom disse, med den største i telleren (slik at vi garantert får f > 1) 3. Klassisk metode: Forkast H 0 hvis f > F (df 1, df 2,α/2), hvor df 1 og df 2 er frihetsgrader til henholdsvis telleren og nevneren. 4. Metode med p-verdi: p-verdi er 2 P(f > f ) der f er F -fordelt med df 1 og df 2 frihetsgrader

Oppgave: Gitt utvalgsinformasjonen n 1 = 10, n 2 = 8, s 1 = 5.4, s 2 = 3.8, skal du teste med signifikansnivå α = 0.05 1 22 Oppsummering: Testing av varianser og standardavvik i normalfordelte populasjoner Ett utvalg med populasjonsstandardavvik σ (kap. 9.4): Tester hypoteser av formen H 0 : σ = σ 0 mot H a : σ σ 0 (evt. > eller <) for en gitt verdi av σ 0. Bruker testobservatoren χ 2 = (n 1)s2 σ 2 0 som er χ 2 -fordelt med df=n-1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 8. To utvalg med populasjonsstandardavvik σ 1 og σ 2 (kap. 10.6) Tester hypoteser av formen σ2 2 (evt. > eller <) Bruker testobservatoren f = s2 1 s 2 2 1 som er F -fordelt med df 1 = n 1 1ogdf 2 = n 2 1 frihetsgrader når H 0 gjelder. Kritiske verdier finnes i Tabell 9.