Kapittel 9 og 10: Hypotesetesting

Like dokumenter
Kapittel 9 og 10: Hypotesetesting

Hypotesetesting. mot. mot. mot. ˆ x

Kapittel 9 og 10: Hypotesetesting

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk H2010 (20)

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Hypotesetest: generell fremgangsmåte

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010 (19)

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kapittel 10: Hypotesetesting

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

6.2 Signifikanstester

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Introduksjon til inferens

i x i

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4240 Statistikk Høst 2016

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

TMA4240 Statistikk Høst 2015

HØGSKOLEN I STAVANGER

Estimering og hypotesetesting

Estimering og hypotesetesting

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

LØSNINGSFORSLAG ) = Dvs

ÅMA110 Sannsynlighetsregning med statistikk, våren

Fasit for tilleggsoppgaver

Hypotesetesting av λ og p. p verdi.

TMA4240 Statistikk H2010 (22)

ST0202 Statistikk for samfunnsvitere

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Løsningsforslag eksamen 27. februar 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

β(µ) = P(akseptere H 1 µ)

b) Hva er sannsynligheten for at re tilfeldig utvalgte bilmotorer alle har en levetid på minst 17 år?

TMA4240 Statistikk Høst 2007

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Inferens i fordelinger

Kapittel 3: Studieopplegg

Econ 2130 uke 16 (HG)

ST0202 Statistikk for samfunnsvitere

Løsning eksamen desember 2017

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Utvalgsfordelinger (Kapittel 5)

Om eksamen. Never, never, never give up!

Verdens statistikk-dag.

Eksamensoppgave i TMA4240 Statistikk

Test, 3 Sannsynlighet og statistikk

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Om eksamen. Never, never, never give up!

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Løsningsforslag statistikkeksamen desember 2014

HØGSKOLEN I STAVANGER

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Utvalgsfordelinger (Kapittel 5)

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

TMA4240 Statistikk Eksamen desember 2015

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag eksamen 25. november 2003

TMA4240 Statistikk Høst 2015

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Fra i går Signifikanssannsynlighet (p verdi) vs. signifikansnivå Utgangspunkt for begge: Signifikansnivå α. evt.

Mer om hypotesetesting

Emnekode: LGU Emnenavn: Matematikk 2 (5 10), emne 2. Semester: VÅR År: 2016 Eksamenstype: Skriftlig

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

STK1100 våren 2019 Mere om konfidensintevaller

ST0202 Statistikk for samfunnsvitere

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen august 2014

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk 2014

HØGSKOLEN I STAVANGER

Geogebra hjelp - S2. Funksjonsanalyse. Innhold. Kommando. Funksjonsanalyse 1. Undersøke om dataene er normalfordelt 1.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Kapittel 9 og 1: Hypotesetesting Hypotesetesting er en standard vitenskapelig fremgangsmåte for å sjekke påstander. Generell problemstilling: Basert på informasjonen i data fra et tilfeldig utvalg ønsker vi å undersøke påstander om verdien på populasjonsparametre som for eksempel μ og p. Dette formuleres som en hypotesetest: eller eller H H H : θ θ : θ θ : θ θ mot mot mot H H H : θ > θ : θ < θ : θ θ Merk: Ofte skrives alternativ hypotese som H 1 i stedet for H. 1

Eksempel: Juks på meieriet? Melkemengden som fylles i 1-liters melkekartonger er normalfordelt med forventning μ og kjent standardavvik σ.2. μ skal være 1., men det påstås at μ < 1., dvs at det systematisk tappes for lite melk på melkekartongene. Undersøk dette. Hypotesetest: H : μ 1. mot H : μ < 1. For å undersøk dette måles nøyaktig mengde melk i n5 tilfeldig valgte kartonger. Disse målinger gav et gjennomsnitt på.996. Dvs ˆ μ x.996 Gir dette grunnlag for å påstå at μ < 1.? 2

Generelt Ut fra informasjonen i et tilfeldig utvalg vil man enten forkaste H og påstå H, eller ikke forkaste H (akseptere H ). Mulige utfall: H sann H gal Forkaster H Type I feil OK Forkaster ikke H OK Type II feil Prinsipp: Vi antar i utgangspunktet at H er korrekt, påstår først H dersom dataene peker klart i retning av H. Vi prioriterer derfor å holde sannsynligheten for type I feil liten. Setter derfor: P(type I feil) P(forkaste H H er sann) kalles (signifikans-)nivået til testen. 3

Sette opp hypoteser: Når man skal formulere en problemstilling som en hypotesetest er det ofte best å starte med å sette opp den alternative hypotesen. Den alternative hypotesen er den påstanden vi skal undersøke om er tilfelle. I eksemplet med Juks på meieriet? om forventet mengde melk er mindre en 1 liter, dvs om μ < 1.. Vi setter da som nullhypotese at dette ikke er tilfelle, dvs i melkeeksemplet at μ 1. og får H : μ 1. mot H : μ < Eventuelt kan vi skrive (betyr i praksis det samme): Merk: 1. H : μ 1. mot H : μ < 1. En hypotesetest er alltid en test om verdien på en parameter, for eksempel om μ eller p. En test skal derfor alltid formuleres med parametre i nullhypotesen og alternativ hypotese aldri 4 tilfeldige variable eller lignende.

Hypotesetester for μ når σ kjent X 1, X 2,, X n uavhengige og N(μ, σ 2 ) Eksempel: Juks på meieriet? H : μ 1. mot H : μ< 1. Generelt: H : μ μ mot H : μ < μ Vi antar i utgangspunktet at H er korrekt, dvs at μμ. Får da: Z X E( X ) X μ Var( X ) σ / n ~ N(,1) Vi forkaster H dersom μˆ retning av H 1 - her dersom enn μ. X peker klart i er klart mindre Hvor mye mindre er klar mindre enn? X 5

-z Vi forkaster H dersom X er så mye mindre enn μ at Z -z der P(Z -z H ) P(type I feil) Sanns. for at Z -z dersom H er sann er så liten,, at dersom dette skjer velger vi heller å tro at H er sann. Helt analogt vil man for hypotesetesten H μ mot μ> μ : μ H : forkaste H dersom Z z z

For den tosidige hypotesetesten H : μ μ mot H : μ μ forkaste vi H dersom Z - z /2 eller Z z /2 /2 /2 -z /2 z /2 Merk: Testene vi har sett på så langt gjelder for situasjonen med normalfordelte data med kjent standardavvik/varians. Dersom dataene ikke er normalfordelte, men antall målinger, n, er stor vil testene fremdeles gjelde tilnærmet pga sentralgrenseteoremet. 7

Eksempel: Juks på meieriet? For melkemengde i ulike kartonger kan vi anta at X 1, X 2,, X n er uavhengige og N(μ,.2 2 ). Vi skal teste: H : μ 1. mot H : μ < 1. Vi velger nivået.5. Vi forkaster da H dersom Z -z - z.5-1.645 n5 målinger gav et gjennomsnitt på: ˆ μ x.996 Dette gir: x z σ / μ.996.2 1. n / 5 1.41-1.41>-1.645, dvs vi beholder H. Dataene gir ikke grunnlag for å hevde at μ < 1.. 8

Eksempel: Høyde menn. Vi antar at høyde menn er normalfordelt med ukjent forventningsverdi μ og kjent standardavvik σ 7.8. Ønsker å teste: H : μ 179 mot H : μ 179 n 35 målinger i klassen gav Bruk 5% nivå og utfør testen. x 182.2 9

Hypotesetester for μ når σ ukjent X 1, X 2,, X n uavhengige og N(μ, σ 2 ) Vi begynner med å se på testen: H : μ μ mot H : μ > μ Vi har som før at: Z X E( X ) X μ Var ( X ) σ / n ~ N(,1) Men nå er σ ukjent og må erstattes med estimatoren S. Vi får da at: T X μ ~ t( n S / n 1) Dette gjelder dersom H er korrekt, dvs dersom μμ. Vi forkaster da H dersom μˆ X peker klart i retning av H - her dersom X er klart større enn 1 μ.

Mer presist så forkaster vi H dersom X mye større enn μ at T t,n-1 der: P(T t,n-1 H ) P(type I feil) er så Sanns. for at T t,n-1 dersom H er sann er så liten,, at dersom dette skjer velger vi heller å tro at H er sann. t,n-1 Helt analogt vil man for hypotesetesten H : μ μ mot H : μ < μ forkaste H dersom T -t,n-1 -t,n-1 11

For den tosidige hypotesetesten H mot μ μ : μ μ H : forkaste vi H dersom T - t /2,n-1 eller T t /2,n-1 /2 /2 -t /2, n.1 t /2,n-1 Merk: Disse testene (hvor vi bruker t-fordeling) gjelder kun for situasjonen med normalfordelte data med ukjent standardavvik/varians. 12

Eksempel: En påstand om at forventet årslønn i en bestemt næring (dvs gj.sn. årslønn for alle i næringen/hele populasjonen) er større enn 4 skal undersøkes. Vi antar at årslønnen til personer i næringen er normalfordelt med ukjent forventning μ og ukjent standardavvik σ. For å undersøke denne påstanden blir årslønnen til 24 tilfeldig valgte personer i næringen registrert. Dette gav et gjennomsnitt på 437 og et standardavvik på 63. Utfør testen på 5% nivå. H : μ 4 mot H : μ > 4 Med.5 og n24 blir t,n-1 t.5,23 1.714, dvs vi forkaster H dersom T 1.714. T X S μ / n 437 63 / 4 24 2.88 Dvs vi forkaster H og kan påstå at forventet årslønn i næringen er større enn 4! 13

Eksempel: Høyde menn. Vi antar at høyde menn er normalfordelt med ukjent forventningsverdi μ og ukjent standardavvik σ. Ønsker å teste: H : μ 179 mot H : μ 179 n 35 målinger i klassen gav x 182.2 og s 7.8. Bruk 5% nivå og utfør testen. 14

Hypotesetester for p (når n er stor) p P( suksess ) andel suksesser i populasjonen. X Bin(n,p). Estimator for p: Eksempel: p ˆ Vareprøve. ksepterer kun en ny type vare dersom vi er sikre på at andel defekte varer, p, er mindre enn.1. Basert på en stikkprøve av n varer ønsker vi å fastslå om p <.1 Generelt: X n H : p.1 mot H : p<.1 H : p p mot H : p< p Vi antar i utgangspunktet at H er korrekt, dvs at pp. pˆ E( pˆ) pˆ p Får da: Z N(,1 ) Var( pˆ) p (1 p )/ n (ok når np (1-p ) 5) 15

Vi forkaster H dersom enn p at Z -z der : pˆ er så mye mindre P(Z -z H ) P(type I feil) Sanns. for at Z -z dersom H er sann er så liten,, at dersom dette skjer velger vi heller å tro at H er sann. -z Helt analogt vil man for hypotesetesten H p p mot p> p : H : forkaste H dersom Z z z

For den tosidige hypotesetesten H : p p mot H : p p forkaste vi H dersom Z - z /2 eller Z z /2 /2 /2 -z /2 z /2 Merk: Disse siste testene gjelder for situasjoner der vi har gjort et binomisk forsøk med np (1-p ) 5. 17

Eksemplet: Vareprøve H : p.1 mot H : p <.1 I en stikkprøve på n15 varer ble det observert x 7 defekte varer, dvs x 7 pˆ n 15.47 Velger.5. Vi forkaster da H dersom Z -z - z.5-1.645 Z p pˆ (1 p p ) / n.47.1(1.1.1) / 15 2.16-2.16 < -1.645 dvs vi forkaster H. Dataene gir grunnlag for å påstå at p <.1 dvs varen aksepteres! 18

Eksempel: På en sykehusavdeling fikk tidligere 2% av pasientene en bestemt infeksjon. Etter en omlegging av rutinene fikk 32 av de 11 første pasientene denne infeksjonen. Tyder dette på at sannsynligheten for å få infeksjonen, p, har endret seg? Formuler problemstillingen som en hypotesetest og utfør testen. Bruk 1% nivå. 19

Til slutt: Utfallet av en hypotesetest er enten at vi forkaster H eller at vi ikke forkaster H. Tolkningen av disse to utfallene er: Forkaster H : Betyr at vi påstår at H er rett. Forkaster ikke H : Betyr at situasjonen er uavklart. Enten så er H korrekt, eller så er H korrekt men vi har ikke nok data til å påvise det. Merk spesielt at vi aldri kan bevise at en nullhypotese er korrekt, vi kan bare eventuelt bevise at en alternativ hypotese er korrekt. Dersom vi ikke forkaster H betyr det altså bare at situasjon er uavklart - ikke at vi har bevist at H er rett! 2

Oppsummering Hypotesetester for μ, σ kjent: X 1, X 2,, X n uavh. og N(μ, σ 2 ) H : μ μ mot H : μ < μ Z X σ / μ n ~ N (,1) Forkaster H dersom Z -z -z H : μ μ mot H : μ > μ Forkaster H dersom Z z z H : μ μ mot H : μ μ Forkaster H dersom Z - z /2 eller Z z /2 /2 /2 -z /2 z /2

Hypotesetester for μ, σ ukjent: X 1, X 2,, X n uavh. og N(μ, σ 2 ) H : μ mot H : μ μ< μ X μ T ~ t ( n 1) S / n Forkaster H dersom T -t,n-1 -t,n-1 H : μ mot H : μ μ> μ Forkaster H dersom T t,n-1 t,n-1 H : μ μ mot H : μ μ Forkaster H dersom T -t /2,n-1 eller T t /2,n-1 /2 /2 -t /2,n-1 t /2,n-1

Hypotesetester for p (n stor): X Bin(n, p) H : p p mot H : p < p Z p pˆ (1 Forkaster H dersom Z -z p p ) / n N(,1) -z H : p p mot H : p > p Forkaster H dersom Z z z H : p p mot H : p p Forkaster H dersom Z - z /2 eller Z z /2 /2 /2 -z /2 z /2