6.2 Signifikanstester



Like dokumenter
Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Introduksjon til inferens

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Hypotesetesting. mot. mot. mot. ˆ x

Kapittel 9 og 10: Hypotesetesting

Kapittel 3: Studieopplegg

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Kapittel 9 og 10: Hypotesetesting

Inferens i fordelinger

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

i x i

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

7.2 Sammenligning av to forventinger

TMA4240 Statistikk Høst 2016

Kapittel 10: Hypotesetesting

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Hypotesetesting av λ og p. p verdi.

Fasit for tilleggsoppgaver

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Econ 2130 uke 16 (HG)

Kapittel 7: Inferens for forventningerukjent standardavvik

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

TMA4240 Statistikk Høst 2007

Statistikk og dataanalyse

TMA4245 Statistikk Eksamen desember 2016

1 10-2: Korrelasjon : Regresjon

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

TMA4240 Statistikk H2010 (22)

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

ST0202 Statistikk for samfunnsvitere

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

Hypotesetest: generell fremgangsmåte

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Oppgaver til Studentveiledning I MET 3431 Statistikk

TMA4240 Statistikk 2014

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

HØGSKOLEN I STAVANGER

Mer om hypotesetesting

ST0202 Statistikk for samfunnsvitere

Løsningsforslag Til Statlab 5

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

Kan vi stole på resultater fra «liten N»?

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

ST0202 Statistikk for samfunnsvitere

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Fra i går Signifikanssannsynlighet (p verdi) vs. signifikansnivå Utgangspunkt for begge: Signifikansnivå α. evt.

Utvalgsfordelinger (Kapittel 5)

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

b) i) Finn sannsynligheten for at nøyaktig 2 av 120 slike firmaer går konkurs.

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Eksamensoppgave i TMA4240 Statistikk

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

TMA4240 Statistikk Høst 2009

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

TMA4240 Statistikk Høst 2015

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Forskningsmetoder i menneske-maskin interaksjon

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

ÅMA110 Sannsynlighetsregning med statistikk, våren

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Løsningsforlag statistikk, FO242N, AMMT, HiST 2.årskurs, 7. desember 2006 side 1 ( av 8) LØSNINGSFORSLAG

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Transkript:

6.2 Signifikanstester Konfidensintervaller er nyttige når vi ønsker å estimere en populasjonsparameter Signifikanstester er nyttige dersom vi ønsker å teste en hypotese om en parameter i en populasjon Bruker observerte data til å teste hypotesen om populasjonen Typisk prosedyre Beregn sannsynlighet for observert utfall av observator (eller noe mer ekstremt) gitt antatt hypotese Hvis sannsynlighet liten, forkast hypotese

Eksempel studielån Gjennomsnittlig studielån: x 1=$21200 ved private college x 2=$17100 ved offentlige college Forskjell $4100 mellom private og offentlige college, reell eller tilfeldig? P(Forskjell mellom x 1 og x 2 4100, gitt at det ikke er noen forskjell mellom forventningene i populasjonen) =0.17 Ganske høy sannsynlighet, altså ikke så veldig overraskende resultat, data gir ikke grunnlag for å påstå at det er forskjeller i lånenivå mellom private og offentlige college

Eksempel studielån Gjennomsnittlig studielån i 1997 er x 1 =$11400 i 2002 er x 2 =$18900 Forskjell $7500 mellom 2002 og 1997 P(Forskjell mellom x 1 og x 2 7500, gitt at det ikke er noen forskjell mellom forventningene i populasjonen) =0.00004 Data gir grunnlag for å forkaste hypotese om at det ikke er forskjeller i lånenivå mellom 2002 og 1997

Hovedtrinn Spørsmål: Forskjell mellom nivåer (forventninger) Ser om data er kompatibel med hypotesen om at det ikke er noen forskjell Hvis ikke overraskende forskjell (eks. sanns. 0.17) Ikke grunnlag i data for å påstå at det er en forskjell Hvis overraskende stor forskjell (eks. sanns. 0.00004) Forkast antagelse om ingen forskjell

Null-hypotese H 0 Påstand som ønskes testet Hypoteser Typisk: Ingen effekt, Ingen forskjell mellom de ukjente forventningene Eks. H 0 : μ = μ 1 μ 2 = 0, eventuelt μ 1 = μ 2 Signifikanstest: Designet for å angi bevisstyrke mot H 0 Alternativ hypotese H a Det er en effekt / forskjell Eks. H a : μ 0 eventuelt μ 1 μ 2 NB: Hypoteser er alltid utsagn/antagelser om populasjoner (eller modeller), ikke et spesielt utfall. Derfor må H 0 og H a alltid formuleres utifra de ukjente populasjonsparametrene

Hypoteser Fordi H a utrykker effekten vi ønsker å finne ut om er tilstede, er det lurt å starte med å formulere H a og deretter sette opp H 0 som utsagnet om at den ønskede effekten ikke er tilstede Å formulere H a er ofte den vanskeligste oppgaven. Spesielt er det ofte ikke opplagt om denne skal være ensidig (f.eks. H a : μ>0) eller tosidig (f.eks. H a : μ 0) uttrykker om parameteren er forskjellig fra nullhypoteseverdien i en bestemt retning eller ikke Man får ikke lov til å se på data for å formulere H a (juks!) Dersom man ikke har god begrunnelse på forhånd om retning på effekten, skal man velge tosidig H a

Baserer test på en observator som estimerer parameteren vi er interessert i (ofte den samme som vi ville brukt til et konfidensintervall for parameteren) Eks.: x 1-x 2 estimerer μ = μ 1 -μ 2 Testobservator Verdier langt fra parameterverdi spesifisert av H 0 gir bevis mot H 0 H a angir hvilken retning som teller: Ensidig H a : μ 1 >μ 2 angir at vi må ha stor x 1-x 2 som bevis mot H 0 Ensidig H a : μ 1 <μ 2 angir at vi må ha liten x 1-x 2 som bevis mot H 0 Tosidig H a : μ 1 μ 2 angir at vi må ha stor x 1-x 2 som bevis mot H 0

Standardisert test-observator For å undersøke hvor langt estimatet er fra parameterverdien spesifisert av H 0, standardiserer vi estimatet

Eksempel studielån Forskjell på de ukjente, sanne forventningene til størrelse på lån ved private og offentlige college? H 0 : Det er ingen forskjell i de sanne forventningene H a : Det er en forskjell i de sanne forventningene Dvs: H 0 : μ 1 = μ 2 mot H a : μ 1 μ 2 (tosidig alternativ) Vi får oppgitt: σ x 1-x 2 =3000

Signifikanstest: P-verdi P-verdi: Sannsynligheten for at et utfall er like ekstremt eller mer ekstremt enn faktisk utfall (beregnet ved å anta at parameterverdien gitt av H 0 er sann) Ekstremt: Lang fra hva vi ville forvente hvis H 0 var sann. Retning på hva som regnes som ekstremt: Bestemmes av H a og H 0 Jo mindre P-verdien er, jo sterkere bevis har vi mot H 0

Eksempel studielån Forskjell mellom private og offentlige college? H0: μ1- μ2=0 mot Ha:μ1-μ2 0 Estimat for μ1- μ2: x 1-x 2 (= 4100) Ekstremt: Langt fra hva vi ville forvente hvis H 0 var sann, dvs store verdier av både positive og negative forskjeller, dvs store verdier av absoluttverdien x 1-x 2 teller som bevis mot H 0 Utfall er like ekstremt eller mer ekstremt enn faktisk utfall: Like store eller større enn observert verdi av absoluttverdien x 1-x 2, som betyr like store eller større enn observert verdi av z, der z er standardiserert test-observator (gitt H 0 :μ 1 - μ 2 =0): z=(4100-0)/3000 = 1.37

Eksempel studielån P-verdi: Sannsynligheten for at et utfall er like ekstremt eller mer ekstremt enn faktisk utfall (beregnet ved å anta at parameterverdien gitt av H 0 er sann) Standardiserert,observert test-observator (gitt H 0 :μ 1 - μ 2 =0): z=(4100-0)/3000 = 1.37 Utfall er like ekstremt eller mer ekstremt enn faktisk utfall: Like store eller større enn observert verdi av absoluttverdien x 1-x 2, som betyr like store eller større enn observert verdi av z Z tilnærmet N(0,1): P-verdi =

Statistisk signifikans Hvordan konkludere? Forkaster H 0 når P-verdi er liten nok Signifikansnivå α: Grenseverdi for når vi forkaster Forkaster H 0 når P-verdi α Ikke grunnlag for å forkaste H 0 når P-verdi>α Typisk: α=0.05 (eller 0.01) Signifikant betyr at bevisene mot nullhypotesen oppfyller standarden satt av α. Typisk utsagn er «Resultatene er signifikante (P < 0.05)» Hvis vi velger signifikansnivå α=0.05 krever vi at dataene gir bevis mot H 0 som bare vil skje i 5% av tilfellene hvis H 0 er sann Hvis vi velger signifikansnivå α=0.01 krever vi at dataene gir bevis mot H 0 som bare vil skje i 1% av tilfellene hvis H 0 er sann Vi krever altså sterkere bevis mot H 0 hvis vi velger α=0.01 enn hvis vi velger α=0.05

Signifikanstest 1. Formuler H 0 og H a 2. Beregn test-observator 3. Finn P-verdi 4. Formuler en konklusjon NB: Bruker ofte datamaskin til å finne P-verdi, men en datamaskin Kan ikke formulere H 0 og H a Kan ikke tolke P-verdien for deg Kan ikke bedømme om forutsetningene for å bruke testen er oppfylt

Eksempel studielån Forskjell mellom private og offentlige college? H0: μ1- μ2=0 mot Ha:μ1-μ2 0 Estimat for μ1- μ2: x 1-x 2 (= 4100) Standardiserer: z=(4100-0)/3000 = 1.37 Z tilnærmet N(0,1): P-verdi = P( Z >1.37) = P(Z<-1.37) + P(Z>1.37) = 2* P(Z<-1.37) = 2*0.0853 = 0.1706 Eksempel på tolkning og konklusjon: Det er 17% sjanse for å observere en forskjell like ekstrem eller mer ekstrem som den observerte forskjellen på $4100 hvis den sanne populasjons-forskjellen mellom forventningene er 0. P-verdien sier oss altså at det observerte utfallet ikke er spesielt ekstremt. Vi kan si at de observerte dataene ikke gir grunnlag for å konkludere at det er en signifkant forskjell i forventet studielån mellom private og offentlige skoler

Eksempel studielån Økning i størrelsen på studielån fra 1997 til 2002? H 0 : μ 2 - μ 1 =0 mot ensidig H a : μ 2 -μ 1 >0, Estimat for μ 2 - μ 1 : x 2 -x 1 (= 7500) Vi får oppgitt: σ x 1-x 2 =1900 Standardiserer (parameterverdi under H0 er μ 2 - μ 1 =0): z=(7500-0)/3000 = 3.95 Z tilnærmet N(0,1): P-verdi = P(Z> 3.95) = 0.00004 Eksempel på tolkning og konklusjon: Det er en 4 til 100.000 sjanse for å observere en forskjell like stor eller større som den observerte forskjellen på $7500 hvis den sanne populasjons-forskjellen mellom forventningene er 0. P-verdien sier oss altså at det observerte utfallet er ekstremt sjeldent. Vi konkluderer at de observerte dataene gir grunnlag for å konkludere at nullhypotesen er feil. Dataene viser tydelig at forventet studielån har økt mellom 1997 og 2002 (P<0.001)

Tester for populasjonsforventning H 0 :μ=μ 0 Data: x 1,...,x n Estimator for μ: x Testobservator: z=(x - μ 0 )/σ x =(x - μ 0 )/(σ n)

Eksempel: Blodtrykk Blodtrykk menn alder 35-44 har forventning 128 og standardavvik σ=15 En bedriftslege ønsker å undersøke: Har mannlige toppledere (alder 35-44) i bedriften annerledes forventet blodtrykk enn den generelle populasjonen av menn på samme alder (som er 128)? Målinger av blodtrykket til 72 toppledere: x =126.07 Bedriftslegen har ingen grunn til å anta noen retning på forskjellen. Vi kan anta at standardavviket for mannlige toppledere også er σ=15. H 0 :μ=μ 0 =128, H a :μ μ 0 der μ 0 =128 z=(126.07-128)/(15/ 72)=-1.09 P-verdi =

Eksempel: Blodtrykk P-verdi = 0.2758 Tolkning og konklusjon: Et SRS med n=27 fra den den generelle populasjonen av menn på samme alder vil 27% av gangene gi et gjennomsnittlig blodtrykk like langt eller lenger fra 128 som det observerte x=126.07. Den observerte x gir altså ikke bevis for at topplederene er annerledes enn andre menn på samme alder. Ingen grunn til å forkaste H 0

To-sidige tester og konfidensintervall Konfidensintervall med konfidens C: [x -z*σ/ n, x +z*σ/ n] Dette er laget fra de observerte dataene for ett utvalg. Verdier av μ utenfor intervall er ikke kompatible med de observerte data. Mulig test-prosedyre: Forkaste H 0 : μ=μ 0 hvis μ 0 ikke er i konfidensintervallet

Kan vises: Ekvivalent med signifikanstest En tosidig signifikanstest med nivå α som forkaster H0:μ= μ 0 er ekvivalent med at μ 0 faller utenfor konfidensintervallet for μ med nivå C=1-α Noen ganger enklere å konstruere konfidensintervaller

Eksempel: To-sidige tester og konfidensintervall Analyse av konsentrasjonen av farmasøytisk produkt. Ikke presis målemetode, repeterte analyser av samme prøve vil gi litt forskjellig svar. Vi vet at konsentrasjon N(μ,σ=0.0068)-fordelt Laboratoriet har blitt spurt om å evaluere en påstand om at konsentrasjonen i en prøve er 0.86% H 0 :μ=0.86 H a : μ 0.86 Tre målinger av prøven ga resultatene 0.8403, 0.8363 og 0.8447 x =0.8404 Standardiserer: z=(0.8404-0.86)/(0.0068/ 3)=-4.99 P=2P(Z> -4.99 ) < 0.0004 Forkaster på H 0 på signifikansnivå 0.01

Eksempel: To-sidige tester og konfidensintervall I stedet for å gjøre signifikanstesten, kan vi alternativt lage et konfidensintervall og se om μ 0 =0.86 er innenfor eller utenfor dette intervallet. For signifkansnivå 0.01 må vi lage et 99% konfidensintervall (fordi 1-0.01=0.99)

P-verdier mot fast nivå α To mulige måter å rapportere: Hvis P-verdi < α, si at H 0 er forkastet på nivå α Angi P-verdi direkte Testing farmasøytisk produkt: Konsentrasjon N(μ,σ=0.0068) H0:μ=0.86 Ha: μ 0.86 Observasjoner 0.8403, 0.8363, 0.8447 x =0.8404 z=(0.8404-0.86)/(0.0068/ 3)=-4.99 P=2P(Z> -4.99 )<0.0004 Signifikant på 0.05 nivå, 0.01 nivå, og 0.001 nivå. Faktisk signifikant helt ned til 0.0004-nivå Generelt: P-verdi er det laveste signifikansnivå som gir forkastning.

6.3 Bruk og misbruk av tester Utføre test er enkelt (software), å bruke test vanskeligere Kun gyldig under visse forutsetninger Konfidensnivå: Ingen klar grense, vanlig å rapportere P-verdi Forkastning H 0 : Effekt statistisk signifikant Men effekten kan være liten! (hvis n er stor) Ingen forkastning behøver ikke bety H 0 er sann Ofte mulig å gjøre mange mulige tester P-verdi relatert til å gjøre en test Hvis man gjør mange tester må justeringer gjøres

Eksempel liten effekt som er signifikant: Testing av en korrelasjon To variable H 0 : Ingen korrelasjon mellom de to variablene (ρ = 0) H a : Det er korrelasjon mellom de to variablene (ρ 0) 400 observasjoner, observerer r=0.1 Signifikanstest viser at det er en statistisk signifikant korrelasjon mellom de to variablene på signifikansnivå α=0.05 Observert variasjon i den ene variabelen forklart av den andre variabelen: r 2 =0.1 2 =0.01

Hiv-behandling Behandlingsgruppe og kontrollgruppe Insidensrateforhold I: Forhold mellom smitterate i behandlingsgruppe i forhold til kontrollgruppe H0: I=1 (lik smitterate smitterate i behandlingsgruppe og kontrollgruppe) 95% konfidensintervall: [0.63,1.58] Kan ikke forkaste nullhypotesen om at smitterate er lik i behandlingsgruppe og kontrollgruppe, men det betyr ikke at nullhypotesen er sann! Konfidensintervallet indikerer at behandling både kan gi forbedringer og forverringer! Mer data er nødvendig for å finne ut hva som er riktig

Genomiske eksperimenter Ønsker å finne gen som forklarer sykdom Mange titusener mulige gener Kan utføre en test på hvert gen 10 000 tester, α=0.05, dvs ca 5% av 10 000 tester vil være signifikante bare pga tilfeldigheter Dvs forventer at 500 tester vil være signifikante kun pga. tilfeldigheter! Forskning: Hvordan behandle mange tester simultant