Mer om hypotesetesting I underkapittel 36 i læreboka gir vi en kort innføring i tankegangen ved hypotesetesting Vi gir her en grundigere framstilling av temaet Problemstilling Vi forklarer problemstillingen i hypotesetesting med et eksempel Eksempel 1 Klinisk prøving Et farmasøytisk firma ønsker å finne ut om en ny salve mot eksem er bedre enn den gamle For å gjøre det utfører de et forsøk en såkalt klinisk prøving Femti pasienter som har eksem på begge hendene (omtrent like alvorlig på hver hånd), er med i forsøket Etter loddtrekning får hver pasient den nye salven på den ene hånden og den gamle salven på den andre For å unngå at subjektive vurderinger skal påvirke resultatet, gjøres forsøket "dobbelt blindt" Det betyr at verken pasienten eller legen vet hvilken salve som blir brukt på de to hendene Det er det bare det farmasøytiske firmaet som kjenner til Firmaet pakker salvene i nøytrale tuber som bare er merket med pasientnummer og hvilken hånd tuben skal brukes på Etter fire uker avgjør legen hvilken av de to hendene som er best, og det farmasøytiske firmaet vet om denne hånden har blitt behandlet med den gamle eller den nye salven (Vi forutsetter at legen alltid klarer å avgjøre hvilken hånd som er best I praksis vil det være noen pasienter hvor en ikke klarer å gjøre det) Det viste seg at den nye salven ga best resultat for 3 av de 5 pasientene Kan det farmasøytiske firmaet være rimelig sikker på at den nye salven er bedre enn den gamle? I første omgang kan spørsmålet i eksempel 1 virke merkelig Den nye salven ga best resultat for 6 % av pasientene Da er den vel bedre enn den gamle? Ved nærmere ettertanke er det ikke så enkelt Det vil alltid være tilfeldigheter knyttet til resultatet av en klinisk prøving (både på grunn av loddtrekningen og i hvordan sykdommen utvikler seg for pasientene) Hvis det farmasøytiske firmaet hadde gjentatt forsøket med 5 nye pasienter, ville det nok ha fått et annet resultat Spørsmålet er derfor om det kan være slik at den nye og den gamle salven egentlig er like gode, og at det bare skyldes tilfeldigheter at den nye salven ga best resultat for 6 % av pasientene Eller er i så fall resultatet såpass uvanlig at det farmasøytiske firmaet kan være rimelig sikker på at den nye salven er best? Nullhypotese og alternativ hypotese For å avgjøre spørsmålet formulerer vi problemet som et hypotesetestingsproblem Vi setter da opp to hypoteser: Nullhypotesen ( H ) sier at de to salvene er like gode Den alternativ hypotesen ( H ) sier at den nye salven er bedre enn den gamle (For enkelhets skyld ser vi bort fra at den nye salven kan være dårligere enn den gamle) schehoug Undervisning wwwlokusno Side 1 av 6
Vi tar utgangspunkt i nullhypotesen og spør oss om resultatet av forsøket "godt kan ha oppstått på grunn av tilfeldigheter" hvis nullhypotesen er sann Eller er resultatet da såpass usannsynlig at vi må forkaste nullhypotesen For å svare på dette må vi ha en sannsynlighetsmodell som beskriver den variasjonen vi kan få i resultatet fra en klinisk prøving til en annen Vi kan se på den kliniske prøvingen i eksempel 1 som et binomisk forsøk der p er sannsynligheten for at den nye salven vil gi best resultat for en tilfeldig valgt pasient Vi kan nå uttrykke nullhypotesen og den alternative hypotesen som hypoteser om p Nullhypotesen sier at de to salvene er like gode Det betyr at det er like sannsynlig at den nye salven vil gi best resultat som det er at den gamle salven vil gjøre det Det kan vi skrive H : p =,5 Den alternative hypotesen sier at den nye salven er bedre enn den gamle Det betyr at sannsynligheten for at den nye salven vil gi best resultat, er større enn 5 % Det kan vi skrive H : p >,5 P-verdi La X være antall pasienter som får best resultat med den nye salven ved en klinisk prøving som den i eksempel 1 Da er X binomisk fordelt I eksempel 1 var den nye salven best for 3 pasienter, så her fikk X verdien 3 Er dette et "uvanlig resultat" hvis salvene egentlig er like gode? Den alternative hypotesen er H : p >,5 Det betyr at store verdier av X er til støtte for H For å avgjøre om det resultatet vi fikk i eksempel 1 er uvanlig hvis salvene egentlig er like gode, regner vi ut sannsynligheten for at X vil bli minst lik 3 under forutsetning at nullhypotesen er sann Denne sannsynligheten kaller vi P-verdien for testen Eksempel 2 P-verdi ved klinisk prøving Vi ser på den kliniske prøvingen i eksempel 1 Hvis nullhypotesen er sann, er X binomisk fordelt med n = 5 og p =,5 Den nye salven ga best resultat for 3 pasienter Vi bruker et digitalt verktøy og finner at PX ( 3) = 1 PX ( 29) = 1,899 =,11 P-verdien er altså 1,1 % Det er sannsynligheten for at den nye salven vil gi best resultat for minst 3 pasienter hvis de to salvene egentlig er like gode Siden denne sannsynligheten er forholdsvis stor, kan resultatet "godt ha oppstått på grunn av tilfeldigheter" Derfor kan det farmasøytiske firmaet ikke forkaste nullhypotesen, så firmaet kan ikke være rimelig sikker på at den nye salven er bedre enn den gamle (Merk at det likevel kan være slik at den nye salven er best, men at den kliniske prøvingen ikke har nok "beviskraft" til å vise det) Hva hadde konklusjonen blitt om den nye salven hadde vært best for 33 pasienter? schehoug Undervisning wwwlokusno Side 2 av 6
Hvis den nye salven er best for 33 pasienter, er P-verdien lik sannsynligheten PX ( 33) X er binomisk fordelt med n = 5 og p =,5 Vi bruker et digitalt verktøy og finner at P-verdien nå blir PX ( 33) = 1 PX ( 32) = 1,984 =, 16 Sannsynligheten er altså 1,6 % for at den nye salven blir best for minst 33 pasienter hvis de to salvene egentlig er like gode Siden denne sannsynligheten er såpass liten, kan vi nå forkaste nullhypotesen Det farmasøytiske firmaet kan altså være rimelig sikker på at den nye salven er bedre enn den gamle Signifikansnivå Hvor liten må P-verdien være for at vi kan forkaste nullhypotesen? Det er vanlig å sette grensen ved 5 % Det farmasøytiske firmaet forkaster da nullhypotesen hvis P-verdien er 5 % eller lavere Hvis P-verdien er større enn 5 %, forkaster firmaet ikke nullhypotesen Vi sier at testen har signifikansnivå 5 % Noen ganger ønsker en å ha et strengere krav for å forkaste nullhypotesen Da kan en sette grensen lavere og bruke signifikansnivå 1 % Når vi oppgir resultatet av en hypotesetest, bør vi ikke nøye oss med å si om nullhypotesen ble forkastet eller ikke på 5 % signifikansnivå (eventuelt 1 % signifikansnivå) Vi bør også oppgi P-verdien for testen Hvis vi forkastet nullhypotesen, forteller P-verdien oss om vi forkastet den med klar margin (P-verdi mye mindre enn 5 %) eller om det var bare så vidt vi gjorde det (P-verdi bare litt mindre enn 5 %) Hvis vi ikke forkastet nullhypotesen, forteller P-verdien oss om vi var nær ved å forkaste den (P-verdi bare litt større enn 5 %), eller om vi var langt fra å gjøre det (P-verdi mye større enn 5 %) Eksempel 3 Spireprosent En frøprodusent påstår at en bestemt type frø har en spireprosent på 7 Ved et gartneri har de mistanke om at spireprosenten ikke er så høy, og de bestemmer deg for å utføre et forsøk for å teste produsentens påstand Det gjør de ved å så 1 frø og se hvor mange av dem som spirer Det viste seg at 653 av frøene spirte Gir det gartneriet et overbevisende grunnlag for å påstå at spireprosenten er mindre enn 7? For å avgjøre dette lager vi en hypotesetest Nullhypotesen er produsentens påstand om at spireprosenten er 7 Den alternative hypotesen er at spireprosenten er lavere enn 7 (Vi ser bort fra muligheten av at spireprosenten er større enn 7) Vi kan se på frøspiringen som et binomisk forsøk der p er sannsynligheten for at et tilfeldig valgt frø vil spire La X være antall frø som spirer Da er X binomisk fordelt, men vi kjenner ikke verdien til p Nullhypotesen er H : p =,7, og den alternative hypotesen er H : p<,7 Her vil små verdier av X være til støtte for den alternative hypotesen, der schehoug Undervisning wwwlokusno Side 3 av 6
P-verdien er sannsynligheten for at X vil bli høyst lik 653 under forutsetning at nullhypotesen gjelder Hvis H er sann, er X binomisk fordelt med n = 1 og p =,7 Siden n er stor, er X i så fall tilnærmet normalfordelt med forventningsverdi np = 1,7 = 7 og standardavvik np(1 p) = 1,7,3 = 14,5 Vi bruker et digitalt verktøy slik det står på sidene 16 162 i læreboka, og finner PX ( 653), 6 P-verdien er altså,6 % Det er derfor veldig usannsynlig at høyst 653 frø vil spire under forutsetning at spireprosenten er 7 Vi forkaster derfor nullhypotesen, og gartneriet har god grunn til å tvile på produsentens påstand Oppsummering Vi oppsummerer hypotesetesting for binomiske forsøk: Det vi vil finne ut, kan vi formulere som hypoteser om p En nullhypotese H: p = p og en alternativ hypotese H: p > p (eventuelt H : p< p) Her er p en gitt verdi for p Vi observerer verdien av en binomisk fordelt stokastisk variabel X Den observerte verdien kaller vi k Hvis den alternative hypotesen er H: p > p, er P-verdien lik sannsynligheten for at X k under forutsetning at p = p Hvis den alternative hypotesen er H : p p<, er P-verdien lik sannsynligheten for at X k under forutsetning at p = p Hvis P-verdien er 5 % eller lavere, forkaster vi H Da kan vi være rimelig sikre på at H er sann Hvis P-verdien er større enn 5 %, har vi ikke grunnlag for å forkaste H (uten at det er et "bevis" for at H er sann) Hypotesetesting for andre fordelinger Vi har forklart framgangsmåten for hypotesetesting når X er binomisk fordelt Vi kan bruke den samme tankegangen for å teste hypoteser i andre situasjoner Eksempel 4 Leskedrikk Et bryggeri opplyser at en leskedrikk inneholder 4,5 mg per liter av et tilsetningsstoff Mattilsynet har mistanke om at den virkelige konsentrasjonen er høyere For å avgjøre om det er tilfellet, måler Mattilsynet konsentrasjonen av tilsetningsstoffet i fem flasker v erfaring vet Mattilsynet at målinger med det apparatet de bruker er normalfordelte Forventningen μ er lik den virkelige konsentrasjonen av stoffet i leskedrikken og standardavviket er σ =, 2 mg per liter (I praksis kjenner vanligvis ikke σ, men vi antar at det er tilfellet her) Resultatet av de fem målingene ble (i mg per liter) 4,76 4,42 4,96 4,66 4,53 Har Mattilsynet godt grunnlag for å påstå at den virkelige konsentrasjonen av tilsetningsstoffet i leskedrikken er høyere enn 4,5 mg per liter? schehoug Undervisning wwwlokusno Side 4 av 6
For å svare på spørsmålet i eksempel 4 lager vi en hypotesetest Nullhypotesen er bryggeriets påstand om at konsentrasjonen er 4,5 mg per liter, H : μ = 4,5 Den alternative hypotesen er at konsentrasjonen er høyere, H : μ > 4,5 Vi lar X være summen av målingene når Mattilsynet måler konsentrasjonen i fem flasker Da er X normalfordelt med forventningsverdi EX ( ) = 5μ og standardavvik SD( X ) = σ 5 =,2 5 =,45 (se kommentaren nedenfor rammen på side 165 i læreboka) Hvis nullhypotesen er sann, er EX ( ) = 5 4,5= 22,5 Hvis den alternative hypotesen er sann, er EX ( ) > 22,5 Det betyr at store verdier av X er til støtte for den alternative hypotesen For de fem målingene Mattilsynet gjorde, ble summen av konsentrasjonene 4, 76 + 4, 42 + 4,96 + 4, 66 + 4,53 = 23,33 P-verdien er sannsynligheten for at X blir minst lik 23,33 under forutsetning at nullhypotesen gjelder Vi bruker et digitalt verktøy slik det er beskrevet på sidene 16 162 i læreboka, og finner at PX ( 23,33) =, 33 P-verdien er altså 3,3 % Siden den er mindre enn 5 %, forkaster vi nullhypotesen Mattilsynet har dermed et godt grunnlag for å påstå at den virkelige konsentrasjonen av tilsetningsstoffet er høyere enn 4,5 mg per liter Oppgave Rent gull er mykt og må blandes (legeres) for eksempel med kopper når en skal lage smykker av det Standarden i Norge er å bruke en legering med 585 promille gull En gullsmed har importert gullsmykker fra utlandet Eksportøren påstår at smykkene inneholder 585 promille rent gull, men gullsmeden har mistanke om at andelen gull er mindre Gullsmeden lar derfor et laboratorium analysere gullinnholdet for 1 av de smykkene han har importert v erfaring vet laboratoriet at analyseresultatene er normalfordelte Forventningen μ er lik det virkelige gullinnholdet, og standardavviket er σ = 15 I gjennomsnitt inneholdt de 1 smykkene 58 promille gull (slik at summen ble 58) Gir dette gullsmeden godt grunnlag for å påstå at gullinnholdet i smykkene er mindre enn 585 promille? I eksempel 4 var observasjonene (målingene) normalfordelte Da er også summen av dem normalfordelt Hvis vi har mange observasjoner, kan vi bruke framgangsmåten ovenfor selv om observasjonene ikke er normalfordelte Det kommer av at summen av observasjonene vil være tilnærmet normalfordelt når vi har tilstrekkelig mange observasjoner (se sentralgrensesetningen side 165 i læreboka) schehoug Undervisning wwwlokusno Side 5 av 6
Ensidige og tosidige alternativer I eksempel 1 er nullhypotesen H : p,5 = og den alternative hypotesen er H : p >,5 De alternative verdiene for p er altså i sin helhet på den ene siden av nullhypotesen Vi sier at den alternative hypotesen er ensidig Også i eksemplene 3 og 4 har vi ensidige alternative hypoteser Noen ganger kan en være interessert i å teste (for eksempel) nullhypotesen H : p =,5 mot den alternative hypotesen H : p,5 Her er de alternative verdiene for p på begge sider av nullhypotesen Vi sier da at den alternative hypotesen er tosidig Vi ser ikke på testing ved tosidige alternativer her schehoug Undervisning wwwlokusno Side 6 av 6