Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

ÅMA Sannsynlighetsregning med statistikk, våren 2 Kp. 6 Hypotesetesting Hypotesetesting (kp. 6) Tre deler av faget/kurset:. Beskrivende statistikk 2. Sannsynlighetsteori, sannsynlighetsregning 3. Statistisk inferens estimering konfidensintervall hypotesetesting 2

Begrep: nullhypotese alternativhypotese ensidig, tosidig teststørrelse (testobservator) nullfordeling kritisk verdi, forkastningsområde signifikansnivå 3 Oversikt over emner:. Mer om hva hypotesetesting er 2. Hypotesetesting i ulike situasjoner: i. for forventningen,, i målemodellen med 2 normalantakelse og kjent varians,. ii. for forventningen,, i målemodellen med stor n og normaltilnærming. iii. for suksessannsynligheten, p, i binomisk modell med stor n og normaltilnærming. iv.... 4

Oversikt over emner:... 2. Hypotesetesting i ulike situasjoner: iv.... for suksessannsynligheten, p, i binomisk modell med liten n. v. for forventningen,, i målemodellen med 2 normalantakelse og ukjent varians,. (Og n liten; t-fordeling; t-test.) vi. test for forventningen i Poissonmodell. ----------------------------------------------- Først: Mer om hva hypotesetesting er -> 5 Eks.: Vi har gjort n= målinger (x, x 2,..., x n ) av ph i Breiavatnet; 6., 5.59 5.74 3.43 5.3 6.48 5.5 4.28 4.52 6.2 Problem: Er virkelig ph lavere enn 6.? Gjennomsnitt er 5.27; men noen målinger er større enn 6., og det er en del variasjon...?? Hvordan konkludere??? 3, 4, 5, 6, 7, 6

Kort gjennomgang av statistisk metode for å trekke konklusjon (i en situasjon som denne):. Vi antar (i denne situasjonen): målemodellen: x, x 2,..., x n utfall av X, X 2,..., X n, n u.i.f. tilf. var. normalantakelse: X i ene er normalfordelte kjent varians: Var(X i ) er et kjent tall,. i dette tilfellet 2. Vi vil teste: H : 6. mot H : 6. E( X ) i H uttrykker det utsagnet vi må tro i utgangspunktet; H kan vi hevde dersom dataene tyder klart på at dette i virkeligheten er tilfelle. 7 3. Gjennomsnitt betydelig lavere enn 6. indikerer at H er riktig i virkeligheten. 4. Dersom gjennomsnittet lavere enn 5.48, så forkast H, og påstå H : virkelig ph er mindre enn 6.. 5. Data: gjennomsnittet er 5.27 som er mindre enn 5.48. Dvs.: forkast H! ----------------------------------------------------------- Hvorfor akkurat 5.48?? Hvorfor, hvorfor...? 8

Først noen kommentarer. Statistisk hypoteser: alternativhypotesen, H : 6., uttrykker at virkelig ph er mindre enn 6.. nullhypotesen, H : 6., ville det gjerne vært naturlig å hatt som: H : 6., men det er en forenkling å bruke =; dette spiller i praksis ingen rolle for resultatet i de fleste situasjoner. 2. Vi forblir ved å tro på H inntil noe annet er bevist. 9 Først noen kommentarer 3. Vi legger til grunn: målemodellen: x, x 2,..., x n utfall av X, X 2,..., X n, n u.i.f. tilf. var. normalantakelse: X i ene er normalfordelte kjent varians: Var(X i ) er et kjent tall,. i dette tilfellet

Statistisk tenking:. Dersom H er riktig i virkeligheten, så kommer dataene fra en normalfordeling med forventning 6. (og varians ), grønn kurve: 2. Dette kan brukes som utgangspunkt for 3, 4, 5, 6, 7, å vurdere om vi kunne fått det aktuelle resultatet ved en tilfeldighet når H faktisk er riktig. Statistisk tenking: Vi tenker: dersom, H : 6., var riktig, kunne vi da fått det resultatet vi har som følge av tilfeldigheter? 3, 4, 5, 6, 7, Sannsynlighetsregning (med normalfordeling) blir viktig! 2

Vi baserer testen på gjennomsnittet ikke på enkeltmålingene; Teststørrelse (testobservator): (tilf.var.) X X X Vi har (i dette eksempelet): og når H forutsettes å være riktig: X ~ N6., 2 X ~ N, n H : 2 n 6. 3 Teststørrelsen sin fordeling når H er riktig: nullfordelingen. X ~ N6., 3, 4, 5, 6, 7, Denne fordelingen nullfordelingen kan brukes til å vurdere om vi kunne fått det aktuelle gjennomsnittsresultatet ved en tilfeldighet dersom H faktisk er riktig. 4

Et lavt (i forhold til 6.) gjennomsnittsresultat indikerer at H er riktig. 3, 4, 5, 6, 7, Vi bruker nullfordelingen til å fastsette hva som lavt nok for å konkludere med H. 5 Dersom vi setter (som i eks.) grensen til 5.48, 3, 4, 5, 6, 7, er det kun 5% sjanse for å få gj.sn.resultat lavere enn dette ved en tilfeldighet dersom H er riktig. P X 5.48 H riktig PX 5.48 6 X 6 5.48 6 5.48 6 P 6 P Z.5 / / /.645 Z ~ N(,) 6

5.48: kritisk verdi Intervallet (, 5.48) : forkastningsområde 3, 4, 5, 6, 7, Når H o er riktig er det kun 5% sjanse for ved en tilfeldighet å få utfall av teststørrelsen i forkastningsområdet. Denne sannsynligheten kalles signifikansnivået til testen. 7 5.48: kritisk verdi Intervallet (, 5.48) : forkastningsområde Når H o er riktig er det kun 5% sjanse for ved en tilfeldighet å få utfall av teststørrelsen i forkastningsområdet. 3, 4, 5, 6, 7, Dvs.: kun 5% sjanse for å konkludere feil dersom i virkeligheten ph en er 6. H : 6. 8

5.48: kritisk verdi Den kritiske verdien fastlegges av signifikansnivået (5% i eksempelet). 3, 4, 5, 6, 7, Eksempel: La k være den kritiske verdien. Vi ønsker da at k skal være slik at: X k H riktig.5 P 9 Beregne kritisk verdi: P X k H riktig.5 P X 6 / k 6 / H riktig P Z k 6 /.5 Z ~ N, k 6 z /.5 k 6.645.645 5.48,5,4,3,2,, -4, -2,, 2, 4, -, 2

Det er vanlig å bruke standardisert teststørrelse. X - 2 /n Når vi skal teste (f.eks.): H : mot H : 2 Eksempelet: H : 6. mot H : 6. Standardisert teststørrelse: Dersom H er riktig, er Z N(,)-fordelt. Z X - 6. / Små verdier (utfall) av Z indikerer at H i virkeligheten er riktig. (Hva som er små verdier ses i forhold til nullfordelingen til Z; N(,)-fordelingen.) 22

Eksempelet: H : 6. mot H : X - 6. Standardisert teststørrelse: Z / 6. 23 Eksempelet: H : 6. mot H : 6. Standardisert teststørrelse: X - 6. Kritisk verdi, k: / P Z k H riktig.5,5 Z k.645 ( -z.5 ),4,3,2,, -4, -2,, 2, 4, -, 24

Eksempelet: H : 6. mot H : 6. Gjennomføring: Test : Vi forkaster H dersom Z X - 6. / Z - utfallet k.645,5,4,3 Data, utfall av Z : 5.27-6. / 2.3,2,, -4, -2,, 2, 4, -, Konklusjon : forkast H, siden Z - utfall -2.3 -.645. 25 Begrep: nullhypotese alternativhypotese ensidig, tosidig teststørrelse (testobservator) nullfordeling kritisk verdi, forkastningsområde signifikansnivå 26