ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010 (20)

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010 (19)

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Hypotesetest: generell fremgangsmåte

6.2 Signifikanstester

ST0202 Statistikk for samfunnsvitere

Kapittel 9 og 10: Hypotesetesting

Introduksjon til inferens

Hypotesetesting. mot. mot. mot. ˆ x

Kapittel 10: Hypotesetesting

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Kapittel 9 og 10: Hypotesetesting

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Verdens statistikk-dag.

Estimering og hypotesetesting

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Econ 2130 uke 16 (HG)

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

TMA4240 Statistikk Høst 2016

i x i

Estimering og hypotesetesting

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

TMA4240 Statistikk H2010

TMA4245 Statistikk Eksamen august 2014

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Statistikk og dataanalyse

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

TMA4240 Statistikk 2014

ST0202 Statistikk for samfunnsvitere

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2015

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk Høst 2007

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Eksamensoppgave i TMA4240 Statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

β(µ) = P(akseptere H 1 µ)

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Fasit for tilleggsoppgaver

TMA4240 Statistikk H2010

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kapittel 3: Studieopplegg

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Foreleses onsdag 13.oktober, 2010

H 0 : Null hypotese. Konservativ. H 1 : Alternativ hypotese. Endring. Kap.10 Hypotesetesting

ÅMA110 Sannsynlighetsregning med statistikk, våren

ECON240 VÅR / 2016 BOKMÅL

Fra i går Signifikanssannsynlighet (p verdi) vs. signifikansnivå Utgangspunkt for begge: Signifikansnivå α. evt.

Inferens i fordelinger

STK1100 våren 2019 Mere om konfidensintevaller

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

Testobservator for kjikvadrattester

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Kapittel 7: Inferens for forventningerukjent standardavvik

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Kort overblikk over kurset sålangt

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

TMA4245 Statistikk Eksamen august 2014

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

estimert verdi ± feilmargin = X ± et visst antall standardavvik for snittet = X ± u α/2 σ n

Binomisk sannsynlighetsfunksjon

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Hypotesetesting av λ og p. p verdi.

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens Bo Lindqvist Institutt for matematiske fag

2 Statistisk inferens (kap. 8) Statistisk inferens har som mål å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger om den tilhørende populasjonsparameter. Typiske populasjonsparametere: µ Forventningen i populasjonen σ Standardavvik i populasjonen p Andel i populasjonen; sannsynlighet for suksess Tilsvarende utvalgsobservatorer: x Gjennomsnittet i utvalget s Standardavvik i utvalget x/n Andel i utvalget; relativ frekvens av suksess

4 Hovedtyper av statistisk inferens 1) Estimering. Hva er størrelsen på parameteren? Punktestimering: Gitt ved ett enkelt tall Intervallestimering: Gitt ved et intervall der parameteren antas å ligge med høy sannsynlighet. 2) Hypotesetesting: Velger mellom to konkurrerende påstander om størrelsen på parameteren, for eksempel om den er større eller mindre enn en gitt verdi.

5 Innhold i kapittel 8 Betrakt en populasjon karakterisert ved forventning µ og standardavvik σ. Det ønskes informasjon om µ, mens σ i dette kapitlet antas å være en kjent parameter (i praksis er σ som regel ikke kjent, men estimeres ved s. Dette gjøres i kapittel 9). 8.1 Generelt om estimering Punktestimat Intervallestimat 8.2 Estimering av µ 8.3 Generelt om hypotesetesting 8.4 Hypotesetesting om µ: p-verdi 8.5 Hypotesetesting av µ: klassisk

6 Punktestimering (8.1) Punktestimat for en parameter: Et anslag for verdien av en parameter gitt ved ett tall, som regel den tilsvarende utvalgsobservatoren. Parameter Punktestimat µ x = Σx σ s = n Σx 2 (Σx) 2 /n n 1 σ 2 s 2 = Σx 2 (Σx) 2 /n n 1 p p = x n

7 Eksempel: genaktivitet Studere effekt av trening på hjertet for å finne sammenhengen med et spesielt gen. Måler forskjell i genutrrykk for 12 par av rotter, der den ene har fått trening i 48 timer mens den andre ikke har. Forskjellen antas å være normalfordelt med forventning µ og standardavvik σ. Hvis µ er positiv: genet er mer aktivt for trente enn for utrente rotter Hvis µ er nær 0: genet er like aktivt for trente og utrente rotter. Hvis µ er negativ: genet er mindre aktivt for trente enn for utrente rotter. µ er altså parameteren av interesse. Hva er populasjonen? Observasjoner x fra utvalget på 12 par av rotter: 1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41 Hva blir punktestimatet for µ?

8 Kvaliteten til et punktestimat Følgende egenskaper ønskes av et godt punktestimat: Forventningsrett. En observator kalles forventningsrett ( unbiased ) hvis dens forventning er lik parameteren som skal estimeres. Hvis ikke, kalles den forventningsskjev ( biased ). Merk at x har forventning µ og er altså forventningsrett. Liten standardfeil. Merk at x har standardfeil σ/ n som blir liten hvis n er stor (og σ ikke er for stor).

9 Intervallestimering Intervallestimat Et intervall som med stor grad av konfidens (confidence) inneholder parameterverdien. Nedre og øvre grense i intervallet er observatorer beregnet fra utvalget (og er derfor tilfeldige variable). Konfidensnivå Sannsynligheten for at intervallestimatet skal inneholde den ukjente parameteren. Skrives 1 α hvor α er et lite tall, f.eks. α = 0.05 som gir 1 α = 0.95. Konfidensintervall Et intervallestimat med et spesifisert konfidensnivå (1 α). Konfidensnivået oppgis ofte i prosent, dvs. f.eks. 95% istedenfor 0.95 og generelt (1 α)100%.

10 Konfidensintervall for µ (8.2)

11 Konfidensintervall for µ Antagelse: x er tilnærmet normalfordelt, dvs. enten populasjonen er normalfordelt og σ er kjent, eller n er stor. Vi ønsker å finne et intervall (a, b) slik at P(a < µ < b) = 1 α Merk: Her er a og b beregnet ut fra utvalget. Vi skal bruke at er standard normalfordelt. z = x µ σ/ n

12 95% konfidensintervall for µ Vi ønsker å finne et intervall (a, b) slik at Løsningen er: P(a < µ < b) = 0.95 a = x 1.96 σ n b = x + 1.96 σ n Hvordan kom vi frem til dette? Hvor kom 1.96 fra?

For å finne et 95% konfidensintervall går vi fram slik: med 0.95 = P( z(0.025) < z < z(0.025)) = P( 1.96 < z < 1.96)) = P( 1.96 < x µ σ/ n < 1.96) = P( 1.96σ/ n < x µ < 1.96σ/ n) = P( 1.96σ/ n < µ x < 1.96σ/ n) = P( x 1.96σ/ n < µ < x + 1.96σ/ n) = P(a < µ < b) a = x 1.96 σ n b = x + 1.96 σ n (dvs. tilnærmet gjennomsnitt pluss-minus to standardavvik )

15 Hands-on: genuttrykk Observasjoner x fra 12 par av trente og utrente rotter: 1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41. Her er x = 1.54 Det antas at dataene er fra en normalfordelt populasjon med ukjent forventning µ og kjent standardavvik σ = 0.25. Finn et punktestimat for µ. Finn et 95% konfidensintervall for µ.

16 (1 α)100% konfidensintervall for µ Vi ønsker å finne et intervall (a, b) slik at P(a < µ < b) = 1 α Svaret er: a = x z(α/2) σ og b = x + z(α/2) σ n n

17 (1 α)100% konfidensintervall for µ Analogt med 95% konfidensintervall: dvs. 1 α = P( z(α/2) < z < z(α/2)) = P( z(α/2) < x µ σ/ n < z(α/2)) = P( z(α/2)σ/ n < x µ < z(α/2)σ/ n) = P( z(α/2)σ/ n < µ x < z(α/2)σ/ n) = P( x z(α/2)σ/ n < µ < x + z(α/2)σ/ n) = P(a < µ < b) a = x z(α/2) σ n b = x + z(α/2) σ n

18 Oppsummering: Konfidensintervall for µ Et 1 α konfidensintervall for µ når σ er kjent er gitt ved ( x z(α/2) σ n, x + z(α/2) σ n ) 1 α kalles konfidensnivået. σ n kalles standardfeilen ( standard error ) for gjennomsnittet x. z(α/2) kalles konfidenskoeffisienten. z(α/2) σ n kalles maksimum feil for estimatet ( maximum error of estimate ), betegnet E.

19 Eksempel: maskindeler En maskin produserer deler med lengde som er normalfordelt med ukjent forventning µ cm og kjent standardavvik σ = 0.5 cm. Et utvalg på 10 deler har gjennomsnittslengde 75.92 cm. Hva er populasjonen? Finn et punktestimat for µ. Finn et 95% konfidensintervall for µ.

Punktestimat for µ: x = 75.92 cm. 95% konfidensintervall for µ: ( x 1.96 σ n, x + 1.96 σ n (75.92 1.96 0.5 10, 75.92 + 1.96 0.5 10 ) (75.92 0.31, 75.92 + 0.31) (75.61, 76.23) Merk at følgende antagelse er gjort: x er tilnærmet normalfordelt. Diskuter!

21 Hands-on: 90% konfidensintervall for fiskelengde Lengden til 200 fisk har (utvalgs)gjennomsnitt 36.3 cm. Populasjonsstandardavviket er kjent og lik 6.4 cm. Finn et 90% konfidensintervall for populasjonens gjennomsnittslengde µ.

22 Tolkning av konfidensintervall Med P(a < µ < b) = 1 α menes at dersom vi gjør et stort antall repeterte utvalg, der vi hver gang regner ut nedre grense a og øvre grense b, vil populasjonsverdien µ (ukjent) ligge i dette intervallet i en andel 1 α av gangene. Merk: a og b er observatorer, som endrer seg når vi tar nye utvalg. (a og b er jo lik x ± E) Vårt utvalg gir bare ett av disse mange intervallene, og vi vet ikke om µ er i akkurat dette intervallet. Men sjansen er altså stor hvis α er rimelig liten!

23 Tolkning av konfidensintervall (Example 8.4 i bok) Populasjon med µ = 4.5, σ = 2.87. Gjør et utvalg på n = 40 og regn ut 90% konfidensintervall for µ, dvs. x ± E med E = 1.65 2.87/ 40 = 0.75. Anta at vi gjør 15 slike utvalg av størrelse 40 (vanligvis har vi bare ett utvalg...).

25 Egenskaper ved konfidensintervall 1 α konfidensintervall: x ± z(α/2) σ = x ± E n Maksimal feil: E = z(α/2) σ n Lengde på intervall: 2E Intervall blir: Kortere hvis n vokser Kortere hvis σ blir mindre Kortere hvis α blir større (Hva innebærer det siste punktet?)

27 Konfidensintervall på 5 steg 1. Set-Up: Hvilken populasjonsparameter ønsker vi å studere? 2. Konfidensintervallkriteriene a. Sjekk antagelser b. Hvilken fordeling og formel for intervallet skal brukes? c. Hvilket konfidensnivå ønskes brukt, 1 α. 3. Datagrunnlaget: innhent data. Beregn punktestimat. 4. Konfidensintervallet: a. Bestem konfidenskoeffisienten. b. Finn maksimum feil for estimatet. c. Finn øvre og nedre konfidensgrenser. 5. Resultatet: Skriv opp konfidensintervallet.

28 Bestemmelse av n Maksimal feil: E = z(α/2) σ n Hvor stor må vi velge n for å få en bestemt maksimal feil E? ( z(α/2)σ n = E ) 2

Eksempel: En maskin produserer deler med lengde som er normalfordelt med standardavvik σ = 0.5 cm. Hvor stort må utvalget være for å få E lik 0.1 cm (dvs. intervalllengde lik 0.2 cm) med 95% konfidensnivå? ) 2 ( z(α/2)σ n = E ( z(0.025) 0.5 = 0.1 ( ) 1.96 0.5 2 = 0.1 = 96.04 Dermed: n = 96 gir tilnærmet ønsket maksimal feil. ) 2

30 Hands-on Hva må utvalgsstørrelsen være dersom forventningen µ i populasjonen skal estimeres med feil E mindre enn 7.5 med 99% konfidensnivå? Populasjonsstandardavviket er 90.

31 H2009, oppg2b+c Anta også i b) at σ = 50mg er kjent

32 Ta beslutninger! (Kapittel 8.3) Sitat fra boka: We make decisions every day of our lives. Some of these decisions are of major importance; others are seemingly insignificant. All decisions follow the same basic pattern, we weigh the alternatives; then, based on our beliefs and preferences and whatever evidence is available, we arrive at a decision and take the appropriate action. The statistical hypothesis test follows much of the same process, exept that it involves statistical information.

33 Hypotesetesting (8.3) Sentrale termer: Hypotese: Påstand om at noe er sant. Hypotesetesting: Å velge mellom to konkurrerende hypoteser. Nullhypotese, H 0 : Den hypotesen som er riktig inntil det motsatte er bevist (den konservative hypotesen). Alternativ hypotese, H a : Den hypotesen vi prøver å bevise er riktig; årsaken til undersøkelsen. Eksempel: H 0 : Klimaet har ikke endret seg H a : Klimaet har endret seg H 0 : Medisin A og B virker like bra H a : Medisin A virker bedre enn medisin B

34 Eksempel: vaskemiddel Du ønsker å bestemme om du skal kjøpe et dyrt merkevare-vaskemiddel (f.eks. Omo), eller vaskemidlet som selges av lavpris-kjeden du handler hos (f.eks. First Price) som er mye billigere. Ditt spørsmål er: gir merkevare-vaskemidlet et bedre vaskeresultat enn lavpris-kjede-vaskemidlet? Hva skal du nå sette som H 0 og H a?

35 Hypotesetesting La H 0 og H a være hypoteser om en gitt populasjon. Basert på et utvalg fra populasjonen skal vi lage en forkastningsregel som går ut på om vi skal forkaste H 0 eller ikke. To mulige avgjørelser: 1. Forkaste H 0 og påstå H a er riktig. 2. Ikke forkaste H 0 (mangler bevis for å kunne påstå at H 0 er gal). Dette gir fire situasjoner: H 0 sann H 0 usann Ikke forkast H 0 Korrekt avgjørelse Type II-feil Forkast H 0 Type I-feil Korrekt avgjørelse

36 Eksempel: vaskemiddel Vi fant at H 0 : det er ingen forskjell i vaskekvalitet for merkevare- og lavpris-vaskemidlet. H a : merkevare-vaskemidlet gir bedre vaskeresultat. Basert på en forkastningsregel (som vi snart skal lære mer om) kan vi enten forkaste eller beholde H 0. Hvis H 0 er sann, hva betyr det at vi forkaster H 0? Hvis H 0 er sann, hva betyr det at vi ikke forkaster H 0? Hvis H a er sann, hva betyr det at vi forkaster H 0? Hvis H a er sann, hva betyr det at vi ikke forkaster H 0? Hvordan skal vi veie de to gale avgjørelsene? Er den ene viktigere å unngå enn den andre?

37 Eksempel: vaskemiddel

38 Hypotesetest og straffesak I en straffesak er hypotesene: H 0 : Tiltalte er uskyldig (riktig inntil det motsatte er bevist). H a : Tiltalte er skyldig (prøver å bevise). De typene feil vi kan gjøre er da Type I-feil: Justismord Type II-feil: Skyldig går fri. I analogi med dette vil man i statistisk hypotesetesting bettrakte type I-feil som mest alvorlig.

39 Type I og II feil og α og β Mest alvorlig er type I-feil. Vi ønsker liten sannsynlighet for denne. Vi krever P(type I-feil) = α der α er et lite tall. α kalles signifikansnivået til testen og velges av brukeren. (Oppgis ofte i prosent, f.eks. 5%). Vi definerer også P(type II-feil) = β 1 β kalles styrken til testen og er sannsynligheten for korrekt forkastning av H 0. Testobservator: En tilfeldig variabel (beregnet fra utvalget) som brukes til å treffe avgjørelsen.

40 α og β

41 Beslutning Beslutningsregelen må bestemmes før man samler inn data; den spesifiserer hvordan man vil komme frem til beslutningen (mer om dette i de kommende slides). Konklusjonen: Hvis beslutningen er Forkast H 0 kan dette formuleres som vi har funnet tilstrekkelig bevis til å påstå...(den alternative hypotesen)... for det gitte signifikansnivået. Dette betyr nødvendigvis ikke at nullhypotesen er falsk - det kan være at avgjørelsen vår er gal. Hvis beslutningen er Ikke forkast H 0 sier vi at: det er ikke tilstrekkelig bevis til å påstå...(den alternative hypotesen)... for det gitte signifikansnivået. Det betyr ikke at vi har bevist at nullhypotesen er sann! Men, vi har ikke tilstrekkelig bevis til å si at nullhypotesen er gal.

42 Hypotesetesting om µ (σ kjent) (8.4)

43 Eksempel: Bedre enn landsgjennomsnittet? For en standard språktest for ungdomsskoleelever er gjennomsnittsresultatet for hele landet µ N = 125 og σ N = 16.4 (N står for Norge). Skoleledelsen i en bestemt by mener imidlertid at elevene i denne byens skoler er bedre enn landsgjennomsnittet. Det tas så et utvalg på n = 86 elever fra ungdomsskolene i denne byen. Disse skolene blir vår nye populasjon. Vi lar µ betegne populasjonsgjennomsnittet for denne populasjonen. Dette leder til testingssituasjonen H 0 : µ = 125 mot H a : µ > 125, der σ = 16.4 antas kjent og utvalget består av de n = 86 elevene. Resultatet blir et gjennomsnitt x = 128.5 for de 86 elevene. Kan det dermed påstås at elevene i denne byen er bedre enn landsgjennomsnittet? Vi skal gjennomføre en hypotesetest med signifikansnivå α = 0.05.

Vi ser altså på H 0 : µ = 125 mot H a : µ > 125 med kjent σ = 16.4. Vi bruker testobservatoren z = x 125 σ/ n Store verdier av z tyder på at H a gjelder. Poenget med å bruke z er at når H 0 er riktig, er z standard normalfordelt. Vi kan derfor forkaste H 0 hvis den beregnede verdi for z er så stor at den er urimelig for en standard normalfordelt variabel. Her blir z = 128.5 125 16.4/ 86 = 1.98 så spørsmålet er om dette er for høyt til rimeligvis å kunne komme fra en standard normalfordeling.

Vi beregner P(z > 1.98) og får fra tabell P(z > 1.98) = 1 P(z < 1.98) = 1 0.9762 = 0.0238 Da dette er en liten sannsynlighet, dvs. mindre enn signifikansnivået α, forkaster vi H 0. Vi konkluderer: Det er tilstrekkelig grunnlag på signifikansnivå 0.05 til å si at elevene i denne byen scorer bedre enn landsgjennomsnittet på språktesten. Den beregnede sannsynlighet P(z > 1.98) = 0.0238 kan generelt skrives P(z > z ) og kalles p-verdien for testen.

46 Hypotesetesting ved å bruke p-verdi Definisjon av p-verdi: Sannsynligheten for at en standardnormalfordelt z har en verdi som er mer ekstrem (i retning av den alternative hypotese) enn den beregnede testobservator z. Beslutningsregel: Hvis p-verdien er mindre enn eller lik signifikansnivået α, så er beslutningen å forkaste nullhypotesen H 0. Hvis p-verdien er større enn α, så er beslutningen å ikke forkaste H 0. I vårt tilfelle tester vi H 0 : µ = 125 mot H a : µ > 125 så p-verdien blir den høyre halen P(z > z ):

Anta isteden at de 86 elevene hadde et gjennomsnitt x = 127.0. Dette er også bedre enn landsgjennomsnittet. Men nå blir Da blir p-verdien z = 127.0 125 16.4/ 86 = 1.13 P(z > 1.13) = 1 P(z < 1.13) = 1 0.8708 = 0.1292 som er større enn signifikansnivået 0.05. Altså forkastes ikke H 0 og vi kunne konkludere: Det er ikke tilstrekkelig grunnlag på signifikansnivå 0.05 til å si at elevene ved gjeldende ungdomsskole scorer bedre enn landsgjennomsnittet på språktesten. Men merk at vi heller ikke kan påstå at de er dårligere enn landsgjennomsnittet eller at de ligger på landsgjennomsnittet. Vanligvis er det bare når vi forkaster nullhypotesen at vi kan komme med klare konklusjoner.

48 Hands-on: kvalitetskontroll av skruer Ved en bedrift produseres skruer, som ifølge spesifikasjonene skal være 15mm lange. Det tas jevnlig stikkprøver av produksjonen for å se om prosessen er godt kalibrert. Man er spesielt interessert i å passe på at skruene ikke blir laget lengre enn 15mm (vi skal ikke bry oss om å passe på at skruene ikke blir for korte nå). Skriv ned nullhypotese og alternativ hypotese. Erfaring viser at lengen til en tilfeldig valg skrue kan antas å være normalfordelt med forventningsverdi µ og kjent standardavvik σ = 0.1mm. Idag har man målt lengden til n = 10 tilfeldig valgte skruer fra produksjonsprosessen og funnet at x = 15.05mm. Er det da grunn til å tro at skruene som produseres har µ > 15mm og at dermed maskinen trenger rekalibrering?

49 Hypotesetesting (p-verdi-metode) 1. Oppsett: Hvilken populasjonsparameter er av interesse? Skriv ned nullhypotesen H 0 og den alternative hypotesen H a. 2. Hypotesetestkriterier: Hvilke antagelser kan du gjøre. Hvilken fordeling og testobservator kan du bruke? Hvilket signifikansnivå ønsker du? (α = 0.05?) 3. Data Samle inn data. Regn ut verdi for testobservator. 4. Sannsynlighetsfordeling Beregn p-verdi fra testobservator. Er p-verdien mindre enn valgt signifikansnivå α? Hvis ja, så skal nullhypotesen forkastes. 5. Resultat Formuler konklusjon om H 0 og H a.

50 Hypotesetesting: klassisk metode (8.5) Punkt 1, 2, 3 og 5 er lik med p-verdi metoden - bare punkt 4 er ulikt! p-verdi metoden 4) Sannsynlighetsfordeling Beregn p-verdi fra testobservator. Er p-verdien mindre enn valgt signifikansnivå α? Hvis ja, så skal nullhypotesen forkastes. er byttet med: klassisk metode 4) Sannsynlighetsfordeling Bestem kritisk(e) verdi(er) og kritisk region. Er testobservatoren i den kritisk regionen? Hvis ja, så skal nullhypotesen forkastes.

51 Hypotesetesting med klassisk metode Situasjonen er som før og vi bruker samme testobservator, nemlig z x 125 = σ/ n At signifikansnivå er valgt til α betyr at vi krever P(forkaste H 0 ) = α hvis H 0 er sann Dette får vi til ved å forkaste H 0 hvis z > z(α), der z(α) er definert tidligere (og kalt kritisk verdi) ved at der z er standard normalfordelt. P(z > z(α)) = α

Altså: Vi forkaster H 0 dersom z = x 125 σ/ n > z(α) Med α = 0.05 får vi z(α) = 1.65 mens altså x = 128.5, σ = 16.4, n = 86 z 128.5 125 = 16.4/ = 1.98 > 1.65 86 så vi forkaster H 0 med signifikansnivå 0.05. (Men igjen forkaster vi ikke hvis x = 127.0.)

54 Kortfattet Hypoteser: H 0 : µ = 125 mot H a : µ > 125. Kjente verdier: n = 86, σ = 16.4, α = 0.05. Observert: x = 128.5. Testobservator: z = x 125 σ/ n = 128.5 125 16.4/ 86 = 1.98 (standardisering av den observerte x når H 0 gjelder). Egenskaper ved z : Hvis H 0 gjelder er z standard normalfordelt. Hvis H a gjelder vil z bli for stor.

Metode med p-verdi: p-verdi = P(z > z ) = P(z > 1.98) = 0.0239 H 0 forkastes hvis p-verdi < α Klassisk metode: Finn kritisk verdi z(α) dvs. at P(z > z(α)) = α. Forkast H 0 hvis beregnet z er > z(α). Her er α = 0.05 og z(0.05) = 1.65 så H 0 forkastes med begge metoder. NB: de to metodene er ekvivalente og gir alltid sammen resultat.

56 Hands-on: kvalitetskontroll av skruer Samme situasjon som sist. H 0 : µ = 15 mot H a : µ > 15 Hva blir forkastningsregelen for H 0? Dvs. finn kritisk verdi.

57 Endret alternativ hypotese Anta at vi (for en annen by) skal teste: H 0 : µ = 125 mot H a : µ < 125. Anta igjen kjente verdier: n = 86, σ = 16.4, α = 0.05. Men anta nå at det er observert: x = 123.0. Testobservator: z = x 125 σ/ n = 123.0 125 16.4/ 86 = 1.13 Egenskaper ved z : Hvis H 0 gjelder er z standard normalfordelt. Hvis H a gjelder vil z bli for liten (dvs. for langt ute på den negative siden).

Metode med p-verdi: Husk at p-verdien er sannsynligheten for at en standardnormalfordelt z har en verdi som er mer ekstrem i retning av den alternative hypotesen enn den beregnede testobservatoren z. Dermed blir p-verdi = P(z < z ) = P(z < 1.13) = 0.1292 H 0 forkastes hvis p-verdi < α (som før), dvs. H 0 forkastes ikke.

Klassisk metode: Vi ønsker P(forkaste H 0 ) = α hvis H 0 er sann og vi ønsker å forkaste for små (negative) verdier av z. Dette får vi til ved å forkaste H 0 dersom z < z(α), siden for en standard normalfordelt z har vi P(forkaste H 0 ) = P(z < z(α)) = α Med α = 0.05 er z(0.05) = 1.65, så H 0 forkastes ikke siden vi har z = 1.13.

60 Teste lik mot ulik (tosidig hypotese) Eksempel: H 0 : µ = 125 mot H a : µ 125, σ = 16.4 Rimelig å forkaste H 0 hvis z = x 125 σ/ n er enten for stor eller for liten. Vi ønsker igjen at P(forkaste H 0 ) = α hvis H 0 er sann Vi forkaster da H 0 dersom z < z(α/2) eller z > z(α/2). Vi har nemlig hvis z er standardnormalfordelt: P(z < z(α/2)) + P(z > z(α/2)) = α/2 + α/2 = α

Altså: Vi forkaster H 0 dersom z = x 125 σ/ n > z(α/2) eller z = x 125 σ/ n < z(α/2) Sett α = 0.05. Da er z(α/2) = 1.96 Anta nå at x = 128.5, σ = 16.4, n = 86 Da er z 128.5 125 = 16.4/ = 1.98 > 1.96 86 så vi forkaster fremdeles H 0 med signifikansnivå 0.05.

p-verdien er som før sannsynligheten for at en standardnormalfordelt z får en verdi som er mer ekstrem i forhold til nullhypotesen enn den beregnede verdi for testobservatoren z. Dette blir her (litt vanskeligere å begrunne enn for de tidligere situasjonene) p-verdi = P(z < 1.98 eller z > 1.98) = 2 P(z < 1.98) = 2 0.0239 = 0.0478 som er mindre enn α = 0.05, så vi forkaster H 0 med signifikansnivå α = 0.05.

63 Oppsummering: Klassisk hypotesetesting med kjent σ Tre typer situasjoner. Her er µ 0 et gitt tall (f.eks. 125). H 0 H a Forkast H 0 hvis µ = µ 0 µ > µ 0 z > z(α) µ = µ 0 µ < µ 0 z < z(α) µ = µ 0 µ µ 0 z < z(α/2) eller z > z(α/2) der z = x µ 0 σ/ n De to første testene kalles ensidige ( one-tailed ) tester, mens den siste er tosidig ( two-tailed )

64 Oppsummering: Hypotesetesting med p-verdi (og kjent σ) Tre typer situasjoner. H 0 H a p-verdi µ = µ 0 µ > µ 0 P(z > z ) µ = µ 0 µ < µ 0 P(z < z ) µ = µ 0 µ µ 0 P(z < z ) + P(z > z ) z = x µ 0 σ/ n

Oppgave: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med gjennomsnitt µ og standardavvik σ = 10. Tallene ble 111.30 111.53 106.34 96.98 92.30 107.57 93.37 112.50 114.59 115.75 med gjennomsnitt x = 106.23 Finn et punktestimat for populasjonsparameteren µ. Finn et intervallestimat for populasjonsparameteren med konfidensnivå 0.90. Jeg påstår at µ = 100 for populasjonen. Ta stilling til dette utsagnet med en hypotesetest. Bruk signifikansnivå α = 0.1. Bruk både klassisk metode og metode med p-verdi.

66 Interpreting a significant finding Shane Reese (tailored for a clinical trial for a drug) It is unlikely that chance alone could have produced the improvement shown in our clinical trial. Because it seems unlikely that chance produced the improvements, we logically conclude that the improvement is due to the drug. Reese and other statisticians noted that this definition is backwards: It is based on assuming there is no link, then finding the probability that chance alone could have produced the experimental results seen. Source: http://blogs.wsj.com/numbersguy/a-statistical-test-gets-itscloseup-1050/ after the Supreme Court ruling in the Matrixx vs James Siracusano case.