ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon



Like dokumenter
Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

7.2 Sammenligning av to forventinger

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

ST0202 Statistikk for samfunnsvitere

Løsningsforslag til obligatorisk innlevering 3.

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Fra første forelesning:

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Binomisk sannsynlighetsfunksjon

Statistikk og dataanalyse

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Testobservator for kjikvadrattester

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk H2010 (20)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Løsningsforslag Til Statlab 5

ST0202 Statistikk for samfunnsvitere

Regler i statistikk STAT 100

Kapittel 3: Studieopplegg

Testobservator for kjikvadrattester

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere Kapittel 8: Introduksjon til statistisk inferens

Kapittel 10: Hypotesetesting

EKSAMENSOPPGAVER STAT100 Vår 2011

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Mer om hypotesetesting

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kapittel 9 og 10: Hypotesetesting

Inferens i fordelinger

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

UNIVERSITETET I OSLO

Kapittel 9 og 10: Hypotesetesting

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

6.2 Signifikanstester

Kapittel 7: Inferens for forventningerukjent standardavvik

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010 (19)

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

TMA4240 Statistikk H2010 (22)

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

HØGSKOLEN I STAVANGER

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

TMA4240 Statistikk Høst 2007

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Fasit for tilleggsoppgaver

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2015

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Hypotesetest: generell fremgangsmåte

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Kap. 9: Inferens om én populasjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Innledning. Noen relevante statistiske konsepter. Utvalg og populasjon, estimat og parameter

TMA4240 Statistikk Høst 2009

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Introduksjon til inferens

ECON240 VÅR / 2016 BOKMÅL

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

ST0202 Statistikk for samfunnsvitere

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Kap. 12: Variansanalyse

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon Bo Lindqvist Institutt for matematiske fag

2 Kap. 9: Inferens om én populasjon Statistisk inferens har som mål å tolke/analysere resultater fra utvalget for å finne ut mest mulig om populasjonen. Konkret: Å analysere en utvalgsobservator for å trekke slutninger om den tilhørende populasjonsparameter. 1) Estimering. Hva er størrelsen på parameteren? Punktestimering: Gitt ved ett enkelt tall Intervallestimering: Gitt ved et intervall der parameteren antas å ligge med høy sannsynlighet. 2) Hypotesetesting: Velger mellom to konkurrerende påstander om størrelsen på parameteren, for eksempel om den er større eller mindre enn en gitt verdi.

3 Inferens om µ når σ er ukjent Hvis σ er ukjent bytter vi ut σ med s i Ny observator blir t = x µ s/ n z = x µ σ/ n der s = Σx 2 (Σx) 2 /n n 1 t kalles for Students t-observator Fordelingen til t kalles t-fordelingen og er avhengig av utvalgsstørrelsen n via antall frihetsgrader som er df = n 1 (df = degrees of freedom ).

1. t-fordelingen er symmetrisk rundt 0. 2. t-fordelingen har en form som avhenger av antall df (som er n 1). 3. t-fordelingen nærmer seg standard normalfordelingen når df øker 4. t-fordelingen har lavere topp og tykkere haler enn standard normalfordeling

5 Tabell 6: Kritiske verdier for t-fordelingen t(df, α) er t-verdien slik at areal α ligger til høyre, dvs. P(t > t(df, α)) = α der t er t-fordelt med df frihetsgrader.

6 Tabell 7: p-verdier for t-fordelingen Tabellen inneholder arealer av typen nedenfor for ulike df.

7 Inferens om µ når σ er ukjent (9.1) Antagelse: x er tilnærmet normalfordelt, dvs. populasjonen er normalfordelt eller n er stor. Vi bruker at t = x µ s/ n er t-fordelt med df = n 1 frihetsgrader.

8 Konfidensintervall for µ når σ er ukjent Vi husker fra kapittel 8, der σ var kjent at et 1 α konfidensintervall for µ var: x ± E = x ± z(α/2) σ n der vi kalte E for maksimal feil. For å gå fra kjent til ukjent σ bytter vi ut σ med s z(α/2) med (det alltid noe større) t(n 1, α/2) F.eks. er z(0.025) = 1.96 mens t(9, 0.025) = 2.26, t(19, 0.025) = 2.09 og t(29, 0.025) = 2.05 og t(1000, 0.025) = 1.96.

9 Konfidensintervall for µ når σ er ukjent Et 1 α konfidensintervall for µ når σ er ukjent er gitt ved x ± E = x ± t(n 1, α/2) s n

10 Hands-on Vi skal studere IQ i en spesiell populasjon. Vi antar at IQ for en tilfeldig valgt person i populasjonen er normalfordelt med ukjent populasjonsgjennomsnitt µ og ukjent populasjonsstandardavvik σ. Vi har trukket et tilfeldig utvalg av 10 personer fra populasjonen og disse har gjennomført en IQ-test, med følgende resultater 105.74 116.95 137.09 98.98 115.83 98.74 106.18 110.35 133.29 104.11 Vi har med utvalgsgjennomsnitt x = 112.73 og utvalgsstandardavvik s = 13.33 Finn et punktestimat for populasjonsparameteren µ Finn et intervallestimat for populasjonsparameteren µ. Bruk 90% konfidensnivå.

11 Hypotesetesting om µ (σ ukjent) Eksempel: Språktest for ungdomsskoleelever. Anta at score på spåktest for en tilfeldig valgt elev fra en skole er normalfordelt med populasjonsgjennomsnitt µ og populasjonsstandardavvik σ. Vi vil teste H 0 : µ = 125 mot H a : µ > 125. Fra populasjonen trekker vi et utvalg av n = 22 elever. Vi observerer x = 128.5. Vi skal gjennomføre en hypotesetest og velger signifikansnivå 5%. Merk at populasjonsstandardavviket σ ikke er kjent. Vi må da regne ut utvalgsstandardavviket s som viser seg å bli s = 15.2.

Vi bruker testobservatoren t = x 125 s/ n Store verdier av t tyder på at H a gjelder. Poenget med å bruke t er at når H 0 er riktig, er t t-fordelt med antall frihetsgrader df = 22 1 = 21. Vi kan derfor forkaste H 0 hvis den beregnede verdi for t er så stor at den er urimelig for en t-fordeling med df = 21. Her blir t = 128.5 125 15.2/ 22 = 1.08 så spørsmålet er om dette er for høyt til rimeligvis å kunne komme fra en t-fordeling med df = 21.

13 Metode med p-verdi med ukjent σ Vi finner fra Tabell 7 i kolonnen med df = 21 P(t > 1.08) er mellom 0.142 og 0.164 og kan beregnes til 0.15. Da dette er større enn signifikansnivået α = 0.05, forkaster vi ikke H 0. Den beregnede sannsynlighet P(t > 1.08) kan generelt skrives P(t > t ) og er nå p-verdien for testen.

14 Klassisk metode med ukjent σ Situasjonen er som før og vi bruker samme testobservator, nemlig t = x 125 s/ n Å velge signifikansnivå α betyr at vi krever P(forkaste H 0 ) = α hvis H 0 er sann Dette får vi til ved å forkaste H 0 hvis t > t(n 1, α), der t(df, α) er den kritiske verdi) og finnes i Tabell 6.

Vi forkaster da H 0 dersom t = x 125 s/ n > t(n 1, α) Med α = 0.05 og n = 22 får vi fra Tabell 6: t(21, 0.05) = 1.72 mens vi beregner t 128.5 125 = 15.2/ = 1.08 < 1.72 22 så vi forkaster ikke H 0 med signifikansnivå α = 0.05.

16 Hands-on fortsettelse av IQ oppgaven Vi skal studere IQ i en spesiell populasjon. Vi antar at IQ for en tilfeldig valgt person i populasjonen er normalfordelt med ukjent populasjonsgjennomsnitt µ og ukjent populasjonsstandardavvik σ. Vi har trukket et tilfeldig utvalg av 10 personer fra populasjonen og disse har gjennomført en IQ-test. Jeg påstår at µ = 100 for populasjonen. Ta stilling til dette utsagnet med en hypotesetest. Bruk signifikansnivå α = 0.1. Hva blir de kritiske verdier? Finn også p-verdien. Utvalget gav: 105.74 116.95 137.09 98.98 115.83 98.74 106.18 110.35 133.29 104.11 med utvalgsgjennomsnitt x = 112.73 og utvalgsstandardavvik s = 13.33

19 Inferens om andelen p Eksempel: Det har vært antatt at 60% av studentene på et universitet har deltidsjobb utenom studiene. Etter at Kvalitetsreformen har virket en stund, tror studieledelsen at tallet er lavere og ønsker å undersøke dette ved å spørre et utvalg på n = 500 studenter. Det viser seg at x = 260 av disse har deltidsjobb. Populasjonen er nå alle studenter ved universitetet, mens parameteren som er av interesse er p, andelen av studenter som har deltidsjobb. Fra utvalget på n = 500 ønsker man å gjøre inferens om p. Spesielt vil man teste hypotesen H 0 : p = 0.60 mot H a : p < 0.60

20 Binomisk sannsynlighetsfordeling Et binomisk eksperiment består av gjentatte forsøk med følgende egenskaper: 1. Det er n uavhengige forsøk. 2. Hvert forsøk har to mulige utfall, ofte kalt suksess og fiasko. 3. P(suksess)=p, P(fiasko)=q, p + q = 1. 4. Den binomiske tilfeldige variabelen x er antallet suksessfulle utfall som inntreffer, og x kan anta enhver heltallsverdi fra 0 til n. Videre er forventning til x lik µ x = np og standardavvik for x er σ x = npq.

21 Inferens om den binomiske sannsynlighet for suksess p (9.2) p fortolkes som andelen med egenskapen suksess i populasjonen, slik at p er sannsynligheten for å trekke en enhet med suksess. Utvalget består i å gjøre n forsøk, dvs. tilfeldige trekninger fra populasjonen, og registrere antallet x med suksess. Andel med suksess i utvalget er da p = x n som kan kalles utvalgs-suksess-sannsynligheten ( sample binomial probability ). p er punktestimatet for p basert på vårt utvalg.

22 Forventning µ p og standardfeil σ p for p :

23 Utvalgsfordeling for p Hvis et utvalg av størrelse n trekkes fra en populasjon med p = P( suksess ), så vil utvalgsfordelingen for p ha: 1. forventning µ p = p (dvs. punktestimatet p er forventningsrett) 2. standardfeil (dvs. standardavvik for punktestimatet) σ p = pq n 3. tilnærmet normalfordeling (hvis både np og nq er større enn 5)

Statistisk inferens om p kan derfor bygges på den (tilnærmet) standard normalfordelte z = p p pq n Merk analogien med z = x µ σ n

Et konfidensintervall for p med konfidensnivå 1 α er da gitt ved ( ) pq pq p z(α/2) n, p + z(α/2) n som er analogt med ( x z(α/2) σ n, x + z(α/2) σ n ) MEN siden konfidensintervallet for p ovenfor inneholder den ukjente p (og q), vil vi bruke konfidensintervallet: p z(α/2) p q n, p + z(α/2) der q = 1 p er utvalgs-fiasko-sannsynligheten. p q n

26 Eksempel: Deltidsjobbing Av et utvalg på n = 500 hadde x = 260 deltidsjobb. Et punktestimat for andelen p i populasjonen som har deltidsjobb er da p = 260/500 = 0.52. Et konfidensintervall for p med konfidensnivå 0.90 er 0.52 1.65 dvs. (0.483,0.557) 0.52 0.48 500, 0.52 + 1.65 0.52 0.48 500

27 Utvalgsstørrelse 1 α-konfidensintervallet for suksess-sannsynligheten p i populasjonen er altså definert ved p p z(α/2) q n, p p + z(α/2) q n der maksimal feil for estimatet er E = z(α/2) p q n Hvor stor må vi velge n for å få en bestemt maksimal feil E? n = [z(α/2)]2 p q E 2 der p og q er foreløpige verdier for p og q som brukes under planleggingen.

28 Utvalgsstørrelse (forts.) Formel: n = [z(α/2)]2 p q E 2 Det viser seg at n i formelen blir størst hvis p og q begge er 0.5. Så hvis vi ikke har forhåndskjennskap til p, og ønsker å være på den sikre siden, regner vi ut n med p = q = 0.5.

Eksempel: Hva må n være for at feilen E skal være mindre enn eller lik 0.01 med konfidensnivå 0.95? Hvis vi ikke har forhåndsviten om p: n = [z(α/2)]2 p q E 2 = [z(0.025)]2 0.5 0.5 0.01 2 = 1.962 0.25 0.0001 = 9604 Hvis vi har forhåndsviten om at p er i størrelesorden 0.15, setter vi p = 0.15 og q = 0.85 og får n = 1.962 0.15 0.85 0.0001 = 4898

30 Testobservator for å teste en andel p Vi vil teste H 0 : p = p 0 for et spesifisert tall p 0. Bruk da z = p p 0 p0 q 0 n I eksempel med deltidsjobbing: med p = x n H 0 : p = 0.60 mot H a : p < 0.60 og n = 500: z = p 0.60 0.60 0.40 500 som hvis H 0 gjelder er standard normalfordelt, og som i vårt eksempel blir lik z = 0.52 0.60 0.60 0.40 500 = 3.65

p-verdi blir dermed (som for testene om µ) p verdi = P(z < 3.65) = P(z > 3.65) = 0.0001 fra Tabell 5 (som vi ikke har brukt til nå). Dette er svært lavt, og fører til forkastning av H 0 for f.eks. α =0.01 eller 0.05. Klassisk metode er også som for testene om µ: H 0 skal forkastes med signifikansnivå α hvis z < z(α). Med α = 0.01 blir det å forkaste om z < z(0.01) = 2.33 dvs. vi forkaster H 0.

32 Merknad om konfidensintervall og testing av hypoteser om p Anta vi skal teste nullhypotesen H 0 : p = p 0 der p 0 er et gitt tall, f.eks. 0.60 i vårt eksempel. I testobservatoren brukes da p 0 og q 0 = 1 p 0 i uttrykket for standardfeilen til p i nevneren z = p p 0 p0 q 0 n med p = x n Til sammenligning, i et (1 α) konfidensintervall for p basert på p, dvs. p z(α/2) p q n, p + z(α/2) p q n brukes uttrykket p q n for å representere standardfeilen for p

33 Hands-on: bilkjøring Populasjon: studenter på NTNU. Spørsmål: Er du flinkere enn gjennomsnittet (i Norge) til å kjøre bil? Ja (suksess) eller nei (fiasko). Populasjonsparameter: p =P(en student synes han/hun er flinkere enn gjsn. til å kjøre bil)= suksess-sannsynligheten. Utvalget: n = 139 studenter som tok faget TMA4245 våren 2006. Av disse svarte x = 59 ja. Svar på: Tyder dataene på at færre enn 50% av studenten ved NTNU synes at de er flinkere til å kjøre bil enn Norges-gjennomsnittet? Sett opp H 0 og H a, regn ut p-verdi. Konkluder. I en landsomfattende undersøkelse blant norske bilførere i 2009 mente 67% av de spurte at de er bedre sjafører enn gjennomsnittet.

34 Keramiske gulvfliser Keramiske gulvfliser skal gjerne se ut som naturlig stein, og dermed må overflaten ikke være helt flat - men må variere.

35 Keramiske gulvfliser Vi ønsker at variasjonen i overflatehøyde er stor nok til at flisen ser ut som naturlig stein, men liten nok til at det ikke medfører et sikkerhetsproblem.

36 Keramiske gulvfliser Spesifikasjonen for en type keramiske gulvfliser sier: Gjennomsnittlig overflatehøyde må ikke være større enn 0.025 inch (0.064 cm = 0.64 mm). Produksjonsprosessen sies å være under kontroll hvis standardavviket til overflatehøyden ikke er større enn 0.01 inch (0.0254 cm = 0.254 mm). Data fra 26 tilfeldig valgte punkter: Oppgaver: 9.145, 9.146.

37 Keramiske gulvfliser Min. 1st Qu. Median Mean SD 3rd Qu. Max.

38 Inferens om varians og standardavvik for ett normalfordelt utvalg (9.3) Inferens om variansen til en normalfordelt populasjon bruker kjikvadrat-fordelingen ( chi-square distribution ) (der kji er den greske bokstaven χ. Fordelingen kan også skrives χ 2 -fordelingen.)

39 Kjikvadrat-fordelingen 1. χ 2 er positiv 2. χ 2 er ikke symmetrisk, men skjev mot høyre. 3. En bestemt χ 2 -fordeling identifiseres ved en parameter df som kalles antall frihetsgrader ( degrees of freedom ). 4. Forventning µ = df 5. Varians σ 2 = 2df

40 Kjikvadratfordelinger med ulik df

41 Tabell 8 χ 2 (df, α) er χ 2 -verdien slik at areal α ligger til høyre, dvs P(χ 2 > χ 2 (df, α)) = α der χ 2 er χ 2 -fordelt med df frihetsgrader.

42 Hands-on: Tabell 8 Finn kritisk verdi: χ 2 (9, 0.05) χ 2 (9, 0.95) Hva er α: χ 2 (9, α) = 3.92 χ 2 (9, α) = 16.9

43 Inferens om σ Antagelse: Utvalget er trukket fra en populasjon som er normalfordelt. Vi skal teste hypoteser om σ. (Punktestimat er s). Vi bruker testobservatoren χ 2 = (n 1)s2 σ 2 som kan vises å være χ 2 -fordelt med df=n-1 frihetsgrader når σ har den korrekte verdien. Merk: Dette er analogt med at vi ved inferens om µ har brukt observatorer z = x µ σ/ n fordelinger. og t = x µ s/ n som har kjente, tabellerte

Eksempel: Jeg har trukket 10 tall fra en populasjon som er normalfordelt med forventning µ og standardavvik σ. Tallene ble 52.61 49.36 48.47 55.39 48.49 52.19 48.15 47.30 52.13 52.47 med s=2.64. Finn et punktestimat for σ Jeg sier at σ = 4 for populasjonen. Ta stilling til utsagnet gjennom en hypotesetest. Bruk signifikansnivå α = 0.1. Finn p-verdien.

Punktestimat for σ er s = 2.64. Nullhypotesten H 0 er at σ = 4 mens alternativ hypotese H a er at σ 4. Testobservatoren blir da χ 2 = (n 1)s2 (n 1)s2 σ 2 = 4 2 som er χ 2 -fordelt med df=n-1=9 frihetsgrader under nullhypotesen. Her blir χ 2 (n 1)s2 (10 1)2.642 = σ 2 = 4 2 = 3.92 Spørsmålet er om dette er en urimelig størrelse for en variabel som er kjikvadrat-fordelt med df = 9. Vi vil forkaste H 0 hvis testobservatoren χ 2 blir enten for liten eller for stor.

Klassisk metode: Finn kritiske verdier slik at vi forkaster hvis χ 2 ligger utenfor et sentralt område av kjikvadratfordelingen. Vi har at P(χ 2 < χ 2 (df, 1 α/2)) = α/2 P(χ 2 > χ 2 (df, α/2)) = α/2 I eksempel, med α = 0.10, blir disse kritiske verdiene (Tabell 8) χ 2 (9, 0.95) = 3.33 χ 2 (9, 0.05) = 16.9 dvs. vi skal forkaste hvis χ 2 < 3.33 eller χ 2 > 16.9. Dermed forkaster vi ikke H 0, siden vi beregnet testobservatoren χ 2 = 3.92.

Metode med p-verdi: Beregner først P(χ 2 9 < 3.92) = 1 P(χ2 9 > 3.92) = 1 0.92 = 0.08 Her har vi først brukt Tabell 8 til å finne P(χ 2 9 > 3.33) = 0.95 og P(χ 2 9 > 4.17) = 0.90. Dermed vet vi at P(χ2 9 > 3.92) er mellom 0.90 og 0.95. På øyemål har vi da anslått at P(χ 2 9 > 3.92) = 0.92 (som vi også ville få ved formell interpolasjon). Siden alternativ hypotese er at σ 4 er p-verdien lik arealet av begge halene, dvs p-verdi=2 0.08 = 0.16. Siden p-verdi>α=0.1 kan vi ikke forkaste nullhypotesen. (σ for populasjonen som jeg trakk fra var σ = 2, med andre ord beholdt vi feilaktig nullhypotesen, dvs. gjorde en feil av type II.)

48 Hands-on: keramiske fliser Vi ser på måling av overflatehøyde for keramiske fliser. Et tilfeldig utvalg av 26 målepunkter ble valgt, med følgende måleresultater. Vi oppgir at utvalgsgjennomsnittet er x = 0.0198 og utvalgets standardavvik er s = 0.0107. Er det statistisk bevis for at prosessen brukt i tilvirkningen av flisene har et standardavvik som er større enn 0.01 inch?