1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent

Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen. (Kapittel 7) 2 Teste en påstand/hypotese om en parameter i populasjonen (Kapittel 8) Hva skal vi estimere? Populasjonsandelen p Populasjonsgjennomsnittet x

Estimere populasjonsandelen Konfidensintervall Vi ønsker å estimere andelen i populasjonen p Vi starter med andelen ˆp i stikkprøven og lager et konfidensintervall. Forutsetninger for et riktig konfidensintervall Stikkprøven er et tilfeldig utvalg Betingelsen for en binomisk forsøksrekke holder (se seksjon 5-3) Minst 5 suksesser og 5 fiaskoer

Notasjon Notasjon Andelen i populasjonen: p (eng: proportion. Ikke forveksle med p i binomialfordelingen) Andelen i stikkprøven ˆp = x n x er antall suksesser i en stikkprøve med n objekter ˆq = 1 ˆp andelen fiaskoer Forutsetninger for et riktig konfidensintervall for p Stikkprøven er et tilfeldig utvalg Betingelsen for en binomisk forsøksrekke holder (se seksjon 5-3) I stikkprøven er minst 5 med i andelen, og minst 5 er ikke med

Punktestimat Punktestimator En punktestimator er en enkel verdi som anslår verdien til en parameter Punktestimator for andelen p ˆp = x n er den beste punktestimatoren for p Å estimere en parameter Du kan enten bruke et punktestimat Eller estimere parameteren med et intervall

Konfidensintervall Konfidensintervall og konfidensnivå Et konfidensintervall er et intervall som brukes til å estimere den sanne verdien til en populasjonsparameter. Konfidensnivået angir hvor ofte intervallet faktisk vil inneholde den sanne populasjonsparameteren. Til hvert konfidensnivå tilhører det en α Example Konfidensnivå α 90% α = 0.10 95 % α = 0.05 99 % α = 0.01 Et 95% konfidensintervall vil 95% av gangene inneholde parameteren

Jordbæris Example "Av 851 besøkende i et kjøpesenter har 51% jordbær som favorittsmak på is. " Sjekk at forutsetningene på side 5 Punktestimatet for andelen er ˆp = 0.51 95% konfidensintervall for andelen som foretrekker jordbæris blir da < 0.476, 0.544 > Vi er 95% sikre på at intervallet fra 0.476 til 0.544 inneholder den sanne andelen av folk som foretrekker is med jordbærsmak. Dette betyr at dersom vi spurte mange grupper av 829 personer, og lagde et konfidensintervall hver gang, så vil 95% av intervallene inneholde den sanne andelen p

Kritiske verdier z α/2 Prosedyren Men hvordan fant man ut at intervallet går ifra 0.476 til 0.544? Kritiske verdier Sjekk krav side 5 ˆp normalfordelt. α blir da arealet i to haler Det gir kritiske verdier z α/2 The Critical Value z!/2

Finding z!/2 for a 95% Confidence Level - cont z α/2 = ±1.96 for 95% konfidensintervall! = 0.05 Bruk Table A-2 til å finne z verdien 1.96 z!/2 = "+ 1.96

Bruke z α/2 = ±1.96 til å finne feilmarginen Estimatoren ˆp er normalfordelt Når kravene på side 5 er tilfredstilt, så er ˆp er normalfordelt med forventning p og standardavvik σˆp = ˆp(1 ˆp)/n Feilmarginen for konfidensintervallet for en andel ˆp(1 ˆp) E = z α/2 n Example Vi hadde n = 821 kunder med ˆp = 0.51, så da blir feilmarginen 0.51(1 0.51) E = 1.96 = 0.034 821

Andel jordbæris konfidensintervall Example 1 Vi ville ha et 95% konfidensintervall 2 Vi fant kritisk verdi z α/2 = 1.96 3 Andelen i stikkprøven var ˆp = 0.51 4 Regne ut feilmarginen E = 0.034 5 Konfidensintervallet blir da ˆp ± E 0.51 ± 0.034 6 Fra 0.51 0.034 til 0.51 + 0.034 7 95% konfidensintervall: Fra 0.476 til 0.544

Forskjellige måter å oppgi konfidensintervall på Kjært barn har mange navn 0.476 < p < 0.544 0.51 ± 0.034 < 0.476, 0.544 >

Konfidensintervall for andelen Prosedyre 1 Sjekk at krav på side 5 OK 2 Finn kritisk verdi z α/2 i tabell A2 3 Regn ut feilmargin E = z α/2 ˆp(1 ˆp)/n 4 Regn ut nedre grense ˆp E og øvre grense ˆp + E 5 Rund av til tre desimaler 6 Oppgi konfidensintervallet ˆp E < p < ˆp + E

Konfidensintervall for populasjonsandelen p Example La p være andelen kvinner som holder barnet med venstre arm. 25 av 32 kvinner på fødselsavd holdt med venstre arm. E = 1.96 25 32 95% konfidensintervall for andelen p: 25 (1 32 ) = 0.143 32 p = 25 32 ± 0.143 Kan også skrives 0.638 < p < 0.942 Vi er 95% sikre på at andelen av mødre med barnet i venstre arm er et sted mellom 63.8% og 94.2%

99% konfidensintervall. Andelen iphone på BI Example Fila klassens data alle ny: 419 av 1937 studenter har en iphone. Lag et 99% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 2.576 E = 2.576 419 1937 99% konfidensintervall for andelen p: 419 (1 1937 ) = 0.0241 1937 p = 419 1937 ± 0.0241 Kan også skrives < 0.192, 0.240 > Vi er 99% sikre på at andelen av iphone brukere på BI er mellom 19.2% og 24.0%

90 % intervall: Andelen iphone på BI Example Lag et 90% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 1.645 E = 1.645 419 1937 90% konfidensintervall for andelen p: 419 (1 1937 ) = 0.0154 1937 p = 419 1937 ± 0.0154 Kan også skrives < 0.201, 0.232 > Vi er 90% sikre på at andelen av iphone brukere på BI er mellom 20.1% og 23.2%

95 % intervall: Andelen iphone på BI Example 95% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 1.96 gir E = 1.96 419/1937(1 419/1937)/1937 = 0.0183 95% konfidensintervall er da 0.198 < p < 0.235 Konfidensintervall for andeler i JMP JMP bruker en litt annen formel enn den vi bruker a klassens data alle ny, velg analyze>distribution og Mobiltelefon Rød diamant: confidence intervals 95% gir 0.199 < p < 0.235 når vi runder av til 3 desimaler a Agresti-Coull konfidensgrense

Bredden på intervallet Intervallbredde versus konfidensnivå Jo sikrere du trenger å være på at intervallet inneholder parameteren, jo bredere blir intervallet Man må avveie dette slik at intervallet ikke blir for bredt Vanlig kompromiss er å bruke 95% konfidensnivå

Hvor stor stikkprøve trenger vi? Størrelsen på stikkprøven Example Du har bestemt ønsket feilmargin E Du har bestemt konfidensnivået Da kan du anslå hvor stor stikkprøve du trenger Formelen er n = z2 α/2 0.25 E 2 Vi ønsker et 95% konfidensintervall med feilmargin E = 0.05, dvs. ±5%. n = 1.962 0.25 0.05 2 = 385 For å få en feilmargin på ca 5% bør du ha 385 objekter i stikkprøven.

Seksjon 7-4: Estimere gjennomsnittet µ Seksjon 7-4 Estimere gjennomsnittet µ i populasjonen Punktestimator er selvfølgelig x Vi vil lage konfidensintervall for µ Da trenger vi først Student t-fordelingen Forutsetninger for å bruke t-fordeling Stikkprøven må være tilfeldig utvalgt Originaldataene x er normalfordelt, eller n > 30

Frihetsgrader og Student t-fordelingen Frihetsgrader (eng: degrees of freedom) Stikkprøven har n objekter Da sier vi at den har n 1 frihetsgrader t-fordelingen Anta at x er normalfordelt. Med en stikkprøve av størrelse n kan vi beregne x og s. Da vil t = x µ s n være Student t-fordelt med n 1 frihetsgrader

Student t-fordelingen Figur: t-fordelingen ift. standard normalfordeling. df=2 og 11.

Student t-fordelingen For hver frihetsgrad er det assosiert en t-fordeling. t-fordelingen er symmetrisk og ligner normalfordelingen, men har høyere standardavvik Når frihetsgraden vokser nærmer t-fordelingen seg en standard normalfordeling Et JMP script Åpne Normal vs t.jsl i folderen Sample scripts Edit > Run Script Tetthetskurven til t-fordelingen for forskjellige frihetsgrader (df) Standard normalfordeling i rødt

Konfidensintervall for µ Feilmarginen E = t α/2 s n Der t α/2 har n 1 frihetsgrader. Finnes i tabell A-3. Konfidensintervall for µ x E < µ < x + E

Eksempel Example Du måler vekten på 34 lakrispastiller Gjennomsnittsvekt er x = 0.932 og standardavviket er s = 0.1 Lag et 90% konfidensinterval for parameteren µ Vi har n > 30 så kravet er ok. 34 1 = 33 frihetsgrader. Vi runder ned til 32 i tabell A3 Kritisk verdi t α/2 = 1.694 for 32 df Feilmargin E = 1.694 0.1/ 34 = 0.029 Konfidensintervall: 0.903 < x < 0.961 Vi er 90% sikre på at gjennomsnittsvekta er mellom 0.903 og 0.961 gram

Konfidensintervall for gjennomsnittet µ Prosedyre 1 Sjekk at dataene er normalfordelte, eller at n > 30. 2 Med n 1 frihetsgrader, finn kritisk verdi t α/2 i tabell A3 3 Regn ut feilmargin E = t α/2 s/ n 4 Regn ut nedre grense x E og øvre grense x + E 5 Rund av til tre desimaler 6 Oppgi konfidensintervallet x E < µ < x + E

Hva er et konfidensintervall? Åpne scriptet confidence i folder Sample scripts Figur: Simulering av 100 95% konfidensintervall. 94 av dem inneholdt den sanne µ = 5.

Lengde på telefonsamtaler 1 Example Lengden på interne telefonsamtaler i en bedrift er normalfordelt Stikkprøve på 5 interne samtaler: 23, 25, 12, 30, 20 minutter. Lag et 95% konfidensintervall for gjennomsnittlig lengde på telefonsamtale i bedriften. Løsning 1 Regn ut x = 22.00 og s = 6.671 2 Finn t α/2 = 2.776 for 4 frihetsgrader. Tabell A3 3 Feilmarginen: E = 2.776 6.671 = 8.282 5 4 95% konfidensintervall for µ går ifra 22.00 8.282 til 22.40 + 8.282: 13.72 < µ < 30.28 5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom 13.72 og 30.28 minutter

Konfidensintervall i JMP Konfidensintervall i JMP Legg inn 23, 25, 12, 30, 20 i en kolonne i JMP Analyze > Distribution JMP oppgir 95% konfidensintervall for µ

Lengde på telefonsamtaler 2 Example I en annen bedrift har vi 4, 12, 10, 3, 5 og 8 minutter. Lag et 90% konfidensintervall for gjennomsnittlig samtaletid Løsning 1 Regn ut x = 7.00 og s = 3.578 2 Finn t α/2 = 2.015 for 5 frihetsgrader. Tabell A3 3 Feilmarginen: E = 2.015 3.578 = 2.94 6 4 95% konfidensintervall for µ går ifra 7.00 2.94 til 7.00 + 2.94: 4.06 < µ < 9.94 5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom 4.06 og 9.94 minutter

Er lengden på telefonsamtaler normalfordelt? Forutsetninger for å bruke t-fordeling Stikkprøven må være tilfeldig utvalgt Originaldataene x er normalfordelt, eller n > 30 I eksemplene over har vi færre enn n = 30 objekter i stikkprøven Forutsatte derfor at lengden på telefonsamtaler var normalfordelt Det er mer sannsynlig at lengden er høyreskjev, siden det finnes en naturlig nedre skranke: 0 minutter for lengden Vi skulle nok hatt stikkprøve på minst 30 telefonlengder... Figur: Eksempel på høyreskjev fordeling. Reisetid til skolen for 1937 BI studenter

Norsk kundebarometer Example For variabelen Anbefale hos DnB NOR kunder: 54 menn: Gjennomsnitt: 5.426, Standardavvik: 2.618 37 kvinner: Gjennomsnitt 4.865, Standardavvik: 2.699 Finn 99% konfidensintervall for anbefalingsgjennomsnittet for mannlige og for kvinnelige DnB NOR kunder. Løsning: 1 Menn: t α/2 = 2.678 (runder ned til 50 df) og kvinner t α/2 = 2.719 2 Menn: E = 2.678 2.618/ 54 = 0.954. Kvinner: E = 2.719 2.699/ 37 = 1.206 3 Menn 99% konfidensintervall: 4.47 < µ M < 6.38 4 Kvinner 99% konfidensintervall:

Eksamensoppgaver Met 8006 vaaren 05

Eksamensoppgaver Met 8006 hoest 07