1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Like dokumenter
ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Løsningsforslag Til Statlab 5

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

ST0202 Statistikk for samfunnsvitere

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

Oppgaver til Studentveiledning I MET 3431 Statistikk

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Løsningsforslag til obligatorisk innlevering 3.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Statistikk og dataanalyse

1 10-2: Korrelasjon : Regresjon

TMA4240 Statistikk H2010

ST0202 Statistikk for samfunnsvitere

Norske hoppdommere og Janne Ahonen

ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Kapittel 7: Inferens for forventningerukjent standardavvik

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

HØGSKOLEN I STAVANGER

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

TMA4240 Statistikk H2010 (22)

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Oppgaver til Studentveiledning II MET 3431 Statistikk

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

Høgskolen i Gjøviks notatserie, 2001 nr 5

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

TMA4240 Statistikk H2010

Kapittel 3: Studieopplegg

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Et lite notat om og rundt normalfordelingen.

Innledning. Noen relevante statistiske konsepter. Utvalg og populasjon, estimat og parameter

Inferens i fordelinger

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

TMA4240 Statistikk Høst 2016

EKSAMENSOPPGAVER STAT100 Vår 2011

Konfidensintervall for µ med ukjent σ (t intervall)

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

ST0202 Statistikk for samfunnsvitere

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Løsningsforslag øving 9, ST1301

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240/TMA4245 Statistikk: Oppsummering kontinuerlige sannsynlighetsfordelinger

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 10: Hypotesetesting

7.2 Sammenligning av to forventinger

estimert verdi ± feilmargin = X ± et visst antall standardavvik for snittet = X ± u α/2 σ n

ST0202 Statistikk for samfunnsvitere

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

HØGSKOLEN I STAVANGER

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk H2010

EKSAMEN I EMNE TMA4245 STATISTIKK

Regler i statistikk STAT 100

Foreleses onsdag 13.oktober, 2010

Skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010 (20)

Eksamensoppgave i SØK Statistikk for økonomer

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

1 11-1: Kji-kvadrat fordelingen : Krysstabeller og kji-kvadrattesten. 3 Kji-kvadrattesten i JMP

TMA4240 Statistikk H2015

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Kontinuerlige sannsynlighetsfordelinger.

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Transkript:

1 Section 7-2: Estimere populasjonsandelen 2 Section 7-4: Estimere µ når σ er ukjent

Kapittel 7 Nå begynner vi med statistisk inferens! Bruke stikkprøven til å 1 Estimere verdien til en parameter i populasjonen. (Kapittel 7) 2 Teste en påstand/hypotese om en parameter i populasjonen (Kapittel 8) Hva skal vi estimere? Populasjonsandelen p Populasjonsgjennomsnittet x

Estimere populasjonsandelen Konfidensintervall Vi ønsker å estimere andelen i populasjonen p Vi starter med andelen ˆp i stikkprøven og lager et konfidensintervall. Forutsetninger for et riktig konfidensintervall Stikkprøven er et tilfeldig utvalg Betingelsen for en binomisk forsøksrekke holder (se seksjon 5-3) Minst 5 suksesser og 5 fiaskoer

Notasjon Notasjon Andelen i populasjonen: p (eng: proportion. Ikke forveksle med p i binomialfordelingen) Andelen i stikkprøven ˆp = x n x er antall suksesser i en stikkprøve med n objekter ˆq = 1 ˆp andelen fiaskoer Forutsetninger for et riktig konfidensintervall for p Stikkprøven er et tilfeldig utvalg Betingelsen for en binomisk forsøksrekke holder (se seksjon 5-3) I stikkprøven er minst 5 med i andelen, og minst 5 er ikke med

Punktestimat Punktestimator En punktestimator er en enkel verdi som anslår verdien til en parameter Punktestimator for andelen p ˆp = x n er den beste punktestimatoren for p Å estimere en parameter Du kan enten bruke et punktestimat Eller estimere parameteren med et intervall

Konfidensintervall Konfidensintervall og konfidensnivå Et konfidensintervall er et intervall som brukes til å estimere den sanne verdien til en populasjonsparameter. Konfidensnivået angir hvor ofte intervallet faktisk vil inneholde den sanne populasjonsparameteren. Til hvert konfidensnivå tilhører det en α Example Konfidensnivå α 90% α = 0.10 95 % α = 0.05 99 % α = 0.01 Et 95% konfidensintervall vil 95% av gangene inneholde parameteren

Jordbæris Example "Av 851 besøkende i et kjøpesenter har 51% jordbær som favorittsmak på is. " Sjekk at forutsetningene på side 5 Punktestimatet for andelen er ˆp = 0.51 95% konfidensintervall for andelen som foretrekker jordbæris blir da < 0.476, 0.544 > Vi er 95% sikre på at intervallet fra 0.476 til 0.544 inneholder den sanne andelen av folk som foretrekker is med jordbærsmak. Dette betyr at dersom vi spurte mange grupper av 829 personer, og lagde et konfidensintervall hver gang, så vil 95% av intervallene inneholde den sanne andelen p

Kritiske verdier z α/2 Prosedyren Men hvordan fant man ut at intervallet går ifra 0.476 til 0.544? Kritiske verdier Sjekk krav side 5 ˆp normalfordelt. α blir da arealet i to haler Det gir kritiske verdier z α/2 The Critical Value z!/2

Finding z!/2 for a 95% Confidence Level - cont z α/2 = ±1.96 for 95% konfidensintervall! = 0.05 Bruk Table A-2 til å finne z verdien 1.96 z!/2 = "+ 1.96

Bruke z α/2 = ±1.96 til å finne feilmarginen Estimatoren ˆp er normalfordelt Når kravene på side 5 er tilfredstilt, så er ˆp er normalfordelt med forventning p og standardavvik σˆp = ˆp(1 ˆp)/n Feilmarginen for konfidensintervallet for en andel ˆp(1 ˆp) E = z α/2 n Example Vi hadde n = 821 kunder med ˆp = 0.51, så da blir feilmarginen 0.51(1 0.51) E = 1.96 = 0.034 821

Andel jordbæris konfidensintervall Example 1 Vi ville ha et 95% konfidensintervall 2 Vi fant kritisk verdi z α/2 = 1.96 3 Andelen i stikkprøven var ˆp = 0.51 4 Regne ut feilmarginen E = 0.034 5 Konfidensintervallet blir da ˆp ± E 0.51 ± 0.034 6 Fra 0.51 0.034 til 0.51 + 0.034 7 95% konfidensintervall: Fra 0.476 til 0.544

Forskjellige måter å oppgi konfidensintervall på Kjært barn har mange navn 0.476 < p < 0.544 0.51 ± 0.034 < 0.476, 0.544 >

Konfidensintervall for andelen Prosedyre 1 Sjekk at krav på side 5 OK 2 Finn kritisk verdi z α/2 i tabell A2 3 Regn ut feilmargin E = z α/2 ˆp(1 ˆp)/n 4 Regn ut nedre grense ˆp E og øvre grense ˆp + E 5 Rund av til tre desimaler 6 Oppgi konfidensintervallet ˆp E < p < ˆp + E

Konfidensintervall for populasjonsandelen p Example La p være andelen kvinner som holder barnet med venstre arm. 25 av 32 kvinner på fødselsavd holdt med venstre arm. E = 1.96 25 32 95% konfidensintervall for andelen p: 25 (1 32 ) = 0.143 32 p = 25 32 ± 0.143 Kan også skrives 0.638 < p < 0.942 Vi er 95% sikre på at andelen av mødre med barnet i venstre arm er et sted mellom 63.8% og 94.2%

99% konfidensintervall. Andelen iphone på BI Example Fila klassens data alle ny: 419 av 1937 studenter har en iphone. Lag et 99% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 2.576 E = 2.576 419 1937 99% konfidensintervall for andelen p: 419 (1 1937 ) = 0.0241 1937 p = 419 1937 ± 0.0241 Kan også skrives < 0.192, 0.240 > Vi er 99% sikre på at andelen av iphone brukere på BI er mellom 19.2% og 24.0%

90 % intervall: Andelen iphone på BI Example Lag et 90% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 1.645 E = 1.645 419 1937 90% konfidensintervall for andelen p: 419 (1 1937 ) = 0.0154 1937 p = 419 1937 ± 0.0154 Kan også skrives < 0.201, 0.232 > Vi er 90% sikre på at andelen av iphone brukere på BI er mellom 20.1% og 23.2%

95 % intervall: Andelen iphone på BI Example 95% konfidensintervall for andelen studenter p som har iphone på BI. TabellA2 : z α/2 = 1.96 gir E = 1.96 419/1937(1 419/1937)/1937 = 0.0183 95% konfidensintervall er da 0.198 < p < 0.235 Konfidensintervall for andeler i JMP JMP bruker en litt annen formel enn den vi bruker a klassens data alle ny, velg analyze>distribution og Mobiltelefon Rød diamant: confidence intervals 95% gir 0.199 < p < 0.235 når vi runder av til 3 desimaler a Agresti-Coull konfidensgrense

Bredden på intervallet Intervallbredde versus konfidensnivå Jo sikrere du trenger å være på at intervallet inneholder parameteren, jo bredere blir intervallet Man må avveie dette slik at intervallet ikke blir for bredt Vanlig kompromiss er å bruke 95% konfidensnivå

Hvor stor stikkprøve trenger vi? Størrelsen på stikkprøven Example Du har bestemt ønsket feilmargin E Du har bestemt konfidensnivået Da kan du anslå hvor stor stikkprøve du trenger Formelen er n = z2 α/2 0.25 E 2 Vi ønsker et 95% konfidensintervall med feilmargin E = 0.05, dvs. ±5%. n = 1.962 0.25 0.05 2 = 385 For å få en feilmargin på ca 5% bør du ha 385 objekter i stikkprøven.

Seksjon 7-4: Estimere gjennomsnittet µ Seksjon 7-4 Estimere gjennomsnittet µ i populasjonen Punktestimator er selvfølgelig x Vi vil lage konfidensintervall for µ Da trenger vi først Student t-fordelingen Forutsetninger for å bruke t-fordeling Stikkprøven må være tilfeldig utvalgt Originaldataene x er normalfordelt, eller n > 30

Frihetsgrader og Student t-fordelingen Frihetsgrader (eng: degrees of freedom) Stikkprøven har n objekter Da sier vi at den har n 1 frihetsgrader t-fordelingen Anta at x er normalfordelt. Med en stikkprøve av størrelse n kan vi beregne x og s. Da vil t = x µ s n være Student t-fordelt med n 1 frihetsgrader

Student t-fordelingen Figur: t-fordelingen ift. standard normalfordeling. df=2 og 11.

Student t-fordelingen For hver frihetsgrad er det assosiert en t-fordeling. t-fordelingen er symmetrisk og ligner normalfordelingen, men har høyere standardavvik Når frihetsgraden vokser nærmer t-fordelingen seg en standard normalfordeling Et JMP script Åpne Normal vs t.jsl i folderen Sample scripts Edit > Run Script Tetthetskurven til t-fordelingen for forskjellige frihetsgrader (df) Standard normalfordeling i rødt

Konfidensintervall for µ Feilmarginen E = t α/2 s n Der t α/2 har n 1 frihetsgrader. Finnes i tabell A-3. Konfidensintervall for µ x E < µ < x + E

Eksempel Example Du måler vekten på 34 lakrispastiller Gjennomsnittsvekt er x = 0.932 og standardavviket er s = 0.1 Lag et 90% konfidensinterval for parameteren µ Vi har n > 30 så kravet er ok. 34 1 = 33 frihetsgrader. Vi runder ned til 32 i tabell A3 Kritisk verdi t α/2 = 1.694 for 32 df Feilmargin E = 1.694 0.1/ 34 = 0.029 Konfidensintervall: 0.903 < x < 0.961 Vi er 90% sikre på at gjennomsnittsvekta er mellom 0.903 og 0.961 gram

Konfidensintervall for gjennomsnittet µ Prosedyre 1 Sjekk at dataene er normalfordelte, eller at n > 30. 2 Med n 1 frihetsgrader, finn kritisk verdi t α/2 i tabell A3 3 Regn ut feilmargin E = t α/2 s/ n 4 Regn ut nedre grense x E og øvre grense x + E 5 Rund av til tre desimaler 6 Oppgi konfidensintervallet x E < µ < x + E

Hva er et konfidensintervall? Åpne scriptet confidence i folder Sample scripts Figur: Simulering av 100 95% konfidensintervall. 94 av dem inneholdt den sanne µ = 5.

Lengde på telefonsamtaler 1 Example Lengden på interne telefonsamtaler i en bedrift er normalfordelt Stikkprøve på 5 interne samtaler: 23, 25, 12, 30, 20 minutter. Lag et 95% konfidensintervall for gjennomsnittlig lengde på telefonsamtale i bedriften. Løsning 1 Regn ut x = 22.00 og s = 6.671 2 Finn t α/2 = 2.776 for 4 frihetsgrader. Tabell A3 3 Feilmarginen: E = 2.776 6.671 = 8.282 5 4 95% konfidensintervall for µ går ifra 22.00 8.282 til 22.40 + 8.282: 13.72 < µ < 30.28 5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom 13.72 og 30.28 minutter

Konfidensintervall i JMP Konfidensintervall i JMP Legg inn 23, 25, 12, 30, 20 i en kolonne i JMP Analyze > Distribution JMP oppgir 95% konfidensintervall for µ

Lengde på telefonsamtaler 2 Example I en annen bedrift har vi 4, 12, 10, 3, 5 og 8 minutter. Lag et 90% konfidensintervall for gjennomsnittlig samtaletid Løsning 1 Regn ut x = 7.00 og s = 3.578 2 Finn t α/2 = 2.015 for 5 frihetsgrader. Tabell A3 3 Feilmarginen: E = 2.015 3.578 = 2.94 6 4 95% konfidensintervall for µ går ifra 7.00 2.94 til 7.00 + 2.94: 4.06 < µ < 9.94 5 Vi er 95% sikre på at gjennomsnittlig samtaletid er mellom 4.06 og 9.94 minutter

Er lengden på telefonsamtaler normalfordelt? Forutsetninger for å bruke t-fordeling Stikkprøven må være tilfeldig utvalgt Originaldataene x er normalfordelt, eller n > 30 I eksemplene over har vi færre enn n = 30 objekter i stikkprøven Forutsatte derfor at lengden på telefonsamtaler var normalfordelt Det er mer sannsynlig at lengden er høyreskjev, siden det finnes en naturlig nedre skranke: 0 minutter for lengden Vi skulle nok hatt stikkprøve på minst 30 telefonlengder... Figur: Eksempel på høyreskjev fordeling. Reisetid til skolen for 1937 BI studenter

Norsk kundebarometer Example For variabelen Anbefale hos DnB NOR kunder: 54 menn: Gjennomsnitt: 5.426, Standardavvik: 2.618 37 kvinner: Gjennomsnitt 4.865, Standardavvik: 2.699 Finn 99% konfidensintervall for anbefalingsgjennomsnittet for mannlige og for kvinnelige DnB NOR kunder. Løsning: 1 Menn: t α/2 = 2.678 (runder ned til 50 df) og kvinner t α/2 = 2.719 2 Menn: E = 2.678 2.618/ 54 = 0.954. Kvinner: E = 2.719 2.699/ 37 = 1.206 3 Menn 99% konfidensintervall: 4.47 < µ M < 6.38 4 Kvinner 99% konfidensintervall:

Eksamensoppgaver Met 8006 vaaren 05

Eksamensoppgaver Met 8006 hoest 07