Forelesning 3, kapittel 6 Konfidensintervall for µ med ukjent σ (t intervall) Konfidensintervall for µ basert på n observasjoner fra uavhengige N( µ, σ) fordelinger når σ er kjent : Hvis σ er ukjent har vi ikke dette tallet å sette inn i formelen. Vi kan imidlertid regne ut det empiriske standardavviket s som punktestimat for σ. Det er likevel ikke nok å erstatte σ med s i formelen over. Dette skyldes at s ofte vil vli mindre enn σ, og da blir intervallet for smalt, og sannsynligheten for "bom" blir større. Riktignok kan s like gjerne bli større enn σ, men dette er ikke nok til å kompensere. Fraktilen z α/2 må erstattes med et større tall som vi betegner t α/2 : Konfidensintervall for µ basert på n observasjoner fra uavhengige N( µ, σ) fordelinger når σ er ukjent ( t intervall): (Formel (50) i avsnitt 3.2.2 i formelsamlinga) Tallet t α/2 kalles α/2 fraktilen i Students t fordeling med n 1 frihetsgrader. Dette tallet ka (for eksempel) finnes i tabell 5.3 i formelsamlinga. Dette blir snart forklart nærmere, men først et regneeksempel : 1
Eksempel: Vi skal se på 95% konfidensintervall for µ i det samme eksemplet som i forrige forelesning med kjent standardavvik. Det vil si at vi har målt motoreffekt på en bil 3 ganger og fått resultatene 106.9, 109.8 og 111.5 (hestekrefter). Vi skal anta at dette er uavhengige 3 observasjoner fra N( µ, σ) fordelinger, med samme µ (virkelig motoreffekt) og samme σ (måleunøyaktighet) for hver måling, men skal nå i motsetning til i forrige eksempel tenke oss at vi ikke kjenner standardavviket σ. Vi skal derfor bruke t intervall, altså formelen nå. Gjennomsnittet er fortsatt 109.4. Det empiriske standardavviket er Vi må også finne fraktilen t α/2, fra tabell 5.3. Vi har n 1 = 3 1 = 2 frihetgrader, og dette betyr at vi går inn på raden for 2 frihetsgrader. Siden vi skal ha 95% konfidenintervall, er 1 α =0.95, så α = 0.05 og dermed α/2=0.025, så vi går inn i kolonna for α = 0.025: Der finner vi t α/2 = 4.303, og vi har nå alle tallene vi trenger for å sette inn i formelen: Kommentar: Med kjent σ = 3 fikk vi et smalere intervall, <106.0, 112.8>, selv om vi fikk s=2.33 litt mindre enn "sann verdi" σ=3. Dette skyldes at t α/2 =4.303 er mye større enn z α/2 = 1.960. Det reflekterer det som generelt gjelder i Statistikk (og andre fagområder): Vi får mindre presise resultater (her: bredere konfidensintervall) når vi har mindre informasjon (vi kjenner ikke σ). 2
Litt om utledningen av formel for t intervall. Sentralt i utledningen av formelen for z intervall var fordelingsresultatet Noen viktige aspekter som fikk dette til å virke var at parameteren µ som vi skal ha konfidensintervall for er eneste ukjente parameter i Z, og Z har en kjent fordeling uten ukjente parametre. Når σ er ukjent bytter vi ut σ med det empiriske standardavviket s, og kaller brøken vi da får for T : T har heller ingen andre ukjente parametre enn µ. Vi. Vi trenger derfor fordelingen (sannsynlighetstettheten) til T, og dette lar seg gjøre. Den har fått navnet "Students t fordeling" 1. Den har en parameter som er et naturlig tall ({1,2,3,4...}), og i denne situasjonen er det n 1 som skal settes inn for dette. Det kalles da "Students t fordeling med n 1 frihetsgrader", og en skrivemåte for dette er Fotnote 1: Den første som regnet ut denne fordelingen og lagde fraktiltabell for den var engelskmannen William Gossett (1876 1937) omkring 1908. Han var en beskjeden mann som publiserte under pseudonymet "Student", og fordelingen fikk navn etter dette. 3
Grafen til sannsynlighetstettheten til students t fordeling med 1 frihetsgrad ( grønn kurve), 3 frihetsgrader ( gul kurve) og 8 frihetsgrader ( blå kurve), samt til standard normalfordeling ( rød kurve). Fordelingene er symmetrisk om y aksen (like funksjoner), og nærmer seg raskt standard normalfordeling når det blir mange frihetsgrader. For mer enn 30 frihetsgrader er det ingen praktisk forskjell på Students t fordeling og standard normalfordeling (som av og til kalles Students t fordeling med uendelig mange frihetsgrader). For å konstruere konfidensintervall med signifikansnivå 1 α, betrakter vi som er illustret i figuren til høyre (med α=0.05 og 2 frihetsgrader): Siden det er sannsynlighet (areal) 1 α for at utfallet av T blir mellom k og k, er sannsynligheten α for at utfallet blir utenfor (arealet av de fyllte, røde områdene). Da blir det α/2 på hver side (på grunn av symmetrien om y aksen), og dermed er k α/2 fraktilen, som vi betegner t α/2 Det vil si at α/2 1 α α/2 k k 4
Teknikken er nå å omforme dobbeltulikheten slik at µ blir stående aleine i midten, akkurat som for z intervaller: 1 2 3 4 5 Når vi så har gjort observasjonene kan vi regne ut utfallet av de stokastiske variablene og kaller utfallene og. og Da vil de stokastiske variablene og med sannsynlighet 1 α havne slik at µ ligger mellom dem. Vi kan nå regne ut hva utfallene ble, men siden det fremdeles er ukjent om utfallene ble slik at dem kan vi fortsatt bare vite at µ ligger mellom disse verdiene med sannsynlighet 1 α. Ved å sette disse utfallene som grenser for et intervall får vi da konfidensintervallet µ ligger mellom 5
Videre arbeid. Du kan godt begynne på oppgavene med t intervaller nå. Neste forelesning blir mer teknisk, der skal vi se litt mer på bakgrunnen for Students t fordeling. Dette innebærer også at vi skal se litt på kjikvadratfordeling, som blant annet brukes til konfidensintervall (og hypotesetesting) for standardavviket σ. 6