TMA4240 Statistikk H2010 Statistisk inferens: 8.1: Tilfeldig utvalg 9.1-9.3: Estimering Mette Langaas Foreleses uke 40, 2010
2 Utfordring Ved en bedrift produseres en elektrisk komponent. Komponenten må oppfylle/etterleve visse kvalitetskrav. Bedriften har i en kort periode fått endel retur av defekte komponenter, flere enn tidligere, og er bekymret for at noe kan ha skjedd (dårligere kvalitet av råvarer, endringer i produksjonsprosesen). Bedriften har ikke mulighet til å kvalitetssjekke alle komponenter som produseres (destruktiv testing?). Hva vil du råde bedriften til å gjøre?
3 Statistisk inferens Vi ønsker å si noe generelt om en populasjon basert på et innsamlet tilfeldig utvalg fra populasjonen. Fra innsamling, bearbeiding, analyse og fortolkning av numeriske data og målinger: trekke slutninger utover det man har observert. Bakgrunn: vår kunnskap i sannsynlighetsregning.
4 Tilfeldig utvalg [8.1] DEF 8.1: En populasjon er mengden av observasjoner som vi ønsker å studere, dvs. alle observasjoner det er mulig å gjøre. (Dersom elementene i populasjonen har fordeling f (x), kaller boka det en f (x)-populasjon.) DEF 8.2: En utvalg er en delmengde av en populasjon. Representativt utvalg: elementene som velges ut må ikke bare representere en delmengde av populasjonen som alle har en spesiell egenskap, de må kunne være representanter for hele populasjonen. Uendelig populasjon: vi skal jobbe som om populasjonen vår er uendelig stor!
5 U.i.f DEF 8.3: La X 1, X 2,..., X n være n uavhengige stokastiske variable, hver med den samme sannsynlighetsfordeling f (x). Vi definerer at X 1, X 2,..., X n er et tilfeldig utvalg av størrelse n fra f (x)-populasjonen og skriver den simultane sannsynlighetsfordelingen som f (x 1, x 2,..., x n ) = f (x 1 )f (x 2 ) f (x n ) U.i.f: et tilfeldig utvalg (som over) blir da et sett med uavhengige identisk fordelte (u.i.f.) observasjoner.
6 Estimering og hypotesetesting Fenomen Defekte produkter i industriell prosess Mengden melk i melkekartong Hva vil vi vite? ESTIMERING: Hva er andelen defekte? HYPOTESETESTING: Er det 1 liter melk i en 1 liters melkekartong? Populasjon Alle produkter i prosessen. Alle melkekartonger levert. Utføre eksperiment Samler inn data uavhengig, representativt? Stokastisk variabel med fordeling Vi får: Undersøke produkt, er det defekt eller ikke? Sjekker n artikler og lar X være antall defekte. Vi finner x defekte. X er binomisk fordelt med n forsøk og ukjent sannsynlighet for defekt p. Finne beste anslag for p og et intervall der vi har stor tillit til at p ligger (konfidensintervall). Undersøke melkekartong, hvor mye melk inneholder den? Sjekker n melkekartonger, måler for hver melkekartong X= mengden melk. X er normalfordelt med ukjent forventning µ og ukjent varians σ 2. Finne beste anslag av µ og σ 2, og bruke anslagene (med grad av tillit) til å si hvor sikre vi er på at det er 1 liter melk i melkekartongen.
7 Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling. Vi trekker et tilfeldig utvalg fra populasjonen; X 1, X 2,..., X n (u.i.f.). En estimator gir et anslag for den ukjente parameteren og er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X 2,..., X n ). Hvilke egenskaper bør en god estimator ha? Estimatoren bør være forventningsrett, dvs. E(ˆθ) = θ. Estimatoren bør ha minst mulig varians, Var(ˆθ), og variansen bør avta når antall observasjoner, n, øker. Hvordan kan vi finne estimatorer? ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet!
8 Forventingsrett estimator DEF 9.1: En observator θ er en forventningsrett estimator for parameteren θ hvis E( θ) = θ.
9 E(S 2 ) (se også læreboka) (X i X) 2 = = = = (X i µ + µ X) 2 = [(X i µ) ( X µ)] 2 (X i µ) 2 2( X µ) (X i µ) + n( X µ) 2 (X i µ) 2 2( X µ)n( X µ) + n( X µ) 2 (X i µ) 2 n( X µ) 2 E(S 2 ) = 1 E[ (X i X) 2 ] = 1 n 1 n 1 {E[ (X i µ) 2 ] E[n( X µ) 2 ]} = 1 n 1 [ Var(X i ) nvar( X)] = 1 n 1 [ σ 2 n σ2 n ] = 1 n 1 (nσ2 σ 2 ) = σ 2
10 Mest effektive estimator DEF 9.2: Hvis vi ser på alle mulige forventningsrette estimatorene for en parameter θ, kaller vi den med minst varians for den mest effektive estimatoren til θ.
11 Eksamen, juni 2004, 1c Et av spørsmålene som regnes å være av delvis sensitiv natur er hvor gammel er du?. En gruppe på n personer ble stilt dette spørsmålet, deretter ble svarene registrert og sammenlignet med informasjon i offentlige registre. La X være en stokastisk variabel som angir antall personer som lyver blant n personer, og la p være sannsynligheten for at en person lyver. Under hvilke antagelser vil X være binomisk fordelt? Vi antar nå at p er ukjent. For å estimere p er det foreslått to estimatorer, ˆp = X og p = X n n 1. Finn forventningsverdi og varians til hver av estimatorene ˆp og p. Hvilke to egenskaper kjennetegner en god estimator? Hvilken av estimatorene ˆp og p vil du foretrekke? Begrunn svaret.
12 SME [9.15] DEF 9.6: Gitt uavhengige observasjoner x 1, x 2,..., x n fra en sannsynlighetstetthet (i det kontinuerlige tilfellet) eller en punktsannsynlighet (i det diskrete tilfellet) f (x; θ). Da er sannsynlighetsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x 2,..., x n, θ) = f (x 1 ; θ) f (x 2 ; θ) f (x n ; θ).