Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering TMA4245 Statistikk Kapittel 8.1-8.5. Kapittel 9.1-9.3+9.15 Turid.Follestad@math.ntnu.no p.1/21 Har sett på til no: Sannsyn, stokastiske variablar og sannsynsfordelingar (kap 2 & 3). Forventning, varians og kovarians (kap. 4). Nokre viktige sannsynsfordelingar, og situasjonar som gir opphav til desse (kap 5 og 6). Fordeling til funksjonar av stokastiske variablar (kap 7 og notat). Har fokusert på problemstillingar av typen: X f(x; θ), dvs. X har fordeling f(x; θ), med parameter θ. Finn E(X) og Var(X). Finn P(a < X b), P(X > a). MERK: Har antatt at vi kjenner parametrane i fordelinga! Vidare: Skal sjå på situasjonar med ukjente parametrar. TMA4245: Kapittel 8/9 p.2/21
Problemstilling, eksempel 1: Har ein industriell prosess som produserer eit produkt, ønskjer å vite andelen defekte artiklar, p. Sjekkar n artiklar, la X vere antal defekte. Antar at defekt opptrer uavhengig frå artikkel til artikkel, då er X b(x;n,p). Her er n kjent (vi bestemmer), men p ukjent. Ønskjer å bruke observert verdi for X til å seie noko om p. Husk at E(X) = np, s.a. p = E(X)/n. TMA4245: Kapittel 8/9 p.3/21 Problemstilling, eksempel 2: Vil studere levetida til ein elektronisk komponent. Testar n komponentar, la X i vere levetida til komponent i. Antar at levetidene er uavhengige og eksponensialfordelte, med forventning β: X 1 f(x;β) X 2 f(x;β). X n f(x;β) β er ukjent. Ønskjer å bruke observerte verdiar for X 1,X 2,...,X n til å seie noko om β. Husk at E(X) = β. TMA4245: Kapittel 8/9 p.4/21
8.1: Populasjon og tilfeldig utvalg DEF 8.1: Ein populasjon er mengda av observasjonar som vi ønskjer å studere, dvs. alle mulige observasjonar vi kan gjere. Dersom elementa i populasjonen har fordeling f(x), seier vi at vi har ein f(x)-populasjon. DEF 8.2: Eit utvalg er ei delmengde av ein populasjon. Representativt utvalg: Elementa som blir valde ut må ikkje berre representere ei delmengde av populasjonen med ein spesiell eigenskap, dei må kunne vere representantar for heile populasjonen. TMA4245: Kapittel 8/9 p.5/21 8.1: Populasjon og tilfeldig utvalg (forts.) DEF 8.3: La X 1,X 2,...,X n vere n uavhengige stokastiske variablar, med same sannsynsfordeling f(x). Vi seier då at X 1,X 2,...,X n er eit tilfeldig utvalg av storleik n frå f(x)-populasjonen. Den simultane sannsynsfordelinga for utvalget blir f(x 1,x 2,...,x n ) = f(x 1 )f(x 2 ) f(x n ) Merk: Seier at X 1,X 2,...,X n er uavhengige identisk fordelte (u.i.f.) stokastiske variablar. TMA4245: Kapittel 8/9 p.6/21
Eksempel (forts.) Eks. 1): Populasjonen: Alle artiklar som vert produserte (binomisk populasjon). Utvalget: Dei artiklane vi valde å sjekke for defekt. Eks. 2): Populasjonen: Alle elektroniske komponentar som vert produserte (eksponensial-populasjon). Utvalget: Dei komponentane som vert sjekka. TMA4245: Kapittel 8/9 p.7/21 Statistisk inferens Statistisk inferens: Seie noko generelt om ein populasjon basert på eit tilfeldig utvalg frå populasjonen. Sannsynlighetsregning Populasjon Utvalg Statistisk inferens - Punktestimering: Finne eit godt anslag/gjett for verdien av ein ukjent parameter. - Intervallestimering: Finne eit intervall som vi har stor grad av tillit til vil innehalde den sanne verdien av den ukjente parameteren. - Hypotesetesting: Teste om ein parameter har ein gitt verdi, eller ligg i eit gitt intervall, f.eks er p <= 0.05 (binomisk fordeling)? TMA4245: Kapittel 8/9 p.8/21
8.2 Nokre viktige observatorar Observator: Ein funksjon av stokastiske variablar som utgjer eit tilfeldig utvalg. Estimator: Ein observator som blir brukt som eit anslag/gjett for verdien av ein parameter. Eksempel på observatorar: La X 1, X 2,...,X n vere tilfeldig utvalg av storleik n Gjennomsnitt (DEF 8.5): X = 1 n n i=1 X i Median: X = X ( n+1 2 ) når n er oddetal 1 2 (X (n/2) + X (n/2+1) ) når n er partal Empirisk varians (DEF 8.6): S 2 = 1 n n 1 i=1 (X i X) 2 Empirisk standardavvik (DEF 8.7): n i=1 (X i X) 2 S = S 2 = 1 n 1 TMA4245: Kapittel 8/9 p.9/21 Kvantilar DEF 8.8: Ein kvantil til eit utvalg, q(f), er ein verdi der ein andel f av dataverdiane er mindre enn eller lik q(f). Medianen til utvalget er q(0.5), øvre kvartil (75% av data mindre enn eller lik) til utvalget er q(0.75) og nedre kvartil (25 % av data mindre enn eller lik) til utvalget er q(0.25). Kvantil i fordeling: Kan definere tilsvarande q [FORD] (0.5) som medianen i ei gitt fordeling, og generelt q [FORD] (a) for a [0, 1]. Dvs. dersom X f(x) er P(X q f(x) (a)) = a. TMA4245: Kapittel 8/9 p.10/21
Kvantil-kvantil-plott (QQ-plott) DEF 8.9: Eit normal QQ-plott (normalplott) er eit plott av y (i) (i te ordna observasjon) mot q N(0,1) (f i ), der f i = (ein justert variant av) i n. Viktig: dersom dataene er normalfordelte skal plottet vise ei rett linje. Kan brukast mot alle fordelingar, ved å bytte ut q N(0,1) med kvantilar i ønska fordeling. Kan også brukast til å samanlikne fordeling til to datasett. TMA4245: Kapittel 8/9 p.11/21 Normalplott Empirisk kumulativ fordeling er ˆF(x) = antal observasjonar mindre eller lik x n. Dersom dataene er normalfordelte ville vi forvente at ˆF(x) liknar på den kumulative fordelingsfunksjonen til normalfordelinga. FFemp 0.0 0.2 0.4 0.6 0.8 1.0 FFemp 0.0 0.2 0.4 0.6 0.8 1.0 9.20 9.22 9.24 9.26 9.28 9.30 9.32 sort(heatflow) 9.20 9.22 9.24 9.26 9.28 9.30 9.32 sort(heatflow) Kvar observasjon er eit punkt i diagrammet. Om vi justerer vi skalaen på y-aksen slik at det blir ein lineær samanheng når dataene er normalfordelte, får vi eit normalplott (bruker invers funksjon til kumulativ fordeling). Nokre byttar om på aksane. TMA4245: Kapittel 8/9 p.12/21
Normal QQ-plott Normal Q Q Plot Sample Quantiles 9.20 9.22 9.24 9.26 9.28 9.30 9.32 3 2 1 0 1 2 3 Theoretical Quantiles TMA4245: Kapittel 8/9 p.13/21 Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Eks: Høgde studentar Hogde, menn, V2006 (108) 150 160 170 180 190 200 210 Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Hogde, kvinner, V2006 (44) 150 160 170 180 190 200 210 Normal Q Q Plot Normal Q Q Plot Sample Quantiles 165 170 175 180 185 190 195 Sample Quantiles 160 165 170 175 180 185 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles TMA4245: Kapittel 8/9 p.14/21
8.5 Fordeling til gjennomsnittet X Normalfordeling: La X 1,X 2,...,X n vere eit tilfeldig utvalg frå n(x; µ, σ)-populasjonen. Då er X n( x;µ, σ n ). (Skriv også X N(µ, σ2 n )). TEO 8.2: Sentralgrenseteoremet. La X 1,X 2,...,X n vere eit tilfeldig utvalg frå ei fordeling med forventning µ og varians σ 2. Då har vi at sannsynsfordelinga til Z = X µ σ/ n går mot standard normalfordelinga, n(z; 0, 1), når n. TMA4245: Kapittel 8/9 p.15/21 Sentralgrenseteoremet TMA4245: Kapittel 8/9 p.16/21
9.3 Estimatorar, eksempel: Problem: Vil bestemme forventa levetid for ein elektronisk komponent. Gjer n målingar av levetider representert ved dei stokastiske variablane X 1, X 2,...,X n. Anta at X i er eksponensialfordelt med parameter β. s.a. f(x i ; β) = 1 β e 1 β x i, x i > 0, der β er ukjent forventa levetid. Anta at X 1, X 2,...,X n er uavhengige. X 1, X 2,...,X n u.i.f (tilfeldig utvalg av alle mulige levetidsmålingar). To estimatorar for β: ˆβ 1 = 1 n ˆβ 2 = n X i = X i=1 1 n 1 n i=1 X i Kva for ein estimator er best? TMA4245: Kapittel 8/9 p.17/21 Forventingsrett estimator DEF 9.1: Ein observator θ er ein forventningsrett estimator for parameteren θ dersom µ θ = E( θ) = θ. fx1 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 TMA4245: Kapittel 8/9 p.18/21
Mest effektive estimator DEF 9.2: Dersom vi ser på alle mulige forventningsrette estimatorar for ein parameter θ, kallar vi den med minst varians for den mest effektive estimatoren for θ. fx3 0.0 0.2 0.4 0.6 0.8 4 2 0 2 4 TMA4245: Kapittel 8/9 p.19/21 Sannsynssmaksimeringsestimatoren DEF 9.6: Anta at vi har uavhengige observasjonar x 1, x 2,..., x n frå ein sannsynstettleik (i det kontinuerlige tilfellet) eller eit punktsannsyn (i det diskrete tilfellet) f(x; θ). Då er sannsynsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x 2,..., x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ). TMA4245: Kapittel 8/9 p.20/21
SME: Generell framgangsmåte La X 1, X 2,...,X n vere tilfeldig utvalg frå populasjon med fordeling f(x; θ), med kjent parametrisk form, men ukjent parameter θ. Vil finne estimator for θ. 1. Finn simultanfordelinga for X 1, X 2,...,X n : f(x 1, x 2,...,x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ) = n i=1 f(x i; θ), og definer rimelighetsfunksjonen (funksjon av θ): L(x 1, x 2,...,x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ) = n i=1 f(x i; θ). 2. Ta naturlig logaritme (ln) til rimelighetsfunksjonen: l(x 1, x 2,...,x n ; θ) = lnl(x 1, x 2,...,x n ; θ) = n i=1 lnf(x i; θ). 3. Maksimér l(x 1, x 2,...,x n ; θ) med omsyn på θ ved å sette den deriverte lik 0 og løyse ut for θ. Dette blir sannsynsmaksimeringsestimatoren (SME) for θ. (sjekke at dette er maksimum (og ikkje minimum) ved å finne 2.deriverte og sjå at den er negativ.) 4. Konkludér ved å skrive opp estimatoren (som funksjon av dei stokastiske variablane X 1, X 2,...,X n ). TMA4245: Kapittel 8/9 p.21/21