Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Like dokumenter
Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

TMA4240 Statistikk H2010

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kap. 8: Utvalsfordelingar og databeskrivelse

Forslag til endringar

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk H2017 [15]

(utarbeidet av Mette Langaas), TMA4245 V2007

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

Kapittel 2: Hendelser

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

TMA4240 Statistikk Eksamen desember 2015

Tilfeldig utvalg [8.1] U.i.f. Statistisk inferens. Kapittel 8 og 9

Dagens tekst. Kap 7: Funksjonar av stokastiske variable Transformasjon av variable Moment Momentgenererande funksjon

Kapittel 10: Hypotesetesting

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk Høst 2016

6.5 Normalapproksimasjon til. binomisk fordeling

STK Oppsummering

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk H2010

Utvalgsfordelinger (Kapittel 5)

Foreleses onsdag 13.oktober, 2010

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4245 Statistikk Eksamen desember 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

Eksamensoppgåve i TMA4240 Statistikk

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk H2010

STK Oppsummering

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4240 Statistikk H2010 (20)

TMA4245 Statistikk Eksamen desember 2016

Et lite notat om og rundt normalfordelingen.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

TMA4240 Statistikk H2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

TMA4240 Statistikk H2015

TMA4245 Statistikk Eksamen august 2014

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

6.1 Kontinuerlig uniform fordeling

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Et lite notat om og rundt normalfordelingen.

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

TMA4240 Statistikk Høst 2015

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

TMA4240 Statistikk H2010 (19)

Kapittel 4.4: Forventning og varians til stokastiske variable

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Kapittel 3: Studieopplegg

TMA4240 Statistikk H2010 (22)

Eksamensoppgåve i TMA4245 Statistikk

Fasit for tilleggsoppgaver

Kap. 6, Kontinuerlege Sannsynsfordelingar

UNIVERSITETET I OSLO Matematisk Institutt

Eksamensoppgave i TMA4240 Statistikk

Forelesning 3. april, 2017

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

6.2 Normalfordeling. Høyde kvinner og menn. 6.1 Kontinuerlig uniform fordeling. Kapittel 6

TMA4240 Statistikk H2010

Kapittel 9 og 10: Hypotesetesting

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

Oppfriskning av blokk 1 i TMA4240

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2007

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

FORMELSAMLING TIL STK1100 OG STK1110

Statistikk og dataanalyse

Kap. 6, Kontinuerlege Sannsynsfordelingar

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

TMA4240 Statistikk H2010 Kapittel 5: Diskrete sannsynlighetsfordelinger : Uniform, binomisk, hypergeometrisk fordeling

DEL 1 GRUNNLEGGENDE STATISTIKK

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger : Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

Transkript:

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering TMA4245 Statistikk Kapittel 8.1-8.5. Kapittel 9.1-9.3+9.15 Turid.Follestad@math.ntnu.no p.1/21 Har sett på til no: Sannsyn, stokastiske variablar og sannsynsfordelingar (kap 2 & 3). Forventning, varians og kovarians (kap. 4). Nokre viktige sannsynsfordelingar, og situasjonar som gir opphav til desse (kap 5 og 6). Fordeling til funksjonar av stokastiske variablar (kap 7 og notat). Har fokusert på problemstillingar av typen: X f(x; θ), dvs. X har fordeling f(x; θ), med parameter θ. Finn E(X) og Var(X). Finn P(a < X b), P(X > a). MERK: Har antatt at vi kjenner parametrane i fordelinga! Vidare: Skal sjå på situasjonar med ukjente parametrar. TMA4245: Kapittel 8/9 p.2/21

Problemstilling, eksempel 1: Har ein industriell prosess som produserer eit produkt, ønskjer å vite andelen defekte artiklar, p. Sjekkar n artiklar, la X vere antal defekte. Antar at defekt opptrer uavhengig frå artikkel til artikkel, då er X b(x;n,p). Her er n kjent (vi bestemmer), men p ukjent. Ønskjer å bruke observert verdi for X til å seie noko om p. Husk at E(X) = np, s.a. p = E(X)/n. TMA4245: Kapittel 8/9 p.3/21 Problemstilling, eksempel 2: Vil studere levetida til ein elektronisk komponent. Testar n komponentar, la X i vere levetida til komponent i. Antar at levetidene er uavhengige og eksponensialfordelte, med forventning β: X 1 f(x;β) X 2 f(x;β). X n f(x;β) β er ukjent. Ønskjer å bruke observerte verdiar for X 1,X 2,...,X n til å seie noko om β. Husk at E(X) = β. TMA4245: Kapittel 8/9 p.4/21

8.1: Populasjon og tilfeldig utvalg DEF 8.1: Ein populasjon er mengda av observasjonar som vi ønskjer å studere, dvs. alle mulige observasjonar vi kan gjere. Dersom elementa i populasjonen har fordeling f(x), seier vi at vi har ein f(x)-populasjon. DEF 8.2: Eit utvalg er ei delmengde av ein populasjon. Representativt utvalg: Elementa som blir valde ut må ikkje berre representere ei delmengde av populasjonen med ein spesiell eigenskap, dei må kunne vere representantar for heile populasjonen. TMA4245: Kapittel 8/9 p.5/21 8.1: Populasjon og tilfeldig utvalg (forts.) DEF 8.3: La X 1,X 2,...,X n vere n uavhengige stokastiske variablar, med same sannsynsfordeling f(x). Vi seier då at X 1,X 2,...,X n er eit tilfeldig utvalg av storleik n frå f(x)-populasjonen. Den simultane sannsynsfordelinga for utvalget blir f(x 1,x 2,...,x n ) = f(x 1 )f(x 2 ) f(x n ) Merk: Seier at X 1,X 2,...,X n er uavhengige identisk fordelte (u.i.f.) stokastiske variablar. TMA4245: Kapittel 8/9 p.6/21

Eksempel (forts.) Eks. 1): Populasjonen: Alle artiklar som vert produserte (binomisk populasjon). Utvalget: Dei artiklane vi valde å sjekke for defekt. Eks. 2): Populasjonen: Alle elektroniske komponentar som vert produserte (eksponensial-populasjon). Utvalget: Dei komponentane som vert sjekka. TMA4245: Kapittel 8/9 p.7/21 Statistisk inferens Statistisk inferens: Seie noko generelt om ein populasjon basert på eit tilfeldig utvalg frå populasjonen. Sannsynlighetsregning Populasjon Utvalg Statistisk inferens - Punktestimering: Finne eit godt anslag/gjett for verdien av ein ukjent parameter. - Intervallestimering: Finne eit intervall som vi har stor grad av tillit til vil innehalde den sanne verdien av den ukjente parameteren. - Hypotesetesting: Teste om ein parameter har ein gitt verdi, eller ligg i eit gitt intervall, f.eks er p <= 0.05 (binomisk fordeling)? TMA4245: Kapittel 8/9 p.8/21

8.2 Nokre viktige observatorar Observator: Ein funksjon av stokastiske variablar som utgjer eit tilfeldig utvalg. Estimator: Ein observator som blir brukt som eit anslag/gjett for verdien av ein parameter. Eksempel på observatorar: La X 1, X 2,...,X n vere tilfeldig utvalg av storleik n Gjennomsnitt (DEF 8.5): X = 1 n n i=1 X i Median: X = X ( n+1 2 ) når n er oddetal 1 2 (X (n/2) + X (n/2+1) ) når n er partal Empirisk varians (DEF 8.6): S 2 = 1 n n 1 i=1 (X i X) 2 Empirisk standardavvik (DEF 8.7): n i=1 (X i X) 2 S = S 2 = 1 n 1 TMA4245: Kapittel 8/9 p.9/21 Kvantilar DEF 8.8: Ein kvantil til eit utvalg, q(f), er ein verdi der ein andel f av dataverdiane er mindre enn eller lik q(f). Medianen til utvalget er q(0.5), øvre kvartil (75% av data mindre enn eller lik) til utvalget er q(0.75) og nedre kvartil (25 % av data mindre enn eller lik) til utvalget er q(0.25). Kvantil i fordeling: Kan definere tilsvarande q [FORD] (0.5) som medianen i ei gitt fordeling, og generelt q [FORD] (a) for a [0, 1]. Dvs. dersom X f(x) er P(X q f(x) (a)) = a. TMA4245: Kapittel 8/9 p.10/21

Kvantil-kvantil-plott (QQ-plott) DEF 8.9: Eit normal QQ-plott (normalplott) er eit plott av y (i) (i te ordna observasjon) mot q N(0,1) (f i ), der f i = (ein justert variant av) i n. Viktig: dersom dataene er normalfordelte skal plottet vise ei rett linje. Kan brukast mot alle fordelingar, ved å bytte ut q N(0,1) med kvantilar i ønska fordeling. Kan også brukast til å samanlikne fordeling til to datasett. TMA4245: Kapittel 8/9 p.11/21 Normalplott Empirisk kumulativ fordeling er ˆF(x) = antal observasjonar mindre eller lik x n. Dersom dataene er normalfordelte ville vi forvente at ˆF(x) liknar på den kumulative fordelingsfunksjonen til normalfordelinga. FFemp 0.0 0.2 0.4 0.6 0.8 1.0 FFemp 0.0 0.2 0.4 0.6 0.8 1.0 9.20 9.22 9.24 9.26 9.28 9.30 9.32 sort(heatflow) 9.20 9.22 9.24 9.26 9.28 9.30 9.32 sort(heatflow) Kvar observasjon er eit punkt i diagrammet. Om vi justerer vi skalaen på y-aksen slik at det blir ein lineær samanheng når dataene er normalfordelte, får vi eit normalplott (bruker invers funksjon til kumulativ fordeling). Nokre byttar om på aksane. TMA4245: Kapittel 8/9 p.12/21

Normal QQ-plott Normal Q Q Plot Sample Quantiles 9.20 9.22 9.24 9.26 9.28 9.30 9.32 3 2 1 0 1 2 3 Theoretical Quantiles TMA4245: Kapittel 8/9 p.13/21 Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Eks: Høgde studentar Hogde, menn, V2006 (108) 150 160 170 180 190 200 210 Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Hogde, kvinner, V2006 (44) 150 160 170 180 190 200 210 Normal Q Q Plot Normal Q Q Plot Sample Quantiles 165 170 175 180 185 190 195 Sample Quantiles 160 165 170 175 180 185 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles TMA4245: Kapittel 8/9 p.14/21

8.5 Fordeling til gjennomsnittet X Normalfordeling: La X 1,X 2,...,X n vere eit tilfeldig utvalg frå n(x; µ, σ)-populasjonen. Då er X n( x;µ, σ n ). (Skriv også X N(µ, σ2 n )). TEO 8.2: Sentralgrenseteoremet. La X 1,X 2,...,X n vere eit tilfeldig utvalg frå ei fordeling med forventning µ og varians σ 2. Då har vi at sannsynsfordelinga til Z = X µ σ/ n går mot standard normalfordelinga, n(z; 0, 1), når n. TMA4245: Kapittel 8/9 p.15/21 Sentralgrenseteoremet TMA4245: Kapittel 8/9 p.16/21

9.3 Estimatorar, eksempel: Problem: Vil bestemme forventa levetid for ein elektronisk komponent. Gjer n målingar av levetider representert ved dei stokastiske variablane X 1, X 2,...,X n. Anta at X i er eksponensialfordelt med parameter β. s.a. f(x i ; β) = 1 β e 1 β x i, x i > 0, der β er ukjent forventa levetid. Anta at X 1, X 2,...,X n er uavhengige. X 1, X 2,...,X n u.i.f (tilfeldig utvalg av alle mulige levetidsmålingar). To estimatorar for β: ˆβ 1 = 1 n ˆβ 2 = n X i = X i=1 1 n 1 n i=1 X i Kva for ein estimator er best? TMA4245: Kapittel 8/9 p.17/21 Forventingsrett estimator DEF 9.1: Ein observator θ er ein forventningsrett estimator for parameteren θ dersom µ θ = E( θ) = θ. fx1 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 TMA4245: Kapittel 8/9 p.18/21

Mest effektive estimator DEF 9.2: Dersom vi ser på alle mulige forventningsrette estimatorar for ein parameter θ, kallar vi den med minst varians for den mest effektive estimatoren for θ. fx3 0.0 0.2 0.4 0.6 0.8 4 2 0 2 4 TMA4245: Kapittel 8/9 p.19/21 Sannsynssmaksimeringsestimatoren DEF 9.6: Anta at vi har uavhengige observasjonar x 1, x 2,..., x n frå ein sannsynstettleik (i det kontinuerlige tilfellet) eller eit punktsannsyn (i det diskrete tilfellet) f(x; θ). Då er sannsynsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x 2,..., x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ). TMA4245: Kapittel 8/9 p.20/21

SME: Generell framgangsmåte La X 1, X 2,...,X n vere tilfeldig utvalg frå populasjon med fordeling f(x; θ), med kjent parametrisk form, men ukjent parameter θ. Vil finne estimator for θ. 1. Finn simultanfordelinga for X 1, X 2,...,X n : f(x 1, x 2,...,x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ) = n i=1 f(x i; θ), og definer rimelighetsfunksjonen (funksjon av θ): L(x 1, x 2,...,x n ; θ) = f(x 1 ; θ)f(x 2 ; θ) f(x n ; θ) = n i=1 f(x i; θ). 2. Ta naturlig logaritme (ln) til rimelighetsfunksjonen: l(x 1, x 2,...,x n ; θ) = lnl(x 1, x 2,...,x n ; θ) = n i=1 lnf(x i; θ). 3. Maksimér l(x 1, x 2,...,x n ; θ) med omsyn på θ ved å sette den deriverte lik 0 og løyse ut for θ. Dette blir sannsynsmaksimeringsestimatoren (SME) for θ. (sjekke at dette er maksimum (og ikkje minimum) ved å finne 2.deriverte og sjå at den er negativ.) 4. Konkludér ved å skrive opp estimatoren (som funksjon av dei stokastiske variablane X 1, X 2,...,X n ). TMA4245: Kapittel 8/9 p.21/21