Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Hypotesetestig / iferes (kap ) Itroduksjo Populasjo og utvalg Statistisk iferes Utvalgsfordelig (samplig distributio) Utvalgsfordelige til gjeomsittet Itroduksjo Vi øsker å få iformasjo om størrelsee i populasjoe, som forvetig og varias Må ofte øye oss med utvalg (tilfeldig trukket observasjoer) Hva ka vi trekke ut av iformasjo fra datasettet om Statistisk sigifikas Økoomisk sigifikas Sigifikat = forkaster ullhypotese om ige effekt Populasjo og utvalg Ata e tilfeldig variabel som bestemmes ut fra følgede sasylighetsfordelig X 5 6 8 p(x) 0, 0, 0, 0, Vi har bare utfall i dee fordelige, me vi ka ha milliovis av observasjoer av dee variabele Det vi ka si er at 0% av observasjoee vil være lik, 0% vil være lik 5, etc., i svært store utvalg. E populasjo ka karakteriseres av oe parametere (populasjosparametere) Populasjosgjeomsittet (forvetigsverdie), μ, er e populasjosparameter Populasjo og utvalg Sasylighetsfordelig X 5 6 8 p(x) 0, 0, 0, 0, Populasjosgjeomsittet i x p( x ) x p( x ) x p( x ) x p( x ) x p( x ) i i 0, 50, 6 0, 8 0, 6, Populasjosvarias E( X ) E( X ) x p( x ) i x p( x ) x p( x ) x p( x ) x p( x ) i i 0, 5 0, 6 0, 8 0, E( X ) (6,),0, Når vi samler i data for et utvalg så er det ikke sikkert vi får X =6, eller s=, Kaskje vi får 6,5 og,5? Ofte kjeer vi ikke populasjos-gjeomsittet eller -variase Da er 6,5 eller,5 det eeste vi har å forholde oss til Er aslagee/estimatee på X og s vi har fått fra datasettet gode (er vi ærme populasjosparametere?) 5 6

Figur. i Thomas: 50, X 6,0, s,56 50, X 6,0, s,5 50, X 6,, s,0 Utvalgsvariasjo Laoss tagjeomsittet fradisse tre dataisamligee 50, X 6,, s, Ved tilfeldige trekiger viløkt gibedre aslag påpopulasjosparameteree Store Talls Lov (STL) 7 8 0.....5 Nå er vi iteressert i et aslag på forvetigsverdier/ populasjosgjeomsittet 0.0.0.06.08. 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 0.0.0.06.08. 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 9 0 La oss gjøre «uedelig» mage trekiger hvor vi ved hver trekig bereger gjeomsitt. Lager deretter ett histogram av gjeomsittee. Legger så e fordelig på histogrammet. Utvalgsfordelige (samplig distributio) for gjeomsittee: 0 6 8 Utvalgsfordelige Vi ka utlede utvalgsfordelige ved å teke oss at vi ka gjøre eksperimetet svært mage gager Vi har jo bare tilgag på ett datasett (og ikke uedelig mage) Me vi ka baserte på teoretiske resultat si mye om estimatee være for gjeomsitt og varias (og mage adre størrelser) Utvalgsfordelige er svært viktig for hypotesetestig 6. 6. 6. 6.5 6.6 x

Teorem Dersom et tilfeldig utvalg av data på størrelse hetes fra e uedelig stor populasjo med forvetig μ og varias σ, vil utvalgsfordelige til utvalgsgjeomsittet (X ) ha gjeomsitt og varias lik E( X) ( E( X)) Implikasjoer Gjeomsitt fra utvalget (X ) er det beste aslaget på populasjosgjeomsittet Variase til variabele vår delt på vil være det beste aslaget på variase til gjeomsittee, Var(X ), som bestemmer utformige til utvalgsfordelige V( X) V( X) ( ) For variase til gjeomsittee, Var(X ), vil dee bli midre desto høyere Hvorda vil utvalgsfordelige se ut Utvalgsfordelige (til X ) vil bli tilærmet ormalfordelt dersom er stor, uavhegig av hvorda X er fordelt i utgagspuktet Setral-Grese-Teoremet (SGT) Utvalgsgjeomsittet (X ) er vært beste ESTIMAT for populasjosgjeomsittet (μ) Hvorda oppfører ESTIMATET seg? Det vil ha forvetig lik populasjosverdie, E(X )= μ Estimatet vil være ormalfordelt, E(X ) ~ N(.) Variase til estimatet vil bli midre jo høyere 5 6 Setralgreseteoremet år vi starter med uiform fordelig 0...6 Atall berege gjeomsitt = 0 0 5 50 55 0.05..5..5 Atall berege gjeomsitt = 0 0 5 50 55 60 0.05..5 Atall berege gjeomsitt = 00 5 0 5 50 55 60 X er her e uiform fordelt variabel, og vi ser på Xbar 0.05..5 Atall berege gjeomsitt = 500 5 0 5 50 55 60 0.0.0.06.08. Atall berege gjeomsitt = 000 5 0 5 50 55 60 0.0.0.06.08. Atall berege gjeomsitt = 0000 0 0 50 60 70 7 8

X er her e ormalfordelt variabel, og vi ser på Xbar Atall beregede gjeomsitt = 500, st.dev= 0.....5 Atall beregede gjeomsitt = 0 6 8 50 5 0... Atall beregede gjeomsitt = 0 6 8 50 5 5 0... Atall beregede gjeomsitt = 00 6 8 50 5 5 0.0.0.06.08. - - 0 Har este ige observasjoer (på gjeomsittet) som er legre e stadardavvik vekke fra gjeomsittet av gjeomsittee. 9 0 Example. Thomas Tilfeldig variabel X med E(X)=75 og V(X)=5, =80. Fi A. P(7 < X < 76) B. P(X > 00) C. P(X = 75) For å berege disse sasylighetee gjør vi om X til e stadard ormalfordelt variabel,, side vi har lett tilgjegelig tabell for beregig av areal og sasyligheter ( X ) ( X 75) ( X 75) / 5/80 0,56 (7 75) ( X 75) (76 75) Pr7 X 76 Pr 5/80 5/80 5/80 ( X 75) Pr 5/80 5/80 5/80 Pr,789,789 0,966 Se tabell ( X ) ( X 75) ( X 75) / 5/80 0,56 Pr(,79) 0,96 Pr(0,79) 0,96 0,5 0,6 Pr(,79,79) 0,6 0,966 (00 75) ( X 75) Pr00 X Pr 5/80 5/80 5 Pr 5/80 Pr,6 0 Ekeltobservasjoer av X ka godt være 00, me gjeomsittet fra e trekig ka ikke være 00 (populasjosgjeomsittet er 75). Sasylighete for det er tilærmet ull.

Oppsummerig så lagt -Populasjo og utvalg -Populasjosgjeomsittog estimatpådee - Var(X)er ikkedet sammesomvar(x)! - Var(X) Var(X)/ Var(X) stadardsavvik (stadard deviatio) Var(X) stadardfeil(stadard error) -Utvalgsfordelige tilgjeomsittet 5 6 Tetthet / desity 0.... 5% 65% Er ikke utekelig at økoomee rudt om i verde ikke vil edre si oppfatige av hva kosumtilbøyelighete er basert på mitt estimat på 0,8 Estimatet mitt vil ha støy (spesielt side jeg har gaske få observasjoer) og e skal være forsiktig med å dra for bastate koklusjoer basert på e studie Estimerig og testig av populasjosparametere Motivasjo Puktestimat Kofidesitervall Testig hypoteser om populasjosgjeomsitt Del. og. -.5 - -.5 - -.5 - -.5 0.5.5.5.5 7 8 Har brukt SGT til å berege sasyligheter rudt utvalgsgjeomsittet, år vi atar at populasjosgjeomsittet og variase, μ og σ, er kjet Valigvis er populasjosparametere ukjete Vi må derfor estimere (komme med aslag på) populasjosparametere fra data Vi skal se på puktestimat og kofidesitervall for populasjosgjeomsittet, μ De åpebare estimatore for μ er utvalgsgjeomsittet X X er e god estimator for μ, side vi vet at E(X )= μ I gjetatt forsøk (eller store utvalg) vil X i gjeomsitt være lik μ X vil sjelde være øyaktig lik μ, me vi gjør ige systematisk feil ved å bruke X Når E(X )= μ sier vi at det ikke er oe skjevhet (bias) i estimatore vår, og vi har e forvetigsrett estimator Estimat på populasjosvariase Vi kjeer heller ikke σ, som må estimeres med v. E aturlig estimator er i( Xi X) v I dette tilfellet har vi at estimatore er forvetigsskjev, fordi E(v ) σ Skjevhete er ikke stor og ka ordes ved å bruke i( Xi X) s hvor (-) er atall frihetsgrader (df), hvor df = atall allerede estimerte størrelser (i dette tilfellet utvalgsgjeomsittet) 9 0 5

Gjeomsitt og varias for utvalget Side aslagee på populasjosparametere (PP) våre er usikre (side de er basert gjeomsitt og varias fra et utvalg), ka vi lage et kofidesitervall? Itervallet må ikke være for vidt (for da har det ige iformasjo) Itervallet må ikke være for smalt (for da ka vi risikere at PP ikke ligger i itervallet) Lager et itervall hvor vi teoretisk sett er 95% sikre på at PP ligger i dette itervallet. Vi fier E, slik at Pr(X -E < μ < X +E) = 0,95 Utvalgsgjeomsitt vil være seter i itervallet, slik at CI = X ±E Sasyligheter for itervall Vi ka slå opp i tabelle vår for stadardisert tilfeldig variabel Setralgreseteoremet sier X X ~ N, ~ N(0,) / Vi treger da å fie Pr( k k) 0,95 Som gir,5% i hver hale i N(0,) Pr( k k) 0,95 Pr(,96,96) 0,95 Tetthet / desity 0.... 95% -.5%,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 5 95% kofidesitervall Pr(,96,96) 0,95 99% kofidesitervall Pr( k k) 0,95 Pr(,575,575) 0,99 X Pr(,96,96) 0,95 / Pr( X,96 X,96 ) 0,95 CI X,96 Bruker s slik at CI X,96 s 6 Tetthet / desity 0.... -0.5% 99% 7 0,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 6

Tolkig av CI Må ha stort utvalg for at resultatet (SGT) skal gjelde Normalfordelt utvalgsfuksjo CI gir sasylighete for at vi skal kokludere rett agåede μ i det lage løp Gir ikke iformasjo om e ekelt test som såda I de fleste tilfeller ligger μ i CI, me vi ka ikke være helt sikre Ete så kokluderer vi rett eller så kokluderer vi galt Hypotesetestig Vi gjør hypotesetestig om populasjosparametere, f.eks. μ Er μ=0? H 0 : μ=0 (ullhypotese) H A : μ 0 (alterativ hypotese) Ata først at X ~ N(0,) Fier X = - fra datasettet vårt Det er støy i data, så hvis μ=0, så er det likevel ikke utekelig at X = - Er X tilstrekkelig lagt vekke fra μ, så må vi forkaste ullhypotese om at μ=0 Hvor lagt fra μ må X være for at vi skal forkaste H 0? Valig: 5% forkastigsområdet Dvs dersom X < -,96 eller X >,96 så forkaster vi H 0 om μ=0 Sier da at μ er sigifikat forskjellig fra 0 Dvs dersom X > -,96 eller X <,96 så forkaster vi ikke H 0 om μ=0 I vårt tilfelle med X = - ka vi ikke forkaste H 0 0.... 95% -.5%,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 8 9 95% kofidesitervall esidig test Treger ikke å begrese oss til å teste μ=0 Itektsfordelig H 0 : μ = 7 670 H A : μ > 7 670 Fier X =7 890, s=08, =00 Tetthet / desity 0.... Pr( k) 0,95 Pr(,65) 0,99 95% 5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 0 Pr(,65) 0,95 X Pr,65 0,95 / X Kaller testobservator / X TS / Forkaster H dersom TS 0 kritisk verdi(,65) Ivårt tilfelle : X 7890 7670 TS,5 s / 08/ 00 Forkaster H fordi TS 0 Er ikludert ici? kritisk verdi(,65) Kofidesitervall for tosidig test : CI X,96 7

Hypotesetestig «Testobservatore er større e kritisk verdi, og vi forkaster derfor ullhypotese om at populasjosparametere er lik 60» «De estimerte størrelse er statistisk forskjellig fra 60 på 5%-ivået» Kritiske verdier (to-hale-test, ormalfordelige) %-ivået:,575 5%-ivået:,96 0%-ivået:,65 Kritiske verdier (e-hale-test, ormalfordelige) %-ivået:, 5%-ivået:,65 Oppsummerig Puktestimat Kofidesitervall Hypotesetestig for populasjosgjeomsitt 5 8