Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Like dokumenter
Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

ECON240 Statistikk og økonometri

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

Kap. 9: Inferens om én populasjon

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Kap. 9: Inferens om én populasjon

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

Kapittel 8: Estimering

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Mer om utvalgsundersøkelser

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen mai 2017

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Oppgaver fra boka: X 2 X n 1

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

MOT310 Statistiske metoder 1, høsten 2011

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Estimering 1 -Punktestimering

Econ 2130 Forelesning uke 11 (HG)

Estimering 1 -Punktestimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

TMA4240 Statistikk Høst 2016

Løsningsforslag Oppgave 1

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Hypotesetesting, del 4

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

TMA4240 Statistikk Høst 2009

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

MOT310 Statistiske metoder 1, høsten 2012

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4245 Statistikk Eksamen august 2015

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

STK1100 våren 2017 Estimering

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

Estimering 2. -Konfidensintervall

Løsning TALM1005 (statistikkdel) juni 2017

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 20. mai 2008

Lineær regresjonsanalyse (13.4)

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Løsningsforslag ST2301 øving 3

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

TMA4245 Statistikk Eksamen 9. desember 2013

Løsningsforslag til eksamen i STK desember 2010

TMA4240 Statistikk H2010

«Uncertainty of the Uncertainty» Del 4 av 6

ST1201 Statistiske metoder

Oversikt over konfidensintervall i Econ 2130

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

TMA4240/4245 Statistikk 11. august 2012

Populasjon, utvalg og estimering

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Oversikt over konfidensintervall i Econ 2130

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Forelesning Moment og Momentgenererende funksjoner

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Skrivne og trykte hjelpemiddel samt kalkulator er tillate. Ta med all mellomrekning som trengst for å grunngje svaret.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Oversikt, del 5. Vi har sett på styrkefunksjon for ensidige tester. Eksempler (styrke, dimensjonering,...) Eksempler fra slutten av forrige uke

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Eksamen REA3028 S2, Våren 2012

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Eksempler fra slutten av forrige uke. Eksempler (styrke, dimensjonering,...) Eksempler fra slutten av forrige uke

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

Transkript:

Hypotesetestig / iferes (kap ) Itroduksjo Populasjo og utvalg Statistisk iferes Utvalgsfordelig (samplig distributio) Utvalgsfordelige til gjeomsittet Itroduksjo Vi øsker å få iformasjo om størrelsee i populasjoe, som forvetig og varias Må ofte øye oss med utvalg (tilfeldig trukket observasjoer) Hva ka vi trekke ut av iformasjo fra datasettet om Statistisk sigifikas Økoomisk sigifikas Sigifikat = forkaster ullhypotese om ige effekt Populasjo og utvalg Ata e tilfeldig variabel som bestemmes ut fra følgede sasylighetsfordelig X 5 6 8 p(x) 0, 0, 0, 0, Vi har bare utfall i dee fordelige, me vi ka ha milliovis av observasjoer av dee variabele Det vi ka si er at 0% av observasjoee vil være lik, 0% vil være lik 5, etc., i svært store utvalg. E populasjo ka karakteriseres av oe parametere (populasjosparametere) Populasjosgjeomsittet (forvetigsverdie), μ, er e populasjosparameter Populasjo og utvalg Sasylighetsfordelig X 5 6 8 p(x) 0, 0, 0, 0, Populasjosgjeomsittet i x p( x ) x p( x ) x p( x ) x p( x ) x p( x ) i i 0, 50, 6 0, 8 0, 6, Populasjosvarias E( X ) E( X ) x p( x ) i x p( x ) x p( x ) x p( x ) x p( x ) i i 0, 5 0, 6 0, 8 0, E( X ) (6,),0, Når vi samler i data for et utvalg så er det ikke sikkert vi får X =6, eller s=, Kaskje vi får 6,5 og,5? Ofte kjeer vi ikke populasjos-gjeomsittet eller -variase Da er 6,5 eller,5 det eeste vi har å forholde oss til Er aslagee/estimatee på X og s vi har fått fra datasettet gode (er vi ærme populasjosparametere?) 5 6

Figur. i Thomas: 50, X 6,0, s,56 50, X 6,0, s,5 50, X 6,, s,0 Utvalgsvariasjo Laoss tagjeomsittet fradisse tre dataisamligee 50, X 6,, s, Ved tilfeldige trekiger viløkt gibedre aslag påpopulasjosparameteree Store Talls Lov (STL) 7 8 0.....5 Nå er vi iteressert i et aslag på forvetigsverdier/ populasjosgjeomsittet 0.0.0.06.08. 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 0.0.0.06.08. 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 6. 6. 6. 6.5 6.6 Fordelig av gjeomsittee fra trekigee 9 0 La oss gjøre «uedelig» mage trekiger hvor vi ved hver trekig bereger gjeomsitt. Lager deretter ett histogram av gjeomsittee. Legger så e fordelig på histogrammet. Utvalgsfordelige (samplig distributio) for gjeomsittee: 0 6 8 Utvalgsfordelige Vi ka utlede utvalgsfordelige ved å teke oss at vi ka gjøre eksperimetet svært mage gager Vi har jo bare tilgag på ett datasett (og ikke uedelig mage) Me vi ka baserte på teoretiske resultat si mye om estimatee være for gjeomsitt og varias (og mage adre størrelser) Utvalgsfordelige er svært viktig for hypotesetestig 6. 6. 6. 6.5 6.6 x

Teorem Dersom et tilfeldig utvalg av data på størrelse hetes fra e uedelig stor populasjo med forvetig μ og varias σ, vil utvalgsfordelige til utvalgsgjeomsittet (X ) ha gjeomsitt og varias lik E( X) ( E( X)) Implikasjoer Gjeomsitt fra utvalget (X ) er det beste aslaget på populasjosgjeomsittet Variase til variabele vår delt på vil være det beste aslaget på variase til gjeomsittee, Var(X ), som bestemmer utformige til utvalgsfordelige V( X) V( X) ( ) For variase til gjeomsittee, Var(X ), vil dee bli midre desto høyere Hvorda vil utvalgsfordelige se ut Utvalgsfordelige (til X ) vil bli tilærmet ormalfordelt dersom er stor, uavhegig av hvorda X er fordelt i utgagspuktet Setral-Grese-Teoremet (SGT) Utvalgsgjeomsittet (X ) er vært beste ESTIMAT for populasjosgjeomsittet (μ) Hvorda oppfører ESTIMATET seg? Det vil ha forvetig lik populasjosverdie, E(X )= μ Estimatet vil være ormalfordelt, E(X ) ~ N(.) Variase til estimatet vil bli midre jo høyere 5 6 Setralgreseteoremet år vi starter med uiform fordelig 0...6 Atall berege gjeomsitt = 0 0 5 50 55 0.05..5..5 Atall berege gjeomsitt = 0 0 5 50 55 60 0.05..5 Atall berege gjeomsitt = 00 5 0 5 50 55 60 X er her e uiform fordelt variabel, og vi ser på Xbar 0.05..5 Atall berege gjeomsitt = 500 5 0 5 50 55 60 0.0.0.06.08. Atall berege gjeomsitt = 000 5 0 5 50 55 60 0.0.0.06.08. Atall berege gjeomsitt = 0000 0 0 50 60 70 7 8

X er her e ormalfordelt variabel, og vi ser på Xbar Atall beregede gjeomsitt = 500, st.dev= 0.....5 Atall beregede gjeomsitt = 0 6 8 50 5 0... Atall beregede gjeomsitt = 0 6 8 50 5 5 0... Atall beregede gjeomsitt = 00 6 8 50 5 5 0.0.0.06.08. - - 0 Har este ige observasjoer (på gjeomsittet) som er legre e stadardavvik vekke fra gjeomsittet av gjeomsittee. 9 0 Example. Thomas Tilfeldig variabel X med E(X)=75 og V(X)=5, =80. Fi A. P(7 < X < 76) B. P(X > 00) C. P(X = 75) For å berege disse sasylighetee gjør vi om X til e stadard ormalfordelt variabel,, side vi har lett tilgjegelig tabell for beregig av areal og sasyligheter ( X ) ( X 75) ( X 75) / 5/80 0,56 (7 75) ( X 75) (76 75) Pr7 X 76 Pr 5/80 5/80 5/80 ( X 75) Pr 5/80 5/80 5/80 Pr,789,789 0,966 Se tabell ( X ) ( X 75) ( X 75) / 5/80 0,56 Pr(,79) 0,96 Pr(0,79) 0,96 0,5 0,6 Pr(,79,79) 0,6 0,966 (00 75) ( X 75) Pr00 X Pr 5/80 5/80 5 Pr 5/80 Pr,6 0 Ekeltobservasjoer av X ka godt være 00, me gjeomsittet fra e trekig ka ikke være 00 (populasjosgjeomsittet er 75). Sasylighete for det er tilærmet ull.

Oppsummerig så lagt -Populasjo og utvalg -Populasjosgjeomsittog estimatpådee - Var(X)er ikkedet sammesomvar(x)! - Var(X) Var(X)/ Var(X) stadardsavvik (stadard deviatio) Var(X) stadardfeil(stadard error) -Utvalgsfordelige tilgjeomsittet 5 6 Tetthet / desity 0.... 5% 65% Er ikke utekelig at økoomee rudt om i verde ikke vil edre si oppfatige av hva kosumtilbøyelighete er basert på mitt estimat på 0,8 Estimatet mitt vil ha støy (spesielt side jeg har gaske få observasjoer) og e skal være forsiktig med å dra for bastate koklusjoer basert på e studie Estimerig og testig av populasjosparametere Motivasjo Puktestimat Kofidesitervall Testig hypoteser om populasjosgjeomsitt Del. og. -.5 - -.5 - -.5 - -.5 0.5.5.5.5 7 8 Har brukt SGT til å berege sasyligheter rudt utvalgsgjeomsittet, år vi atar at populasjosgjeomsittet og variase, μ og σ, er kjet Valigvis er populasjosparametere ukjete Vi må derfor estimere (komme med aslag på) populasjosparametere fra data Vi skal se på puktestimat og kofidesitervall for populasjosgjeomsittet, μ De åpebare estimatore for μ er utvalgsgjeomsittet X X er e god estimator for μ, side vi vet at E(X )= μ I gjetatt forsøk (eller store utvalg) vil X i gjeomsitt være lik μ X vil sjelde være øyaktig lik μ, me vi gjør ige systematisk feil ved å bruke X Når E(X )= μ sier vi at det ikke er oe skjevhet (bias) i estimatore vår, og vi har e forvetigsrett estimator Estimat på populasjosvariase Vi kjeer heller ikke σ, som må estimeres med v. E aturlig estimator er i( Xi X) v I dette tilfellet har vi at estimatore er forvetigsskjev, fordi E(v ) σ Skjevhete er ikke stor og ka ordes ved å bruke i( Xi X) s hvor (-) er atall frihetsgrader (df), hvor df = atall allerede estimerte størrelser (i dette tilfellet utvalgsgjeomsittet) 9 0 5

Gjeomsitt og varias for utvalget Side aslagee på populasjosparametere (PP) våre er usikre (side de er basert gjeomsitt og varias fra et utvalg), ka vi lage et kofidesitervall? Itervallet må ikke være for vidt (for da har det ige iformasjo) Itervallet må ikke være for smalt (for da ka vi risikere at PP ikke ligger i itervallet) Lager et itervall hvor vi teoretisk sett er 95% sikre på at PP ligger i dette itervallet. Vi fier E, slik at Pr(X -E < μ < X +E) = 0,95 Utvalgsgjeomsitt vil være seter i itervallet, slik at CI = X ±E Sasyligheter for itervall Vi ka slå opp i tabelle vår for stadardisert tilfeldig variabel Setralgreseteoremet sier X X ~ N, ~ N(0,) / Vi treger da å fie Pr( k k) 0,95 Som gir,5% i hver hale i N(0,) Pr( k k) 0,95 Pr(,96,96) 0,95 Tetthet / desity 0.... 95% -.5%,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 5 95% kofidesitervall Pr(,96,96) 0,95 99% kofidesitervall Pr( k k) 0,95 Pr(,575,575) 0,99 X Pr(,96,96) 0,95 / Pr( X,96 X,96 ) 0,95 CI X,96 Bruker s slik at CI X,96 s 6 Tetthet / desity 0.... -0.5% 99% 7 0,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 6

Tolkig av CI Må ha stort utvalg for at resultatet (SGT) skal gjelde Normalfordelt utvalgsfuksjo CI gir sasylighete for at vi skal kokludere rett agåede μ i det lage løp Gir ikke iformasjo om e ekelt test som såda I de fleste tilfeller ligger μ i CI, me vi ka ikke være helt sikre Ete så kokluderer vi rett eller så kokluderer vi galt Hypotesetestig Vi gjør hypotesetestig om populasjosparametere, f.eks. μ Er μ=0? H 0 : μ=0 (ullhypotese) H A : μ 0 (alterativ hypotese) Ata først at X ~ N(0,) Fier X = - fra datasettet vårt Det er støy i data, så hvis μ=0, så er det likevel ikke utekelig at X = - Er X tilstrekkelig lagt vekke fra μ, så må vi forkaste ullhypotese om at μ=0 Hvor lagt fra μ må X være for at vi skal forkaste H 0? Valig: 5% forkastigsområdet Dvs dersom X < -,96 eller X >,96 så forkaster vi H 0 om μ=0 Sier da at μ er sigifikat forskjellig fra 0 Dvs dersom X > -,96 eller X <,96 så forkaster vi ikke H 0 om μ=0 I vårt tilfelle med X = - ka vi ikke forkaste H 0 0.... 95% -.5%,5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 8 9 95% kofidesitervall esidig test Treger ikke å begrese oss til å teste μ=0 Itektsfordelig H 0 : μ = 7 670 H A : μ > 7 670 Fier X =7 890, s=08, =00 Tetthet / desity 0.... Pr( k) 0,95 Pr(,65) 0,99 95% 5% - -.5 - -.5 - -.5 - -.5 0.5.5.5.5 0 Pr(,65) 0,95 X Pr,65 0,95 / X Kaller testobservator / X TS / Forkaster H dersom TS 0 kritisk verdi(,65) Ivårt tilfelle : X 7890 7670 TS,5 s / 08/ 00 Forkaster H fordi TS 0 Er ikludert ici? kritisk verdi(,65) Kofidesitervall for tosidig test : CI X,96 7

Hypotesetestig «Testobservatore er større e kritisk verdi, og vi forkaster derfor ullhypotese om at populasjosparametere er lik 60» «De estimerte størrelse er statistisk forskjellig fra 60 på 5%-ivået» Kritiske verdier (to-hale-test, ormalfordelige) %-ivået:,575 5%-ivået:,96 0%-ivået:,65 Kritiske verdier (e-hale-test, ormalfordelige) %-ivået:, 5%-ivået:,65 Oppsummerig Puktestimat Kofidesitervall Hypotesetestig for populasjosgjeomsitt 5 8