Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Like dokumenter
Kap. 9: Inferens om én populasjon

Kap. 9: Inferens om én populasjon

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Lineær regresjonsanalyse (13.4)

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

ECON240 Statistikk og økonometri

Kapittel 8: Estimering

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

MOT310 Statistiske metoder 1, høsten 2011

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

TMA4240/4245 Statistikk 11. august 2012

Løsningsforslag Oppgave 1

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

TMA4240 Statistikk Høst 2009

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4245 Statistikk Eksamen mai 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

Løsningsforslag til eksamen i STK desember 2010

Løsningsforslag ST2301 øving 3

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Statistikk og økonomi, våren 2017

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Econ 2130 Forelesning uke 11 (HG)

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Oversikt over konfidensintervall i Econ 2130

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen august 2015

TMA4240 Statistikk H2010

TMA4240 Statistikk Eksamen desember 2015

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

Hypotesetesting, del 4

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

Oversikt over konfidensintervall i Econ 2130

Estimering 1 -Punktestimering

Estimering 1 -Punktestimering

Kapittel 7: Noen viktige sannsynlighetsfordelinger

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Testobservator for kjikvadrattester

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen 9. desember 2013

Løsning TALM1005 (statistikkdel) juni 2017

MOT310 Statistiske metoder 1, høsten 2012

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

ST1201 Statistiske metoder

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

TMA4245 Statistikk Vår 2015

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 20. mai 2008

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

Oppgaver fra boka: X 2 X n 1

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

LØSNING: Eksamen 28. mai 2015

STK1100 våren 2017 Estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Noen viktige sannsynlighetsmodeller. Binomisk modell. Kp. 3 Diskrete tilfeldige variable

TMA4240 Statistikk 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Oversikt over konfidensintervall i Econ 2130

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).

Transkript:

2 Kort reetisjo fra kaittel 4 Betiget sasylighet og trediagram Eksemel: Fra e oulasjo av idrettsfolk trekkes e erso tilfeldig og testes for doig. De iteressate hedelsee er D=ersoe er doet, A=teste er ositiv. ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Det er kjet at P(D) =0.01, P(A D) =0.95, P(A D) =0.02. Vi øsker P(D A) =sasylighete for at ersoe er doet gitt e ositiv test. Formel: P(D A) = P(A og D) P(A) Løsig: P(D)=0.01 P(D )=0.99 D D P(A D)=0.95 P(A D)=0.05 P(A D )=0.02 P(A D )=0.98 Gre Utfall P A 1 (D,A) 0.0095 A 2 (D,A ) 0.0005 A 3 (D,A) 0.0198 A 4 (D,A ) 0.9702 (Her betyr A det samme som Ā, komlemetet til A dvs. at A ikke itreffer). P(D A) = = P(D oga) = 1 P(A) 1 + 3 0.0095 0.0095 + 0.0198 = 0.32 4 Osummerig kaittel 5-13 Tilfeldig variabel: E variabel som har e (uik) umerisk verdi for hvert utfall i utfallsrommet. Sasylighetsfordelige til e diskret tilfeldig variabel: De mulige verdiee de tilfeldige variabele ka ta, samme med tilhørede sasyligheter for disse verdiee. Sasylighetsfordelige gir dermed verdier P(x) for alle mulige verdier av x.

P(x) tilfredstiller 1. 0 P(x) 1 2. P(x) =1 Forvetig til e diskret tilfeldig variabel: μ = [xp(x)] Varias til e diskret tilfeldig variabel: σ 2 = [(x μ) 2 P(x)] = [x 2 P(x)] μ 2 Stadardavvik: σ = σ 2 6 Biomisk fordelig 1. Vi har idetiske uavhegige forsøk. 2. Hvert forsøk har to mulige utfall (suksess,fiasko). 3. P( suksess )= og P( fiasko )=q i alle forsøk. 4. De tilfeldige variabele x er atall suksesser blat de forsøkee. Da er x biomisk fordelt med forsøk og suksessasylighet. Sasylighetsfordelige til x: ( ) P(x) = ( x )(q x ) for x = 0, 1, 2,..., x μ = σ = q 7 Normalfordelig De mest brukte sasylighetsfordelige for kotiuerlige tilfeldige variable. Beskrives med e kurve kalt sasylighetstetthet, bestemt av arametree forvetig μ og stadardavvik σ. Normaltetthete er symmetrisk om forvetige μ P(a < x < b) = arealet uder kurve mellom a og b, som er lik det skraverte området å figure uder. 8 Stadard ormalfordelig (μ = 0 og σ = 1) Sasyligheter for stadard ormalfordelige fies ved hjel av Tabell 3. Hvis x er ormalfordelt med forvetig μ og stadardavvik σ, er z = x μ σ stadard ormalfordelt. Sasyligheter for x bereges fra Tabell 3 ved å bruke formele P(a < x < b) =P( a μ σ < z < b μ σ )

9 Kritisk verdi Notasjo: z(α) er de verdie av z som er slik at areal α ligger til høyre, dvs. P(Z > z(α)) = α 10 Normalfordelig som tilærmig til biomisk fordelig Situasjo: x er biomisk fordelt med 5 og q 5. Da ka vi rege ut sasyligheter for x ved å bruke at z = x q er tilærmet stadard ormalfordelt. z(α) kalles kritisk verdi i forbidelse med hyotesetestig. Verdier av z(α) er gitt i Tabell 4A. 11 Statistisk iferes med é oulasjo 12 Puktestimerig Situasjo: Et tilfeldig utvalg av størrelse er trukket fra e oulasjo med forvetig μ og stadardavvik σ. La x være utvalgsgjeomsittet. For tilstrekkelig stor er tilærmet stadard ormalfordelt. z = x μ σ/ Puktestimerig: Ma aslår verdie av arametere med ett tall. Parameter μ x = σ s = Puktestimat x x 2 ( x) 2 / 1 σ 2 s 2 = Σx 2 ( x) 2 / 1 ˆ = x

13 Kofidesitervall for μ Et 1 α kofidesitervall for μ år σ er kjet er gitt ved ( x z(α/2) σ, x + z(α/2) σ ) 1 α kalles kofidesivået. σ kalles stadardfeile ( stadard error ) for gjeomsittet x. z(α/2) kalles kofideskoeffisiete. z(α/2) σ kalles maksimum feil for estimatet ( maximum error of estimate ), beteget E. Atall observasjoer som er ødvedig for å få e bestemt maksimal feil E: ( ) z(α/2)σ 2 = E 14 Hyotesetestig Nullhyotese H 0 : Riktig itil det motsatte er bevist. Alterativ hyotese H a : Må bevises, årsake til udersøkelse. De to mulige avgjørelser er 1. Ikke forkaste H 0 2. Forkaste H 0 og åstå H a Tye I-feil: Forkaste e korrekt H 0 Tye II-feil: Ikke forkaste uriktig H 0 Sigifikasivå α=p(tye I-feil) 15 Hyotesetestig om μ år σ er kjet H 0 : μ = μ 0 mot H a : μ>μ 0 Forkast H 0 og åståh a hvis z = x μ 0 σ/ > z(α) -verdi: Sasylighete for det observerte resultatet eller oe mer ekstremt i retig H a hvis H 0 er korrekt. 16 Iferes om μ år σ er ukjet Samme metode som over bortsett fra: 1. Bytt ut σ med s 2. Bytt ut z(α) med t(df,α) med df = 1 der t(df,α) er kritisk verdi i t-fordelige med df frihetsgrader. P(t > t(df,α)) = α H 0 H a Forkast H 0 dersom -verdi μ = μ 0 μ>μ 0 z > z(α) P(z > z ) μ = μ 0 μ<μ 0 z < z(α) P(z < z ) μ = μ 0 μ μ 0 z > z(α/2) P( z > z ) Tabell 6 gir verdier for t(df,α).

17 Iferes om, adel i oulasjoe Situasjo: x er biomisk fordelt med forsøk og suksessasylighet. Puktestimat for : Vi bruker at = x z = q er tilærmet stadard ormalfordelt hvis 5, q 5. Tilærmet 1 α-kofidesitervall for : q ± z(α/2) Utvalgsstørrelse: = [z(α/2)]2 q E 2 der 1 α er kofidesivå, E er de øskede maksimale feil for kofidesitervallet, og og q er foreløige verdier for og q. Merk: = q = 0.5 gir maksimal verdi å. Testobservator for å teste H 0 : = 0 z = 0 0 q 0 19 Iferes om σ, stadardavviket i oulasjoe 20 Sammeligig av to oulasjoer Testobservator for å teste H 0 : σ = σ 0 : χ 2 = ( 1)s2 σ 2 0 Dee er χ 2 -fordelt med 1 frihetsgrader. Kritiske verdier er oført i Tabell 8. Avhegige utvalg: Utvalgee har et felles tilfeldig elemet, består for eksemel av de samme idividee, eller (dekkeksemel:) kjøres av de samme sjaføree. Uavhegige utvalg: Verdiee i det ee utvalget har ige sammeheg med verdier i det adre, er uavhegige av hveradre. Viktig atagelse: Utvalget er trukket fra e ormalfordelt oulasjo.

Iferes ved to avhegige utvalg μ d er differase i forvetig mellom utvalgee. Testig av H 0 : μ d = 0: Bruker arvise differaser: d = x 1 x 2, som gir oss ett utvalg av differaser. Dette gir valig t-test t = d μ d s d / Et 100(1 α)% kofidesitervall for μ d er gitt ved d ± t( 1,α/2) s d Iferes om differase μ 1 μ 2 ved to uavhegige utvalg Puktestimat for μ 1 μ 2 : x 1 x 2. For ormalfordelte oulasjoer eller store 1 og 2 er z = x 1 x 2 (μ 1 μ 2 ) σ 2 1 1 + σ2 2 2 stadard ormalfordelt, og t = x 1 x 2 (μ 1 μ 2 ) s 2 1 1 + s2 2 2 er tilærmet t-fordelt med atall frihetsgrader df lik de miste av 1 1 og 2 1 (eller gitt ved komlisert formel). Et 1 α-kofidesitervall for μ 1 μ 2 er gitt ved s1 x 1 x 2 2 ± t(df,α/2) + s2 2 1 2 23 Sammeligig av adeler i to oulasjoer Uavhegige utvalg av størrelse 1 og 2. 1 2 : Forskjell i oulasjosadeler 1 = x 1 1 : Puktestimat for 1 2 = x 2 2 : Puktestimat for 2 1 2 : Puktestimat for 1 2 = x 1+x 2 1 + 2 : Puktestimat for 1 og 2 år 1 = 2. Testobservator for å teste H 0 : 1 2 = 0 z = 1 2 q 1 + q 2 Uder H 0 er dee tilærmet stadard ormalfordelt. Et 1 α-kofidesitervall for 1 2 er gitt ved 1 2 ± z(α/2) 1 q 1 1 + 2 q 2 2

25 Sammeligig av stadardavvik/varias i to oulasjoer Uavhegige utvalg av størrelse 1 og 2 er trukket fra ormalfordelte oulasjoer. Testobservator for å teste H 0 : σ 2 1 /σ2 2 = 1: f = s2 1 s 2 2 Uder H 0 er dee F -fordelt med df 1 = 1 1 og df 2 = 2 1 frihetsgrader. Kritiske verdier er i Tabell 9A-9C. 26 Kjikvadrattester Situasjo: Idividee i e oulasjo ka klassifiseres i k gruer/kategorier. Problem: Hvorda fordeler idividee seg å de ulike kategoriee? La adelee være i = P(kategori i) H 0 : H a : i = 1, 2,...,k. Vi tester: 1, 2,..., k har gitte verdier, mot oulasjoe har e ae fordelig e hva H 0 sier. Vi trekker et utvalg å idivider (dvs. utfører et mulitomisk ekserimet med forsøk). O i : atall observasjoer i kategori r i. E i : forvetet atall observsjoer i kategori r i hvis H 0 er riktig. Testobservator: χ 2 (O E) 2 = E alle kategorier som uder H 0 er χ 2 -fordelt med k 1 frihetsgrader. Forkast H 0 dersom χ 2 >χ 2 (k 1,α). 28 Variasaalyse Situasjo: Vi har c oulasjoer, hver med sitt oulasjosgjeomsitt μ i. Vi vil teste H 0 : μ 1 = μ 2 = μ 3 =...= μ c mot H a : ikke alle μ i er like. Forutsetiger: 1. Vi har uavhegige utvalg, ett fra hver oulasjo. k i er utvalgsstørrelse fra oulasjo i, = c i=1 k i er total utvalgsstørrelse. 2. Alle oulasjoee er (tilærmet) ormalfordelte med samme stadardavvik σ De totale variasjoe i dataee, SS(total), ka skrives som SS(total)=SS(factor)+SS(error)

Resultatee reseteres i e ANOVA-tabell: SS(total) = (x 2 ) ( x) 2 ( ) C1 2 SS(factor) = + C2 2 + C2 3 + ( x) 2 k 1 k 2 k 3 SS(error) = SS(total) SS(factor) eller = (k 1 1) s1 2 +(k 2 1) s2 2 +(k 3 1) s3 2 + C i : sum av observasjoer fra utvalg i si 2 : utvalgsvarias i utvalg i Kilde df SS MS F P Factor c 1 SS(factor) MS(factor) F -value Error c SS(error) MS(error) Total 1 SS(total) Testobservator: F = MS(facor) MS(error) Uder H 0 er dee F-fordelt med c 1 og c frihetsgrader. Forkast H 0 dersom F > F (c 1, c,α). 31 Lieær regresjosaalyse Har utvalg av sammehørede ar (x, y). Modell: y = β 0 + β 1 x + ɛ hvor β 0 og β 1 er ukjete arametre i oulasjoe. Feilee ɛ atas å være uavhegige og ormalfordelte med forvetig ull og vaias σ 2 ɛ. Puktestimater: b 1 = SS(xy) SS(x) y b1 x b 0 = s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 = SS(y) b 1SS(xy) 2 Her er SS(x) = x 2 ( x) 2 SS(xy) = xy ( x)( y)

33 Iferes om stigigstallet β 1 Estimat for varias og stadardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-kofidesitervall for β 1 : b 1 ± t( 2,α/2) s b1 s 2 e SS(x) Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med 2 frihetsgrader hvis H 0 gjelder. 34 Prediksjo i lieær regresjo Sørsmål: Hva ka vi si om e uobservert y for e gitt x-verdi lik x 0? Poulasjosgjeomsitt: μ y x0 = β 0 + β 1 x 0 Puktestimat for μ y x0 : ŷ = b 0 + b 1 x 0 (1 α)-kofidesitervall for μ y x0 : 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 SS(x) (1 α)-rediksjositervall for de uobserverte y: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 SS(x) 35 Når brukes de ulike fordeligee i statistisk iferes? Normalfordelig: μ (ett utvalg, kjet σ) (adel, ett utvalg) 1 2 (to utvalg) t-fordelig μ (ett utvalg, ukjet σ) μ d (to avhegige utvalg, ukjet varias for differaser d) μ 1 μ 2 (to uavhegige utvalg, ukjete variaser) β 1 (lieær regresjo) μ y x0 (lieær regresjo) χ 2 -fordelig σ (ett utvalg) multiomiske ekserimeter (med O og E) f -fordelig testig av σ1 2/σ2 2 (to utvalg) ANOVA (c utvalg)