Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

2 Kort reetisjo fra kaittel 4 Betiget sasylighet og trediagram Eksemel: Fra e oulasjo av idrettsfolk trekkes e erso tilfeldig og testes for doig. De iteressate hedelsee er D=ersoe er doet, A=teste er ositiv. ST0202 Statistikk for samfusvitere Bo Lidqvist Istitutt for matematiske fag Det er kjet at P(D) =0.01, P(A D) =0.95, P(A D) =0.02. Vi øsker P(D A) =sasylighete for at ersoe er doet gitt e ositiv test. Formel: P(D A) = P(A og D) P(A) Løsig: P(D)=0.01 P(D )=0.99 D D P(A D)=0.95 P(A D)=0.05 P(A D )=0.02 P(A D )=0.98 Gre Utfall P A 1 (D,A) 0.0095 A 2 (D,A ) 0.0005 A 3 (D,A) 0.0198 A 4 (D,A ) 0.9702 (Her betyr A det samme som Ā, komlemetet til A dvs. at A ikke itreffer). P(D A) = = P(D oga) = 1 P(A) 1 + 3 0.0095 0.0095 + 0.0198 = 0.32 4 Osummerig kaittel 5-13 Tilfeldig variabel: E variabel som har e (uik) umerisk verdi for hvert utfall i utfallsrommet. Sasylighetsfordelige til e diskret tilfeldig variabel: De mulige verdiee de tilfeldige variabele ka ta, samme med tilhørede sasyligheter for disse verdiee. Sasylighetsfordelige gir dermed verdier P(x) for alle mulige verdier av x.

P(x) tilfredstiller 1. 0 P(x) 1 2. P(x) =1 Forvetig til e diskret tilfeldig variabel: μ = [xp(x)] Varias til e diskret tilfeldig variabel: σ 2 = [(x μ) 2 P(x)] = [x 2 P(x)] μ 2 Stadardavvik: σ = σ 2 6 Biomisk fordelig 1. Vi har idetiske uavhegige forsøk. 2. Hvert forsøk har to mulige utfall (suksess,fiasko). 3. P( suksess )= og P( fiasko )=q i alle forsøk. 4. De tilfeldige variabele x er atall suksesser blat de forsøkee. Da er x biomisk fordelt med forsøk og suksessasylighet. Sasylighetsfordelige til x: ( ) P(x) = ( x )(q x ) for x = 0, 1, 2,..., x μ = σ = q 7 Normalfordelig De mest brukte sasylighetsfordelige for kotiuerlige tilfeldige variable. Beskrives med e kurve kalt sasylighetstetthet, bestemt av arametree forvetig μ og stadardavvik σ. Normaltetthete er symmetrisk om forvetige μ P(a < x < b) = arealet uder kurve mellom a og b, som er lik det skraverte området å figure uder. 8 Stadard ormalfordelig (μ = 0 og σ = 1) Sasyligheter for stadard ormalfordelige fies ved hjel av Tabell 3. Hvis x er ormalfordelt med forvetig μ og stadardavvik σ, er z = x μ σ stadard ormalfordelt. Sasyligheter for x bereges fra Tabell 3 ved å bruke formele P(a < x < b) =P( a μ σ < z < b μ σ )

9 Kritisk verdi Notasjo: z(α) er de verdie av z som er slik at areal α ligger til høyre, dvs. P(Z > z(α)) = α 10 Normalfordelig som tilærmig til biomisk fordelig Situasjo: x er biomisk fordelt med 5 og q 5. Da ka vi rege ut sasyligheter for x ved å bruke at z = x q er tilærmet stadard ormalfordelt. z(α) kalles kritisk verdi i forbidelse med hyotesetestig. Verdier av z(α) er gitt i Tabell 4A. 11 Statistisk iferes med é oulasjo 12 Puktestimerig Situasjo: Et tilfeldig utvalg av størrelse er trukket fra e oulasjo med forvetig μ og stadardavvik σ. La x være utvalgsgjeomsittet. For tilstrekkelig stor er tilærmet stadard ormalfordelt. z = x μ σ/ Puktestimerig: Ma aslår verdie av arametere med ett tall. Parameter μ x = σ s = Puktestimat x x 2 ( x) 2 / 1 σ 2 s 2 = Σx 2 ( x) 2 / 1 ˆ = x

13 Kofidesitervall for μ Et 1 α kofidesitervall for μ år σ er kjet er gitt ved ( x z(α/2) σ, x + z(α/2) σ ) 1 α kalles kofidesivået. σ kalles stadardfeile ( stadard error ) for gjeomsittet x. z(α/2) kalles kofideskoeffisiete. z(α/2) σ kalles maksimum feil for estimatet ( maximum error of estimate ), beteget E. Atall observasjoer som er ødvedig for å få e bestemt maksimal feil E: ( ) z(α/2)σ 2 = E 14 Hyotesetestig Nullhyotese H 0 : Riktig itil det motsatte er bevist. Alterativ hyotese H a : Må bevises, årsake til udersøkelse. De to mulige avgjørelser er 1. Ikke forkaste H 0 2. Forkaste H 0 og åstå H a Tye I-feil: Forkaste e korrekt H 0 Tye II-feil: Ikke forkaste uriktig H 0 Sigifikasivå α=p(tye I-feil) 15 Hyotesetestig om μ år σ er kjet H 0 : μ = μ 0 mot H a : μ>μ 0 Forkast H 0 og åståh a hvis z = x μ 0 σ/ > z(α) -verdi: Sasylighete for det observerte resultatet eller oe mer ekstremt i retig H a hvis H 0 er korrekt. 16 Iferes om μ år σ er ukjet Samme metode som over bortsett fra: 1. Bytt ut σ med s 2. Bytt ut z(α) med t(df,α) med df = 1 der t(df,α) er kritisk verdi i t-fordelige med df frihetsgrader. P(t > t(df,α)) = α H 0 H a Forkast H 0 dersom -verdi μ = μ 0 μ>μ 0 z > z(α) P(z > z ) μ = μ 0 μ<μ 0 z < z(α) P(z < z ) μ = μ 0 μ μ 0 z > z(α/2) P( z > z ) Tabell 6 gir verdier for t(df,α).

17 Iferes om, adel i oulasjoe Situasjo: x er biomisk fordelt med forsøk og suksessasylighet. Puktestimat for : Vi bruker at = x z = q er tilærmet stadard ormalfordelt hvis 5, q 5. Tilærmet 1 α-kofidesitervall for : q ± z(α/2) Utvalgsstørrelse: = [z(α/2)]2 q E 2 der 1 α er kofidesivå, E er de øskede maksimale feil for kofidesitervallet, og og q er foreløige verdier for og q. Merk: = q = 0.5 gir maksimal verdi å. Testobservator for å teste H 0 : = 0 z = 0 0 q 0 19 Iferes om σ, stadardavviket i oulasjoe 20 Sammeligig av to oulasjoer Testobservator for å teste H 0 : σ = σ 0 : χ 2 = ( 1)s2 σ 2 0 Dee er χ 2 -fordelt med 1 frihetsgrader. Kritiske verdier er oført i Tabell 8. Avhegige utvalg: Utvalgee har et felles tilfeldig elemet, består for eksemel av de samme idividee, eller (dekkeksemel:) kjøres av de samme sjaføree. Uavhegige utvalg: Verdiee i det ee utvalget har ige sammeheg med verdier i det adre, er uavhegige av hveradre. Viktig atagelse: Utvalget er trukket fra e ormalfordelt oulasjo.

Iferes ved to avhegige utvalg μ d er differase i forvetig mellom utvalgee. Testig av H 0 : μ d = 0: Bruker arvise differaser: d = x 1 x 2, som gir oss ett utvalg av differaser. Dette gir valig t-test t = d μ d s d / Et 100(1 α)% kofidesitervall for μ d er gitt ved d ± t( 1,α/2) s d Iferes om differase μ 1 μ 2 ved to uavhegige utvalg Puktestimat for μ 1 μ 2 : x 1 x 2. For ormalfordelte oulasjoer eller store 1 og 2 er z = x 1 x 2 (μ 1 μ 2 ) σ 2 1 1 + σ2 2 2 stadard ormalfordelt, og t = x 1 x 2 (μ 1 μ 2 ) s 2 1 1 + s2 2 2 er tilærmet t-fordelt med atall frihetsgrader df lik de miste av 1 1 og 2 1 (eller gitt ved komlisert formel). Et 1 α-kofidesitervall for μ 1 μ 2 er gitt ved s1 x 1 x 2 2 ± t(df,α/2) + s2 2 1 2 23 Sammeligig av adeler i to oulasjoer Uavhegige utvalg av størrelse 1 og 2. 1 2 : Forskjell i oulasjosadeler 1 = x 1 1 : Puktestimat for 1 2 = x 2 2 : Puktestimat for 2 1 2 : Puktestimat for 1 2 = x 1+x 2 1 + 2 : Puktestimat for 1 og 2 år 1 = 2. Testobservator for å teste H 0 : 1 2 = 0 z = 1 2 q 1 + q 2 Uder H 0 er dee tilærmet stadard ormalfordelt. Et 1 α-kofidesitervall for 1 2 er gitt ved 1 2 ± z(α/2) 1 q 1 1 + 2 q 2 2

25 Sammeligig av stadardavvik/varias i to oulasjoer Uavhegige utvalg av størrelse 1 og 2 er trukket fra ormalfordelte oulasjoer. Testobservator for å teste H 0 : σ 2 1 /σ2 2 = 1: f = s2 1 s 2 2 Uder H 0 er dee F -fordelt med df 1 = 1 1 og df 2 = 2 1 frihetsgrader. Kritiske verdier er i Tabell 9A-9C. 26 Kjikvadrattester Situasjo: Idividee i e oulasjo ka klassifiseres i k gruer/kategorier. Problem: Hvorda fordeler idividee seg å de ulike kategoriee? La adelee være i = P(kategori i) H 0 : H a : i = 1, 2,...,k. Vi tester: 1, 2,..., k har gitte verdier, mot oulasjoe har e ae fordelig e hva H 0 sier. Vi trekker et utvalg å idivider (dvs. utfører et mulitomisk ekserimet med forsøk). O i : atall observasjoer i kategori r i. E i : forvetet atall observsjoer i kategori r i hvis H 0 er riktig. Testobservator: χ 2 (O E) 2 = E alle kategorier som uder H 0 er χ 2 -fordelt med k 1 frihetsgrader. Forkast H 0 dersom χ 2 >χ 2 (k 1,α). 28 Variasaalyse Situasjo: Vi har c oulasjoer, hver med sitt oulasjosgjeomsitt μ i. Vi vil teste H 0 : μ 1 = μ 2 = μ 3 =...= μ c mot H a : ikke alle μ i er like. Forutsetiger: 1. Vi har uavhegige utvalg, ett fra hver oulasjo. k i er utvalgsstørrelse fra oulasjo i, = c i=1 k i er total utvalgsstørrelse. 2. Alle oulasjoee er (tilærmet) ormalfordelte med samme stadardavvik σ De totale variasjoe i dataee, SS(total), ka skrives som SS(total)=SS(factor)+SS(error)

Resultatee reseteres i e ANOVA-tabell: SS(total) = (x 2 ) ( x) 2 ( ) C1 2 SS(factor) = + C2 2 + C2 3 + ( x) 2 k 1 k 2 k 3 SS(error) = SS(total) SS(factor) eller = (k 1 1) s1 2 +(k 2 1) s2 2 +(k 3 1) s3 2 + C i : sum av observasjoer fra utvalg i si 2 : utvalgsvarias i utvalg i Kilde df SS MS F P Factor c 1 SS(factor) MS(factor) F -value Error c SS(error) MS(error) Total 1 SS(total) Testobservator: F = MS(facor) MS(error) Uder H 0 er dee F-fordelt med c 1 og c frihetsgrader. Forkast H 0 dersom F > F (c 1, c,α). 31 Lieær regresjosaalyse Har utvalg av sammehørede ar (x, y). Modell: y = β 0 + β 1 x + ɛ hvor β 0 og β 1 er ukjete arametre i oulasjoe. Feilee ɛ atas å være uavhegige og ormalfordelte med forvetig ull og vaias σ 2 ɛ. Puktestimater: b 1 = SS(xy) SS(x) y b1 x b 0 = s 2 e = ( y 2 ) (b 0 )( y) (b 1 )( xy) 2 = SS(y) b 1SS(xy) 2 Her er SS(x) = x 2 ( x) 2 SS(xy) = xy ( x)( y)

33 Iferes om stigigstallet β 1 Estimat for varias og stadardfeil for b 1 : s 2 b 1 = s2 e SS(x), s b 1 = (1 α)-kofidesitervall for β 1 : b 1 ± t( 2,α/2) s b1 s 2 e SS(x) Testobservator for H 0 : β 1 = c, oftest H 0 : β 1 = 0: t = b 1 c s b1 som er t-fordelt med 2 frihetsgrader hvis H 0 gjelder. 34 Prediksjo i lieær regresjo Sørsmål: Hva ka vi si om e uobservert y for e gitt x-verdi lik x 0? Poulasjosgjeomsitt: μ y x0 = β 0 + β 1 x 0 Puktestimat for μ y x0 : ŷ = b 0 + b 1 x 0 (1 α)-kofidesitervall for μ y x0 : 1 ŷ ± t( 2,α/2)s e + (x 0 x) 2 SS(x) (1 α)-rediksjositervall for de uobserverte y: ŷ ± t( 2,α/2)s e 1 + 1 + (x 0 x) 2 SS(x) 35 Når brukes de ulike fordeligee i statistisk iferes? Normalfordelig: μ (ett utvalg, kjet σ) (adel, ett utvalg) 1 2 (to utvalg) t-fordelig μ (ett utvalg, ukjet σ) μ d (to avhegige utvalg, ukjet varias for differaser d) μ 1 μ 2 (to uavhegige utvalg, ukjete variaser) β 1 (lieær regresjo) μ y x0 (lieær regresjo) χ 2 -fordelig σ (ett utvalg) multiomiske ekserimeter (med O og E) f -fordelig testig av σ1 2/σ2 2 (to utvalg) ANOVA (c utvalg)