Sammedrag i statistikk Sammedrag Dette dokumetet er et sammedrag av pesum i faget ST0103 ved NTNU høste 2014. Notatet er derfor ikke tekt å være komplett eller spesielt grudig gjeomlest for feil, me det er skrevet som e del av lærigsprosesse mi i faget. Til tross for sie magler så er dette otatet e kortfattet versjo av mage viktige tig i pesum, formlee i dette arket er e god pekepi på hva du bør ha med på det gule arket og det har med oe viktige utlediger/forklariger av vaskelige tig i emet (f.eks. styrkefuksjo og SME) som ka være suplemager til forelesers gjeomgag. Dokumetet er derfor forhåpetligvis til ytte for flere e meg :). Alt er stjålet fra Guar Løvås si Statistikk for uiversiteter og høgskoler, 3. utgave. Ihold 2 Kapittel 2: Hva er fakta om utvalget? 3 2.1 Stadardavvik og varias............................... 3 3 Kapittel 3: Sasylighetsregig 3 3.1 Megderegler...................................... 3 3.2 Ekle sasylighetsregler............................... 3 3.3 Kombiatorikk..................................... 4 4 Kapittel 4: Stokastiske variabler 4 4.1 Diskrete sasylighetsmodeller............................ 4 4.2 Kotiuerlige sasylighetsmodeller......................... 4 4.3 Krav til e sasylighetstetthet f(x)........................ 5 4.4 Flere variabler samtidig................................ 5 4.5 Todimesjoale kotiuerlige fordeliger....................... 5 5 Kapittel 5: Valige sasylighetsmodeller 6 5.1 Biomisk fordelig................................... 6 5.2 Hypergeometrisk fordelig............................... 6 5.3 Geometrisk fordelig.................................. 6 5.4 Poissofordelige................................... 7 5.5 Ekspoetialfordelige................................ 7 5.6 Normalfordelige................................... 7 5.7 Setralgreseteoremet................................. 8 5.8 Normaltilærmige.................................. 8 5.9 Eksempel på ormaltilærmig og heltallskorreksjo................ 8 5.10 Kjikvadratfordelige................................. 9 5.11 Trasformasjo av stokastiske variabler....................... 9 5.11.1 Eksempel på trasformasjo av stokastiske variabler............ 9 6 Kapittel 6: Estimerig og hypotesetestig 10 6.1 Krav til e estimator.................................. 10
6.2 Sasylighetsmaksimerigsestimator........................ 10 6.3 Puktestimat av E(X)................................. 11 6.4 Puktestimat av Var(X)................................ 12 6.5 Puktestimat av SE(X)................................ 12 6.6 Puktestimat for stadardavviket σ 2......................... 12 6.7 Puktestimat for sasylighete p.......................... 12 6.8 Puktestimat for rate λ............................... 12 6.9 Normalfordelt kofidesitervall............................ 12 6.10 Z-itervall, kofidesitervall µ år σ er kjet.................... 13 6.11 T-itervall, kofidesitervall for µ år σ er ukjet................. 13 6.12 Kofidesitervall for σ................................ 13 6.13 Kofidesitervall for p................................ 13 6.14 Kofidesitervall for λ................................ 13 6.15 Utledig av kofidesitervall, σ 2 som eksempel.................. 14 6.16 Hypotesetestig..................................... 14 6.17 Magisk tabell for hypotesetestig........................... 14 6.18 p-verdi.......................................... 15 6.19 Eksakt test av p.................................... 15 6.20 Styrkefuksjo..................................... 16 6.21 Eksempel på styrkefuksjo.............................. 16 7 Aalyse av sammeheger 17 7.1 Estimator for kovariase Cov(X, Y )......................... 17 7.2 Empirisk korrelasjo.................................. 17 7.3 Slutiger om korrelasjo............................... 17 7.4 Ekel lieær regresjo................................. 18 7.5 Regresjosmodelles godhet.............................. 18 7.6 Egeskaper til ˆα og ˆβ................................. 18 7.7 Hypotesetestig av ˆβ.................................. 19 7.8 Kofidesitervall for ukjet lije........................... 19 7.9 Prediksjositervall for observasjoee........................ 19 7.10 Ikke-lieær regresjo.................................. 19 8 Sammelikig av grupper 19 8.1 Uparet T -test...................................... 19 8.2 Paret T -test....................................... 20 2
2 Kapittel 2: Hva er fakta om utvalget? 2.1 Stadardavvik og varias Varias = s 2 = 1 (x i x) 2 1 Stadardavvik = s = 1 (x i x) 1 2 3 Kapittel 3: Sasylighetsregig 3.1 Megderegler Uio: A B = A eller B itreffer Sitt: A B = A og B itreffer To hedelser er disjukte hvis de ikke ka itreffe i samme forsøk P (A B) = P (A) + P (B) P (A B) P (A B) = P (A B) P (B) 3.2 Ekle sasylighetsregler Total sasylighet: E, og bare e, av hedelsee B 1, B 2, B 3,..., B vil itreffe. For ehver hedelse A gjelder da: P (A) = P (B 1 ) P (A B 1 ) + P (B 2 ) P (A B 2 ) + + P (B ) P (A B ) Bayes regel: P (B A) = P (B) P (A B) P (A) A og B er uavhegige hedelser hvis og bare hvis P (A B) = P (A) P (B) Hvis A 1, A 2, A 3,..., A er uavhegige hedelser så er: P (A 1 A 2 A 3 A ) = P (A 1 ) P (A 2 )... P (A ) Addisjosregel for uavhegige hedelser P (A 1 A 2 A 3 A ) = 1 P (A 1 ) P (A 2 )...P (A ) 3
3.3 Kombiatorikk Potesregele Vi velger ut k elemeter, med tilbakeleggig, fra e samlig med merkede eheter. Totalt atall mulige ordede utfall er k. Atall permutasjoer Vi velger ut k eheter, med tilbakelegig, fra e samlig med merkede eheter. Totalt atall mulige ordede utfall kalles atall permutasjoer av k fra, og er lik P,k =! ( k)! Atall kombiasjoer Vi velger ut k eheter, ute tilbakeleggig, fra e samlig med merkede eheter. Totalt atall ikke-ordede kombiasjoer av k fra skrives ( )! C,k = = k k!( k)! 4 Kapittel 4: Stokastiske variabler 4.1 Diskrete sasylighetsmodeller P (a < X b) = F (b) F (a) P (X > a) = 1 F (a) P (X b) = F (b) µ = E(X) = alle x i x i P (X = x i ) E(a + bx + cx 2 ) = a + be(x) + ce(x 2 ) Variase = σ 2 = Var(X) = E[(X µ) 2 ] = E(X 2 ) µ 2 = Var(bX + a) = b 2 Var(X) alle x i x 2 i P (X = x i ) µ 2 4.2 Kotiuerlige sasylighetsmodeller µ = E(X) = xf(x) dx σ 2 = Var(X) = x 2 f(x) dx µ 2 4
4.3 Krav til e sasylighetstetthet f(x) 1. f(x) dx = 1 2. P (a X b) = X itreffer. 3. f(x) > 0 b a f(x) dx = 1, altså at f(x) faktisk represeterer sasylighete for at 4.4 Flere variabler samtidig La X og Y være stokastiske variabler. Da er alltid E(X + Y ) = E(X) + E(Y ) Kovarias Korrelasjo Cov(X, Y ) = E[(X µ X )(Y µ Y )] = E(X Y ) µ X µ Y E(X Y ) = x i y j P (x i, y j ) alle y j alle x i Hvis X og Y er uavhegige = Cov(X, Y ) = 0 ρ(x, Y ) = Corr (X, Y ) = Cov (X, Y ) σ X σ Y Varias til sum av variabler Var(aX + by + c) = a 2 Var(X) + b 2 Var(Y ) + 2ab Cov(X, Y ) To diskrete stokastiske variabler X og Y er uavhegige hvis og bare hvis følgede likig er tilfredstilt for alle mulige verdipar (x, y) i simultafordelige til X og Y. P (x, y) = P (X = x) P (Y = y) Hvis X 1, X 2, X 3,..., X er uavhegige stokastiske variabler, gjelder disse to Var(a 1 X 1 + a 2 X 2 + + a X + b) = a 2 1 Var (X 1 ) + a 2 2 Var(X 2 ) + + a 2 Var(X ) E(X 1 X 2... X ) = E(X 1 ) E(X 2 )... E(X ) 4.5 Todimesjoale kotiuerlige fordeliger Formler for biormalfordelige hvor X N(µ x, σ x ), Y N(µ y, σ y ). De betigede fordelige til Y gitt X = x har sasylighetstetthet: f Y X=x (y) = f(x, y) f x (x) Y X = x er ormalfordelt med parametre: 5
E(Y X = x) = µ y + p σ y σ x (x µ x ) Var(Y X = x) = σ 2 y(1 p 2 ) 5 Kapittel 5: Valige sasylighetsmodeller 5.1 Biomisk fordelig Det er e Biomisk forsøksrekke for delforsøk hvis 1. Hvert delforsøk har bare to iteressate utfall: A eller ikke A 2. Sasylighete p = P (A) er de samme i alle delforsøkee 3. Delforsøkee er statistisk uavhegige av hveradre P (X = x) = ( ) p x (1 p) x x for x = 0, 1, 2,..., E(X) = p Var(X) = p(1 p) 5.2 Hypergeometrisk fordelig Lik som biomisk, bortsett fra at sasylighete ikke er de samme i hver ekelt trekig. Brukes først og fremst hvis populasjoe er lite og vi trekker ut e relativt stor del av de. Hvis populasjoe er stor i forhold til utvalget (N > 10), så ka biomisk brukes. Vi har e populasjo med N eheter hvorav M eheter har e bestemt egeskap. Vi foretar trekiger ute tilbakeleggig fra populasjoe og defierer X lik atall eheter i utvalget med de bestemte egeskape. Da er X hypergeometrisk fordelt med parametre (N, M, ). Sasylighetsfordelige er P (X = x) = ( M ) ( x N M ) x ( N ) Adele p = M/N av populasjoes eheter har de bestemte egeskape. E hypergeometrisk variabel X har forvetig og varias E(X) = p, 5.3 Geometrisk fordelig Var(X) = p(1 p) N N 1 Y = atall delforsøk itill første gag hedelse A itreffer. Geometrisk fordelig er hukomelsesløs. Y er geometrisk fordelt med parameter p hvis P (Y = y) = p (1 p) y 1, for y = 1, 2,... E(Y ) = 1 p, Var(Y ) = 1 p p 2 6
5.4 Poissofordelige Poissofordelige er e direkte kosekves av de biomiske forsøksrekke år atall delforsøk er stor og sasylighete p er lite. Atall forekomster av hedelse A er poissofordelt hvis: 1. Atall forekomster av A i disjukte tidsitervaller er uavhegige av hveradre. 2. Forvetet atall forekomster av A er kostat lik λ per tidsehet. 3. To forekomster av A ka ikke være fullstedig sammefallede på tidsakse. I løpet av de este t tidsehetee vil vi observere X forekomster av hedelse A. Hvis poissoforutsetigee er oppfylt, er X poissofordelt med parameter λt, som skrives X poisso (λt). Da er: P (X = x) = (λt)x e λt, x! x = 0, 1, 2,... E(X) = λt, Var(X) = λt Når utvalget er stort og sasylighete p er lite ( > 10, p < 0.1), gjelder: (, p) poisso (λ), λ = p 5.5 Ekspoetialfordelige Ekspoetialfordelige er vetetide til e bestemt hedelse itreffer. Vetetide T i e poissoprosess er ekspoetialfordelt med parameter λ. Ekspoetialfordelige er hukommelsesløs. f(t) = λe λt, F (t) = 1 e λt for t > 0 µ = E(T ) = 1 λ, Var(T ) = 1 λ 2 5.6 Normalfordelige Oppstår som e grese til de biomiske fordelige år atall delforsøk blir stort. Skrives X Normal(µ, σ) eller (µ, σ). E variabel X er ormalfordelt med forvetigsverdi µ og stadardavvik σ hvis sasylighetstetthete er lik f(x) = 1 e (x µ)2 2σ 2 2πσ Stadardormalfordelige Hvis X Normal (µ, σ) vil variabele Z være stadardormalfordelt med kumulativ fordeligsfuksjo G. Z = X µ Normal (0, 1) σ G(z) = P (Z z) = 1 z e t2 /2 dt 2π 7
Normalfordeliges fordeligsfuksjo La X være Normal(µ, σ). Da gjelder ( ) x µ P (X x) = F (x) = G σ ( ) x µ P (X > x) = 1 G σ ( ) ( ) b µ a µ P (a X < b) = G G σ σ 5.7 Setralgreseteoremet La X 1, X 2,..., X være uavhegige variabler fra samme sasylighetsfordelig med forvetig µ og stadardavvik σ. Hvis 20 gjelder følegde X = 1 ( ) (X σ 1 + X 2 + + X ) tilærmet Normal µ, La X 1, X 2,..., X være uavhegige variabler fra samme sasylighetsfordelig med forvetig µ og stadardavvik σ. Hvis 20 så er summe X 1 + X 2 + + X tilærmet Normal(µ, σ) 5.8 Normaltilærmige Hvis X er biomisk, hypergeometrisk eller poissofordelt med forvetig µ og stadardavvik σ, da er X tilærmet ormalfordelt hvis variase σ 2 5. Da gjelder: ( ) x µ P (X x) = F (x) G σ 5.9 Eksempel på ormaltilærmig og heltallskorreksjo Kroppsvekte til haer og huer er ormalfordelt med forvetigsverdi, µ, lik heholdsvis 110 g og 100 g og med stadardavvik, σ = 5. Vi trekker 70 tilfeldige idivider. Bruk ormaltilærmig og heltallskorreksjo for å fie sasylighete for at mist 35 av disse veier mer e 108 g. svar: p = P (X > 108) = P (X > 108 M)P (M) + P (X > 108 F )P (F ) = 0.3601 Y er atall idivider som veier mer e 108 g, Y er biomisk fordelt med > 70 og p = 0.3601. Da biomisk fordelig er e kotiuerlig fordelig mes ormalfordelige er e kotiuerlig fordelig tar vi gjeomsittet 34+35 2 for å få et mer øyaktig svar. Det er dette som er heltallskorrigerige. P (Y 35) P (Y > 34.5) P (Z > 34.5 p = 0.010333 (1) p(1 p) 8
5.10 Kjikvadratfordelige La X 1, X 2,..., X være uavhegige stadarormalfordelte variabler. Da er summe Y = X 2 1 + X 2 2 + + X 2 Kjikvadratfordelt med frihetsgrader. Hvis X-ee er delvis avhegige av hveradre, vil Y være kjikvadratfordelt med et lavere atall frihetsgrader. Se relevate formler uder. K er e kostat som sørger for at arealet uder tetthetskurve blir lik 1. f(y) = K y k/2 1 e y/2, E(Y ) = k, Var(Y ) = 2k Sasylighetsfordelige til S 2 Y (se uder) er kjikvadratfordelt med 1 frihetsgrader Y = ( 1) S2 σ 2 5.11 Trasformasjo av stokastiske variabler Gitt at fordelige til X er kjet, og du vet at Y = g(x), hvorda skal vi da fie fordelige til Y? De letteste fremgagsmåte er se på de kumulative fordelige til Y : F Y (y) = P (Y y) = P (g(x) y) Ulikhete g(x) y ka alltid løses med hesy på X. Her skriver vi resultatet av dette som X h(y). (Det er ikke garatert at ulikhetsteget går dee veie, me det er omtret samme framgagsmåte hvis det går motsatt vei.) I tillegg er F X (x) = P (X x), vi får dermed dette resultatet: F Y (y) = P (g(x) y) = P (X h(y)) = F X (h(y)) Vi deriverer og får dermed sasylighetstetthete: f Y (y) = h (y)f x (h(y)) 5.11.1 Eksempel på trasformasjo av stokastiske variabler X er ekspoetialfordelt og derfor er F X (t) = 1 e λt. Y = X 2, fi sasylighetstetthete til Y. Da er X = Y, og de kummulative fordeligsfuksjoe til Y er: F Y (y) = P (Y y) = P (X 2 y) = P (X y) = F X ( y) = 1 e λ y 9
f Y (y) = d dy F Y (y) = d dy F X( y) = d dy (1 e λy ) ( = e λ y λ ) 2 = λ y 2 y y e λ 6 Kapittel 6: Estimerig og hypotesetestig 6.1 Krav til e estimator Da e estimator (ˆθ) er e stokastisk variabel ka følgede krav stilles: 1. Estimatore skal være forvetigsrett, dvs. E(ˆθ) = θ 2. Estimatore skal ha mist mulig varias, dvs. Var(ˆθ) mist mulig. 3. Estimatores varias skal gå mot ull år størrelse på utvalget øker. 6.2 Sasylighetsmaksimerigsestimator Hvorda vi bruker sasylighetsmaksimerigsprisippet forklares best ved å se på et eksempel. Her skal vi fie sasylighetsmaksimerigsestimatore av β for hedelsee x 1, x 2,..., x i fordelige f(x) = 1 2β 3 x2 e x/β Vi starter med å fie likelihoodfuksjoe (L(β)). Dette er de e fuksjo som beskriver sasylighete for at alle hedelsee itreffer 1, og da vi atar at hedelsee er uavhegige er dette det samme som å gage samme sasylighetee for at hver hedelse itreffer. L(β) = P (X 1 = x 1, X 2 = x 2,..., X = x ) = 1 2β 3 x2 1e x 1/β 1 2β 3 x2 2e x 2/β... 1 2β 3 x2 e x/β Da dette er skikkelig stress å skrive hele dette utrykket, så pleier vi å forkorte det ved å skrive store-pi (Π) i stedet. Π betyr det samme som summeteget ( ), bare at leddee blir gaget i stedet for summert. L(β) = 1 2β 3 x2 1e x 1/β 1 2β 3 x2 2e x 2/β... 1 2β 3 x2 e x/β = 1 2β 3 x2 i e x i/β Neste tri er å gruppere de like leddee samme. I starte ka dette være litt vriet å gjøre riktig med Π-teget, så da ka det være smart å skrive opp uttrykket ute bruk av Π. I dette tilfellet får vi følgede foreklig ( ) ( ) 1 1 1 L(β) = 2β 3 x2 i e xi/β = 2 β 3 x 2 i e ( 1/β) x i = 2 β 3 e ( 1/β) xi x 2 i Dette triet er kaskje det vaskeligste. Ser du f.eks. hvorfor jeg satte fora x i? Hvis du ikke skjøer hvorfor jeg kue gjøre det, eller oe av de adre omskrivigee i dette triet, bør du google expoet rules. 1 Vi velger e fuksjo som tar med alle hedelsee fordi vi øsker at estimatore vi estimerer, β, skal være et godt estimat for alle mulige hedelser. (Du treger ikke å skjøe dette for å bruke metode, me hvis du vil skjøe dette og hvorfor vi bruker sasylighetsmaksimerigsestimatorer bør du lese side 4 og utover her.) 10
Målet er å fie de maksimale verdie til likelihoodfuksjoe, så vi skal sart derivere dette uttrykket. Me for å gjøre deriverige lettere tar vi først l til L(β) og forekler mest mulig. Husk at l(a b) = l(a)+ l(b). l(l(β)) = l(2 ) + l(β 3 ) + l(e ( 1/β) x i ) + l( = l(2) 3l(β) 1 β x i + l(x 2 i ) x 2 i ) Nå er det på tide å derivere uttrykket. Legg merke til at vi deriverer med hesy på β. Husk at (l(x)) = 1 x. Vi setter så uttrykket lik ull for å fie maksimalverdie. dl(l(β)) = 3 dβ β + 1 β 2 x i = 0 1 β 2 x i = 3 β x i = 3β β = 1 3 Som altså er sasylighetsmaksimerigsestimatore for β i sasylighetstetthete f(x). Vi ka sammefatte prosesse for å fie sasylighetsmaksimatore til e estimator (θ) slik: 1. Sett opp likelihoodfuksjoe uttrykt med θ som er sasylighete for at alle hedelsee du udersøker itreffer 2. Gjør uttrykket eklest mulig 3. Ta l() til likelihoodfuksjoe (l(l(θ))) 4. Deriver med hesy på θ og sett lik ull 5. Forekle uttrykket og fie sasylighetsmaksimatore x i 6.3 Puktestimat av E(X) X 1, X 2,..., X er tilfeldig utvalg. Ata E(X i ) = µ, Var(X i ) = σ 2 Estimator for µ: X = 1 (X 1 + X 2 +... + X ) E(X) = E( 1 (X 1 + X 2 +... + X )) = 1 (E(X 1) +... + E(X )) = 1 (µ +... + µ) = µ Så X er forvetigsrett for µ. E(X) = µ 11
6.4 Puktestimat av Var(X) Var(X) = Var( 1 (X 1 + X 2 +... + X )) = 1 2 (Var(X 1) +... + Var(X )) = 1 σ2 = σ2 Så Var(X) går mot 0 år. Var(X) = σ2 6.5 Puktestimat av SE(X) Estimatores stadardvvik kalles for stadardfeile og skrives SE( ˆp). SE ( X ) = σ 6.6 Puktestimat for stadardavviket σ 2 De aturlige og forvetigsrette estimatore for variase σ 2 er S 2 = 1 1 (X i X) 2 6.7 Puktestimat for sasylighete p De aturlige estimatore for sasylighete p er ˆp = X Hvis X er biomisk fordelt så vil vi ha følgede størrelser for estimatore ˆp ( ) X E(ˆp) = E = 1 E(X) = 1 ( p) = p ( ) X Var(ˆp) = Var = 1 2 Var(X) = 1 p(1 p) p(1 p) = 2 6.8 Puktestimat for rate λ ˆλ = X t, Var(ˆλ) = λ t 6.9 Normalfordelt kofidesitervall Hvis estimatore ˆθ er forvetigsrett og ormalfordelt med stadardfeil SE(ˆθ) vil følgede itervall være et 100(1 α) % kofidesitervall for θ. [ˆθ z α/2 SE(ˆθ), ˆθ + z α/2 SE(ˆθ)] Dette er svært yttig! Hvis du lurer på hva SE() til hvilke som helst estimator er så ka du lett hete dette ut av alle uttrykkee for kofidesitervallee som er listet opp uder :). 12
6.10 Z-itervall, kofidesitervall µ år σ er kjet Når stadardavviket er kjet, er det tilfeldige itervallet [ ] σ σ X z α/2, X + z α/2 et 100(1 α) % kofidesitervall for µ. Det er e forutsetig at måligee er ormalfordelte eller at atall måliger er over 20. Legde L av itervallet er gitt ved L = 2 z α/2 σ ( 2 zα/2 σ L ) 2 6.11 T-itervall, kofidesitervall for µ år σ er ukjet Når stadardavviket er ukjet, er det tilfeldige itervallet [ ] S S X t α/2, X + t α/2 et 100(1 α) % kofidesitervall for µ. Atall frihetsgrader er lik 1. Det er e forutsetig at måligee er ormalfordelte eller at atall måliger er over 30. 6.12 Kofidesitervall for σ Det tilfeldige itervallet [ ( 1)S 2 χ α/2, ] ( 1)S2 χ 1 α/2 er et 100(1 α) % kofidesitervall for variase σ 2. Atall frihetsgrader er lik 1. Kofidesitervallet for stadardavviket fier ma ved å ta kvadratrote av itervallgresee i uttrykket over. Det er e forutsetig at måligee er tilærmet ormalfordelte. 6.13 Kofidesitervall for p Det tilfeldige itervallet [ ] ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2 er et tilærmet 100(1 α) % kofidesitervall for sasylighete p. Det er e forutsetig at X er tilærmet ormalfordelt, dvs. ˆp(1 ˆp) 5 6.14 Kofidesitervall for λ Det tilfeldige itervallet [ ] ˆλ z α/2 ˆλ/t, ˆλ + z α/2 ˆλ/t er et tilærmet 100(1 α) % kofidesitervall for rate λ. 13
6.15 Utledig av kofidesitervall, σ 2 som eksempel Vi defierer Z i = (X i µ)/σ der Z i er stadardormalfordelt. Dette betyr at Z 2 i = (X i µ) 2 /σ er kjikvadratfordelt med frihetsgrader. Vi erstatter de ukjete µ med X og bruker dermed opp e frihetsgrad. Sitter dermed igje at Y = ( 1) S2 σ 2 er kjikvadratfordelt med -1 frihetsgrader. Basert på dette og figure til høyre ka vi sette opp følgede: ) ( 1)S2 1 α = P (χ 1 α/2 σ 2 χ α/2 Ser på vestre ulikhet: χ 1 α/2 ( 1)S2 σ 2 σ 2 ( 1)S2 χ 1 α/2 Ser på høyre ulikhet: ( 1)S 2 σ 2 χ α/2 ( 1)S 2 χ α/2 σ 2 Disse to ulikhetee settes samme til: ( ( 1)S 2 P σ 2 χ α/2 ) ( 1)S2 χ 1 α/2 Dette vil si at et 100(1 α) %-kofidesitervall for σ 2 er: [ ( 1)S 2 χ α/2, ] ( 1)S2 χ 1 α/2 6.16 Hypotesetestig H 0 er sa H 1 er sa Behold H 0 Riktig koklusjo Type II-feil (ikke så alvorlig) Forkast H 0 Type I-feil (svært alvorlig) Riktig koklusjo 6.17 Magisk tabell for hypotesetestig Type test H 0 H 1 Forkast H 0 hvis Høyresidig µ µ 0 µ > µ 0 Z > z α Vestresidig µ µ 0 µ < µ 0 Z < z α Tosidig µ = µ 0 µ µ 0 Z > z α/2 14
Z-test, µ er kjet, σ er kjet: 1 Z = X µ 0 σ/ T-test, µ er kjet, σ er ukjet: 1 T = X µ 0 S/, df = 1 Test av p: Z = ˆp p 0 p 0 (1 p 0 ) = X p 0 p0 (1 p 0 ) Test av β: 2 T = ˆβ SE( ˆβ) = ˆβ SSE 2 / i=0 (x i x) 2 1 Hvis verdiee ikke er ormalfordelt så må heholdsvis > 20 og > 30. 2 df = 2 6.18 p-verdi p-verdie er sasylighete for å få et resultat som er mist like mye i favør av H 1 som det observerte resultatet - dersom H 0 er riktig. p = P (gjøre type-i feil) = P (forkaste H 0 H 0 er sa) Eks. Vi har 5 verdier med X = 0.83, ukjet forvetig µ og stadardavvik lik σ = 0.06. H 0 : µ 0.8 og H 1 : µ > 0.8. Hvor stor er sasylighete for at X er så ekstrem at vi ka forkaste H 0, gitt at H 0 er sa? M.a.o. hva er p-verdie? X er ormalfordelt med forvetig µ og stadardavvik σ/. Ka derfor fie p-verdi for at vårt estimat av at µ vil gi type-i feil på følgede måte: ( ) 0.83 0.8 p = P (X 0.83) = 1 G 0.06/ = 0.13 5 Det vi altså gjør er å summere opp alle tilfellee som er like ekstreme eller mer ekstreme e vårt resultat. 6.19 Eksakt test av p Eksempel fra eksame i ST0201 2006, 2b-c: X er biomisk fordelt med parametre = 5, p. Øsker å teste H 0 : p 0.2, H 1 : p > 0, 2. Øsker α 0.1. Fi forkastigsområdet som sikrer dette. Testobservator X. Forkaster H 0 år X er stor. Hvis H 0 er sa: P (X 2) = 1 P (X 1) = 1 0.737 = 0.263 P (X 3) = 1 P (X 2) = 1 0.942 = 0.058 15
Velger derfor forkastigsområdet X 3. Styrkefuksjoe γ(p) = P (forkaste H 0 ) ( ) 5 P (X 3) = p 3 (1 p) 2 + 3 ( ) 5 p 4 (1 p) 1 + 4 = 10p 3 (1 p) 2 + 5p 4 (1 p) + p 5 ( ) 5 p 5 (1 p) 0 5 p = 0.8, så dette gir: γ(0.8) = P (X 3) = 1 P (X 2) = 1 0.058 = 0.942 6.20 Styrkefuksjo γ(θ): Sasylighete for å forkaste H 0 hvis de ukjete parametere er lik θ. Det er altså e aalyse av sasylighete for å gjøre type-ii feil. Hvis f.eks. H 1 : µ > θ 0, så er γ(θ) = P (Z Z α ). Hvis du lurer på hva som skal stå ie i P(), så er dette det samme som uttrykket i koloe Forkast H 0 hvis i tabelle i seksjo 6.17. 6.21 Eksempel på styrkefuksjo Et laboratorium har utviklet e y prosedyre for å utføre e kjemisk reaksjo. De gamle prosedyre hadde e suksessrate på 0.357 det vil si at sasylighete for at reaksjoe skulle lykkes var 0.357. De gjør 50 forsøk med de ye reaksjoe, og av disse lykkes 24. Dvs. at ˆp = 24 50 = 0.48 Vi bruker så hypotesetestig med α = 0.05 for å se om vi faktisk ka si at de ye reaksjoe er mer effektiv. Setter opp H 0 : p 0.357 og H 1 : p > 0.357, ka forkaste H 0 hvis Z > z α. Hva er sasylighete for å forkaste ullhypotese hvis de faktiske suksessrate er 0.5? Svar: Dette betyr at vi skal fie P (Z > z α ). Legg merke til at dette er det samme som å sette P () rudt uttrykket for å forkaste H 0 hetet fra tabelle i seksjo 6.17. Husk også på at ˆp er ukjet, p 0 = 0.357 og p 1 = 0.5. Vi starter med å isolere ˆp fordi det er de vi udersøker. ( P (Z > z α ) = P ˆp p 0 p 0 (1 p 0 ) > z α = P ˆp > z α p0 (1 p 0 ) + p 0 ) For å fie sasylighete må vi gjøre ˆp ormalfordelt. Vi vet at p 1 = 0.5 er det faktiske svaret, så vi gjør altså ˆp ormalfordelt om dee verdie. Trekker derfor fra p 1 og deler på slik at uttrykket blir ormalfordelt. = P ˆp p 1 p 1 (1 p 1 ) > z α p 0 (1 p 0 ) + p 0 p 1 p 1 (1 p 1 ) p 1 (1 p 1 ) 16
Nå ka vi sette p 0 og p 1. ˆp p 1 p1 (1 p 1 ) = Z da dette uttrykket å er ormalfordelt, og sette i verdiee for = P Z > 1.645 0.357(1 0.357) 50 + 0.357 0.5 = P (Z > 0.446) 0.5(1 0.5) 50 Fra seksjo 5.6 om ormalfordelige vet vi at G(z) = P (Z z), bruker dette til å fie svaret: P (Z > 0.446) = 1 P (Z < 0.446) = 1 G( 0.446) = 1 0.3264 = 0.6736 7 Aalyse av sammeheger 7.1 Estimator for kovariase Cov(X, Y ) S XY = 1 1 ( ) (X i X)(Y i Y ) = 1 X i Y i 1 1 ( X i )( Y i ) 7.2 Empirisk korrelasjo Vi har observasjospar (X 1, Y 1 ), (X 2, Y x ),..., (X, Y ). Deres empiriske korrelasjo kalles R og defieres slik: R = S (X i X)(Y i Y ) XY = S X S Y (X i X) 2 (Y i Y ) 2 Husk at S X = 1 (x i x) 1 2 Når vi setter i våre data så får vi e verdi kalt r som er 1 r 1. r = 1: (X i, Y i )-ee ligger øyaktig på rett lije r < 0: Puktee ligger ær mikede lije. r > 0: Puktee ligger ær voksede lije. r = 0: Ige lieær sammeheg. 7.3 Slutiger om korrelasjo Hvis vi har uavhegige observasjoer (X 1, Y 1 ), (X 2, Y 2 ),..., (X, Y ) fra biormalfordelig med parametre µ x, σ x, µ y, σ y og ρ = Corr(X, Y ) Hvis ρ = 0, så er T = R 1 1 R 2 som er T-fordelt med df = 2. Da T er e voksede fuksjo av R så ka dette beyttes til å teste hypotese: H 0 : ρ = 0 mot esidige eller et tosidig alterativ. Vi bruker da T som testobservator, og side dee er 17
T-fordelt med 2 frihetsgrader blir de kritiske verdiee kvatiler i dee T-fordelige. Hvis de alterative hypotese er ρ > 0 forkastes da ullhypotese hvis T > t 2,α. For tosidig alterativ forkastes ullhypotese hvis T > t 2,α/2. 7.4 Ekel lieær regresjo Vi atar at de stokastiske variabele Y er relatert til de ikke-stokastiske størrelse x. Vi legger til residualet (feilleddet) e i som forstyrrer de lieære sammehege, og ka dermed sette opp følgede likig. Y i = α + βx i + e i Vi atar at feilleddee er uavhegige og ormalfordelte med forvetig ull og ukjet varias σ 2. Vi atar også at variasjoe er like stor uasett hvilke x-verdi vi ser på, selv om dette ka være oe misledede da variasjoe ofte øker år x-verdiee øker. Dette gir at E(Y i ) = α + βx Var(Y i ) = σ 2 Vi øsker å estimere α og β, og vår beste gjetig kalles regresjoslije ŷ = ˆα + ˆβx ˆβ = (x i x)(y i y) (x i x) 2 = r SY S X, ˆα = y ˆβx 7.5 Regresjosmodelles godhet SS T = (Y i Y ) 2 = (ˆα + ˆβx i Y ) 2 + (Y i ˆα ˆβx i ) 2 = SS R + SS E Så dette vil si at et godt mål på adele av variasjoe som forklares av modelle er lik r 2 = SS R SS T 1 R 2 = edrige i y som skyldes tilfeldige variasjoer. Me r 2 er ikke forvetigsrett! Forvetigsrett r 2 = 1 SS E/( p) SS T /( p) 7.6 Egeskaper til ˆα og ˆβ ˆα og ˆβer ormalfordelte og forvetigsrette. Dvs. at E(ˆα) = α og E( ˆβ) = β. Var(ˆα) = σ2 x2 i (x i x) 2 Var( ˆβ) = s 2 = SS E 2 σ 2 (x i x) 2 18
7.7 Hypotesetestig av ˆβ Hvis β=0 så er det ige sammeheg mellom X og Y. For å teste dette ka vi bruke følgede testobservator, som er t-fordelt med 2 frihetsgrader. T = ˆβ SE( ˆβ) = ˆβ SSE 2 / i=0 (x i x) 2 Forkastigsområdet følger også her tabelle i seksjo 6.17 Et 100(1 α) % kofidesitervall for β er gitt ved ˆβ ± t α/2 SE( ˆβ) 7.8 Kofidesitervall for ukjet lije Et 100(1 α)% kofidesitervall for forvetigsverdie E(Y ) for e gitt x-verdi med 2 frihetsgrader er lik ˆα + ˆβ 1 ± t α/2 s + (x x) 2 i=0 (x i x) 2 7.9 Prediksjositervall for observasjoee Et 100(1 α)% prediksjositervall for ekeltobservasjoe Y for e gitt x-verdi, med 2 frithetsgrader er lik ˆα + ˆβ ± t α/2 s 1 + 1 + (x x) 2 i=0 (x i x) 2 7.10 Ikke-lieær regresjo Ta et uttrykk, f.eks. y = αe βx, gjør det om til lieær form: l(y) = l(αe βx ) = l(α) + βx Ser da at dette tilsvarer y = α + βx der y = l(y) og α = l(α). Dee likige ka brukes som valig lieær regresjo. 8 Sammelikig av grupper 8.1 Uparet T -test Vi skal sammelige to grupper, X og Y, sie forvetigsverdier, heholdsvis µ 1 og µ 2, ved å se på differase mellom dem: D = µ 1 µ 2. Atar at X-ee og Y -ee er ormalfordelte og uavhegige både av seg selv og av hveradre. Vi får estimatore ˆD = X Y og varias lik: Var( ˆD) = Var(X) + ( 1) 2 Var(Y ) = σ2 1 1 + σ2 2 2 19
Vi forutsetter at variasee er like, og ka derfor estimere variase slik S 2 P = ( 1 1)S 2 1 + ( 2 1)S 2 2 1 + 2 2 Hvis H 0 er riktig så ka vi bruke følgede T -observator med 1 + 2 2 frithetsgrader T = ˆD SE( ˆD) = X Y S P 1 1 + 1 2 Får følgede 100(1 α)% kofidesitervall for µ 1 µ 2 [X Y t α/2 S P 11 + 12, X Y + t α/2 S P 11 + 12 ] Hvis gruppee er store (over 30) så er det ikke ødvedig å ata at gruppees variaser er like, da ka vi basere oss direkte på S1 2 og S2 2. Da edres T -brøke til T = X Y S 2 1 1 + S2 2 2 8.2 Paret T -test Er e sammelikig av to grupper hvor vi har observasjospar som er ormalfordelt eller > 30. Vi atar at hvert observasjospar er uavhegig av hveradre, me ikke ødvedigvis at observasjoee i paret er det. Paret T -test er bedre e uparet. T = D S D / S 2 D = 1 1 (D i D) 2 som er t-fordelt med 1 frihetsgrader. Et 100(1 α)% kofidesitervall for µ D er gitt ved [ ] D t α/2 SD, D + t α/2 SD NB! Her er det feil i tabelle i 3. utgave, forkastig av H 0 følger også her tabelle i seksjo 6.17 til pukt og prikke. 20