STATISTIKK :D INNHOLD

Like dokumenter
TMA4245 Statistikk Eksamen mai 2017

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

ECON240 Statistikk og økonometri

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

MOT310 Statistiske metoder 1, høsten 2011

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag til eksamen i STK desember 2010

Estimering 1 -Punktestimering

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Estimering 1 -Punktestimering

Løsningsforslag Oppgave 1

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Statistikk og økonomi, våren 2017

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4240 Statistikk Høst 2015

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Sammendrag i statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Kap. 9: Inferens om én populasjon

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Kapittel 2: Hendelser

Estimering 2. -Konfidensintervall

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

Oppgaver fra boka: X 2 X n 1

Kapittel 8: Estimering

Mer om utvalgsundersøkelser

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

TMA4240/4245 Statistikk 11. august 2012

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Oversikt over konfidensintervall i Econ 2130

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

TMA4240 Statistikk Høst 2009

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

Econ 2130 Forelesning uke 11 (HG)

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen august 2015

Oversikt over konfidensintervall i Econ 2130

Kap. 9: Inferens om én populasjon

TMA4240 Statistikk Høst 2015

Løsningsforslag ST2301 øving 3

TMA4245 Statistikk Vår 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

Hypotesetesting, del 4

Forelesning Moment og Momentgenererende funksjoner

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

ST1201 Statistiske metoder

TMA4245 Statistikk Eksamen 9. desember 2013

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006

STK1100 våren 2017 Estimering

Løsning TALM1005 (statistikkdel) juni 2017

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 2

FORMELSAMLING TIL STK1100 OG STK1110

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

2. Hypotesetesting i ulike sitausjoner: i. for forventingen, μ, i målemodellen med normalantakelse og kjent varians, σ 2.

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

Hva er statistikk? TMA4240 Statistikk H2015. Denne forelesningen. Pensum

Lineær regresjonsanalyse (13.4)

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Oversikt over konfidensintervall i Econ 2130

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

Transkript:

STATISTIKK :D INNHOLD Et par tig som ka bli yttige.... Sasylighetsregig... 3. Stokastiske variable og sasylighetsfordeliger.... 4. Forvetig og varias... 3 5. Diskrete fordeliger... 4 Diskret uiform fordelig... 4 Biomisk fordelig... 4 Multiomisk fordelig... 4 Hypergeometrisk fordelig... 4 Negativ biomisk fordelig... 5 Poissofordelig... 5 6. Kotiuerlige sasylighetsfordeliger... 5 Uiform kotiuerlig fordelig... 5 Normalfordelig... 5 Gammafordelige... 6 Logormalfordelige... 7 Weibullfordelig... 7 7. Fuksjoer av stokastiske variable... 7 Trasformasjo av variable... 7 Mometgeererede fuksjo... 8 Lieærkombiasjoer av ormalfordelte variable... 8 Summer av uavhegige ormalfordelte variable... 8 Summer av uavhegige kjikvadratfordelte variable... 8 Kvadratsummer av uavhegige variable... 8 Ordigsvariable... 8 8 + 9. Estimerig... 8 Noe viktige estimatorer... 9 Setralgreseteoremet... 9 t-fordelige... 9 Itervallestimerig... 10 Kofidesitervall... 10 Prediksjositervall... 10 Toutvalgs estimerig: estimerig av forskjelle mellom to middelverdier... 11 Estimat av p i biomialfordelige... 1 Ett utvalg: estimat av p... 1 To utvalg: estimat av px py... 1 Ett utvalg: estimat av σ... 13 To utvalg: estimat av σx/σy... 13 Sasylighetsmaksimerigsestimatorer... 13 Likelihoodfuksjoe... 13 Ivariasegeskape til sasylighetsmaksimerigsestimatore... 14 Forvetig og varias til sasylighetsmaksimerigsestimatore... 14 10. Hypotesetestig... 14 Esidig og tosidig test... 15 Noe valige tester av forvetiger... 15 Forvetig til gjeomsitt ved kjet varias... 15 Forvetig til gjeomsitt ved ukjet varias... 16 Differase mellom forvetiger til gjeomsitt av to forskjellige utvalg med kjete variaser... 16 Differase mellom forvetiger til gjeomsitt av to forskjellige utvalg med ukjete, me like, variaser... 16 Differase mellom forvetiger til gjeomsitt av to forskjellige utvalg med ukjete og ulike variaser... 16 Parret T-test... 17 Parrede observasjoer... 17 Parret t-test... 17 Når bør ma bruke e parret t-test?... 17 Teststyrke... 17 Test for p med biomiske data... 18 Ettutvalgs test for p med biomiske data... 18 Toutvalgs test for forskjell i p med biomiske data... 18 Test for varias... 18 11. Ekel lieær regresjo... 19 Regresjosmodelle... 19 Metoder for å fie estimatoree... 19 Miste kvadraters metode... 19 Sasylighetsmaksimerigsestimatormetode... 0 Egeskapee til estimatoree... 1 Kofidesitervall og hypotesetester for α, β og σ... 1 Prediksjo med regresjosmodelle... 1 Prediksjo av é verdi... 1 Prediksjo av gjeomsittsrespos... Korrelasjo...

ET PAR TING SOM KAN BLI NYTTIGE xe ax dx = eax (ax 1) a x e ax dx = eax (a x ax + ) a 3 d dx l(f(x)) = f (x) f(x) z 0.05 = 1.96 x i (x i x ) = (x i x ) b = (x i x )y i (x i x ) = (y i y )x i (x i x )x i = y ix i 1 ( y i)( x i x i 1 ( x i) ) T = Z V/ T = X μ s/ ( 1)S V = σ (x i x ) = 0. SANNSYNLIGHETSREGNING Z = X μ σ/ Utfallsrommet S er megde av alle mulige utfall for et eksperimet. E hedelse H er e delmegde av S. Komplemetet til H er megde av alle elemeter i S som ikke er i H. Sittet av to hedelser A og B er megde av alle elemeter i A som også er i B. To hedelser er disjukte hvis sittet av dem er de tomme megde. Uioe av to hedelser er de medlemmee av S som er medlemmer av ete A, B, eller begge. Pr er som Cr, me ibyrdes rekkefølge i utvalget har oe å si. Så Pr = r!cr. Permutasjoer er ordede utvalg, kombiasjoer er uordede utvalg. Du ka arragere objekter i lije på! måter, og i sirkel på ( 1)! måter. E partisjo av et utfallsrom er e megde A 1, A,, A slik at A 1 A A = S For å fie sasylighete for uioe av flere hedelser: trekk fra likeordes sitt og legg til odde ordes sitt. Så for tre hedelser er P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C) + P(A B C). To hedelser A og B er uavhegige hvis og bare hvis P(A B) = P(A) og P(B A) = P(B), altså hvis A ikke gir oe y iformasjo om B og vice versa. Vi har regele om at P(A B) = P(A B)P(B). Så vi ka også si at A og B er uavhegige hvis og bare hvis P(A B) = P(A)P(B). Mer geerelt har vi at Bayes teorem er P(B A) = P(A B)P(B) P(A) Oddse for e hedelse er P(A) P(A ) = P(A 1 A k ) = P(A 1 )P(A A 1 ) P(A k A 1 A k 1 ) P(A) 1 P(A) = P(A B i )P(B i ) k P(A B i )P(B i ) 3. STOKASTISKE VARIABLE OG SANNSYNLIGHETSFORDELINGER., de siste brukes år B-ee er e partisjo av S. E stokastisk variabel er e fuksjo X = X(s) som kytter reelle tall til hvert ekelttilfelle s i S. X er diskret hvis utfallsrommet har et edelig atall elemeter eller like mage elemeter som det fies heltall, og kotiuerlig hvis utfallsrommet har like mage elemeter som det fies reelle tall.

b Sasylighete P(a X B) for at X ligger i itervallet (a, b) er f(x)dx = F(b) F(a) i det a kotiuerlige tilfellet. Sasylighetsfuksjoe f(x) er altså de deriverte av de kumulative sasylighetsfuksjoe F(x). I det diskrete tilfellet er sasylighete P(X = x) for at X har verdie x lik f(x). For å være e sasylighetsfordelig må f(x) alltid være større e 0 og summere opp til 1 (ete ved å summere over hele defiisjosmegde eller itegrere over hele tallija). De simultafordelte sasylighetsfordelige skrives f(x, y) = P(X = x, Y = Y) i det diskrete tilfellet. I det kotiuerlige tilfellet får ma sasylighete for at X, Y ligger iefor et område i R ved å itegrere fuskjoe over området. Margialfordelige til ku X er f X (x) er det vi får ved å summere fuksjoe over alle mulige y slik at f X (x) = D Y f(x, y) = f(x, y)dy i heholdsvis det diskrete og kotiuerlige tilfellet, og vice versa for margialfordelige til ku Y. Videre har vi at f XY (x, y) = f Y (y x)f X (x). Hvis og bare hvis Y og X er uavhegige har vi dermed at f XY (x, y) = f Y (y)f X (x). Dette ka utvides på aturlig vis til simultae sasylighetsfordeliger og margialfordeliger til et vilkårlig atall stokastiske variable. 4. FORVENTNING OG VARIANS Forvetigsverdie til e variabel er μ = E(X) = D xf(x) = xf(x)dx i heholdsvis det diskrete og det kotiuerlige tilfellet. D er defiisjosmegde til X. Forvetigsverdie til e variabel g(x) er μ g (X) = E[g(X)] = D g(x)f(x) = g(x)f(x)dx Forvetigsverdie til e variabel g(x, Y) er μ g (X, Y) = E[g(X, Y)] = g(x, y)f(x, y) g(x, y)f(x, y)dy dx Hvis to variable er uavhegige er E(XY) = E(X)E(Y). D X D Y = Forvetigsverdie til e lieærkombiasjo er de tilsvarede lieærkombiasjoe av forvetigsverdier. Variase til e variabel er Var(X) = σ = E[(X μ) ] = (x μ) f(x) = (x μ) f(x)dx = E(X ) E(X) Det blir helt tilsvarede år ma skal fie variase til e fuksjo av e variabel. Variase til ax + b er σ ax+b = a σ X = a σ. Kovariase til to variabler X og Y er D Cov(X, Y) = σ XY = E[(X μ X )(Y μ Y )] = (x μ X )(y μ y )f(x, y) = (x μ X )(y μ y )f(x, y) dx D X D Y Og er et mål på assosiasjoe mellom de to. = E(XY) E(X)E(Y) Hvis to variable ikke er korrelerte, vil kovariase deres være 0. Me to variable ka fit være korrellerte selv om kovariase er 0. Variase til e variabel er Var(X) = Cov(X, X).

Variase til e sum av to variable er σ ax+by = a σ X + b σ Y + abσ XY. Hvis de to er uavhegige, blir variase til summe summe av variasee. Stadardavviket til e variabel er kvadratrote av variase. 5. DISKRETE FORDELINGER DISKRET UNIFORM FORDELING Bruk: Når det er like stor sasylighet for hvert utfall i utfallsrommet. Fordeligsfuksjo: f(x) = 1 der k er atall mulige utfall. k Forvetig: μ = 1 k, me dee forekommer ikke oe oftere e oe av de adre verdiee. k Varias: σ = 1 k k x i (x i μ) BINOMISK FORDELING Bruk: Når vi har e Beroulli-prosess med forsøk. Kjeeteges av 3 krav: - Vi gjør uavhegige forsøk - I hvert forsøk registrerer vi om hedelse A itreffer eller ikke - Sasylighete for A er de samme i alle forsøkee, og P(A) = p. Fordeligsfuksjo: f(x) = ( x ) px (1 p) x = alle rekkefølgee dette ka itreffe i gager sasylighete for at det itreffer x gager gager sasylighete for at det ikke itreffer -x gager. Kumulativ fordelig: Side 1 til 17 i heftet. Forvetig: E(X) = p Varias: Var(X) = p(1 p) Disse utledes fra at hvert forsøk represeteres av e Beroullifordelt variabel (som har verdi 0 med sasylighet (1-p) og verdi 1 med sasylighet p), slik at de biomisk fordelte variabele blir e sum av Beroullifordelte variable. MULTINOMISK FORDELING Bruk: Når vi bytter ut adre krav i biomisk fordelig med at vi har k mulige utfall, hver med sasylighet p 1,, p k. Fordeligsfuksjo: f(x 1,, x k ; p 1,, p k ; ) =! p x 1 x x 1! x k! 1 p k k Forvetig: E(X i ) = p i Varias: Var(X i ) = p i (1 p i )s Sammeheg med adre fordeliger: Når k= er X 1 biomisk fordelt. HYPERGEOMETRISK FORDELING Bruk: Vi trekker lodd fra e ure med N lodd, hvorav k er vierlodd. Atall vierlodd er hypergeometrisk fordelt. Fordeligsfuksjo: f(x) = (k x )(N k x ) Kumulativ fordelig: Side 1- i heftet. Forvetig: E(X) = k N Varias: Var(X) = (N )k(1 k N ) (N 1)N ( N ), der x går fra 0 til de miste av og k.

Sammeheg med adre fordeliger: Biomisk fordelig er år vi trekker lodd med tilbakeleggig, hypergeometrisk er år vi trekker lodd ute tilbakeleggig. Når N ka vi approksimere e hypergeometrisk fordelig med e biomisk fordelig der p = k, fordi N N. N NEGATIV BINOMISK FORDELING Bruk: Vi har e Beroulliprosess, me å spør vi om sasylighete for at hedelse A itreffer for k te gag på vårt x te forsøk. Fordeligsfuksjo: f(x) = ( x 1 k 1 ) pk (1 p) x k, der x går fra k og oppover. Kumulativ fordelig: Står ikke i heftet. E egativ biomisk fordelig med k = 1 kalles e geometrisk fordelig. POISSONFORDELING Bruk: Vi har e Poissoprosess med følgede karakteristikk: - Prosesse har itet mie: atall hedelser i et iterall er uavhegig av atallet hedelser som forekommer i ethvert aet disjukt itervall. - Sasylighete for at et ekelt utfall forekommer i løpet av et veldig kort itervall er proporsjoalt med legde av itervallet og avheger ikke av atallet utfall utefor dette itervallet. - Sasylighete for at mer e ett utfall forekommer i løpet av et slikt kort itervall er eglisjerbar. Da er atallet hedelser i løpet av et eksperimet e Poissovariabel og er Poissofordelt. Fordeligsfuksjo: f(x) = e λt (λt) x = e μ μ x fordi E(X) = Var(X) = λt x! x! Sammeheg med adre fordeliger: Vi ka tilærme biomialfordelige til e Poissofordelig år blir stor, da er μ = p. 6. KONTINUERLIGE SANNSYNLIGHETSFORDELINGER UNIFORM KONTINUERLIG FORDELING f(x) = { 1 B A NORMALFORDELING år A x B, μ = A+B 0 ellers og σ = (B A). Vi bruker ikke dee så mye. 1 Dette er de viktigste sasylighetsfordelige som fies og brukes til este alt på gru av setralgreseteoremet. Fordeligsfuksjo Egeskaper f(x) = 1 πσ exp ( 1 (x μ) σ ), < x < - Kurve er symmetrisk om x = μ - Fordelige har sitt typetall ved forvetigsverdie - Kurves vedepukter er ved x = μ ± σ Normalfordelte variable ka trasformeres til de stadard ormalfordelte variable Z med μ = 0, σ = 1 ved å la Z = X μ X = σz + μ. Verdiee til Z står på s. 1 og, og kvatilee står på s. 3. σ

Vi skriver P(Z z) som Φ(z). Phi-fuksjoe har egeskape Φ( x) = 1 Φ(x). E lieærkombiasjo ormalfordelte variable er e y ormalfordelt variabel. Dette er et resultat brukes ekstremt ofte. Approksimasjo av biomialfuksjoe Når X er e biomisk fordelt variabel med μ = p og σ = p(1 p), vil gjøre at fordelige av X p Z = p(1 p) går mot stadardormalfordelige. Dette fugerer veldig bra år er stor og p ikke er veldig ærme 1 eller 0, me også gaske bra år er lite og p ligger rudt ½. GAMMAFORDELINGEN Gammafuksjoe er defiert som Γ(α) = x α 1 e x dx, α > 0 0 For heltallige er Γ() = ( 1)! Forøvrig er Γ ( 1 ) = π. Gammafordelige er gitt ved og har E(X) = αβ og Var(X) = αβ. Når α = 1 får vi ekspoesialfordelige: 1 f(x) = β a Γ(a) xα 1 e x β f(x) = 1 β e x β = λe λx der λ = 1 β. Dee har E(X) = β og Var(X) = β. Ekspoesialfordelige her beslektet med Poissofordelige på omtret samme måte som de geometriske fodelige er beslektet med de biomiske fordelige. For e Poissofordelt variabel har vi at f(0; λx) = e λx. La X være tide det tar før de første Poissohedelse. Sasylighete for at X er større e x er de samme som sasylighete for at ige Poissohedelser skjer ie x, så P(X > x) = e λx. Da er de kumulative fordeligsfuksjoe for X gitt ved P(0 X x) = 1 e λx. Vi deriverer med hesy på x og får at fordeligsfuksjoe til x er ekspoesialfuksjoe, f(x) = λe λx. Her er også β de gjeomsittlige tide mellom hedelser. Når α er et aet heltall beskriver gammafuksjoe forvetet tid før α te hedelse i e Poissoprosess, så på dee måte er gammafordelige beslektet med Poissofordelige på omtret samme måte som de egative biomiske fordelige er beslektet med de biomiske fordelige. Når α = ν/ og β = får vi kjikvadratfordelige: f(x) = 1 ν/ Γ(ν/) xν/ 1 e x/

Dee har E(X) = ν og Var(X) = ν. ν er atall frihetsgrader. LOGNORMALFORDELINGEN E variabel er logormaltfordelt hvis variabele Y = l (x) er ormalfordelt. Dette gir fordelige for x > 0. f(x) = 1 1 exp ( πσx σ [l(x) μ] ) Fordelige har E(X) = e μ+1 σ og Var(X) = e μ+σ (e σ 1) WEIBULLFORDELING Weibullfordelige brukes gjere for levetide til kompoeter år ma tar hesy til slitasje og evetuelt herdig (i motsetig til de «hukommelsesløse» ekspoesialfordelige). Fordelige for x, α, β > 0, er Når β = 1 får vi ekspoesialfordelige. f(x; α, β) = αβx β 1 e αxβ F(x; α, β) = 1 e αxβ For kompoeter med Weibullfordelt levetid ka ma utlede e sviktrate. Hvis R T (t) = P(T > t) er sasylighete for at e kompoet ikke svikter i løpet av tide t, er R T (t) = t f(t)dt = 1 F(t). Sasylighete for at e kompoet svikter i itervallet (t, t + Δt) gitt at de overlevde til t er F(t+Δt) F(t). Hvis vi deler på edrige i tid og lar de gå mot 0, får vi sviktrate F(t + Δt) F(t) Z(t) = lim = f(t) Δt 0 ΔtR T (t) R T (t) = f(t) 1 F(t) = αβtβ 1 Hvis β = 1 får vi ekspoesialfordelige med e kostat sviktrate. Hvis β > 1 er Z(t) e økede fuksjo som idikerer på at kompoete slites over tid, og hvis β < 1 er Z(t) e mikede fuksjo som idikerer at kompoete herdes over tid. R T (t) Fordelige har E(X) = α 1 βγ (1 + 1 β ) og Var(X) = α β (Γ (1 + β ) (Γ (1 + 1 β )) ). 7. FUNKSJONER AV STOKASTISKE VARIABLE TRANSFORMASJON AV VARIABLE La Y = u(x) være e e-til-e-trasformasjo av e diskret X, og X = w(y) = u 1 (Y) = u 1 u(x). Sasylighetstetthete til Y blir da g(y) = f(w(y)). Når X er kotiuerlig blir g(y) = f(w(y))w (y), eller g(y) = f(w(y)) J, der J er Jacobidetermiate, år vi har fuksjoer av flere variable. Det fies også e ae metode for å rege seg frem til g(y): løs u(x) < Y, fi G(Y) = P(Y y) ved å itegrere over de x som løser ulikhete og la g(y) = G (Y). På gru av produktregele for derivasjo eder vi opp med det samme uttrykket som før. Når u(x) ikke er e-til-e lager ma seg et sett e-til-e-fuksjoer og summerer opp løsigee. For eksempel, år u(x) = X summerer vi opp løsigee for X = Y og X = Y.

MOMENTGENERERENDE FUNKSJON De mometgeererede fuksjoe til X er E(e tx ) = x e tx f(x) = e tx f(x)dx. Vi har at E[X k ] = M X (k) (0), altså at forvetigsverdie til X k er de k te deriverte av de mometgeererede fuksjoe til X evaluert i x = 0. M X (k) (0) kalles X sitt k te momet. Det første mometet er forvetigsverdie og det adre mometet opptrer i uttrykket for varias, Var(X) = M X (0) M X (0). Det tredje mometet er et mål på hvor skjev fordelige er og det fjerde mometet er et mål på hvor tykk eller ty fordelige er det er ikke pesum, me det er jo artig da De mometgeererede fuksjoe er uik, det vil si at M X (t) = M Y (t) f X (x) = f Y (y), så vi ka bruke de mometgeererede fuksjoe til å fie fordelige til stokastiske variable. Hvis vi fier de mometgeererede fuksjoe til e stokastisk variabel, og fier at de er de samme som de mometgeererede fuksjoe til e stokastisk variabel med kjet fordelig, har de to variablee de samme fordelige. Veldig mage teoremer i pesum utledes med mometgeererede fuksjoer. Videre har vi at - M X+a (t) = e at M X (t) - M ax (t) = M X (at) - M X1 + +X (t) = M X1 (t) M X (t) - år x < 0 f(x) = 0 er M X ( t) Laplacetrasforme til f(x). LINEÆRKOMBINASJONER AV NORMALFORDELTE VARIABLE SUMMER AV UAVHENGIGE NORMALFORDELTE VARIABLE Når X 1,, X er uavhegige ormalfordelte variable med forvetigsverdier μ 1,, μ og variaser σ 1,, σ vil Y = k=1 a k X k ha e ormalfordelig med μ Y = k=1 a k μ k og σ Y = a k=1 k σ k, som ka vises med mometgeererede fuksjoer. SUMMER AV UAVHENGIGE KJIKVADRATFORDELTE VARIABLE Når X 1,, X er uavhegige kjikvadratfordelte variable med forvetigsverdier ν 1,, ν frihetsgrader vil Y = k=1 a k X k ha e kjikvadratfordelig med k=1 v k frihetsgrader. KVADRATSUMMER AV UAVHENGIGE VARIABLE Når X 1,, X er uavhegige ormalfordelte variable med forvetigsverdier μ 1,, μ og variaser σ 1,, σ vil Y = ( X k μ k k=1 være kjikvadratfordelt med ν = frihetsgrader. Hvis de har samme forvetigsverdi μ σ k ) og samme varias σ, forekles dette til at Y = k=1 er kjikvadratfordelt med ν = frihetsgrader. ORDNINGSVARIABLE Se eget otat om ordigsvariable her. 8 + 9. ESTIMERING ( X k μ σ ) E populasjo ieholder alle observasjoer det er mulig å gjøre om e megde. Et utvalg er e delmegde av disse observasjoee. Hvis X 1,, X er uavhegige stokastiske variable som alle har de samme fordeligsfuksjoe f(x) ka vi defiere X 1,, X som et tilfeldig utvalg med størrelse fra populasjoe

f(x), og de simultae sasylighetsfordelige til det tilfeldige utvalget er f(x) = f(x 1,, x ) = f(x 1 ) f(x ). f(x) vil også være bestemt av visse parametere som vi ete må kjee på teoretisk grulag eller estimere basert på utvalget. E observator, på egelsk a statistic, er e fuksjo av det tilfeldige utvalget, og e observator som gir et estimat for e bestemt parameter kalles e estimator. Verdiee til estimatoree våre blir estimatee. E god estimator er forvetigsrett og effektiv. E observator θ er e forvetigsrett estimator for θ år E(θ ) = θ. De mest effektive estimatore for θ er de som har mist varias. NOEN VIKTIGE ESTIMATORER Det empiriske sittet X = 1 x k=1 i er e forvetigsrett estimator for μ. De har varias σ. De empiriske variase S = 1 (X 1 k=1 i X ) er e forvetigsrett estimator for σ. De empiriske variase har et aet uttrykk som ka være yttig, emlig S = 1 [ X ( 1) i k=1 ( k=1 X i ) ], som vi fier ved å gage ut kvadratuttrykket. Det empiriske stadardavviket S er kvadratrote av de empiriske variase. X og S er uavhegige (det ka vises at Cov(X, S ) = 0). Observatore Z = X μ σ/ er stadard ormalfordelt. Hvis hver X i ikke er ormalfordelt, vil Z fortsatt være stadardormalfordelt dersom er stor ok (typisk ca. 30) på gru av segralgreseteoremet. Observatore V = 1 σ S er kjikvadratfordelt med ν = 1 frihetsgrader. Vi ka teke oss at vi mister e frihetsgrad ved å ha estimert μ med X i estimatore av σ. SENTRALGRENSETEOREMET Hvis X er det empiriske sittet til et tilfeldig utvalg med størrelse tatt fra e populasjo med forvetigsverdi μ og varias σ X μ vil lim være stadard ormalfordelig. σ/ T-FORDELINGEN Når σ er ukjet, og ikke er spesielt stor (typ lavere e 30), må vi bruke t-fordelige. For å utlede fordelige til T = X μ skriver vi S/ T = X μ σ\ S /σ = Z ( 1)S /σ 1 Z = V 1 Fordeligsfuksjoe til e slik variabel er e t-fordelig med -1 frihetsgrader og står som tabell på side 4. De eksakte fordeligsfuksjoe er Γ ( ν + 1 ) ν+1 t (1 + Γ(ν/) πν ν ) Så år vi har uavhegige variabler X 1,, X som alle er ormalfordelte med sitt μ og stadardavvik σ, og lar X = 1 X i, S = 1 (X 1 i X ), vil T = X μ være t-fordelt med ν = 1 frihetsgrader. Når v S/ går t-fordelige mot e ormalfordelig. Lavere ν vil gi e kurve med tykkere haler, altså større varias.

INTERVALLESTIMERING KONFIDENSINTERVALL Et (1 α)-kofidesitervall er et itervall (θ L, θ U) der θ L, θ U er fuksjoer av X 1,, X slik at P(θ L < θ < θ U) = 1 α. De grafiske tolkige av slike kofidesitervaller blir at arealet uder grafe til sasylighetsfordeligsfuksjoe i itervallet vårt er 1 α. α kalles itervallets sigifikasivå. Vi kostruerer disse fuksjoee ved å begye med e observator som kytter parametere vi skal estimere til e sasylighetsfordelig. Disse observatoree er typisk Z, V eller T, og vi kaller disse pivotale størrelser fordi fordelige deres ikke avheger av ukjete parametre. Så sette vi opp e av disse dobbeltulikhetee med fordeliges kvatiler, som står i tabellverket. Ma begyer med å sette i de kjete uttrykkee for hver variabel, og så rege om til ulikhete setreres om parametere ma lurer på. For ormalfordelige gjelder P( z α/ < Z < z α/ ) = 1 α Kvatilee står på s. 3. Dee ka vi bruke år vi kjeer variase og skal estimere μ med x, eller hvis vi skal fie miste slik at sasylighete for at estimatfeile med sasylighet 1 α ikke overskrider e viss feilstørrelse ε. Omregig gir oss at ε < z α/ σ/ med sasylighet 1 α og at vi krever e ( z α/σ ) for at feile med sasylighet 1 α ikke overskrider ε. Vi ruder opp til ærmeste heltall for å være ε sikre. Side ormalfordelige er symmetrisk er det relativt ekelt å lage et esidig kofidesiterall, som er yttigere år vi treger et estimate for det verdie «i verste tilfelle» ka være: For t-fordelige gjelder P(Z < z α ) = 1 α P( t α/,ν < T < t α/,ν ) = 1 α Kvatilee står på s. 4. Dee bruker vi år vi vil utlede kofidesitervaller der vi ikke kjeer σ. Esidig itervall ka gjøres på akkurat samme måte som for ormalfordelige. For χ -fordelige gjelder P(χ 1 α/,ν < V < χ α/,ν ) = 1 α Kvatilee står på s. 5. Dee brukes år vi skal estimere σ. Legg merke til at kvatilee i kjikvadratfordelige er forskjellig fra kvatilee i t-fordelige og ormalfordelige fordi de ikke er symmetrisk. PREDIKSJONSINTERVALL Når vi øsker å forutse verdie til e y fremtidig målig x 0 av de stokastiske variabele X, lager vi et prediksjositervall som tar hesy til både variase i målige x 0 og variase til forvetigsverdie til x 0, side dee forvetigsverdie må estimeres med x. x 0 vil falle iefor itervallets greser med sasylighet 1 α. For å kostruere itervallet tar vi utgagspukt i egeskapee til observatore X X : E(X X ) = E(X) E(X ) = μ μ = 0

Var(X X ) = Var(X) + Var(X ) = σ + σ = σ (1 + 1 ) Side X og X er ormalfordelte vil også X X være ormalfordelte. Ut i fra dette får vi de stadard ormalfordelte observatore Z = X X σ 1 + 1 hvor vi har satt i oppdaterte verdier i det valige uttrykket for Z. Når vi ikke kjeer σ bytter vi ut dee med s og får e helt tilsvarede T-observator. Disse observatoree brukes til å lage prediksjositervall på samme måte som ma lagde kofidesitervall. Resultatee av e viteskapelig udersøkelse er gjere svært sesitiv for «dårlig» data med verdier som ligger lagt ua sittet. E outlier («vill observasjo» på orsk, ikke uteligger) er e observasjo som faller utefor prediksjositervallet ma reger ut ved å bruke alle adre verdier e observasjoe det er sakk om. TOUTVALGS ESTIMERING: ESTIMERING AV FORSKJELLEN MELLOM TO MIDDELVERDIER KJENTE VARIANSER Vi har to populasjoer X 1,, X og Y 1,, Y m med størrelser og m, middelverdier μ X og μ Y og variaser σ X og σ Y. Et puktestimat for forskjelle μ X μ Y mellom middelverdiee til to forskjellige populasjoer er X Y, som er ormalfordelt med forvetigsverdi μ X μ Y og varias σ X + σ Y. Vi har derfor at m Z = (X Y ) (μ X μ Y ) σ X + σ Y m Fra dette uttrykket utledes kofidesitervall for μ X μ Y. UKJENTE VARIANSER Hvis vi ikke kjeer til σ X og σ Y, me atar at σ X = σ Y = σ (som vi ofte gjør i virkelige eksperimeter hvor vi for eksempel tester e populasjo mot e kotrollpopulasjo), ka vi fortsatt lage kofidesitervaller med litt arbeid. ( 1)S X - og (m 1)S Y er kjikvadratfordelte med heholdsvis 1 og m 1 frihetsgrader σ σ - summe av to kjikvadratfordelte variabler er kjikvadratfordelt med summe av frihetsgradee, så V = ( 1)S X +(m 1)SY - T = (X Y ) (μ X μ Y ) σ [ 1 + 1 m ] σ er kjikvadratfordelt med ν = + m frihetsgrader / ( 1)S X +(m 1)SY σ (+m ) er t-fordelt med ν = + m frihetsgrader - Hvis vi lar S P «S pooled» være e estimator for σ, der S p = ( 1)S X +(m 1)S Y, forekles uttrykket for T til T = (X Y ) (μ X μ Y ). S p 1 + 1 m - Fra dette utledes et kofidesitervall for μ X μ Y. +m Det viktigste å ta med seg fra dette er uttrykket for S P, som er et vektet gjeomsitt av S X og S Y, og det edelige uttrykket for T.

Når σ X σ Y treger vi e t-fordelig med ν = (S X /+S Y /m) spesialtilfelle av Welch-Satterthwaites formel, ( [ (S X /) 1 N S i / i ) (S i /i ) N i 1 ]+[(S Y /m) m 1 ] frihetsgrader. Uttrykket for ν er et, her med N =. ν er sjelde et heltall, så det rudes ed til ærmeste heltall. Side ν å er estimert, får vi her et estimert kofidesitervall, så vi må bytte ut = med i uttrykket for kofidesitervallet. Som regel, me ikke alltid, får vi et kortere (mer presist) kofidesitervall ved færre atagelser (f.eks å ikke ata at σ X = σ Y ). ESTIMAT AV P I BINOMIALFORDELINGEN ETT UTVALG: ESTIMAT AV p Hvis X er atall suksesser i e biomisk forsøksrekke vil P = X være e aturlig estimator av p. Vi fier verdie x til X og bruker p = x/ til å estimere p. Når p forvetes å ikke være ekstremt ær 0 eller 1 ka vi via setralteoremet bruke at, for tilstrekkelig store, er P tilærmet ormalfordelt med σ P = σ X μ P = E(P ) = E ( X ) = p = p = σ X p(1 p) = = p(1 p) Dette gir oss e y stadardfordelt observator og et ytt kofidesitervall (for ete p eller miste akseptable verdi til ) der Z = P p p(1 p) Det er vaskelig (me mulig) å fie et eksakt uttrykk for p, så hvis er stor ok bytter ma ut p med p = x/ i rotuttrykket. For å være sikker, kreves det at både p > 5 og (1 p ) > 5, ellers ka ma ikke stole på dee metode. Metode ka også brukes år e biomisk fordelig brukes til å approksimere e hypergeometrisk fordelig, dvs. år N. TO UTVALG: ESTIMAT AV p X p Y Vi ser på to utvalg med størrelse og m, middelverdier p X og mp Y og variaser p X (1 p X ) og mp Y (1 p Y ). Vi fier atall suksesser i hvert tilfelle, altså x og y, og lager estimatoree p X = x/ og p Y = y/m for p X og p Y. Fra dette får vi e estimator P X P Y for p X p Y. Et stadard resoemet gir oss Z = (P X P Y) (p X p Y ) p X(1 p X ) + p Y(1 p Y ) m Hvis p > 5, (1 p ) > 5, mp > 5 og m(1 p ) > 5 gjør vi som før og bytter ut p X med p X, og p Y med p Y.

ETT UTVALG: ESTIMAT AV σ Vi ser på et utvalg med størrelse fra e ormalfordelt populasjo med varias σ og reger ut utvalgsvariase s, som er verdie til estimatore S av σ. For å lage et kofidesitervall bruker vi at V = ( 1)S σ er χ -fordelt med ν = 1 frihetsgrader og bruker valig metode for å utlede kofidesitervallee til χ -fordelte variable. TO UTVALG: ESTIMAT AV σ X /σ Y Dette er gaske slitsomt, og ikke pesum. SANNSYNLIGHETSMAKSIMERINGSESTIMATORER I situasjoer der det ikke er ituitivt hva slags estimator vi bør velge, gir sasylighetsmaksimerigsestimerigsprisippet e systematisk metode for å fie estimatorer. Dee går ut på å fie parameterverdie som maksimerer sasylighete for å observere det vi har observert. Metode tar litt tid å forstå, me er veldig ekel å bruke. E estimator for θ som utledes med dee metode kalles sasylighetsmaksimerigsestimatore til θ. På egelsk kalles metode maximum likelihood estimatio, som gjør det tydelig at ma ikke ka bruke likelihood og probability om hveradre ute å være forsiktig på orsk kue ma kaskje brukt «rimelighet». Når e studet S er lei av å sakke om legde av ordee som brukes i dette temaet, kalles S e sasylighetsmaksimerigsestimerigsprisippfagbegrepavgivigstilbakemeldiggivigslei studet. LIKELIHOODFUNKSJONEN Hvis X = X 1,, X er et tilfeldig utvalg som vi vil bruke til å estimere e parameter θ, ka vi defiere likelihoodfuksjoe L(x; θ) = P(X 1 = x 1,, X = x θ) = f X1,,X (x; θ) for heholdsvis det diskrete og det kotiuerlige tilfellet. Side vi som regel gjør uavhegige observasjoer forekles uttrykket til det mer brukbare L(x; θ) = P(X 1 = x 1 ) P(X = x ) = P(X k = x k ) = f(x 1 ; θ) f(x ; θ) = f(x k ; θ) k=1 P-otasjoe ka aturligvis bare brukes i det diskrete tilfellet side ma i det kotiuerlige tilfellet har at x x P(X = x) = P(x X x) = f(x)dx = 0. Vi øsker å fie verdie θ for θ som maksimerer L(x; θ), eller mer formelt θ : θ (L(x; θ ) L(x; θ)), eller midre formelt toppuktet til L. Noe gager er det åpebart hva θ må være, adre gager ka vi bruke de valige metode for å fie toppukter, altså å fie θ slik at θ L(x; θ ) = 0. Det ka hede vi også må sjekke at θ L(x; θ) < 0 side vi sjelde er iteressert i å fie sasylighetsmiimerigsestimatore til θ. Det er praktisk talt alltid lettere å fie maksimum til l(l) fordi vi da opererer med e sum i stedet for et produkt: l(l(x; θ)) = l ( f(x k θ) ) = l(f(x k θ)) k=1 k=1 k=1

Side l () er e stregt voksede fuksjo vil l (L) og L ha samme maksimum. INVARIANSEGENSKAPEN TIL SANNSYNLIGHETSMAKSIMERINGSESTIMATOREN Hvis θ er e sasylighetsmaksimerigsestimator til θ er τ = g(θ ) e sasylighetsmaksimerigsestimator til τ = g(θ). Derfor ka ofte ma bruke kjete sasylighetsmaksimerigsestimatorer til å rege ut ye sasylighetsmaksimerigsestimatorer. FORVENTNING OG VARIANS TIL SANNSYNLIGHETSMAKSIMERINGSESTIMATOREN Sasylighetsmaksimerigsestimatore er ikke ødvedigvis forvetigsrett, og de er heller ikke ødvedigvis de mest effektive estimatore. For eksempel er sasylighetsmaksimerigsestimatore til σ gitt ved σ = 1 (X X ) k=1, som ikke er forvetigsrett. De går riktigok mot å være forvetigsrett og blir tilstrekkelig effektiv år går mot. Dessute ka det hede at det er lett å fie e forvetigsrett estimator år ma har fuet sasylighetsmaksimerigsestimatore. I tilfellet med σ ka vi for eksempel bruke at E(σ ) = 1 σ til å lage de forvetigsrette estimatore S = σ = 1 1 E(S) = σ = 1 σ = σ. 1 1 10. HYPOTESETESTING 1 (X k=1 X ) slik at E statistisk hypotese er e påstad om e eller flere populasjoer. Når vi tester e hypotese, udersøker vi om påstade er tilstrekkelig sasylig. For å teste e hypotese, fier ma først ullhypotese H 0, som er hypotese vi øsker å utfordre, gjere hypotese ma på forhåd atar «status quo». Så setter ma opp de alterative hypotese H 1 slik at å forkaste H 0 er ekvivalet med å akseptere H 1. Koklusjoe av e hypotesetest er ødvedigvis e av de to følgede: - Vi forkaster H 0 til fordel for H 1 fordi det fies tilstrekkelig grulag for dette i observasjoee våre - Vi mislykkes i å forkaste H 0 fordi det ikke fies tilstrekkelig grulag i observasjoee våre Teste gjøres ved å velge et sigifikasivå α, defiere e testobservator V = V(x) (der x er datasettet vårt), og dele opp verdiområdet til V i et forkastigsområde C og et akseptområde A slik at testresultatet med sasylighet 1 α haver i A dersom H 0 er riktig. Hvis testresultatet haver i C forkaster vi H 0 til fordel for H 1. Hvis testresultatet haver i C selv om H 0 er sa vil vi feilaktig forkaste H 0. Dette er e type I-feil. Sasylighete for å begå type I-feil er α. Hvis testresultatet haver i A selv om H 0 er usa vil vi feilaktig mislykkes i å forkaste H 0. Dette er e type II-feil. Sasylighete for å type II-feil kalles β, som varierer med hvor lagt H 0 er ua virkelighete og først ka reges ut år ma har e spesifikk alterativ hypotese. α og β er egativt korrelerte, så år de ee er stor er de adre lite og omvedt. Vi ka gjøre sasylighete for å begå type I feil så lite vi vil ved å velge e lite ok α, me sasylighete for å begå type II-feil øker med α. Derfor må ma gjøre e subjektiv vurderig og bestemme seg for hvilke type feil ma helst vil ugå år ma velger α. Sasylighete for å begå både type I-feil og type II-feil syker med økede utvalgsstørrelse. E p-verdi er det laveste sigifikasivået vi ka velge hvor de observerte verdie til testobservatore gjør at vi må forkaste H 0. Resultater oppgis gjere som e ulikhet der p-verdie igår, f.eks at p > 0.05. Det er ofte iteressat å fie p-verdie fordi det gir et mer yasert beslutigsgrulag e ja/ei-svaret fra hypoteseteste. For eksempel vil e p-verdi på 6% gjøre at vi ikke forkaster ullhypotese dersom vi har e hypotesetest med sigifikasivå på 5%, me det ka godt hede vi likevel gjør e beslutig basert på at ullhypotese ikke forkastes.

Styrke til e test er sasylighete for å forkaste H 0 dersom e spesifikk alterativ hypotese er sa, og har verdie γ = 1 β. ENSIDIG OG TOSIDIG TEST E test der C er ett sammehegede område kalles e esidig test, og er på forme H 0 : θ = θ 0 H 1 : θ > θ 0 der forkastigsområdet ligger i de høyre hale til fordeligsfuksjoe til θ, eller H 0 : θ = θ 0 H 1 : θ < θ 0 der forkastigsområdet ligger i de vestre hale til fordeligsfuksjoe til θ. E test der C deles opp i to områder kalles e tosidig test, og er på forme H 0 : θ = θ 0 H 1 : θ θ 0 der forkastigsområdet gjere har like stor sasylighetsmasse plassert i hver hale av fordeligsfuksjoe til θ. Ma velger gjere H 0 ved å velge de som ka uttrykkes med et likhetsteg, me år ma gjør det i e esidig test ka ma ikke bruke teste til å forkaste påstade ma får ved å su ulikhete som H 1 uttrykker. Me det er gjere påstade som uttrykkes ved H 1 vi er mest iteressert i. De første eksemplee i boka gjør at dette blir gaske klart. NOEN VANLIGE TESTER AV FORVENTNINGER FORVENTNING TIL GJENNOMSNITT VED KJENT VARIANS Vi tar utgagspukt i et utvalg X 1,, X fra e fordelig med ukjet middelverdi μ og kjet varias σ. Det oppgis e μ 0, og vi vil teste H 0 mot H 1 der H 0 : μ = μ 0 H 1 : μ μ 0 Dee tosidige teste baseres på testobservatore X, som for tilstrekkelig store er tilærmet ormalfordelt med μ X = μ og σ X = σ ved setralgreseteoremet. Så setter vi opp et kofidesitervall for å bestemme forkastigsområdet basert på de observerte verdie x til X ved å bruke de stadardormalfordelte variabele Uder H 0, altså hvis μ = μ 0, får vi at Z = X μ σ/

P ( z α/ < X μ 0 σ/ < z α/) = 1 α Så forkastigsområdet er (, z α/ ) (z α/, ). Vi forkaster H 0 dersom x ligger i dette området. Med litt σ regig fier vi ut at vi ka forkaste H 0 dersom x < μ 0 z eller hvis x > μ σ α/ 0 + z α/, altså hvis σ x μ 0 > z. α/ σ Vi ka også skrive ulikhete med take på μ 0, da får vi at H 0 ikke forkastes år x z μ σ α/ 0 x + z. α/ Dee tosidige hypoteseteste er altså ekvivalet med å kostruere et (1 α)-kofidesitervall for μ 0 og forkaste H 0 dersom x er utefor kofidesitervallet. Hvis vi vil gjøre e esidig test, er hele sasylighetsmasse til forkastigsområdet plassert i e hale av fordelige. Derfor vil vi bruke α-kvatile i stedet for α/-kvatile. Ellers har vi akkurat samme prosedyre som i de tosidige teste. FORVENTNING TIL GJENNOMSNITT VED UKJENT VARIANS Hvis vi har samme betigelser som i forrige test bortsett fra at σ også er ukjet, vil vi ved sigifikasivå α forkaste H 0 hvis de t-fordelte testobservatore t = x μ 0 s/ haver utefor akseptområdet ( t α/, 1, t α/, 1 ) dersom vi har e tosidig test. Hvis vi har e esidig test gjør vi tilsvarede det vi gjorde i forrige test. DIFFERANSE MELLOM FORVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE UTVALG MED KJENTE VARIANSER Her har vi to utvalg som er tilstrekkelig store til at setralgreseteoremet gjelder, og øsker å teste om det er grulag for å si at det er e bestemt differase mellom de to verdiee. Med samme otasjo som før: vi øsker å teste H 0 : μ X μ Y = d 0 H 1 : μ X μ Y d 0 Vi bruker Z = (X Y ) (μ X μ Y ) σ X + σ Y m og gjeomfører teste på samme måte som vi gjorde tidligere. DIFFERANSE MELLOM FORVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE UTVALG MED UKJENTE, MEN LIKE, VARIANSER Når σ X og σ Y er ukjete, me vi har god gru til å ata at σ X = σ Y = σ, gjør vi som i teste av forvetig til gjeomsitt ved ukjet varias, me bruker t = (x y ) d 0 s p /( 1 + 1 m ) der s p = s X observatore haver utefor akseptområdet ( t α/,+m, t α/,+m ). (+1)+sY (m+1) +m og forkaster H 0 hvis DIFFERANSE MELLOM FORVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE UTVALG MED UKJENTE OG ULIKE VARIANSER

Se på kapittelet om estimerig av forskjelle mellom to middelverdier med ukjete og ulike variaser og forstå hva som bør gjøres. PARRET T-TEST PARREDE OBSERVASJONER Parrede observasjoer sammeliger to utvalg i tilfeller der hver verdi i ett utvalg har e aturlig parter i de adre. Et typisk eksempel på dette er om vi vil sjekke vekte til e perso før og etter e diett, da vil vekte til et idivid før diette ha e aturlig parter i vekte til det samme idividet etter diette. Her vil det være mulig å redusere et toutvalgsproblem til et ettutvalgsproblem. Differasee d 1,, d i hvert par av observasjoer vil være verdiee til det tilfeldige utvalget D 1,, D fra e populasjo av differaser. For tilstrekkelig store atar vi at populasjoe er ormalfordelt med μ D = μ 1 μ og e varias σ D som vi estimerer med de empiriske variase s D. Vi brukes D som puktestimat for μ D. Side hvert par av observasjoer {X i, Y i } ikke vil være uavhegige av hveradre har vi at σ Di = σ Xi + σ Yi σ Xi Y i. PARRET T-TEST Kofidesitervallet for μ 1 μ baseres på variabele T = D μ D og reges ut med testobservatore t = S D / (d d 0 ) s D /, og forkastigsområdet kostrueres med e t-fordelig med 1 frihetsgrader. Hypotese vår blir H 0 : μ D = d 0 H 1 : μ D d 0 Ofte er d 0 = 0, som år vi vil teste om e medisi eller prosedyre har oe effekt. NÅR BØR MAN BRUKE EN PARRET T-TEST? Hvis Cov(X i, Y i ) > 0 vil e parret t-test som oftest ha større teststyrke. Hvis Cov(X i, Y i ) = 0 bør ma bruke e toutvalgs t-test, som vil ha litt større styrke e e parret t-test. Hvis Cov(X i, Y i ) < 0 vil ma feilaktig forkaste H 0 for ofte ved e uparret t-test, og feilaktig mislykkes i å forkaste H 0 for ofte ved e parret t-test. TESTSTYRKE Styrkefuksjoe for e esidig test er γ = 1 β = 1 P(Type II feil H 1 ) = P(forkast H 0 H 1 ) Når vi har e spesifikk alterativ hypotese gir styrkefuksjoe e sammeheg mellom teststyrke γ; sigifikasivået α; avviket μ μ 0 mellom de sae verdie μ og parameterverdie μ uder H 0 ; variase σ til observasjoee; og utvalgsstørrelse. Styrkefuksjoe ka derfor gi oss de siste av disse verdiee om vi vet reste. Se boka for eksempler.

TEST FOR P MED BINOMISKE DATA ETTUTVALGS TEST FOR P MED BINOMISKE DATA Vi øsker å teste om adele suksesser p i et biomisk forsøk er lik e forhådsatatt verdi p 0. Alterativhypotese vil være p < p 0, p > p 0 eller p p 0. Sigifikasivået vårt er α, og testobservatore er e biomisk variabel X med p X = p 0. Fra datasettet vårt fier vi atall suksesser x. P P Når er stor ka vi bruke e ormaltilærmig på testobservatore og sette Z = 0, der P = X. Her p 0 (1 p 0 )/ ka det hede at vi må bruke de samme tilærmigee som vi brukte da vi estimerte p i kapittel 9. Ellers gjeomføres teste på akkurat samme måte som før. Vi ka også fie ut tig som hvor stor må være hvis vi øsker e gitt teststyrke. Side de biomiske fordelige er diskret, er det sasyligvis ikke mulig å lage et forkastigsområde som er øyaktig så stort at sasylighetsmasse til området er α. Det ka derfor være yttig å heller bruke P-verdier dersom er lite. Hvis vi har e esidig test reger vi ut ete P = P(X x p = p 0 ) eller P = P(X x p = p 0 ). Hvis vi har e tosidig test reger vi ut P = P(X x p = p 0 ) hvis x < p 0 og P = P(X x p = p 0 ) hvis x > p 0. Vi forkaster H 0 dersom P < α. TOUTVALGS TEST FOR FORSKJELL I P MED BINOMISKE DATA Vi øsker å teste om to adeler suksesser er like (for eksempel ka vi øske å teste om adele røykere med lugekreft er større e adele ikkerøykere med lugekreft). Her tester vi ullhypotese H 0 : p X = p Y = p mot alterativhypotese H 1 : p X p Y, og bruker observatoree P X = X, P Y = Y m. Uder H 0 er E(P X P Y) = p X p Y = p p = 0 og Var(P X P Y) = Var(P X) + Var(P Y) = p(1 p) P X P Y + p(1 p) m = p(1 p) (1 + 1 m ). Normaltilmærig gir oss testobservatore Z =, me vi kjeer ikke p. Derfor tilærmer vi med p(1 p)( 1 + 1 m ) P X P Y Z, der p er e «pooled estimator» (litt som S p (1 p )( 1 + 1 p da vi skulle berege forkjelle mellom m ) middelverdiee til to populasjoer med ukjete variaser) med verdie p = P X+mP Y = X+Y. Uder H +m +m 0 tilsvarer dette e biomisk forsøksrekke med + m forsøk der sasylighete for suksess i hvert tilfelle er p. Vi forkaster H 0 hvis observatore haver i forkastigsområdet. TEST FOR VARIANS Når vi skal utføre e hypotesetest der ullhypotese er at variase σ til e populasjo har e gitt verdi σ 0 mot e av de valige alterativhypotesee, bruker vi de samme kjikvadratfordelte observatore som vi brukte for å kostruere et kofidesitervall i kapittel 9. Testobservatore vår blir derfor χ = ( 1)s σ. For e tosidet 0 test vil forkastigsområdet være at χ ligger utefor itervallet (χ 1 α/, χ α/ ), og for e esidet test med alterativhypotese σ < σ 0 eller σ > σ 0 vil forkastigsområdet være heholdsvis χ < χ 1 α eller χ > χ α. Legg merke til hvorda kvatilee til kjikvadratfordelige skiller seg fra ormalfordelige og t-fordelige.

11. ENKEL LINEÆR REGRESJON I dette kapittelet får ma stor ytte av følgede idetiteter: (x i x ) = x i x = x x = 0 x i (x i x ) = x i (x i x ) + 0x = x i (x i x ) x (x i x ) = (x i x ) (x i x ) = (x i x ) som brukes til å berege tre viktige estimatorer og deres forvetigsverdi og varias. REGRESJONSMODELLEN Ekel lieær regresjo går ut på at vi utfører et forsøk der vi kotrollerer regresjosvariabele (eller regressore) x 1 og måler resposvariabele Y. Videre atar vi at forholdet mellom x og Y ka approksimeres godt med e lieær statistisk modell der vi atar at Y avheger lieært av x og at det er e tilfeldig kompoet ivolvert. Modelle skrives slik: Y = α + βx + ε α og β er som valig heholdsvis kostatledd og stigigstall. ε represeterer de tilfeldige feile og atas å være ormalfordelt med middelverdi 0 (altså at y-verdiee er ormalfordelt rudt e sae regresjoslije y = α + βx) og e varias σ som vi ka kalle feilvariase. Vi atar også at hver ε i er uavhegig av adre ε j og at de alle har samme varias. Vi ka aldri fie de sae regresjoslije, me estimerer de med e tilpasset regresjoslije y = a + bx der a og b er estimater av heholdsvis α og β. Estimater for α og β ka ma fie med to metoder (som er ekvivalete i de forstad at vi får de samme estimatoree). METODER FOR Å FINNE ESTIMATORENE MINSTE KVADRATERS METODE Her tar vi utgagspukt i residualee e i = y i y i, som er feile mellom de målte verdie og de estimerte verdie. Jo midre disse residualee er, jo bedre er modelle vår. Merk at residualee ikke er det samme som de tilfeldige kompoete ε, som er e koseptuell greie som vi egetlig aldri observerer. Residualee ka vi fie. Se boka for e grei figur som vise forskjelle mellom de to. Miste kvadraters metode går ut på å fie estimater som miimerer residualees kvadratsum SSE, der verdie til SSE er gitt ved SSE = e i = (y i y i) = (y i a bx i ) 1 I multippel regresjo kotrollerer vi et sett uavhegige regresjosvariable x = x 1,, x, me vi måler fortsatt bare é resposvariabel.

Side vi vil miimere SSE er det aturlig å fie a og b slik at de deriverte blir 0. Deriverig med hesy på a gir oss: fra dette følger Deriverig med hesy på β gir oss hvor vi ka sette i uttrykket for a: a SSE = (y i a bx i ) = 0 a = 1 y i b x i = y bx b SSE = (y i a bx i ) x i = 0 (y i y + bx bx i ) x i = ((y i y )x i b(x i x )x i ) = (y i y )x i b (x i x )x i og bruker at b = (y i y )x i (x i x )x i (x i x ) = 0 samt svart magi til å se at dette er det samme som b = (x i x )y i (x i x ) Vi ka bruke dette uttrykket for b i uttrykket for a for å fie tallverdiee til estimatee. Det ka vises at både a og b er forvetigsrette. SANNSYNLIGHETSMAKSIMERINGSESTIMATORMETODEN Praktisk ok er estimatoree vi fat med miste kvadraters metode også sasylighetsmaksimerigsestimatoree til α og β. Y er ormalfordelt med μ Y = α + βx i og σ Y = σ, så likelihoodfuksjoe er L(y 1,, y ; α, β, σ ) = f(y 1,, y ) = fi(y i ) = 1 = (π) (σ ) e ( 1 σ ) (y i α βx i ) πσ e ( l(l) = l(πσ ) 1 σ (y i α bx i ) 1 σ )(y i a bx i ) Hvis vi deriverer l(l) med hesy på både a og b og setter de deriverte lik 0 får vi de samme ligigee som vi fikk med forrige metode. Det er også rett frem å fie e estimator for σ : σ l(l) = ( 1 σ ) + 1 (σ ) (y i α βx i ) = 0

som gir oss sasylighetsmaksimerigsestimatore σ = 1 (y i a bx i ) Det ka vises at dee ikke er forvetigsrett. Hvis vi reger på forvetigsverdie til σ ser vi at e forvetigsrett estimator s for regresjosmodelle blir EGENSKAPENE TIL ESTIMATORENE s = 1 (y i a bx i ) = 1 (y i y ) I tillegg til at a, b, s er forvetigsrette estimatorer har vi at Var(b) = Var(a) = σ x i (x i x ) σ (x i x ) = σ ( 1 + ( x (x i x ) )) For å utlede Var(a) vil vi være ødt til å rege ut Cov(Y, b) side Y og b ikke er uavhegige. V = ( )S σ = 1 σ (Y i A Bx i ) er kjikvadratfordelt med ν = frihetsgrader. Vi ka tolke det at vi deler på i uttrykket for s som at vi får oe større varias fordi vi må estimere to variable i stedet for é. KONFIDENSINTERVALL OG HYPOTESETESTER FOR α, β OG σ Vi ka lage kofidesitervall og teste hypoteser om α og β på akkurat samme måte som tidligere, me der vi før ville brukt t- og χ -fordeliger med 1 frihetsgrader må vi å bruke fordeliger med ν = frihetsgrader. Testobservatoree våre vil være for stigigstallet og B β T = S/ (x i x ) A α T = x S i (x i x ) for kostatleddet. PREDIKSJON MED REGRESJONSMODELLEN PREDIKSJON AV ÉN VERDI Vi ka bruke regresjosmodelle til å forutsi verdie y 0 til Y 0 i puktet x = x 0 der x 0 ikke ødvedigvis er e verdi vi på forhåd har målt respose til. Vi gjør dette ved å se på observatore Y 0 Y 0, som er ormalfordelt med E(Y 0 Y 0) = E(Y 0 ) E(Y 0) = E(A + Bx 0 ) E(Y 0 ) = α + βx 0 α βx 0 = 0

Var(Y 0 Y 0) = Var(Y 0 ) + Var(Y 0)Var(Y 0 ) + Var(A + Bx 0 ) = σ + Var(A + Bx 0 Bx + Bx ) = σ + Var((A + Bx ) + Bx 0 Bx ) = σ + Var(Y ) + Var(B(x 0 x )) = σ + Var(Y ) + (x 0 x ) Var(B) = σ + σ + σ (x 0 x ) (x i x ) = σ (1 + 1 + (x 0 x ) (x i x ) ) Vi lager prediksjositervallet vårt ved å bruke observatore T = Y 0 Y 0 S 1 + 1 + (x o x ) (x i x ) som er t-fordelt med ν = frihetsgrader. PREDIKSJON AV GJENNOMSNITTSRESPONS Vi ka også fie gjeomsittsrespose μ Y x0 til Y i x = x 0, altså hvilket gjeomsitt vi vil få dersom vi måler verdie til Y mage gager i puktet x = x 0. Her vil vi få lavere varias, side vi forutsier et gjeomsitt i stedet for e ekelt verdi. Da ser vi på Y 0 som er ormalfordelt med e middelverdi og varias som vi fat i utledige av middelverdie og variase til Y 0 Y 0: σ Y 0 μ Y x0 = E(Y 0) = α + βx 0 = σ ( 1 + (x 0 x ) Vi lager prediksjositervallet vårt ved å bruke observatore (x i x ) ) T = Y 0 μ Y x0 S 1 + (x o x ) (x i x ) som er t-fordelt med ν = frihetsgrader. KORRELASJON Nå gir vi slipp på atagelse om at x 1,, x er verdier vi ka kotrollere eller måle med eglisjerbar feil. I bruk av regresjo er det gjere slik at både X og Y begge er tilfeldige variable, og at måligee våre (x 1, y 1 ),, (x, y ) er observasjoer fra e populasjo med simulta sasylighetstetthet f(x, y). Korrelasjosaalyse bereger i hvilke grad X heger samme med Y gjeom e korrelasjoskoeffisiet. Vi atar at margialtetthete f(y x) til Y er ormalfordelt med middelverdi μ Y x = α + βx og varias σ Y x = σ for e gitt verdi x av X, og at X er ormalfordelt med middelverdi μ og varias σ X. Dette gir de simultae tetthetsfuksjoe over området < x <, < y <. f X,Y (x, y) = f Y X (y x)f X (x) = 1 πσ X σ e 1 ((y α βx σ ) +( x μ X σ X ) )

Vi ka skrive Y på forme Y = α + βx + ε der X er e stokastisk variabel som er uavhegig av de tilfeldige feile ε. Dette gir oss μ Y = α + βμ X og σ Y = β σ X + σ. Uttrykkee vi får for α og σ ka vi putte i i de simultae tetthetsfuksjoe for å få e bivariat ormalfordelig med det deilige uttrykket der 1 f X,Y (x, y) = πσ X σ Y 1 ρ e kalles populasjoskorrelasjoskoeffisiete. 1 (1 ρ ) ((x μ X) ρ( x μ X)( y μ Y)+( y μ Y) ) σ X σ X σ Y σ Y ρ = 1 σ σ = σ β X Y σ Y Verdie til ρ er 0 år β = 0: år regresjoslija er flat er det ige korrelasjo mellom X og Y i populasjoe. Side σ Y > σ må ρ 1 slik at 1 ρ 1. Hvis ρ = ±1 har vi et perfekt lieært forhold mellom X og Y der σ = 0. Derfor vil e ρ som ligger ær 1 i absoluttverdi tyde på god korrelasjo eller lieær assosiasjo mellom X og Y, mes verdier ærmere 0 tyder på lite eller ige korrelasjo. Vi ka få et estimat av ρ ved å bruke idetitete som gir oss Kvadratrote av dee, r = b (x i x ) utvalgskorrelasjoskoeffisiete. SSE = (y i y ) b (x i x ) b (x i x ) (y i y ) (y i y ) SSE = 1 (y i y ), brukes som estimat for ρ og kalles r kalles utvalgsdetermiasjoskoeffisiete. Dee forteller oss hvor stor adel av variasjoe i verdiee til Y som ka gjøres rede for av et lieært forhold til verdiee til X. E korrelasjo r 0 betyr at (100%)r 0 av de totale variasjoe i verdiee til Y som ka gjøres rede for av et lieært forhold til verdiee til X.