Oblig 1 i MAT24 Tor Hedin Brønner Oppgave 1. a) Vi tar integralet av f X (x) fra til x: x f X (x) dy = Medianen, µ, finner vi ved å sette.5 = µ dy + x = [ θ y θ] x = θ x θ + θ θ ( θ = 1 x) µ θ = θ.5 µ = θ.5 f X (x) dy = 1 θ θ y θ 1 dy ( ) θ µ 1
b) Vi tar integralet av xf X (x): yf X (y) dy = lim y y1 θ = siden 1 θ < = c) Vi setter inn = 2, θ = 2.5 og får da dy + = θ θ y θ dy [ ] θ θ y 1 θ = 1 θ θ θ 1 µ = 2 15 2.5.5 = 26391 yθ θ y θ 1 dy µ X = 2.5 1.5 2 15 = 333333 Lønn kan bare være positiv. Det betyr at noen få personer med veldig høy lønn kan dra opp gjennomsnittet mye, og ingen kan ha stor negativ lønn som naturlig motvekt. Medianen er generelt bedre når dette er tilfellet. d) Standardaviket er Og σ X = 2 θ θ 1 σ 2 = E(X 2 ) µ 2 = x 2 θ θ x θ 1 dx µ 2 = θ θ x 1 θ dx µ 2 [ ] θ θ x 2 θ = µ 2 2 θ fordi θ > 2 = θ2 θ 2 µ2 = θ 2 1 ( θ 2 2 θ (θ 1) 2 )
e) Vi bytter variabel i f X (x) slik at Y = θ ln(x/) og f Y (y) = f X (X(y)) Y = θ ln(x/) e Y/θ = X/ e Y θ = X f Y (y) = θ θ (e y θ ) θ 1 = θ 1 e y( θ 1) θ = 1 θ θ+1 /θ e y/ f Y (y) = når y siden ln(/) =. Dette ligner litt på gammafordelingen, men konstantene matcher ikke ordentlig opp. Oppgave 2. a) Vi ser først på E(Z n ) Og dermed på V ar(z n ) ( ) Xn µ E(Z n ) = E σ/ n n ( = E(Xn ) µ ) n = (µ µ) = σ σ ( ) Xn µ V ar(z n ) = V ar σ/ n ( ) 2 n = V ar(x n ) = nσ2 σ σ 2 n = 1 b) Vi ser først på den uniforme sannsynlighetstettheten (3) { 1 x 1 f(x) = ellers Vi har dermed µ = 1 x dx = 1 2, og σ2 = E(X 2 i ) µ 2 = 1 x2 dx 1 4 = 1 12 3
For eksponentsialfordelingen f(x) = { e x Ved å bruke delvis integrasjon får vi µ = e x x dx [ = xe x + = [ xe x e x] = 1 = 1 x x < ] e x dx σ 2 = E(X 2 i ) µ 2 = e x x 2 dx µ 2 [ = e x x 2 + 2 ] e x x dx µ 2 = [ e x x 2 + 2( e x x e x ) ] µ2 = 2 1 = 1 Vi ser på Bernoulli fordelingen p(x) = 1/2, x = {, 1} E(X i ) = 1 2 ( + 1) = 1 2 σ 2 = E(X 2 i ) 1 4 = 1 2 1 4 = 1 4 c) Et histogram forteller oss hvor mange utfall som faller innenfor visse rekkevidder. Et normert histogram forteller hvor mange prosent av det totale antall utfall som faller innenfor visse rekkevidder. Når bredden på rekkeviddene blir små og antallet observasjoner blir store nærmer prosenten som faller innenfor en rekkevidde seg sannsynlighetstettheten til rekkevidden sin posisjon. 4
d) Vi lager en funskjon f u n c t i o n Z = stdm (n) mu =. 5 ; s i g = s q r t ( 1 / 1 2 ) ; X = unifrnd (, 1, n, 1 ) ; mx = mean(x) ; Z = s q r t ( n ) (mx mu)/ s i g ; end og kjører histogram(stdm(3), 3:.25:3) og får 1 9 8 7 6 5 4 3 2 1-3 -2-1 1 2 3 Histogrammet ligner umiddelbart på en unormert normalfordelling med µ = og σ = 1, altså passende for Z n. 5
e) Vi bruker matlab til å produsere sannsynlighetene i n t = [ I n f 2. 5 :. 5 : 2. 5 I n f ] ; ns = normcdf ( i n t ) ; p i n t = ns ( 2 : 1 3 ) ns ( 1 : 1 2 ) og får (.62.165.441.918.1499.1915.1915....62 ). f) Vi kjører ant = h i s t c o u n t s ( stdm (3, i n t ) ; r e l f r e k v = ant /1; r e l f r e k v. / p i n t som viser oss at intervalsannsynligetene fungerer ganske bra fra 1.5 til 1.5, mens intervallene utenfor er endel unna fasiten. g) Vi kjører h1 = subplot (1, 3, 1) histogram ( stdm ( 3 ), 3:.25:5) t i t l e ( 3 ) ; h2 = subplot (1, 3, 2) histogram ( stdm ( 1 ), 3:.25:5) t i t l e ( 1 ) ; h3 = subplot (1, 3, 3) histogram ( stdm ( 3 ), 3:.25:5) t i t l e ( 3 ) ; a x i s ( [ h1 h2 h3 ], [ 3 5 1 ] ) ; ant = h i s t c o u n t s ( stdm ( 3 ), i n t ) ; r e l f r e k v = ant /1./ p i n t og får 6
11 3 11 1 11 3 1 1 1 9 9 9 8 8 8 7 7 7 6 6 6 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1-4 -2 2 4-4 -2 2 4-4 -2 2 4 og ser at fordellingen ser ganske like ut, men intervalsannsynligetene matcher bedre opp i ytterkantene med høyere n. h) Vi lager først en funksjon som i d): f u n c t i o n Z = stdmexp (n) mu = 1 ; sigma = 1 ; X = exprnd (1, n, 1 ) ; %X = binornd ( 1,. 5, n, 1 ) ; mx = mean(x) ; Z = s q r t ( n ) (mx mu)/ sigma ; end Og kjører dermed: 7
h1 = subplot (1, 3, 1) histogram ( stdmexp ( 3 ), 3:.25:5) t i t l e ( 3 ) ; h2 = subplot (1, 3, 2) histogram ( stdmexp ( 1 ), 3:.25:5) t i t l e ( 1 ) ; h3 = subplot (1, 3, 3) histogram ( stdmexp ( 3 ), 3:.25:5) t i t l e ( 3 ) ; a x i s ( [ h1 h2 h3 ], [ 3 5 1 2 ] ) ; ant = h i s t c o u n t s ( stdmexp ( 3 ), i n t ) ; r e l f r e k v = ant /1./ p i n t Vi får 12 3 12 1 12 3 1 1 1 8 8 8 6 6 6 4 4 4 2 2 2-2 2 4-2 2 4-2 2 4 som vi ser at ikke matcher fullt så godt med normalfordelingen. Interval- 8
sannsynlighetene matcher dårlig i ytterpunktene. i) Vi lager først en funksjon som i d): f u n c t i o n Z = stdmber (n) mu =. 5 ; sigma =. 5 ; X = binornd ( 1,. 5, n, 1 ) ; mx = mean(x) ; Z = s q r t ( n ) (mx mu)/ sigma ; end Og kjører dermed: h1 = subplot (1, 3, 1) histogram ( stdmber ( 3 ), t i t l e ( 3 ) ; a x i s ([ 3 5 4 ] ) ; h2 = subplot (1, 3, 2) histogram ( stdmber ( 1 ), t i t l e ( 1 ) ; a x i s ([ 3 5 2 5 5 ] ) ; h3 = subplot (1, 3, 3) histogram ( stdmber ( 3 ), t i t l e ( 3 ) ; a x i s ([ 3 5 1 5 ] ) ; 3:.25:5) 3:.25:5) 3:.25:5) ant = h i s t c o u n t s ( stdmber ( 3 ), i n t ) ; r e l f r e k v = ant /1./ p i n t Og får dermed 9
4 3 25 1 15 3 35 3 2 25 15 1 2 15 1 5 1 5 5-4 -2 2 4-4 -2 2 4-4 -2 2 4 Som ser ut til å matche normalfordelingen, men treffer ikke alle intervallene. Intervalsannsynligetene varierer dermed mye per kjøring. Oppgave 3. a) Vi utfører ikke-parametrisk bootstrapping på gjennomsnittet og medianen: x = [ 52 14 146 1 51 3 4 27 4 6 ] ; B = 1; meansim = z e r o s (1,B) ; mediansim = z e r o s (1,B) ; f o r b = 1 :B x s t a r = randsample ( x, 9, true ) ; 1
meansim ( b ) = mean( x s t a r ) ; mediansim ( b) = median ( x s t a r ) ; end meanse = s q r t ( var ( meansim ) ) medianse = s q r t ( var ( mediansim ) ) meanbias = mean( meansim ) mean( x ) medianbias = mean( mediansim ) median ( x ) Standardfeilen for gjennomsnittet og medianen blir ca. 13 og 12.3 respektivt. Skjevheten blir liten, absolutt verdi under 1, for begge estimatorene, men varierer endel fra kjøring til kjøring. b) Vi lager histogram ut av meansim og mediansim: 14 Gjennomsnitt 35 Median 12 3 1 25 8 2 6 15 4 1 2 5 2 4 6 8 1 5 1 15 Medianen kan bare være en av verdiene fra utvalget vårt, dermed får vi diskrete hopp. 11
c) Vi antar nå log-normalfordeling, og utfører parametrisk bootstrapping: mu hat = mean( x ) ; sigma hat = 4 2. 4 8 ; meansim = z e r o s (1,B) ; mediansim = z e r o s (1,B) ; f o r b = 1 :B x s t a r = lognrnd ( mu hat, sigma hat, 1, 9 ) ; meansim ( b ) = mean( x s t a r ) ; mediansim ( b) = median ( x s t a r ) ; end meanse = s q r t ( var ( meansim ) ) medianse = s q r t ( var ( mediansim ) ) meanbias = mean( meansim ) mean( x ) medianbias = mean( mediansim ) median ( x ) Og får ekstremt store verdier, noe som tyder på at denne fordellingen passer dårlig på datasettet vårt. 12