Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x Z = z) = P(X = x)p(z = z) Og siden P(X = x) = P(Z = z) = 1 6 Vil f(x, z) = P(X = x Z = z) = 1 6 1 6 = 1 36 for alle x, z = 1,,,6 for alle x, z = 1,,,6 Dvs. alle mulige kombinasjoner av terningpar ved kast av to terninger vil ha lik sannsynlighet lik 1 36. (ii) P(X Z) = 1 P(X = Z) = 1 [f(1,1) + f(,) + f(3,3) + f(4,4) + f(5,5) + f(6,6)] Fra (i) har vi at f(x, z) = 1 for alle x, z = 1,,,6. Vi kan dermed sette dette inn for 36 f(1,1), f(,),, f(6,6): P(X Z) = 1 [ 1 36 + 1 36 + 1 36 + 1 36 + 1 36 + 1 36 ] = 1-6 36 = 5 6 Dvs. sannsynligheten for at terningene ikke er like er 5. Vi kan tenke oss at vi kaster 6 en terning av gangen: Den første terningen kan ta hvilken som helst verdi. Den andre terningen må ikke bli lik den første terningen, og sannsynligheten for dette er 5 6. (iii) E(X) = 1 1 6 + 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 1 6 = 7 E(X ) = 1 1 6 + 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 91 6 Dermed: Var(X) = E(X ) [E(X)] = 91 6 (7 ) = 91 49 = 18 147 = 35 6 4 1 1 Og tilsvarende for E(Z), E(Z ) og Var(Z).
. (i) E(Y) = E(Z X) = E(Z) E(X) = 7-7 = 0 Var(Y) = Var(Z X) = 1 Var(Z) + (-1) Var(X) = Var(Z) + Var(X) = Var(X) siden Var(X) = Var(Z). Dermed: Var(Y) = 35 = 35 1 6 (ii) E(XY) = E(X(Z X)) = E(XZ X ) = E(XZ) E(X ) Nå: Bruk at Cov(X, Z) = E(XZ) E(X)E(Z) Og siden X og Z er uavhengige Cov(X, Z) = 0. Dermed har vi: E(XZ) = E(X)E(Z) = [E(X)] siden E(X) = E(Z). Dermed: E(XY) = [E(X)] E(X ) = -(E(X ) - [E(X)] ) = -Var(X) = 35 1 Korrelasjonskoeffesienten: ρ = ρ(x, Y) = Cov(X, Y) = E(XY) E(X)E(Y) = 35 Dermed: ρ = Cov(X,Y) = 35 1 Var(X) Var(Y) 35 1 35 6 1-7 Cov(X,Y) Var(X) Var(Y) 0 = 35 1 = 35 1 35 = 7 = 36 = 6 = = 1 1 1 1 7 3. (i) Ved hjelp av Excel simulerer vi 30 observasjoner av X og 30 observasjoner av Z som i oppgaveteksten, der hver av variablene vil få verdier 1,,,6 med tilhørende sannsynligheter på 1/6. Dermed får vi totalt 30 (uavhengige) par av X og Z, som kan ses på som tilfeldig trukne terningpar. (ii) Etter å ha simulert 30 observasjonspar av X og Z, plotter vi disse mot hverandre i et spredningsplott ved hjelp av Excel (her ved X på x-aksen og Z på y-aksen):
Terningpar: X & Z 7 6 5 4 3 1 0 0 1 3 4 5 6 7 Selv om det kanskje er en antydning til en svak positiv sammenheng mellom X og Z ser vi at parene spres relativt tilfeldig utover diagrammet, som kan tyde på at X og Z er uavhengige. Vi kan i alle fall ikke konkludere med det motsatte. Deretter plotter vi X mot Y = Z X i et tilsvarende spredningsdiagram, og legger inn en lineær trendlinje: 4 3 1 X & Y 0-1 0 1 3 4 5 6 7 - -3-4 Her gir spredningsplottet et visst inntrykk av en negativ avhengighet mellom X og Y, noe en fallende trendlinje også indikerer.
Hvorfor får vi denne negative (lineære) avhengigheten? I oppgave (ii) beregnet vi korrelasjonen mellom X og Y til å være ρ = 1, som tilsier en negativ (lineær) avhengighet mellom X og Y av det negative fortegnet. Vi får dermed ρ = 0.5, som betyr at 50 % av variasjonen i Y forklares av X. Dette henger sammen med uttrykket vårt for Y: Siden Y = Z X, vil Y ta en lavere verdi jo høyere verdien for X er. Y bestemmes dermed 50 % av en tilfeldig del Z som ikke avhenger av X, og 50 % av en del som (direkte) avhenger av X. 50 % av variasjonen i Y forklares dermed av X, slik at ρ = 0.5. Merk: Ettersom X og Z (og dermed Y) er diskrete variabler vil vi kunne få flere observasjonspar med samme verdier «oppå hverandre» i spredningsdiagrammet. Dermed kommer ikke nødvendigvis alle observasjonene frem i diagrammet (selv om en trendlinje vil ta hensyn til dette). Det finnes måter å løse dette på, men for enkelhets skyld nøyer vi oss her med og kun se på spredningsplottene som Excel gir oss. 4. (i) Y = Z ax Cov(X, Y) = E(XY) E(X)E(Y) = E(X(Z ax)) E(X)E(Z ax) = E(XZ ax ) E(X) [E(Z) ae(x)] = E(XZ) ae(x ) E(X)E(Z) + a[e(x)] Nå: Bruk at E(XZ) = E(X)E(Z) fra oppgave : Cov(X, Y) = E(X)E(Z) - ae(x ) E(X)E(Z) + a[e(x)] = -a[e(x ) - [E(X)] ] = - avar(x) = -aσ ρ = ρ(x, Y) = Cov(X,Y) Var(X) Var(Y) Må finne Var(Y): Var(Y) = Var(Z ax) = Var(Z) + a Var(X) = (1 + a )σ Sett så inn i formelen for korrelasjonskoeffisienten ρ: aσ aσ ρ = ρ(x, Y) = = = σ (1+a )σ σ (1+a ) a (1+a )
(ii) Sett inn a = -.1 I formelen for korrelasjonskoeffisienten ρ: ρ = ρ(x, Y) =.1 =.1 =.1 (1+(.1) ) (1+4.41) 5.41) = 0.9086 0.9 Deretter simulerer vi n = 30 observasjoner av X og Z (vi kan alternativt bruke samme verdier som i oppgave 3) og setter Y = Z ax. Med a = -.1, får vi Y = Z (-.1)X = Z +.1X. Vi plotter deretter X mot Y i Excel, og legger inn en lineær trendlinje som i oppgave 3: 0 18 16 14 1 10 8 6 4 X og Y (der Y = Z +.1*X) 0 0 1 3 4 5 6 7 Av spredningplottet får vi her inntrykk av en sterk positiv sammenheng mellom X og Y, noe også en positiv korrelasjonskoeffesient relativt nære 1 (ρ 0.9) også burde tilsi. 5. Ved å ta utgangspunkt I dataene fra oppgave 3, får vi en estimert korrelasjon mellom X og Y på r(x, Y) = -0,70864. Estimeringsfeilen, altså avviket fra den sanne korrelasjonskoeffesienten ρ = -1/, er dermed r ρ = -0,70864 (-0,70711) = 0,00153. Estimeringsfeilen var i dette tilfellet svært liten, og den estimerte korrelasjonen svært nærme den sanne korrelasjonskoeffesienten ρ. For å få et bedre inntrykk av hvor stor
estimeringsfeil vi kan forvente når vi estimerer korrelasjonen med et forholdsvis lite utvalg (n=30), gjentar vi eksperimentet 4 ganger slik at vi får 5 forskjellige estimeringer av korrelasjonen totalt: Datasett (n=30) r ρ r ρ 1-0,70864-0,70711 0,00153-0,71633-0,70711 0,009 3-0,78418-0,70711 0,077069 4-0,7567-0,70711 0,045567 5-0,743-0,70711 0,01719 Gjennomsnitt -0,737-0,70711 0,030116 Av tabellen ser vi at vi får litt forskjellige estimater for korrelasjonskoeffesienten r, men at alle er i nærheten av den sanne verdien ρ. Vi ser også at det første estimatet traff svært godt. Dette skyldes i hovedsak tilfeldigheter da n=30 er et forholdsvis lite utvalg, og som vi ser av tabellen traff ikke alle de andre estimatene like godt på den sanne verdien ρ, med en gjennomsnittlig estimeringsfeil på ca. 0,03 (inkludert det første estimatet). Dette er likevel en forholdsvis lav gjennomsnittlig estimeringsfeil med tanke på utvalget. Oppgave 1. (i) Gjøres i Excel. (ii) Ved hjelp av Excel får vi følgende størrelser for x, y og d. Her ser vi at d = y x er oppfylt. x y d y x 166,863354 167,51558 0,6517391 0,6517391 (iii) Ved hjelp av Excel får vi følgende spredningsdiagram med tilhørende trendlinje for x (mors høyde) og y (datters høyde). Spredningsplottet tyder på at det er en positiv sammenheng mellom mor og datters høyde, noe en stigende trendlinje også indikerer.
Mor og datter høyde 185 180 175 170 165 160 155 145 150 155 160 165 170 175 180 185 Vi beregner så den empiriske korrelasjonen mellom x og y til å være r = 0,395. Dette innebærer at r = 0,156, dvs. 15,6 % av den totale variasjonen i y (datters høyde) blir forklart av x (mors høyde). Resten står uforklart, og kan tilegnes «tilfeldigheter» i vår modell. (iv) Med tilhørende intervaller får vi følgende histogram over differansen mellom mor og datters høyde (d): 30 Frekvens 5 0 15 10 5 0-16 -13-10 -7-4 -1 5 8 11 14 17 0 Mer Histogrammet gir absolutt inntrykk av at d er normalfordelt. Fordelingen er relativt symmetrisk og de fleste observasjonene samler seg rundt gjennomsnittet av d, med en form som minner om «klokkeformen» til normalfordelingen.
. (i) Ved hjelp av Excel får vi følgende størrelser på de relevante variablene: Beregnet i Excel desimaler 4 desimaler x 166,863354 166,86 166,8634 y 167,51558 167,5 167,5155 s x 36,93711 36,9 36,937 s y 31,063199 31,03 31,063 s xy 13,55601 13,6 13,553 (ii) Her beregner vi først verdiene på de relevante variablene ved hjelp av funksjonen «Regression» i Excel. Deretter beregner vi de samme verdiene ved å bruke formler fra «Notat til kapittel 4 om regresjon» (formlene brukt her er representert i kolonnen lengst til høyre i tabellen, men det er ofte flere måter å beregne de forskjellige verdiene på) med henholdsvis og 4 desimaler på de opprinnelige verdiene for x, y, s x, s y og s xy (og henholdsvis og 4 desimaler på de påfølgende verdiene av a, b, r SST, SSE og SSR). Beregnet i Excel Beregnet med desimaler Beregnet med 4 desimaler Formel for utregning a 106,573367838738 105,7818 106,576986 y bx b 0,36519533954 0,36589 0,36563 s xy /s x r 0,1560346770936 0,15638089 0,1560366 (s xy /(s x s y )) SST 4964,11180143 4963,984 4964,164 (n 1)s y SSE 4189,633668603 4169,743 4189,759 SS T (1 r ) SSR 774,577917438196 794,4 774,4093 SS T SS E Vi ser her at verdiene beregnet med henholdsvis og 4 desimaler er forholdsvis like de «sanne» verdiene beregnet i Excel (med 13 desimaler). Vi vil ikke få noen endring i eventuelle konklusjoner basert på de svært små avvikene i avrunding. 3. Ved å lage en ny variabel med verdi 1 når yi > xi og verdi 0 når yi xi, finner vi at det totalt er 79 par der datter er høyere enn moren.
4. (i) U (antall par der datter er høyere enn moren) er her binomisk fordelt fordi vi gjør totalt n (=151) trekninger, og i hver enkelt trekning vil enten hendelsen inntreffe (at datter er høyere enn moren) eller så vil den ikke inntreffe. Trekningene er uavhengige av hverandre, og sannsynligheten p er lik for at hendelsen skal inntreffe i hver enkelt trekning (vi kan tenke at vi trekker fra en uendelig stor populasjon sannsynligheten vil dermed være upåvirket av resultatet av foregående trekninger). (ii) Fra oppgaveteksten har vi at D i ~ N(δ, σ D ), dvs. at differansen mellom datter og mors høyde er normalfordelt med forventning δ = E(Di) og standardavvik σ D. Deretter bruker vi regel 5.14 i Løvås for kumulativ sannsynlighet for en normalfordelt variabel: x μ P(X > x) = 1 G( σ ) Der G er Gaussfunksjonen, som vi finner verdier for i tabell E.3 på s. 536 i boka (les avsnittet under regel 5.14 i Løvås). I denne oppgaven har vi et tilsvarende oppsett, bare forskjellige symboler for den stokastiske variabelen, forventning og varians. Hvis vi istedenfor bruker oppsettet i denne oppgaven, har vi: p = P(D i > 0) = 1 G( 0 δ σ D ) Dermed har vi et uttrykk for sannsynligheten p: p = 1 G( δ σ D ) Deretter finner vi uttrykk for sannsynlighetene av to forskjellige casene: E(Yi) = E(Xi), altså δ = 0. Da må sannsynligheten bli: p = 1 G ( δ σ D ) = 1 G ( 0 σ D ) = 1 G(0) = 1 1 = 1 Der vi finner at G(0) = 1 av tabell E.3 i Løvås. Så hvis gjennomsnittshøyden i datter-populasjonen er lik den i mor-populasjonen, vil sannsynligheten for å trekke en datter som er høyere enn moren være lik 1.
E(Yi) > E(Xi), altså δ > 0: p = 1 G ( δ σ D ) = 1 G(z) Der z < 0. Da må G(z) < 1 (sjekk selv i tabel E.3, alle negative verdier av z gir en verdi på G mindre enn 1. Dette kommer av at normalfordelingen er symmetrisk sannsynligheten for at vi får en verdi som er mindre enn noe som er mindre enn forventningen, vil dermed være mindre enn 1 ). Så: G(z) < 1 1 p < 1 p > 1 Dermed: Hvis gjennomsnittshøyden i datter-populasjonen er høyere enn gjennomsnittshøyden i mor-populasjonen, vil sannsynligheten for å trekke en datter som er høyere enn moren være større enn 1. 5. (i) Hvis nullhypotesen H0 er sann, vil U være binomisk fordelt n = 151 og p = 0.5. Vi ønsker så å finne et 95 % spredningsintervall for U under H0, altså et intervall slik at det er 95 % sannsynlig at en tilfeldig trukket verdi (slik vi har her med u 0 = 79) vil ta en verdi i dette intervallet (hvis H0 er sann). Om en tilfeldig trukket verdi ligger utenfor dette intervallet vil dette regnes som (sterk nok) evidens for at H0 ikke er sann, dvs. at høyden i datter-populasjonen ikke er lik mor-populasjonen. For å bestemme øvre og nedre grenseverdi på dette intervallet, må vi finne verdier for c1 og c slik at P(U > c ) 0.05 og P(U c 1 ) 0.975. Dermed vil P(c 1 U c ) = P(U c 1 ) P(U > c ) 0.95, og det vil dermed være 95 % sannsynlig at en tilfeldig trukket verdi vil havne i dette intervallet (hvis H0 er sann). For å finne verdier for c1 og c bruker vi BINOM.DIST-funksjonen i Excel til å beregne kumulative sannsynligheter for U, her for noen utvalgte verdier: c P(U c) P(U > c) 6 0,01700571 0,98995 63 0,05397 0,974776 64 0,0365458 0,963475 86 0,9634754 0,03655 87 0,974776073 0,054 88 0,9899479 0,017005
Av tabellen ser vi at P(U > 87) 0.05 P(U 63) 0.975, altså er c1 = 63 og c = 87, slik at vårt (tilnærmede) 95 % spredningsintervall blir [63,87]. (ii) Under normaltilnærmingen vil et 95 % spredningsintervall tilfredsstille P( 1.96 Z 1.96) = 0.95, der Z er en normalfordelt variabel med forventning 0 og standardavvik 1. Vårt uttrykk for Z = U E(U) Var(U) tilfredsstiller dette under normaltilnærmingen, dermed setter vi inn dette uttrykket i uttrykket vårt for spredningsintervallet: Slik at: U E(U) P ( 1.96 1.96) = 0.95 Var(U) P (E(U) 1.96 Var(U) U E(U) + 1.96 Var(U)) = 0.95 Dermed bruker vi at E(U) = np = 0.5 151 = 75.5 og Var(U) = np(1 p) = 151 0.5 = 37.75, så: P(75.5 1.96 37.75 U 75.5 + 1.96 37.75) = 0.95 P(63.46 U 87.54) = 0.95 Våre verdier for c1 og c under normaltilnærmingen blir dermed c1 = 63.46 og c = 87.54, som er i nærheten av verdiene vi fant basert for den eksakte fordelingen for U. Men siden U her er en diskret variabel, gir det mer mening med heltall for disse verdiene. For å få et minst 95 % spredningsintervall runder vi c1 ned og c opp til nærmeste heltall, slik at vi får verdiene c1 = 63 og c = 88 (spredningsintervallet blir dermed litt større enn 95 %). Vår observerte verdi for U er her u 0 = 79. Denne verdien ligger godt innenfor begge spredningsintervallene. Dermed er det ikke nok evidens i vår data til å slå fast at høyden i datter-populasjonen ikke er lik høyden i mor-populasjonen, da vår observerte verdi for U ikke er tilstrekkelig forskjellig fra forventningsverdien for U på 75.5. At vår observerte verdi for U er litt større enn forventningsverdien for U kan dermed like gjerne skyldes tilfeldigheter.