Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Like dokumenter
Løsningsforslag til obligatorisk oppgave i ECON 2130

Kapittel 2: Hendelser

Fasit for tilleggsoppgaver

ECON2130 Kommentarer til oblig

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Forventning og varians.

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Formelsamling i medisinsk statistikk

Et lite notat om og rundt normalfordelingen.

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere

Forventning og varians.

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Løsningskisse seminaroppgaver uke 11 ( mars)

Et lite notat om og rundt normalfordelingen.

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Statistikk 1 kapittel 5

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Kapittel 4: Matematisk forventning

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Statistikk 1 kapittel 5

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Bernoulli forsøksrekke og binomisk fordeling

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

TMA4240 Statistikk Høst 2008

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Kapittel 4.4: Forventning og varians til stokastiske variable

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

HØGSKOLEN I STAVANGER

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

Forelening 1, kapittel 4 Stokastiske variable

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Løsningsforslag til obligatorisk oppgave i ECON 2130

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Statistikk 1 kapittel 4

FORMELSAMLING TIL STK1100 OG STK1110

Statistikk 1 kapittel 5

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

TMA4240 Statistikk Høst 2015

Forelesning 13. mars, 2017

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

TMA4240 Statistikk Høst 2016

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Løsningskisse seminaroppgaver uke 15

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Kapittel 3: Studieopplegg

To-dimensjonale kontinuerlige fordelinger

Løsningsforslag, eksamen statistikk, juni 2015

Løsningsforslag Eksamen S2, våren 2014 Laget av Tommy O. Sist oppdatert: 1. september 2018 Antall sider: 11

TMA4240 Statistikk Høst 2009

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

FORMELSAMLING TIL STK1100 OG STK1110

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

La U og V være uavhengige standard normalfordelte variable og definer

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

Statistikk 1 kapittel 5

TMA4240 Statistikk 2014

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

TMA4240 Statistikk Høst 2012

Forelesning 3. april, 2017

Løsningsforslag Eksamen S2, høsten 2016 Laget av Tommy Odland Dato: 27. januar 2017

Regneregler for forventning og varians

ST0202 Statistikk for samfunnsvitere

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag Eksamen S2, våren 2016 Laget av Tommy Odland Dato: 29. januar 2017

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Kap. 7 - Sannsynlighetsfordelinger

UNIVERSITETET I OSLO Matematisk Institutt

TMA4240 Statistikk Høst 2015

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

ØVINGER 2017 Løsninger til oppgaver. Lineærkombinasjonen Z = 5X + 8Y har forventningsverdi

Binomisk sannsynlighetsfunksjon

Løsningsforslag til seminar 4 Undervisningsfri uke

statistikk, våren 2011

Transkript:

Løsningsforslag ECON 130 Obligatorisk semesteroppgave 017 vår Andreas Myhre Oppgave 1 1. (i) Siden X og Z er uavhengige, vil den simultane fordelingen mellom X og Z kunne skrives som: f(x, z) = P(X = x Z = z) = P(X = x)p(z = z) Og siden P(X = x) = P(Z = z) = 1 6 Vil f(x, z) = P(X = x Z = z) = 1 6 1 6 = 1 36 for alle x, z = 1,,,6 for alle x, z = 1,,,6 Dvs. alle mulige kombinasjoner av terningpar ved kast av to terninger vil ha lik sannsynlighet lik 1 36. (ii) P(X Z) = 1 P(X = Z) = 1 [f(1,1) + f(,) + f(3,3) + f(4,4) + f(5,5) + f(6,6)] Fra (i) har vi at f(x, z) = 1 for alle x, z = 1,,,6. Vi kan dermed sette dette inn for 36 f(1,1), f(,),, f(6,6): P(X Z) = 1 [ 1 36 + 1 36 + 1 36 + 1 36 + 1 36 + 1 36 ] = 1-6 36 = 5 6 Dvs. sannsynligheten for at terningene ikke er like er 5. Vi kan tenke oss at vi kaster 6 en terning av gangen: Den første terningen kan ta hvilken som helst verdi. Den andre terningen må ikke bli lik den første terningen, og sannsynligheten for dette er 5 6. (iii) E(X) = 1 1 6 + 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 1 6 = 7 E(X ) = 1 1 6 + 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 91 6 Dermed: Var(X) = E(X ) [E(X)] = 91 6 (7 ) = 91 49 = 18 147 = 35 6 4 1 1 Og tilsvarende for E(Z), E(Z ) og Var(Z).

. (i) E(Y) = E(Z X) = E(Z) E(X) = 7-7 = 0 Var(Y) = Var(Z X) = 1 Var(Z) + (-1) Var(X) = Var(Z) + Var(X) = Var(X) siden Var(X) = Var(Z). Dermed: Var(Y) = 35 = 35 1 6 (ii) E(XY) = E(X(Z X)) = E(XZ X ) = E(XZ) E(X ) Nå: Bruk at Cov(X, Z) = E(XZ) E(X)E(Z) Og siden X og Z er uavhengige Cov(X, Z) = 0. Dermed har vi: E(XZ) = E(X)E(Z) = [E(X)] siden E(X) = E(Z). Dermed: E(XY) = [E(X)] E(X ) = -(E(X ) - [E(X)] ) = -Var(X) = 35 1 Korrelasjonskoeffesienten: ρ = ρ(x, Y) = Cov(X, Y) = E(XY) E(X)E(Y) = 35 Dermed: ρ = Cov(X,Y) = 35 1 Var(X) Var(Y) 35 1 35 6 1-7 Cov(X,Y) Var(X) Var(Y) 0 = 35 1 = 35 1 35 = 7 = 36 = 6 = = 1 1 1 1 7 3. (i) Ved hjelp av Excel simulerer vi 30 observasjoner av X og 30 observasjoner av Z som i oppgaveteksten, der hver av variablene vil få verdier 1,,,6 med tilhørende sannsynligheter på 1/6. Dermed får vi totalt 30 (uavhengige) par av X og Z, som kan ses på som tilfeldig trukne terningpar. (ii) Etter å ha simulert 30 observasjonspar av X og Z, plotter vi disse mot hverandre i et spredningsplott ved hjelp av Excel (her ved X på x-aksen og Z på y-aksen):

Terningpar: X & Z 7 6 5 4 3 1 0 0 1 3 4 5 6 7 Selv om det kanskje er en antydning til en svak positiv sammenheng mellom X og Z ser vi at parene spres relativt tilfeldig utover diagrammet, som kan tyde på at X og Z er uavhengige. Vi kan i alle fall ikke konkludere med det motsatte. Deretter plotter vi X mot Y = Z X i et tilsvarende spredningsdiagram, og legger inn en lineær trendlinje: 4 3 1 X & Y 0-1 0 1 3 4 5 6 7 - -3-4 Her gir spredningsplottet et visst inntrykk av en negativ avhengighet mellom X og Y, noe en fallende trendlinje også indikerer.

Hvorfor får vi denne negative (lineære) avhengigheten? I oppgave (ii) beregnet vi korrelasjonen mellom X og Y til å være ρ = 1, som tilsier en negativ (lineær) avhengighet mellom X og Y av det negative fortegnet. Vi får dermed ρ = 0.5, som betyr at 50 % av variasjonen i Y forklares av X. Dette henger sammen med uttrykket vårt for Y: Siden Y = Z X, vil Y ta en lavere verdi jo høyere verdien for X er. Y bestemmes dermed 50 % av en tilfeldig del Z som ikke avhenger av X, og 50 % av en del som (direkte) avhenger av X. 50 % av variasjonen i Y forklares dermed av X, slik at ρ = 0.5. Merk: Ettersom X og Z (og dermed Y) er diskrete variabler vil vi kunne få flere observasjonspar med samme verdier «oppå hverandre» i spredningsdiagrammet. Dermed kommer ikke nødvendigvis alle observasjonene frem i diagrammet (selv om en trendlinje vil ta hensyn til dette). Det finnes måter å løse dette på, men for enkelhets skyld nøyer vi oss her med og kun se på spredningsplottene som Excel gir oss. 4. (i) Y = Z ax Cov(X, Y) = E(XY) E(X)E(Y) = E(X(Z ax)) E(X)E(Z ax) = E(XZ ax ) E(X) [E(Z) ae(x)] = E(XZ) ae(x ) E(X)E(Z) + a[e(x)] Nå: Bruk at E(XZ) = E(X)E(Z) fra oppgave : Cov(X, Y) = E(X)E(Z) - ae(x ) E(X)E(Z) + a[e(x)] = -a[e(x ) - [E(X)] ] = - avar(x) = -aσ ρ = ρ(x, Y) = Cov(X,Y) Var(X) Var(Y) Må finne Var(Y): Var(Y) = Var(Z ax) = Var(Z) + a Var(X) = (1 + a )σ Sett så inn i formelen for korrelasjonskoeffisienten ρ: aσ aσ ρ = ρ(x, Y) = = = σ (1+a )σ σ (1+a ) a (1+a )

(ii) Sett inn a = -.1 I formelen for korrelasjonskoeffisienten ρ: ρ = ρ(x, Y) =.1 =.1 =.1 (1+(.1) ) (1+4.41) 5.41) = 0.9086 0.9 Deretter simulerer vi n = 30 observasjoner av X og Z (vi kan alternativt bruke samme verdier som i oppgave 3) og setter Y = Z ax. Med a = -.1, får vi Y = Z (-.1)X = Z +.1X. Vi plotter deretter X mot Y i Excel, og legger inn en lineær trendlinje som i oppgave 3: 0 18 16 14 1 10 8 6 4 X og Y (der Y = Z +.1*X) 0 0 1 3 4 5 6 7 Av spredningplottet får vi her inntrykk av en sterk positiv sammenheng mellom X og Y, noe også en positiv korrelasjonskoeffesient relativt nære 1 (ρ 0.9) også burde tilsi. 5. Ved å ta utgangspunkt I dataene fra oppgave 3, får vi en estimert korrelasjon mellom X og Y på r(x, Y) = -0,70864. Estimeringsfeilen, altså avviket fra den sanne korrelasjonskoeffesienten ρ = -1/, er dermed r ρ = -0,70864 (-0,70711) = 0,00153. Estimeringsfeilen var i dette tilfellet svært liten, og den estimerte korrelasjonen svært nærme den sanne korrelasjonskoeffesienten ρ. For å få et bedre inntrykk av hvor stor

estimeringsfeil vi kan forvente når vi estimerer korrelasjonen med et forholdsvis lite utvalg (n=30), gjentar vi eksperimentet 4 ganger slik at vi får 5 forskjellige estimeringer av korrelasjonen totalt: Datasett (n=30) r ρ r ρ 1-0,70864-0,70711 0,00153-0,71633-0,70711 0,009 3-0,78418-0,70711 0,077069 4-0,7567-0,70711 0,045567 5-0,743-0,70711 0,01719 Gjennomsnitt -0,737-0,70711 0,030116 Av tabellen ser vi at vi får litt forskjellige estimater for korrelasjonskoeffesienten r, men at alle er i nærheten av den sanne verdien ρ. Vi ser også at det første estimatet traff svært godt. Dette skyldes i hovedsak tilfeldigheter da n=30 er et forholdsvis lite utvalg, og som vi ser av tabellen traff ikke alle de andre estimatene like godt på den sanne verdien ρ, med en gjennomsnittlig estimeringsfeil på ca. 0,03 (inkludert det første estimatet). Dette er likevel en forholdsvis lav gjennomsnittlig estimeringsfeil med tanke på utvalget. Oppgave 1. (i) Gjøres i Excel. (ii) Ved hjelp av Excel får vi følgende størrelser for x, y og d. Her ser vi at d = y x er oppfylt. x y d y x 166,863354 167,51558 0,6517391 0,6517391 (iii) Ved hjelp av Excel får vi følgende spredningsdiagram med tilhørende trendlinje for x (mors høyde) og y (datters høyde). Spredningsplottet tyder på at det er en positiv sammenheng mellom mor og datters høyde, noe en stigende trendlinje også indikerer.

Mor og datter høyde 185 180 175 170 165 160 155 145 150 155 160 165 170 175 180 185 Vi beregner så den empiriske korrelasjonen mellom x og y til å være r = 0,395. Dette innebærer at r = 0,156, dvs. 15,6 % av den totale variasjonen i y (datters høyde) blir forklart av x (mors høyde). Resten står uforklart, og kan tilegnes «tilfeldigheter» i vår modell. (iv) Med tilhørende intervaller får vi følgende histogram over differansen mellom mor og datters høyde (d): 30 Frekvens 5 0 15 10 5 0-16 -13-10 -7-4 -1 5 8 11 14 17 0 Mer Histogrammet gir absolutt inntrykk av at d er normalfordelt. Fordelingen er relativt symmetrisk og de fleste observasjonene samler seg rundt gjennomsnittet av d, med en form som minner om «klokkeformen» til normalfordelingen.

. (i) Ved hjelp av Excel får vi følgende størrelser på de relevante variablene: Beregnet i Excel desimaler 4 desimaler x 166,863354 166,86 166,8634 y 167,51558 167,5 167,5155 s x 36,93711 36,9 36,937 s y 31,063199 31,03 31,063 s xy 13,55601 13,6 13,553 (ii) Her beregner vi først verdiene på de relevante variablene ved hjelp av funksjonen «Regression» i Excel. Deretter beregner vi de samme verdiene ved å bruke formler fra «Notat til kapittel 4 om regresjon» (formlene brukt her er representert i kolonnen lengst til høyre i tabellen, men det er ofte flere måter å beregne de forskjellige verdiene på) med henholdsvis og 4 desimaler på de opprinnelige verdiene for x, y, s x, s y og s xy (og henholdsvis og 4 desimaler på de påfølgende verdiene av a, b, r SST, SSE og SSR). Beregnet i Excel Beregnet med desimaler Beregnet med 4 desimaler Formel for utregning a 106,573367838738 105,7818 106,576986 y bx b 0,36519533954 0,36589 0,36563 s xy /s x r 0,1560346770936 0,15638089 0,1560366 (s xy /(s x s y )) SST 4964,11180143 4963,984 4964,164 (n 1)s y SSE 4189,633668603 4169,743 4189,759 SS T (1 r ) SSR 774,577917438196 794,4 774,4093 SS T SS E Vi ser her at verdiene beregnet med henholdsvis og 4 desimaler er forholdsvis like de «sanne» verdiene beregnet i Excel (med 13 desimaler). Vi vil ikke få noen endring i eventuelle konklusjoner basert på de svært små avvikene i avrunding. 3. Ved å lage en ny variabel med verdi 1 når yi > xi og verdi 0 når yi xi, finner vi at det totalt er 79 par der datter er høyere enn moren.

4. (i) U (antall par der datter er høyere enn moren) er her binomisk fordelt fordi vi gjør totalt n (=151) trekninger, og i hver enkelt trekning vil enten hendelsen inntreffe (at datter er høyere enn moren) eller så vil den ikke inntreffe. Trekningene er uavhengige av hverandre, og sannsynligheten p er lik for at hendelsen skal inntreffe i hver enkelt trekning (vi kan tenke at vi trekker fra en uendelig stor populasjon sannsynligheten vil dermed være upåvirket av resultatet av foregående trekninger). (ii) Fra oppgaveteksten har vi at D i ~ N(δ, σ D ), dvs. at differansen mellom datter og mors høyde er normalfordelt med forventning δ = E(Di) og standardavvik σ D. Deretter bruker vi regel 5.14 i Løvås for kumulativ sannsynlighet for en normalfordelt variabel: x μ P(X > x) = 1 G( σ ) Der G er Gaussfunksjonen, som vi finner verdier for i tabell E.3 på s. 536 i boka (les avsnittet under regel 5.14 i Løvås). I denne oppgaven har vi et tilsvarende oppsett, bare forskjellige symboler for den stokastiske variabelen, forventning og varians. Hvis vi istedenfor bruker oppsettet i denne oppgaven, har vi: p = P(D i > 0) = 1 G( 0 δ σ D ) Dermed har vi et uttrykk for sannsynligheten p: p = 1 G( δ σ D ) Deretter finner vi uttrykk for sannsynlighetene av to forskjellige casene: E(Yi) = E(Xi), altså δ = 0. Da må sannsynligheten bli: p = 1 G ( δ σ D ) = 1 G ( 0 σ D ) = 1 G(0) = 1 1 = 1 Der vi finner at G(0) = 1 av tabell E.3 i Løvås. Så hvis gjennomsnittshøyden i datter-populasjonen er lik den i mor-populasjonen, vil sannsynligheten for å trekke en datter som er høyere enn moren være lik 1.

E(Yi) > E(Xi), altså δ > 0: p = 1 G ( δ σ D ) = 1 G(z) Der z < 0. Da må G(z) < 1 (sjekk selv i tabel E.3, alle negative verdier av z gir en verdi på G mindre enn 1. Dette kommer av at normalfordelingen er symmetrisk sannsynligheten for at vi får en verdi som er mindre enn noe som er mindre enn forventningen, vil dermed være mindre enn 1 ). Så: G(z) < 1 1 p < 1 p > 1 Dermed: Hvis gjennomsnittshøyden i datter-populasjonen er høyere enn gjennomsnittshøyden i mor-populasjonen, vil sannsynligheten for å trekke en datter som er høyere enn moren være større enn 1. 5. (i) Hvis nullhypotesen H0 er sann, vil U være binomisk fordelt n = 151 og p = 0.5. Vi ønsker så å finne et 95 % spredningsintervall for U under H0, altså et intervall slik at det er 95 % sannsynlig at en tilfeldig trukket verdi (slik vi har her med u 0 = 79) vil ta en verdi i dette intervallet (hvis H0 er sann). Om en tilfeldig trukket verdi ligger utenfor dette intervallet vil dette regnes som (sterk nok) evidens for at H0 ikke er sann, dvs. at høyden i datter-populasjonen ikke er lik mor-populasjonen. For å bestemme øvre og nedre grenseverdi på dette intervallet, må vi finne verdier for c1 og c slik at P(U > c ) 0.05 og P(U c 1 ) 0.975. Dermed vil P(c 1 U c ) = P(U c 1 ) P(U > c ) 0.95, og det vil dermed være 95 % sannsynlig at en tilfeldig trukket verdi vil havne i dette intervallet (hvis H0 er sann). For å finne verdier for c1 og c bruker vi BINOM.DIST-funksjonen i Excel til å beregne kumulative sannsynligheter for U, her for noen utvalgte verdier: c P(U c) P(U > c) 6 0,01700571 0,98995 63 0,05397 0,974776 64 0,0365458 0,963475 86 0,9634754 0,03655 87 0,974776073 0,054 88 0,9899479 0,017005

Av tabellen ser vi at P(U > 87) 0.05 P(U 63) 0.975, altså er c1 = 63 og c = 87, slik at vårt (tilnærmede) 95 % spredningsintervall blir [63,87]. (ii) Under normaltilnærmingen vil et 95 % spredningsintervall tilfredsstille P( 1.96 Z 1.96) = 0.95, der Z er en normalfordelt variabel med forventning 0 og standardavvik 1. Vårt uttrykk for Z = U E(U) Var(U) tilfredsstiller dette under normaltilnærmingen, dermed setter vi inn dette uttrykket i uttrykket vårt for spredningsintervallet: Slik at: U E(U) P ( 1.96 1.96) = 0.95 Var(U) P (E(U) 1.96 Var(U) U E(U) + 1.96 Var(U)) = 0.95 Dermed bruker vi at E(U) = np = 0.5 151 = 75.5 og Var(U) = np(1 p) = 151 0.5 = 37.75, så: P(75.5 1.96 37.75 U 75.5 + 1.96 37.75) = 0.95 P(63.46 U 87.54) = 0.95 Våre verdier for c1 og c under normaltilnærmingen blir dermed c1 = 63.46 og c = 87.54, som er i nærheten av verdiene vi fant basert for den eksakte fordelingen for U. Men siden U her er en diskret variabel, gir det mer mening med heltall for disse verdiene. For å få et minst 95 % spredningsintervall runder vi c1 ned og c opp til nærmeste heltall, slik at vi får verdiene c1 = 63 og c = 88 (spredningsintervallet blir dermed litt større enn 95 %). Vår observerte verdi for U er her u 0 = 79. Denne verdien ligger godt innenfor begge spredningsintervallene. Dermed er det ikke nok evidens i vår data til å slå fast at høyden i datter-populasjonen ikke er lik høyden i mor-populasjonen, da vår observerte verdi for U ikke er tilstrekkelig forskjellig fra forventningsverdien for U på 75.5. At vår observerte verdi for U er litt større enn forventningsverdien for U kan dermed like gjerne skyldes tilfeldigheter.