A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

1 ECON21: ESAEN 215v SENSORVEILEDNING. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >> Grensen til bestått bør ligge på ca -%. Oppgave 1 En klasse på 25 elever på videregående består av 15 jenter og 1 gutter. 4 av jentene og 2 av guttene røyker. En elev trekkes ut rent tilfeldig (slik at alle 25 har samme sannsynlighet). A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn Røyker Ikke - røyker Sum Jente Gutt Sum 25 Definer begivenhetene G og R ved, G = «den uttrukne er gutt» og R = «den uttrukne røyker». Finn følgende 4 sannsynligheter P( G), P( G R), P( G R) og P( G R) << Svar: i) R R Sum J 4 11 15 G 2 8 1 Sum 6 19 25 P( G) 1 25.4 P( G R) 2 25.8 P( G R) (2 4 8) 25 14 25.56 (Eventuelt P( G R) P( G) P( R) P( G R) 1 25 6 25 2 25 14 25 ) P( G R) 2 25 2 P( G R). PR ( ) 6 25 6

2 B. Det trekkes elever fra klassen til en komité rent tilfeldig (dvs. slik at alle ikkeordnete utvalg på er like sannsynlige). La X være antallet i komiteen som røyker. i) Forklar hvorfor X er hypergeometrisk fordelt. Beregn PX ( 2) (med desimalers nøyaktighet). 25 [Hint: For å lette regningen oppgis 2.] i Bruk kjente egenskaper ved den hypergeometriske fordelingen til å vise at E( X ).72 og Var( X ).516 << Svar: i) Populasjonen består av N = 25 enheter hvorav = 6 er R. Under forutsetning av at utvalget på n = er rent tilfeldig, vil X = antall R i utvalget, være hypergeometrisk med punktsannsynlighet 6 19 x x P( X x), x,1,2, 25 619 2 1 1519 ( som gir PX ( 2).129... 25 2 (i Formler i Løvås gir 6 E( X ) np (.24).72, der p.24, og N 25 N n 22 Var( X ) np(1 p) (.72)(.28).516 N 1 24 C. I tillegg til X innfører vi Y = antall jenter i komiteen. Den simultane fordelingen for ( XY, ), bestemt ved f ( x, y) P( X x Y y), er gitt i tabell 1 (som du ikke trenger å vise): Tabell 1 Tabell over f ( x, y ) x y 1 2 sum.24.14.191.72.421 1.24.125.21.96.446 2...59.29.124..2.5.2.9

sum.51.294.456.199 1. i) Forklar hvorfor f (,). Beregn P( X Y ). i Anta vi vet at det er 2 jenter og 1 gutt i den uttrukne komiteen, men ikke om de røyker eller ikke. Hva er da sannsynligheten for at høyst en av dem røyker? [Hint: Finn P( X 1 Y 2) ] <<< Svar: i) Begivenheten ( XY, ) (,) impliserer at det bare er gutter i komiteen og at alle røyker. Dette er umulig siden bare 2 av guttene i klassen røyker, og sannsynligheten for en umulig begivenhet er. i P( X Y ) P ( X Y ) ( X 1Y 1) ( X Y ) = f (,) f (1,1) f (,).24.125.59.2.21 P( X 1Y 2) f (,2) f (1,2).191.21.92 P( X 1 Y 2).8596... PY ( 2).456.456 f( x,2) x D. Beregn korrelasjonskoeffisienten mellom X og Y. [Hint: For å lette regningen oppgis ] E( Y ) 1.8, Var( Y ).7 og xyf ( x, y) 1.4 x y cov( X,Y) <<< Svar: orr.koef. mellom X og Y er ( XY, ). Fra hintet og Var( X)Var( Y) Biii, får vi: cov( X, Y ) E( XY ) E( X ) E( Y ) xyf ( x, y) E( X ) E( Y ) 1.4 (.72)(1.8).44 x y cov( X,Y).44 hvorav ( XY, ).76.. Var( X)Var( Y) (.516)(.7) E. Utvalget i punkt B blir trukket uten tilbakelegging på følgende måte. Alle elevene skriver navnet sitt på en lapp som legges i en kurv (til sammen 25 navnelapper). Utvalget trekkes så ved å trekke en og en navnelapp av gangen uten å legge den uttrukne lappen tilbake i kurven før neste trekning.

4 Anta vi i stedet trekker elever med tilbakelegging (dvs. vi trekker lappene en og en, men legger hver lapp som blir trukket tilbake i kurven før neste trekning). ed denne metoden er det naturligvis en viss risiko for at en og samme elev (dvs. navnelapp) blir trukket ut flere ganger. Finn sannsynligheten for at de navnelappene (trukket ut med tilbakelegging) er forskjellige. [Hint: Det er flere måter å finne denne sannsynligheten på. Du kan selve velge den du synes er best. En av dem er å beregne antall gunstige utfall og antall mulige utfall. En annen metode er følgende: La A være begivenheten at de to første navnelappene som blir trukket er forskjellige, og B begivenheten at alle tre er forskjellige (der altså B er den begivenheten vi ønsker sannsynligheten for). Forklar hvorfor B A B og PA ( ) 24 25. Bruk så multiplikasjonssetningen på P( A B). ] <<< Svar: Gunstig-på-mulig-metoden: Det er 25 mulige utfall som alle er like sannsynlige. Av disse er 2524 2 gunstige muligheter, som gir sannsynlighet for B lik.882.. etode 2: Vi har B A. I et Venndiagram er dette uttrykt ved at B er inneholdt i A, som impliserer B A B. Alternativt: Hvis A B inntreffer, må B inntreffe. På den annen side, hvis B inntreffer, må også A inntreffe siden B A. Dermed B A B. 24 2 Vi har PA ( ) og P( B A), hvorav 25 25 24 2 P( B) P( A B) P( A) P( B A).882 2 25 Oppgave 2 I 214 ble det i Sverige trukket et representativt utvalg på n 11 ungdommer i aldersklassen 16-29 år. Av disse var det 17 som røykte jevnlig. I 212 røykte 1% av ungdommer i denne aldersklassen i Sverige. Vi ønsker å teste om tallene tyder på at røyking blant ungdommer i Sverige har gått ned fra 212 til 214. La X være antall som røyker jevnlig i et representativt utvalg på n ungdommer. Anta at X er binomisk fordelt med parametre n og p (kort: X ~ bin( n, p ) ), der p er andelen av ungdommer i Sverige som røyker jevnlig i 214, og som tolkes som sannsynligheten for at en tilfeldig valgt ungdom i Sverige røyker.

5 A. i) Sett opp en test med signifikansnivå 5% for H: p.1 mot H1: p.1. Skriv testen på formen, «Forkast H hvis X k» og bestem den kritiske verdien k. Beregn p-verdien (tilnærmet) for testen i i) basert på tallene i innledningen og formuler en konklusjon. Bruk heltallskorreksjon ved beregning av p-verdien. <<< Svar: i) Testobservatoren med p.1 er i utgangspunktet pˆ.1 X 11.1 X 11.1 X 11.1 tilnærmet Z ~ N (,1).1*.9 np 1.87 (1 p) 118.17 11 En tilnærmet 5% test er derfor: X 11.1 Forkast H hvis 1.645 (=5%-prosentilen i N(,1)). 1.87 Dette kriteriet er ekvivalent med Forkast H hvis X 11.1 (1.645)(1.87), dvs. Forkast H hvis X 11.2189 som er ekvivalent med (siden X er heltallig): Forkast H hvis X 11 ( k) hvis p.1 Den observerte verdien av X er xo Xobs 17, som gir forkastning på 5% - dvs. det er sterk evidens i data for at røyking blant ungdommer i Sverige har gått ned. heltallskorreksjon X 11.1 17.5 11.1 p-verdi Pp.1( X 17) Pp.1( X 17.5) Pp.1 1.87 1.87 P ( Z 2.17) G( 2.17).15 (p-verdi.12 uten heltallskorreksjon) p.1 der Gz ( ) er den kumulative fordelingsfunksjonen i N(,1). B. i) Utled en tilnærmet formel for styrkefunksjonen for testen din i punkt Ai, der du tilnærmer den binomiske fordelingen med en normalfordeling. i Forklar kort hva som menes med begrepet «feil av type 2» ved bruk av en test. Beregn (tilnærmet) sannsynligheten for feil av type 2 for testen din i punkt Ai dersom den ukjente p er lik.95, og dersom p.15.

6 <<< Svar: i) Løvås, regel 5.2, sier at X er tilnærmet normalfordelt ( np, np(1 p)) dersom Var( X ) np(1 p) 5, noe som ikke er noe problem her siden n er så stor). Styrkefunksjonen: X np 11 np 11 np ( p) Pp (forkast H) Pp ( X 11) Pp G np(1 p) np(1 p) np(1 p) 11.5 np (eventuelt ( p) G med heltallskorreksjon. Begge varianter bør godtas her.) np (1 p ) Feil av type 2 kan kun oppstå dersom H er gal, og man med testen ikke forkaster H. Hvis H er sann, er feil av type 2 umulig og har sannsynlighet. i Hvis p.15, gjelder H, og P(feil type 2). Hvis p.95, er H gal og 11 np P(feil type 2) P(ikke forkast H) 1 (.95) 1 G 1 G( 1.1).864 np(1 p) p.95 (ed heltallskorreksjon blir 11.5 np P(feil type 2) 1 G 1 G( 1.6).8554 np(1 p) p.95 ) Oppgave Resultatene fra den svenske undersøkelsen i oppgave 2 er splittet opp på kvinner og menn som vist i tabell 2. Tabell 2 Antall kvinner og menn, 16-29 år, som røyker - basert på et representativt utvalg fra Sverige 214. vinner enn sum Røyker 67 4 17 Røyker ikke 674 52 126 sum 741 572 11 Vi kan se på dette som to utvalg, et for kvinner ( n 741 personer), og et for menn ( n 572 personer). La X, X betegne henholdsvis antall kvinner som røyker og antall menn som røyker i to slike utvalg. De observerte verdiene av X, Xi utvalget er 67 og 4 henholdsvis.

7 Anta X, X er uavhengige stokastiske variable som begge er binomisk fordelte, X ~ bin( n, p ) og X ~ bin( n, p ), der p, p er andelen henholdsvis av kvinner og menn i alderen 16-29 år i Sverige som røyker i 214. Andelene p, p betraktes som ukjente, og tallene n, n som gitte tall (ikke-stokastiske). Vi ønsker å bruke data til å estimere forskjellen i andel, p p, samt beregne et konfidensintervall for. A. i) Vis at ˆ X X n n er en forventningsrett estimator for. Beregn estimatet ˆobs (der indeksen obs indikerer den observerte verdien). i Vis at standardavviket (SD) for ˆ er gitt ved ˆ p (1 p ) p (1 p ) SD( ) n n Forklar hvorfor ˆ er tilnærmet normalfordelt. <<< Svar: i) Av regler for forventning i Løvås følger ˆ X X 1 1 1 1 E( ) E E( X ) E( X ) n p n n n n n n n p p p 67 4 Estimat: ˆ obs.9.7.2 741 572 Siden X, X er uavhengige ˆ X X 1 1 p (1 p ) p (1 p ) Var( ) Var n (1 ) (1 ) 2 p p n 2 p p n n n n n n Dermed SD( ˆ ) Var( ˆ ) som gir uttrykket i oppgaven. i Følger av regler for normalfordeling: Hvis X1, X 2 er uavhengige og normalfordelte, vil enhver lineærkombinasjon, a1 X1 a2x 2 være normalfordelt. ˆ er en lineærkombinasjon av to uavhengige variable som begge er tilnærmet normalfordelte og må derfor selv være tilnærmet normalfordelt.

8 B. i) ˆ Det kan vises (som du ikke trenger å gjøre) at W er tilnærmet standard SE( ˆ ) normalfordelt (N(,1)) uansett, der standardfeilen, SE( ˆ ), er estimert standardavvik som i punkt Aii, der de ukjente p, p er erstattet med estimater. Bruk dette til å utlede en formel for et konfidensintervall for med konfidensgrad tilnærmet.95. Beregn det observerte konfidensintervallet utledet i punkt Bi ut fra data. <<< Svar: i) ed konfidensdgrad.95, brukes N(,1)-kvantilen z.25 1.96 og vi ˆ har.95 P( 1.96 1.96) P ˆ 1.96 SE( ˆ ) ˆ 1.96 SE( ˆ ) ˆ, som SE( ) gir konfidensintervallet ˆ ˆ ˆ pˆ (1 ˆ ) ˆ (1 ˆ p p p ) 1.96 SE( ) 1.96 n n der pˆ X X og pˆ n n, med estimater pˆ ˆ.9 og.7, obs p, obs, som gir SE( ˆ ).15 Observert I ˆ 1.96 SE( ˆ ) ˆ 1.96 ( ˆ obs SE ).2 (1.96)(.15) [.9,.49] obs