A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Like dokumenter
UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Econ 2130 uke 16 (HG)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Fasit for tilleggsoppgaver

Løsningskisse for oppgaver til undervisningsfri uke 14 (6.-9. april)

Løsningskisse seminaroppgaver uke 15

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk Høst 2015

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Litt mer om den hypergeometriske fordelingen og dens tilnærming av binomisk fordeling.

Kapittel 9 og 10: Hypotesetesting

ÅMA110 Sannsynlighetsregning med statistikk, våren

Statistikk 1 kapittel 5

STK1100 våren 2019 Mere om konfidensintevaller

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN I HSTAT1101, 22. NOVEMBER 2018: LØSNINGSFORSLAG. Knut R. Wangen, Innledning

i x i

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Kapittel 9 og 10: Hypotesetesting

Statistikk 1 kapittel 5

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk 2014

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

HØGSKOLEN I STAVANGER

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

ST0202 Statistikk for samfunnsvitere

Løsningskisse seminaroppgaver uke 11 ( mars)

Løsningsforlag statistikk, FO242N, AMMT, HiST 2.årskurs, 7. desember 2006 side 1 ( av 8) LØSNINGSFORSLAG

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk Eksamen desember 2015

Emnenavn: Eksamenstid: Faglærer: Hans Kristian Bekkevard

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

TMA4245 Statistikk Eksamen august 2014

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Kapittel 3: Studieopplegg

ST0202 Statistikk for samfunnsvitere

Løsning eksamen desember 2017

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010 (22)

Eksamensoppgave i TMA4245 Statistikk

Statistikk 1 kapittel 5

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

ST0202 Statistikk for samfunnsvitere

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Høgskoleni østfold EKSAMEN

ST0202 Statistikk for samfunnsvitere

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Econ 2130 uke 18 (HG) Hypotesetesting II P-verdi

6.2 Signifikanstester

Formelsamling i medisinsk statistikk

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

QED Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

UNIVERSITETET I OSLO Matematisk Institutt

EKSAMEN I TMA4245 Statistikk

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Løsningsforslag, eksamen statistikk, juni 2015

Regneøvelse 22/5, 2017

Eksamensoppgave i TMA4240 Statistikk

Løsning eksamen desember 2016

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Løsningsforslag Til Statlab 5

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

TMA4240 Statistikk Høst 2015

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2018

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Regler i statistikk STAT 100

Transkript:

1 ECON21: ESAEN 215v SENSORVEILEDNING. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >> Grensen til bestått bør ligge på ca -%. Oppgave 1 En klasse på 25 elever på videregående består av 15 jenter og 1 gutter. 4 av jentene og 2 av guttene røyker. En elev trekkes ut rent tilfeldig (slik at alle 25 har samme sannsynlighet). A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn Røyker Ikke - røyker Sum Jente Gutt Sum 25 Definer begivenhetene G og R ved, G = «den uttrukne er gutt» og R = «den uttrukne røyker». Finn følgende 4 sannsynligheter P( G), P( G R), P( G R) og P( G R) << Svar: i) R R Sum J 4 11 15 G 2 8 1 Sum 6 19 25 P( G) 1 25.4 P( G R) 2 25.8 P( G R) (2 4 8) 25 14 25.56 (Eventuelt P( G R) P( G) P( R) P( G R) 1 25 6 25 2 25 14 25 ) P( G R) 2 25 2 P( G R). PR ( ) 6 25 6

2 B. Det trekkes elever fra klassen til en komité rent tilfeldig (dvs. slik at alle ikkeordnete utvalg på er like sannsynlige). La X være antallet i komiteen som røyker. i) Forklar hvorfor X er hypergeometrisk fordelt. Beregn PX ( 2) (med desimalers nøyaktighet). 25 [Hint: For å lette regningen oppgis 2.] i Bruk kjente egenskaper ved den hypergeometriske fordelingen til å vise at E( X ).72 og Var( X ).516 << Svar: i) Populasjonen består av N = 25 enheter hvorav = 6 er R. Under forutsetning av at utvalget på n = er rent tilfeldig, vil X = antall R i utvalget, være hypergeometrisk med punktsannsynlighet 6 19 x x P( X x), x,1,2, 25 619 2 1 1519 ( som gir PX ( 2).129... 25 2 (i Formler i Løvås gir 6 E( X ) np (.24).72, der p.24, og N 25 N n 22 Var( X ) np(1 p) (.72)(.28).516 N 1 24 C. I tillegg til X innfører vi Y = antall jenter i komiteen. Den simultane fordelingen for ( XY, ), bestemt ved f ( x, y) P( X x Y y), er gitt i tabell 1 (som du ikke trenger å vise): Tabell 1 Tabell over f ( x, y ) x y 1 2 sum.24.14.191.72.421 1.24.125.21.96.446 2...59.29.124..2.5.2.9

sum.51.294.456.199 1. i) Forklar hvorfor f (,). Beregn P( X Y ). i Anta vi vet at det er 2 jenter og 1 gutt i den uttrukne komiteen, men ikke om de røyker eller ikke. Hva er da sannsynligheten for at høyst en av dem røyker? [Hint: Finn P( X 1 Y 2) ] <<< Svar: i) Begivenheten ( XY, ) (,) impliserer at det bare er gutter i komiteen og at alle røyker. Dette er umulig siden bare 2 av guttene i klassen røyker, og sannsynligheten for en umulig begivenhet er. i P( X Y ) P ( X Y ) ( X 1Y 1) ( X Y ) = f (,) f (1,1) f (,).24.125.59.2.21 P( X 1Y 2) f (,2) f (1,2).191.21.92 P( X 1 Y 2).8596... PY ( 2).456.456 f( x,2) x D. Beregn korrelasjonskoeffisienten mellom X og Y. [Hint: For å lette regningen oppgis ] E( Y ) 1.8, Var( Y ).7 og xyf ( x, y) 1.4 x y cov( X,Y) <<< Svar: orr.koef. mellom X og Y er ( XY, ). Fra hintet og Var( X)Var( Y) Biii, får vi: cov( X, Y ) E( XY ) E( X ) E( Y ) xyf ( x, y) E( X ) E( Y ) 1.4 (.72)(1.8).44 x y cov( X,Y).44 hvorav ( XY, ).76.. Var( X)Var( Y) (.516)(.7) E. Utvalget i punkt B blir trukket uten tilbakelegging på følgende måte. Alle elevene skriver navnet sitt på en lapp som legges i en kurv (til sammen 25 navnelapper). Utvalget trekkes så ved å trekke en og en navnelapp av gangen uten å legge den uttrukne lappen tilbake i kurven før neste trekning.

4 Anta vi i stedet trekker elever med tilbakelegging (dvs. vi trekker lappene en og en, men legger hver lapp som blir trukket tilbake i kurven før neste trekning). ed denne metoden er det naturligvis en viss risiko for at en og samme elev (dvs. navnelapp) blir trukket ut flere ganger. Finn sannsynligheten for at de navnelappene (trukket ut med tilbakelegging) er forskjellige. [Hint: Det er flere måter å finne denne sannsynligheten på. Du kan selve velge den du synes er best. En av dem er å beregne antall gunstige utfall og antall mulige utfall. En annen metode er følgende: La A være begivenheten at de to første navnelappene som blir trukket er forskjellige, og B begivenheten at alle tre er forskjellige (der altså B er den begivenheten vi ønsker sannsynligheten for). Forklar hvorfor B A B og PA ( ) 24 25. Bruk så multiplikasjonssetningen på P( A B). ] <<< Svar: Gunstig-på-mulig-metoden: Det er 25 mulige utfall som alle er like sannsynlige. Av disse er 2524 2 gunstige muligheter, som gir sannsynlighet for B lik.882.. etode 2: Vi har B A. I et Venndiagram er dette uttrykt ved at B er inneholdt i A, som impliserer B A B. Alternativt: Hvis A B inntreffer, må B inntreffe. På den annen side, hvis B inntreffer, må også A inntreffe siden B A. Dermed B A B. 24 2 Vi har PA ( ) og P( B A), hvorav 25 25 24 2 P( B) P( A B) P( A) P( B A).882 2 25 Oppgave 2 I 214 ble det i Sverige trukket et representativt utvalg på n 11 ungdommer i aldersklassen 16-29 år. Av disse var det 17 som røykte jevnlig. I 212 røykte 1% av ungdommer i denne aldersklassen i Sverige. Vi ønsker å teste om tallene tyder på at røyking blant ungdommer i Sverige har gått ned fra 212 til 214. La X være antall som røyker jevnlig i et representativt utvalg på n ungdommer. Anta at X er binomisk fordelt med parametre n og p (kort: X ~ bin( n, p ) ), der p er andelen av ungdommer i Sverige som røyker jevnlig i 214, og som tolkes som sannsynligheten for at en tilfeldig valgt ungdom i Sverige røyker.

5 A. i) Sett opp en test med signifikansnivå 5% for H: p.1 mot H1: p.1. Skriv testen på formen, «Forkast H hvis X k» og bestem den kritiske verdien k. Beregn p-verdien (tilnærmet) for testen i i) basert på tallene i innledningen og formuler en konklusjon. Bruk heltallskorreksjon ved beregning av p-verdien. <<< Svar: i) Testobservatoren med p.1 er i utgangspunktet pˆ.1 X 11.1 X 11.1 X 11.1 tilnærmet Z ~ N (,1).1*.9 np 1.87 (1 p) 118.17 11 En tilnærmet 5% test er derfor: X 11.1 Forkast H hvis 1.645 (=5%-prosentilen i N(,1)). 1.87 Dette kriteriet er ekvivalent med Forkast H hvis X 11.1 (1.645)(1.87), dvs. Forkast H hvis X 11.2189 som er ekvivalent med (siden X er heltallig): Forkast H hvis X 11 ( k) hvis p.1 Den observerte verdien av X er xo Xobs 17, som gir forkastning på 5% - dvs. det er sterk evidens i data for at røyking blant ungdommer i Sverige har gått ned. heltallskorreksjon X 11.1 17.5 11.1 p-verdi Pp.1( X 17) Pp.1( X 17.5) Pp.1 1.87 1.87 P ( Z 2.17) G( 2.17).15 (p-verdi.12 uten heltallskorreksjon) p.1 der Gz ( ) er den kumulative fordelingsfunksjonen i N(,1). B. i) Utled en tilnærmet formel for styrkefunksjonen for testen din i punkt Ai, der du tilnærmer den binomiske fordelingen med en normalfordeling. i Forklar kort hva som menes med begrepet «feil av type 2» ved bruk av en test. Beregn (tilnærmet) sannsynligheten for feil av type 2 for testen din i punkt Ai dersom den ukjente p er lik.95, og dersom p.15.

6 <<< Svar: i) Løvås, regel 5.2, sier at X er tilnærmet normalfordelt ( np, np(1 p)) dersom Var( X ) np(1 p) 5, noe som ikke er noe problem her siden n er så stor). Styrkefunksjonen: X np 11 np 11 np ( p) Pp (forkast H) Pp ( X 11) Pp G np(1 p) np(1 p) np(1 p) 11.5 np (eventuelt ( p) G med heltallskorreksjon. Begge varianter bør godtas her.) np (1 p ) Feil av type 2 kan kun oppstå dersom H er gal, og man med testen ikke forkaster H. Hvis H er sann, er feil av type 2 umulig og har sannsynlighet. i Hvis p.15, gjelder H, og P(feil type 2). Hvis p.95, er H gal og 11 np P(feil type 2) P(ikke forkast H) 1 (.95) 1 G 1 G( 1.1).864 np(1 p) p.95 (ed heltallskorreksjon blir 11.5 np P(feil type 2) 1 G 1 G( 1.6).8554 np(1 p) p.95 ) Oppgave Resultatene fra den svenske undersøkelsen i oppgave 2 er splittet opp på kvinner og menn som vist i tabell 2. Tabell 2 Antall kvinner og menn, 16-29 år, som røyker - basert på et representativt utvalg fra Sverige 214. vinner enn sum Røyker 67 4 17 Røyker ikke 674 52 126 sum 741 572 11 Vi kan se på dette som to utvalg, et for kvinner ( n 741 personer), og et for menn ( n 572 personer). La X, X betegne henholdsvis antall kvinner som røyker og antall menn som røyker i to slike utvalg. De observerte verdiene av X, Xi utvalget er 67 og 4 henholdsvis.

7 Anta X, X er uavhengige stokastiske variable som begge er binomisk fordelte, X ~ bin( n, p ) og X ~ bin( n, p ), der p, p er andelen henholdsvis av kvinner og menn i alderen 16-29 år i Sverige som røyker i 214. Andelene p, p betraktes som ukjente, og tallene n, n som gitte tall (ikke-stokastiske). Vi ønsker å bruke data til å estimere forskjellen i andel, p p, samt beregne et konfidensintervall for. A. i) Vis at ˆ X X n n er en forventningsrett estimator for. Beregn estimatet ˆobs (der indeksen obs indikerer den observerte verdien). i Vis at standardavviket (SD) for ˆ er gitt ved ˆ p (1 p ) p (1 p ) SD( ) n n Forklar hvorfor ˆ er tilnærmet normalfordelt. <<< Svar: i) Av regler for forventning i Løvås følger ˆ X X 1 1 1 1 E( ) E E( X ) E( X ) n p n n n n n n n p p p 67 4 Estimat: ˆ obs.9.7.2 741 572 Siden X, X er uavhengige ˆ X X 1 1 p (1 p ) p (1 p ) Var( ) Var n (1 ) (1 ) 2 p p n 2 p p n n n n n n Dermed SD( ˆ ) Var( ˆ ) som gir uttrykket i oppgaven. i Følger av regler for normalfordeling: Hvis X1, X 2 er uavhengige og normalfordelte, vil enhver lineærkombinasjon, a1 X1 a2x 2 være normalfordelt. ˆ er en lineærkombinasjon av to uavhengige variable som begge er tilnærmet normalfordelte og må derfor selv være tilnærmet normalfordelt.

8 B. i) ˆ Det kan vises (som du ikke trenger å gjøre) at W er tilnærmet standard SE( ˆ ) normalfordelt (N(,1)) uansett, der standardfeilen, SE( ˆ ), er estimert standardavvik som i punkt Aii, der de ukjente p, p er erstattet med estimater. Bruk dette til å utlede en formel for et konfidensintervall for med konfidensgrad tilnærmet.95. Beregn det observerte konfidensintervallet utledet i punkt Bi ut fra data. <<< Svar: i) ed konfidensdgrad.95, brukes N(,1)-kvantilen z.25 1.96 og vi ˆ har.95 P( 1.96 1.96) P ˆ 1.96 SE( ˆ ) ˆ 1.96 SE( ˆ ) ˆ, som SE( ) gir konfidensintervallet ˆ ˆ ˆ pˆ (1 ˆ ) ˆ (1 ˆ p p p ) 1.96 SE( ) 1.96 n n der pˆ X X og pˆ n n, med estimater pˆ ˆ.9 og.7, obs p, obs, som gir SE( ˆ ).15 Observert I ˆ 1.96 SE( ˆ ) ˆ 1.96 ( ˆ obs SE ).2 (1.96)(.15) [.9,.49] obs