UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Like dokumenter
Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Slope-Intercept Formula

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Dynamic Programming Longest Common Subsequence. Class 27

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Siste seminar: Foreslåtte oppgaver basert på ønsker.

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE I SØK1004 STATISTIKK FOR ØKONOMER STATISTICS FOR ECONOMISTS

Kartleggingsskjema / Survey

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Trigonometric Substitution

Databases 1. Extended Relational Algebra

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2013

TEKSTER PH.D.-KANDIDATER FREMDRIFTSRAPPORTERING

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Gol Statlige Mottak. Modul 7. Ekteskapsloven

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

EN Skriving for kommunikasjon og tenkning

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

Exam in Quantum Mechanics (phys201), 2010, Allowed: Calculator, standard formula book and up to 5 pages of own handwritten notes.

Oppgave 1a Definer følgende begreper: Nøkkel, supernøkkel og funksjonell avhengighet.

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Eksamensoppgave i FIN3006 / FIN8606 Anvendt tidsserieøkonometri

EKSAMENSOPPGAVER/ EXAM QUESTIONS: BI3010 Populasjonsgenetikk / Population Genetics

The exam consists of 2 problems. Both must be answered. English

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

FINAL EXAM IN STA-2001

Besvar tre 3 av følgende fire 4 oppgaver.

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Neural Network. Sensors Sorter

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

Emneevaluering GEOV272 V17

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Appendix B, not for publication, with screenshots for Fairness and family background

Information search for the research protocol in IIC/IID

The Norwegian Citizen Panel, Accepted Proposals

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

Oppgave. føden)? i tråd med

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TEKSTER PH.D.-KANDIDATER FREMDRIFTSRAPPORTERING

Eksamen PSY1010 / PSYC1100 Forskningsmetode I

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

Moving Objects. We need to move our objects in 3D space.

Exercise 1: Phase Splitter DC Operation

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

0:6 0:3 0:1 0:4 0:2 0:4

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

EXAM TTM4128 SERVICE AND RESOURCE MANAGEMENT EKSAM I TTM4128 TJENESTE- OG RESSURSADMINISTRASJON

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

2A September 23, 2005 SPECIAL SECTION TO IN BUSINESS LAS VEGAS

EKSAMENSOPPGAVE I BI2034 Samfunnsøkologi EXAMINATION IN: BI Community ecology

Transkript:

Eksamen i: ECON210 Statistikk 1 Exam: ECON210 Statistics 1 UNIVERSITETET I OSLO ØKONOISK INSTITUTT Eksamensdag: 16.05.2012 Sensur blir annonsert: 07.06.2012 Date for exam: 16.05.2012 Grades will be given: 07.06.2012 Tid for eksamen: kl. 14.0 17.0 Time for exam: 14.0 17.0 Oppgavesettet er på 9 sider The problem set covers 9 pages English version on page 5 Tillatte hjelpemiddel: Alle trykte og skrevne hjelpemiddel samt lommekalkulator Resources allowed: All printed and written resources, as well as calculator Eksamen blir vurdert etter ECTS-skalaen. A-F, der A er beste karakter og E er dårligste ståkarakter. F er ikke bestått. The grades given: A-F, with A as the best and E as the weakest passing grade. F is fail. BOKÅL Oppgave 1 Tre ektepar kommer sammen til en quiz-konkurranse. De 6 personene inndeles helt tilfeldig i tre lag der hvert lag består av en kvinne og en mann. Kvinnene betegnes med tallene, 1, 2 og, og mennene med 1, 2 og, på en slik måte at j er gift med j, for j 1,2,. Siden inndelingen i lag er tilfeldig, kan noen av ekteparene ende opp som lag mens andre ikke gjør det. Selve uttrekningen av lag skjer på følgende måte: ennene stilles opp ved siden av hverandre i en fast rekkefølge, 1, 2,. Deretter trekkes en tilfeldig rekkefølge av kvinner som stilles opp foran mannerekken. To som står rett overfor hverandre i denne oppstillingen utgjør et lag. Rekkefølgen av kvinner trekkes slik at alle de 6 mulige rekkefølgene er like sannsynlige. I tabell 1 er to slike oppstillinger angitt. For eksempel, hvis kvinnerekkefølge 1 i tabellen blir trukket ut, blir sammensetningen av de tre lagene, (, 1), (2, 2) og (1, ). I denne lagoppstillingen opptrer et ektepar som lag, nemlig ekteparet (2, 2). Blant lagene basert på kvinnerekkefølge 2 i tabellen er det ingen ektepar.

Tabell 1 Kvinne- 1 rekkefølge 2 Antall ektepar blant lagene 1 2 1 1 2 1 2 0 4 5 6 A. i. Fyll ut hele tabell 1 med alle de mulige kvinnerekkefølgene. Fyll også ut siste kolonne som viser antall ektepar blant lagene for de forskjellige kvinnerekkefølgene. ii. La A j ( j 1, 2, ) betegne begivenheten at ektepar j (dvs. paret ( j, j ) 1 ut som lag. Vis at P( A1 ) P( A2 ) P( A ). ) blir valgt B. i. Finn sannsynlighetene, P( A1 A2 ), P( A1 A2 ) og P( A2 A1 ). ii. Finn sannsynligheten for at enten ektepar 1 eller 2, men ikke begge, blir valgt ut som lag. C. i. La X være antall ektepar som er med blant de uttrukne lagene. Bestem sannsynlighetsfordelingen for X. ii. Beregn forventningen og variansen til X. [Hint: Hvis du ikke har funnet de riktige sannsynlighetene i fordelingen for X, er det OK om du rett og slett bare velger (gjetter) fritt noen sannsynligheter og gjennomfører beregningen ut fra disse. ] 2

Oppgave 2 Ifølge elevundersøkelsen 2011 er ca 8.% av skoleelever i Norge fra 5. skoletrinn og oppover utsatt for gjentatt mobbing på skolen en prosent som har holdt seg omtrent på samme nivå i de senere årene siden 2007. obbeprosenten er høyest på de laveste skoletrinnene (ca 11-12% på 5. skoletrinn ) og lavest på videregående (ca 6%). Elevundersøkelsen arrangeres hvert år i regi av utdanningsdirektoratet og omfatter en rekke spørsmål til elevene om skolesituasjonen. Resultatene bygger på svar på spørreskjemaer fra et stort utvalg av elever (over 50% av elevmassen). I denne oppgaven skal vi konsentrere oss om 5. skoletrinn, som i alt omfattet N 62 000 elever i 2011. Utvalget fra 5. trinn som besvarte spørreskjemaet, besto av n 045 elever. La X betegne antall mobbeofre i utvalget (definert som antallet som på spørsmålet: Er du blitt mobbet på skolen de siste månedene?, angir et av svaralternativene: 2 eller ganger i måneden, omtrent en gang i uken, eller flere ganger i uken). Antall mobbeofre i utvalget ble X obs 866 (der indeksen obs på en stokastisk variabel indikerer den observerte verdien av variabelen). For enkelthets skyld antar vi at utvalget er rent tilfeldig slik at X kan antas å være hypergeometrisk fordelt ( N,, n ), der står for antall mobbeofre i populasjonen (5. skoletrinn i 2011). La p N betegne populasjonsandelen av mobbeofre som er ukjent. A. i. Sett opp en forventningsrett estimator ( ˆp ) for p basert på X og forklar hvorfor den er forventningsrett. p(1 p) N n ii. Forklar hvordan (den teoretiske) standardfeilen til ˆp,, følger av n N 1 N n formelen for variansen til X: var( X ) np(1 p) N 1. iii. Beregn estimatet for p og estimert standardfeil på grunnlag av de oppgitte data. B. Beregn et tilnærmet 99% konfidensintervall for p basert på normalfordelingstilnærmelsen for en hypergeometrisk fordeling. C. I resten av oppgaven skal vi forlate den faktiske undersøkelsen referert til ovenfor og tenke oss i stedet en gitt (ikke-eksisterende) kommune som tilsammen har N 1200 elever på 5. skoletrinn i 2011. La p bety mobbeandelen totalt i den aktuelle kommunen der p er ukjent. Anta at man, på grunn av erfaringer fra tidligere år, mistenker at mobbeprosenten (p) faktisk kan ligge over 12% i denne kommunen. Vi ønsker å teste (1) H : p 0.12 mot alternativet H : p 0.12. 0 1 Anta videre at utvalgsstørrelsen fra kommunen var på n 700, og at antall mobbeofre i utvalget var X obs 91. For øvrig antas at X (antall mobbeofre i et tilfeldig utvalg på n

for den aktuelle kommunen) er hypergeometrisk fordelt, og at forutsetningene for tilnærming til normalfordeling gjelder for fordelingen til X. i. Gjennomfør en test for problemet i (1) med signifikansnivå (tilnærmet) 5% og formuler en konklusjon. ii. Beregn signifikanssannsynligheten ( p-verdien ) for testen din. Si med ord hva denne (p-verdien) er uttrykk for. D. Innledning om mulig skjevhet i utvalget. Ikke alle elever som får tilsendt spørreskjema svarer på skjemaet. For eksempel lå den gjennomsnittlige svarprosenten i den faktiske elevundersøkelsen på rundt 85%. Hvis det er sammenheng mellom det å være villig til å svare på skjemaet og tendensen til å bli mobbet, kan dette lede til skjevhet i estimeringen av p. Det kan for eksempel tenkes at mobbeofre er mer motivert til å svare på skjemaet enn andre - slik at det er relativt sett flere mobbeofre blant dem som svarer på skjemaet enn blant dem som ikke svarer. Det kan også tenkes at mobbing slår ut den andre veien for noen. La nå betegne begivenheten at en tilfeldig valgt elev fra kommunen er et mobbeoffer, og S begivenheten at vedkommende er villig til å svare på spørreskjemaet. Da blir P( ) p som vi ønsker å estimere. Hvis svarprosenten i kommunen er 100 q %, kan vi anta P( S) q. Sett p1 P( S) og p2 P( S ), der S står for begivenheten ikke-s. Siden S nødvendigvis må ha inntruffet for alle i utvalget, kan det vises at estimatoren ˆp blir forventningsrett for p1 P( S) istedenfor p. Hvis derfor p1 p, vil ikke ˆp lenger være forventningsrett for p. I så fall sies ˆp å være en skjev estimator for p, og absoluttverdien p1 p kalles skjevheten. Oppgave. i. Gjør rede for at ˆp X n er en skjev estimator for p hvis og bare hvis og S er stokastisk avhengige begivenheter. ii. Vis at sammenhengen mellom p og p1, p2, q er gitt ved (2) p q p1 (1 q) p2 E. Anta at q 0.85 og at forskjellen i sannsynligheten for å bli mobbet blant dem som er villige til å svare på skjemaet og blant dem som ikke vil det, ikke overskrider 2 prosentenheter (dvs. anta p1 p2 0.02 ). Vis at skjevheten i så fall ikke kan bli større enn 0.00. [ Hint: Bruk (2) til å vise at p1 p (1 q)( p1 p2) ] F. i. Anta nå at estimatoren ˆp X n ikke er skjev (dvs. anta p1 p). Beregn styrken (tilnærmet) i punktet p 0.15 for testen i punkt C. ed andre ord, beregn P(forkast H 0) hvis den sanne verdien av p er 0.15. (mer på side 5!) 4

[ Hint: Utnytt at ˆp er tilnærmet normalfordelt, tilnærmet p(1 p) N n pˆ ~ N p, n N 1 hvis p 0.15 ] ii. Bestem sannsynligheten for å begå feil av type I og sannsynligheten for å begå feil av type II hvis den sanne verdien av p er 0.15. ENGLISH Problem 1 Three married couples come together for a quiz competition. The 6 people involved are divided randomly into three teams where each team consists of one woman and one man. The women are denoted by the numbers, 1, 2, and, and the men by 1, 2, and, in such a way that j is married to j, for j 1,2,. Since the division into teams is done at random, some married couples may end up as teams while other couples do not. The random composition of teams is done in the following way: The men are at first being placed next to each other in a fixed sequence, 1, 2,. Then a randomly chosen sequence of women is being placed directly in front of the man sequence. Two people who end up directly opposite each other then become a team. The sequence of women is drawn such that all the 6 possible sequences have the same probability of being chosen. In table 1 two possible outcomes of the draw have been indicated. For example, if woman sequence no. 1 in the table is the result of the draw, the resulting composition of the three teams becomes, (, 1), (2, 2), and (1, ). In this composition one of the married couples, i.e. (2, 2), appears as a team. Among the teams based on woman sequence number 2 in the table no married couples occur. 5

Table 1 Woman 1 2 sequence Number of married couples among the teams 1 2 1 1 2 1 2 0 4 5 6 A. i. Complete table 1 by writing down all possible woman sequences. Also complete the last column that shows the number of married couples among the teams based on any of the different woman sequences. ii. Let A j ( j 1, 2, ) denote the event that married couple j (i.e. the pair ( j, j ) ) 1 appears among the teams. Show that P( A1 ) P( A2 ) P( A ). B. i. Find the probabilities, P( A1 A2 ), P( A1 A2 ), and P( A2 A1 ). ii. Find the probability that either married couple 1 or married couple 2, but not both, appear as teams. C. i. Let X be the number of married couples that appear among the random teams. Determine the probability distribution of X. ii. Calculate the expectation and the variance of X. [Hint: If you did not succeed to find the correct probabilities in the distribution of X, it will be OK if you simply choose (guess) freely some probabilities and perform the calculation based on these.] 6

Problem 2 According to the general survey of students for primary and secondary schools ( elevundersøkelsen ) done in 2011, about 8.% of school students in Norway from grade 5 and above have been exposed to repeated bullying ( mobbing ) in school a percentage that has kept relatively stable in recent years since 2007. The percentage of bullying is highest for the lower grades (about 11-12% for the 5th grade ) and lowest for the upper secondary level (about 6%). The student survey is being performed yearly under the directorate of education and includes a number of questions to the students about their school situation. The results are based on answers in questionnaires from a large sample of students (more than 50% of the student population). In this problem we will focus on 5th grade that comprised totally N 62 000 students in 2011. The sample size of students from 5 th grade who answered the questionnaire was n 045 students. Let X denote the number of victims of bullying in the sample (defined as the number who answered the question: Have you been bullied at school during the last months?, by stating one of the alternatives: 2 or times per month, about once a week, or, several times a week). The number of victims of bullying in the sample was X obs 866 (where the index obs on a random variable indicates the observed value of the variable). For simplicity we assume that the sample can be considered a simple random sample so that X can be assumed to be hypergeometrically distributed ( N,, n ), where is the number of victims of bullying in the population (5 th grade in 2011). Let p N denote the rate of bullying in the population which is unknown. A. i. Set up an unbiased estimator ( ˆp ) for p based on X and explain why it is unbiased. p(1 p) N n ii. Explain how (the theoretical) standard error of ˆp,, follows from n N 1 N n the formula for the variance of X: var( X ) np(1 p) N 1. iii. Calculate the estimate for p and the estimated standard error based on the given data. B. Calculate an approximately 99% confidence interval for p based on the normal approximation for a hypergeometric distribution. C. In the rest of the problem we will leave the actual survey referred to above and, instead, imagine a given (non-existent) municipality that has totally N 1200 students in 5th 7

grade in 2011. Let p be the total rate of victims of bullying in the municipality in question where p is unknown. Suppose that, based on experiences from earlier years, one suspects that the bullying rate (p) in fact may be even larger than 12% for this municipality. We want to test (1) H : p 0.12 versus the alternative H : p 0.12. 0 1 Suppose further that the sample size from the municipality was n 700, and that the number of victims of bullying in the sample was X obs 91. In addition we assume that X (the number of victims of bullying in a random sample of size n from the municipality in question) is hypergeometrically distributed, and that the assumptions for approximation of the distribution of X by the normal distribution, are valid. i. Perform a test for the problem in (1) with the level of significance (approximately) 5%, and state a conclusion. ii. Calculate the significance probability ( the p-value ) for your test. State in words what this (p-value) means. D. Introduction on possible bias in the sample. Not all students who get the questionnaire answer it. For example, the percentage of answering in the actual student survey was usually about 85%. If there is a relation between the willingness to answer the questionnaire and the tendency of being bullied, this may lead to bias in the estimation of p. It is, for example, imaginable that victims of bullying are more motivated than others to answer the questionnaire so that, relatively spoken, there are more victims of bullying among those who are willing to answer the questionnaire than among those who are not willing to answer. It is also imaginable that bullying may have the opposite effect for some. Let now denote the event that a randomly chosen student from the municipality is a victim of bullying, and S the event that the student is willing to answer the questionnaire. Then we have P( ) p that we wish to estimate. If the percentage of willingness to answer the questionnaire is 100 q % in the municipality, we may assume that P( S) q. Set p1 P( S) and p2 P( S ), where S denotes the complementary event not-s. Since S necessarily must have occurred for everyone in the sample, it can be shown that the estimator ˆp becomes unbiased for p1 P( S) in stead of p. If, therefore, p1 p, ˆp no longer is unbiased for p. In that case ˆp is said to be a biased estimator for p, and the absolute value p1 p is called the bias. Problem: i. Explain why ˆp X n is a biased estimator for p if and only if and S are stochastically dependent events. ii. Show that the relationship between p and p1, p2, q is given by (2) p q p1 (1 q) p2 8

E. Suppose that q 0.85, and that the difference in probability of being a victim of bullying between those who are willing to answer the questionnaire and those who are not willing, does not exceed 2 units of percentage (i.e., assume p1 p2 0.02 ). Show that, in that case, the bias cannot be larger than 0.00. [ Hint: Use (2) to show that p1 p (1 q)( p1 p2) ] F. i. Assume now that the estimator ˆp X n is not biased (i.e., assume that p1 p). Calculate the power (approximately) in the point p 0.15 for the test in section C. In other words, calculate P(reject H 0) if the true value of p is 0.15. [ Hint: Use that ˆp is approximately normally distributed, approximately p(1 p) N n pˆ ~ N p, n N 1 If p 0.15 ] ii. Determine the probability of committing an error of type I and the probability of committing an error of type II if the true value of p is 0.15. 9