UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Like dokumenter
UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag til obligatorisk oppgave i ECON 2130

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ECON2130 Obligatorisk Oppgave

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4240 Statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITETET I OSLO Matematisk Institutt

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

STK1000 Obligatorisk oppgave 2 av 2

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Rapport turistinformasjonen i Orkdal

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial ) Oppgave 1

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Kap. 8: Utvalsfordelingar og databeskrivelse

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Resultater PISA desember 2016 Marit Kjærnsli Institutt for lærerutdanning og skoleforskning (ILS)

Forslag til endringar

Deltakelse i PISA 2003

UNIVERSITETET I OSLO

Formelsamling i medisinsk statistikk

Internasjonale FoU-trender

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppfriskning av blokk 1 i TMA4240

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 26. mai SENSURFRIST: 16. juni KLASSE: HIS TID: kl

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

HØGSKOLEN I STAVANGER

Seksjon 1.3 Tetthetskurver og normalfordelingen

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Kapittel 4: Matematisk forventning

STK1000 Obligatorisk oppgave 1 av 2

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

3.4: Simultanfordelinger (siste rest) 4.1,4.2,4.3: Multivariat del (ferdig med kapittel 3 og 4 etter denne forelesningen)

Hvordan fungerer tiltaksgarantiordninger for unge og langtidsledige?

ST0202 Statistikk for samfunnsvitere

Obligatorisk oppgavesett 1 MAT1120 H16

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamen i. MAT110 Statistikk 1

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

statistikk, våren 2011

Lesing i PISA desember 2013 Astrid Roe Institutt for lærerutdanning og skoleforskning (ILS)

UNIVERSITETET I OSLO

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Oppgåve: Åpne filen eksempel.prn som ligg på den utdelte disketten. Figur 1 Eit EXCEL rekneark.

EKSAMEN. Flexibel ingeniørutdanning, 2kl. Bygg.

Løsningsforslag, eksamen statistikk, juni 2015

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgåve i TMA4240 Statistikk

Løsningsforslag til obligatorisk oppgave i ECON 2130

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

Løsningskisse seminaroppgaver uke 11 ( mars)

Høgskoleni Østfold. Avdeling for lærerutdanning. Årsstudium og halvårsstudium i samfunnsfag 2014/15 EKSAMEN I EMNE 104

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

TMA4245 Statistikk Eksamen desember 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Excel. Kursopplegg for SKUP-konferansen Laget av

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

MAT-INF 1100: Obligatorisk oppgave 1

Resultater PISA desember 2013 Marit Kjærnsli Institutt for lærerutdanning og skoleforskning (ILS)

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial )

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

Transkript:

Øvelsesoppgave i: ECON30 Statistikk Dato for utlevering: Mandag 6. mars 009 Dato for innlevering: Tirsdag 3. mars 009 UNIVERSITETET I OSLO ØKONOMISK INSTITUTT Innleveringssted: Ved siden av SV-info-senter kl..00 3.00 Øvrig informasjon: Denne øvelsesoppgaven er obligatorisk. Kandidater som har fått den obligatoriske øvelsesoppgaven godkjent i et tidligere semester skal ikke levere på nytt. Dette gjelder også i tilfeller der kandidaten ikke har bestått eksamen. Denne oppgaven vil IKKE bli gitt en tellende karakter. En evt. karakter er kun veiledende Du må benytte en ferdig trykket forside som du finner på http://www.oekonomi.uio.no/info/emner/forside_obl_nor.doc Det skal leveres individuelle besvarelser. Det er tillatt å samarbeide, men identiske besvarelser (direkte avskrift) vil ikke bli godkjent! Det er viktig at øvelsesoppgaven blir levert innen fristen (se over). Oppgaver levert etter fristen vil ikke bli rettet.*) Alle øvelsesoppgaver må leveres på innleveringsstedet som er angitt over. Du må ikke levere øvelsesoppgaven direkte til emnelæreren eller ved e-post. Dersom du ønsker å levere inn oppgaven før innleveringsfristen, bes du kontakte instituttets ekspedisjonskontor i. etg. Dersom øvelsesoppgaven ikke blir godkjent, vil du få en ny mulighet ved at du får en ny oppgave som skal leveres med en svært kort frist. Dersom heller ikke dette forsøket lykkes, vil du ikke få anledning til å avlegge eksamen i dette emnet. Du vil da bli trukket fra eksamen, slik at det ikke vil bli et tellende forsøk. *) Dersom en student mener at han eller hun har en god grunn for ikke å levere oppgaven innen fristen (for eksempel pga. sykdom) bør han/hun diskutere saken med emnelærer, og søke om utsettelse. Normalt vil utsettelse kun bli innvilget dersom det er en dokumentert grunn (for eksempel legeerklæring).

ECON 30: Obligatorisk semesteroppgave 009 vår Merk: Det er lov å samarbeide, men hver skal levere egen rapport. Plagiater vil ikke bli godkjent (dette gjelder også den som har latt en annen skrive av sin besvarelse). Det er ikke meningen at alt skal løses på PC. Bruk PC der det er hensiktsmessig. Merk også at vedlagte PC utskrifter bør redigeres og kommenteres. Ta ikke med alt som kommer ut av maskinen, bare det som er av betydning/interesse for besvarelsen! (Det er for eksempel bortkastet å legge ved en utskrift av de 500 observasjonene som du skal generere i punkt 5). En besvarelse som bare består av en bunke ukommenterte utskrifter blir høyst sannsynlig ikke godkjent. OPPGAVE Vi skal nedenfor se på korrelasjonen mellom røyking og hjertekarsykdommer. Men først skal vi bruke Excel til å lære litt mer om korrelasjonskoeffisienten.. La X, Z være uavhengige og normalfordelte, N(0, ). Sett Y = Z X. Vis at E( XY ) = og at (den teoretiske) korrelasjonskoeffisienten mellom X og Y er ρ ( XY, ) = = 0.707 Hint: Bruk at XY = XZ -X E( XY ) = E( XZ) E( X ), at X og Z er uavhengige og at E( X) = E( Z) = E( Y) = 0. Jfr. også formlene [4.6], [4.5] og regneregel 4.8 i boka. Merk at var(x) = var(z) =, og E(X) = E(Z) =0.. Bruk Excel (Meny: Tools-> Data Analysis -> Random Number generation) til å simulere (trekke) n=0 observasjoner av X og Z: (x, z ), (x, z ),..., (x n, z n ). Plott Z mot X (dvs. lag et spredningsplott. engelsk: scatter plot, jfr fig..9 i boka). X og Z bør etter sin konstruksjon være uavhengige. Gir plottet inntrykk av dette? Beregn deretter Y og plott Y mot X. Gir plottet inntrykk av avhengighet mellom X og Y? Positiv eller negativ avhengighet? 3. Bruk samme metode som ovenfor til å simulere n = 0 observasjoner av (X, Y) når ρ(x, Y) = -0. og når ρ(x, Y) = 0.9. Lag spredningsplott i begge tilfeller. Hint: Sett Y = Z + ax. Vis at

ρ ( XY, ) = a + a Velg deretter a slik at ρ får den ønskete verdien. Det kan være lurt å løse uttrykket for ρ med hensyn på a. Merk at a og ρ må ha samme fortegn. 4. Det anbefales å lese avsnitt 6. i boka om punktestimering før de følgende punktene besvares. I eksemplene ovenfor er den teoretiske korrelasjonskoeffisienten, ρ, kjent. I praksis, med data fra virkeligheten, vil populasjonsstørrelsene var( X ), var( Y) og cov( X, Y) og dermed også ρ være ukjente og må estimeres. Hvis (X, Y ), (X, Y ),..., (X n, Y n ) er sammenhørende observasjoner av X og Y, er naturlige estimatorer for var(x), var(y), og cov(x, Y) basert på utvalget henholdsvis: S = ( X X) E[( X E X) ] = var( X ) n x i n i= S = ( Y Y) E[( Y E Y) ] = var( Y ) n y i n i= S = ( X X)( Y Y) E[( X E X)( Y E Y)] = cov( X, Y) n xy i i n i= der betyr tilnærmet lik. Uttrykkene til venstre for er estimatorer for de ukjente populasjonsstørrelsene til høyre. Det kan vises at estimatorene har en tendens til å produsere bedre estimater (anslagsverdier) for estimandene (uttrykkene til høyre) dess større n er. Siden ρ = cov( XY, ) / var( X) var( Y), er Sxy cov( XY, ) r = r( X, Y) = SS var( X) var( Y) x y = ρ en naturlig estimator for ρ (den klassiske Pearson s produkt-moment korr.koeff.). Excel beregner denne ved funksjonen CORREL (under statistical functions). Ta utgangspunkt i dataene fra punkt, der altså ρ = / er kjent. Vi later som vi ikke kjenner ρ og estimerer den ut fra data ved r. Gjør det og rapporter hvor stor estimeringsfeilen, r - ρ, ble. Kommenter resultatet. 5. For å få inntrykk av hvor god (eller dårlig) r er som estimator, skal vi se på hvordan r oppfører seg ved gjentatt bruk. Gjenta eksperimentet i punkt 5 ganger og beregn r hver gang. (Det kan være arbeidsbesparende å simulere de 500 observasjonene du trenger for X og Z på en gang og beregne r for de 5 utvalgene ved å utnytte kopieringsmulighetene i Excel. Se detaljer i appendiks.) Samle til slutt de 5 r-observasjonene rett under hverandre i en

3 kolonne. Du har nå laget deg et sampel (utvalg) på 5 observasjoner av r. Beskriv den empiriske fordelingen (ved histogram), gjennomsnitt, median, kvartiler og standardavvik for dette utvalget. Synes r å være normalfordelt? Virker r pålitelig som en estimator for ρ? 6. Gjenta eksperimentet i punkt 5, men nå med n = 50 observasjoner (istedenfor n = 0) av X og Y for hver beregning av r. Hvilken betydning synes det å ha for r s egenskaper som estimator at antall observasjoner av X og Y har blitt større? 7. La nå Y = Z - 3X der X og Z er uavhengige og normalfordelte, N(0, ), som i punkt. Simuler (dvs. trekk) n = 50 observasjoner av (X, Y) og plott Y mot X. Estimer ρ(x,y) og kommenter resultatet. Hva er den sanne ρ i dette tilfellet? Tyder resultatene dine på at X og Y er stokastisk uavhengige? (Hint: Du vil kanskje ha nytte av å vite at hvis X er normalfordelt med forventning 0, 3 så kan det vises at også E( X ) = 0, som for øvrig gjelder for enhver symmetrisk fordeling med forventning lik 0.) 8. Farene ved røyking har vært studert og dokumentert ved mange statistiske undersøkelser siden krigen. Dette har bl.a. ført til reklameforbud, påbud om trykte advarsler på tobakksprodukter og en viss holdningsendring. Vi skal se på noen tall fra 60-årene som gir gjennomsnittlig sigarettforbruk og dødelighet av hjertekarsykdommer (HKS) for n = land. År Land Sigarett-konsum pr. voksen pr. år HKS dødelighet pr. 00 000 (Alder 35-64) 96 USA 3900 56,9 96 Canada 3350,6 96 Australia 30 38, 96 New Zealand 30,8 963 Storbritannia 790 94, 96 Sveits 780 4,5 96 Irland 770 87,3 96 Island 90 0,5 96 Finland 60 33, 963 Vest Tyskland 890 50,3 Tallene er hentet fra Larsen & Marx, An Introduction to Mathematical Statistics and Its Applications, Prentice Hall, som har flere referanser.

96 Nederland 80 4,7 96 Hellas 800 4, 96 Østerrike 770 8, 96 Belgia 700 8, 96 Mexico 680 3,9 963 Italia 50 4,3 96 Danmark 500 44,9 96 Frankrike 40 59,7 96 Sverige 70 6,9 96 Spania 00 43,9 96 Norge 090 36,3 4 Lag spredningsdiagram og estimer korrelasjonskoeffisienten, ρ, mellom sigarettforbruk og HKS-dødelighet. Kommenter svaret. Anta vi endret benevningen for HKS-dødelighet fra pr. 00 000 til pr. 0 000. (For eksempel for USA: 56,9 pr. 00 000 = 5,69 pr. 0 000 ). Hvilken konsekvens har denne endringen for standardavvik, kovarians, korrelasjonskoeffisient og deres estimater? Hvorfor er korrelasjonskoeffisienten uberørt? Appendiks Hint til punkt 5: La for eksempel de 500 observasjonene av Z lagt i kolonne A (A A50) og for X i kolonne B (B-B50). Beregn så Y i kolonne C ( bruk A, B, C osv til å skrive variabelnavn). Beregn så de 5 observasjonene av r i kolonne D: Beregn først r for de 0 første observasjonsparene av X og Y med CORREL-funksjonen og legg svaret i cellen utenfor observasjonspar 0 (dvs i D). Ved så å kopiere celle D og lime inn i celle D4, får vi r for det neste observasjonssettet på 0 observasjoner osv nedover Nå har du beregnet de 5 observasjonene av r i kolonne D men med masse mellomrom som du ønsker å bli kvitt. Du kan naturligvis gjøre dette manuelt ved å kopiere hver enkelt r, en og en, til en ny kolonne uten mellomrom (kjedelig), men det er mulig å gjøre det raskere med et filter som følger: Marker en vilkårlig celle (i området D-D50) i kolonne D. Fra menylinjen klikk på Data->Filter->Autofilter. Gå så inn i filteret (klikk på pila øverst) og klikk på no blanks. Nå kommer r-ene fram uten mellomrom. Kopier disse og lim inn i en celle i kol F for eksempel. Tilsynelatende skjer ingenting,

men alle r-ene kommer fram når du åpner filteret igjen (i.e. gå inn i filteret og klikk på all ). Du kan så fjerne filteret om du vil ved å klikke på autofilter igjen på menyen. Dette er måten jeg brukte. Det kan godt være det er smartere måter å oppnå det samme på. Her skulle være rom for oppfinnsomhet. 5