ECON2130 Kommentarer til oblig

Like dokumenter
Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Løsningsforslag til obligatorisk oppgave i ECON 2130

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Et lite notat om og rundt normalfordelingen.

Fasit for tilleggsoppgaver

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

TMA4240 Statistikk Høst 2016

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Hypotesetesting av λ og p. p verdi.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Forelening 1, kapittel 4 Stokastiske variable

Kapittel 4.4: Forventning og varians til stokastiske variable

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk H2010

Medisinsk statistikk Del I høsten 2009:

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Statistikk og dataanalyse

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Forelesning 3. april, 2017

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Bootstrapping og simulering Tilleggslitteratur for STK1100

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk 2014

ÅMA110 Sannsynlighetsregning med statistikk, våren

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

STK Oppsummering

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

i x i

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2018

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

ST0202 Statistikk for samfunnsvitere

Econ 2130 uke 16 (HG)

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 10. juni Ingeniørutdanning. TID: kl EMNEANSVARLIG: Hans Petter Hornæs

ST0202 Statistikk for samfunnsvitere

Inferens i fordelinger

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

TMA4240 Statistikk Høst 2016

Seksjon 1.3 Tetthetskurver og normalfordelingen

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgaver fra 8.3, 8.4, , 8.51, 8.52, 8.231, 8.232, 8.250, 8.252

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

STK1100 våren 2019 Mere om konfidensintevaller

Oppgave 1: Feil på mobiltelefoner

Fra første forelesning:

Bokmål. Eksamensinformasjon

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Løsning eksamen desember 2016

ST0202 Statistikk for samfunnsvitere

Binomisk sannsynlighetsfunksjon

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Kort overblikk over kurset sålangt

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger (Kapittel 5)

EKSAMEN KANDIDATNUMMER: EKSAMENSDATO: 11. juni HiS Jørstadmoen. TID: kl EMNEANSVARLIG: Hans Petter Hornæs

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

DEL 1 GRUNNLEGGENDE STATISTIKK

Notat 3 - ST februar 2005

Mappeoppgave om sannsynlighet

Eksamen i. MAT110 Statistikk 1

Konfidensintervall for µ med ukjent σ (t intervall)

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Gammafordelingen og χ 2 -fordelingen

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Transkript:

ECON2130 Kommentarer til oblig Her har jeg skrevet ganske utfyllende kommentarer til en del oppgaver som mange slet med. Har noen steder gått en del utover det som det strengt tatt ble spurt om i oppgaven, men jeg tror dette kan hjelpe en del med forståelsen av temaet, og hva som var poenget med oppgaven. Starter med et par generelle ting som gikk igjen, for så å gå mer spesifikt inn på oppgave G, H, I og J. Histogram På histogramfronten var det litt av hvert å se Håper dette bare var fordi dere ikke fikk det til ordentlig i Excel. Når en skal lage histogram er det én svært viktig ting å tenke på: Summen av arealene til alle søylene skal være lik 1! For å få til dette må en velge søylehøyde = relativ frekvens / søylebredde (Det er altså IKKE lov til å ha relativ frekvens eller frekvens som søylehøyde). Det er i de fleste tilfeller også å anbefale og ha lik intervallbredde hele veien. På oppgave E er det nok lurt å ha intervallbredde 20. Det blir veldig mange intervaller av dette, over det man vanligvis anbefaler Grunnen til at dette likevel kan være gunstig her, er fordi vi kjenner fordelingen til V eksakt, og vi ønsker å ta all informasjonen videre til histogrammet. (Ved simuleringer og annen data er vi vanligvis ikke så nøye, og vil velger heller enn grovere oppdeling med færre intervaller for å få bedre oversikt over de hovedtrekkene i fordelingen). Bruk av normaltilnærmingen Vi definerer den stokastiske variabelen U = + + +. Der ene er identisk og uavhengig fordelt med forventningsverdi og standardavvik. Ifølge sentralgrenseteoremet vil da U være tilnærmet normalfordelt uansett hvilken fordeling V har (n bør være minst 20, så vi er litt i grenseland). Men hvordan skal vi gjøre dette? Når vi skal tilnærme en fordeling med en normalfordeling så er det mange måter en kan teoretisk kunne gjort dette på. Det finnes uendelig mange normalfordelinger med ulik forventningsverdi og standardavvik. Hvilken av dem skal vi velge? Det som umiddelbart virker fornuftig er jo å velge den normaltilnærmingen som har lik forventningsverdi og likt standardavvik som den stokastiske variabelen vi ser på. Vi finner at E(U) = 20*E(V) og Var(U) = 20*Var(V). Vi har da at U Normal(E(U), SD(U)) = Normal(20*E(V), For en generell N har vi at U Normal(n*E(V), *SD(V))

Det er altså ingenting mystisk med regel 5.19 og faktorene n og som har kommet inn i formelen. Disse kommer naturlig når vi finner forventningsverdien og standardavviket til variabelen U som er en sum av n er. Det som er viktig å merker seg når vi bruker regel 5.19 direkte er at = E(V) og = SD(V), altså forventningen og standardavviket til V og ikke til U (som en del har brukt)! Oppgave G Her klarte de fleste å generere de 10 000 observasjonene, lage histogram (men ofte med feil søylehøyde!) og finne gjennomsnitt og empirisk standardavvik. I tolkningen var det mange som var inne på viktige poeng, men det var også noen misforståelser. Jeg kommer fra nå av til bruke ordene forsøk og observasjoner litt om hverandre. Både antall forsøk og antall observasjoner betegner da antall simuleringer vi har foretatt og U-observasjoner vi har fått (som i utgangspunktet altså er 500). Det vi kan si er at siden gjennomsnittet,, er en forventningsrett estimator for forventningsverdien, så garanterer de store talls lov at ettersom vi øker antallet forsøk så vil gjennomsnittet nærme seg forventningsverdien. Med 500 observasjoner kan vi imidlertidig få betydelige avvik, og gjennomsnittsverdier rundt -250 og -150 er ikke uvanlig (50 i absolutt avvik). (Her kan en se på estimatorens standardfeil og lage et konfidensintervall hvis en skulle ønske det.). Når antall observasjoner er f.eks. 100 000 vil avviket være betydelig mindre. Under har jeg plottet hvordan gjennomsnittet har utviklet seg etter som jeg har gjort flere og flere forsøk. Ser at det i begynnelsen kan være betydelige avvik mellom gjennomsnittet og forventningsverdien, men at avvikene blir mindre og mindre etter som antall forsøk øker. Det er viktig å huske på her at dersom vi hadde foretatt en ny forsøksrekke, der vi observerte og noterte U-verdier, ville grafen under sett annerledes ut. Hovedtrekkene ville likevel vært der: varierer en del i begynnelsen, men stabiliserer seg etter hvert ved forventningsverdien (avvikene fra den blir mindre og mindre)

Det er viktig å bemerke at med «å nærme seg» menes ikke at f.eks. gjennomsnittet etter 1000 observasjoner nødvendigvis vil være nærmere forventningsverdien enn etter 500 observasjoner, men at dersom vi f.eks. ønsket å lage et 90% spredningsintervall for rundt forventningsverdien (som i oppgave F, bare for i stedet for ), vil bredden på dette spredningsintervallet være mindre ved 1000 observasjoner enn 500 observasjoner. (Fordi variansen til gjennomsnittet (som er vår estimator) blir mindre når n øker,). Vi kan for eksempel se at gjennomsnittet ligger rundt -200 etter 500 observasjoner, mens det etter ca. 700 observasjoner ligger på rundt -180, avstanden til forventningsverdien har altså økt Hva det vil si «å nærme seg» kan selvsagt gis en presis matematisk definisjon, men i denne oppgaven holder det å skjønne intuisjonen bak det. Sørg for at du forstår den!

Tilsvarende er en forventningsrett estimator for. Variansen til (husk at er en stokastisk variabel) reduseres med antall forsøk (n), og dermed kan vi si at = 350000 når n blir stor (går mot uendelig). Også her mulig å lage et spredningsintervall for pensum). (ikke Bemerkning. Overraskende nok er S ikke en forventningsrett estimator for. Vi kan derfor ikke si at det empiriske standardavviket vil nærme seg SD(U) = 590.608 når n blir stor. Men avviket er, imidlertidig, som regel såpass lite at dersom vi hadde hadde plottet dette tilsvarende som for gjennomsnitt og empirisk varians, ville det sett ut som den nærmet seg denne verdien (eller noe svært nærme). Vi kan derfor fortsatt med god samvittighet bruke S som estimator for (selv om den bommer ørlite på blink (jmf. Løvås blink-analogi)).

Oppgave H Her ønsker vi å gjøre en «skjønnsmessig» sammenlikning mellom fordelingen til U og normaltilnærmingen. Hvordan kan vi gjøre dette, når vi ikke vet hvordan fordelingen til U ser ut? Det vi kan gjøre er å starte med fordelingen vi fant i G. Denne fordelingen er selvsagt ikke lik fordelingen til U, men vi kan anta at den er en akseptabel tilnærming. De store talls lov forteller oss at når vi foretar flere og flere forsøk så vil fordelingen ved simuleringen nærme seg den eksakte fordelingen til U (de relative frekvensene i hvert intervall vil gå mot sannsynlighetene). Med 500 forsøk, kan fordelingen ligge noe unna fordelingen til U, men vi kan anta at den ligger «nærme nok». Så når vi skal sammenlikne om normaltilnærmingen til U er god, sammenlikner vi altså fordelingen vi får med simulering (som vi antar er en rimelig god tilnærming til U), og normaltilnærmingen til U (som vi enda ikke vet om er god eller dårlig!). Dette skal vi gjøre slik som på figur 5.23 s. 186 i boken av Løvås. Den simulerte fordelingen har vi fra G. Vi skal så plotte normaltilnærmingen i samme figur. Dette er mulig, men vanskelig å få til i Excel. Jeg har her plottet dem hver for seg. Det som gjenstår da er å tegne dem inn for hånd i samme figur, og så se i hvilken grad de to fordelingene «likner hverandre / er sammenfallende», og om du synes normaltilnærmingen virker rimelig ut ifra figuren.

Fordeling ved simulering Normaltilnærmingen Intervall Bin Frequency Relativ frekv. Søylebredde Søyehøyde NORMDIST(x,-200, 591.608, 0) x- 1700 verdi Sannsynlighetstetthet [-1700-1450) 1450 6 0,012 250 0,000048 1575 4,54E-05 [-1450, -1200) 200 18 0,036 250 0,000144 1325 1,11E-04 [-1200, -950) -950 32 0,064 250 0,000256 1075 2,26E-04 [-950, -700) -700 52 0,104 250 0,000416-825 3,86E-04 [-700, -450) -450 70 0,14 250 0,00056-575 5,51E-04 [-450, -200) -200 95 0,19 250 0,00076-325 6,59E-04 [-200, 50) 50 80 0,16 250 0,00064-75 6,59E-04 [50, 300) 300 56 0,112 250 0,000448 175 5,51E-04 [300, 550) 550 41 0,082 250 0,000328 425 3,86E-04 [550, 800) 800 22 0,044 250 0,000264 675 2,26E-04 [800, 1050) 1050 9 0,018 250 0,000072 925 1,11E-04 [1050, 1300) 1300 5 0,01 250 0,00004 1175 4,54E-05 [1300, 1550) 1550 3 0,006 250 0,000024 1425 1,56E-05 More 0 0,0008 0,0007 0,0006 0,0005 0,0004 0,0003 0,0002 0,0001 Histogram 0-1700 -1450-1200 -950-700 -450-200 50 300 550 800 1050 1300 1550 More Bin Sannsynlighetstetthet normaltilnærming 7,00E-04 6,00E-04 5,00E-04 4,00E-04 3,00E-04 2,00E-04 1,00E-04 0,00E+00-2000 -1500-1000 -500 0 500 1000 1500 2000

Man kan selvsagt få en mer nøyaktig normaltilnærmingskurve ved å beregne funksjonsverdien for flere x-verdier, men i denne oppgaven vil det være tilfredsstillende å ta en x-verdi per intervall. Det er også gunstig å velge midtpunktet på hvert intervall når en beregner funksjonsverdiene. Hvorfor? En viktig bemerkning her er at dersom vi hadde hatt flere observasjoner av U (gjort flere forsøk), ville vi fått et bedre bilde av fordelingen til U. Den simulerte fordelingen vil nærme seg den eksakte fordelingen til U. (Hva vil det si å «nærme seg»? Se kommentar oppgave G). Noe vi IKKE kan si er at fordelingen til U vil nærme seg normalfordelingen dersom vi foretar flere simuleringer. Fordelingen til U er gitt og endrer seg ikke! (Det er viktig å skille mellom antall simuleringer/forsøk og hvor mange verdier U er en sum av!) Dersom vi foretar flere simuleringer vil vi imidlertidig, få et bedre/sikrere bilde av den sanne fordelingen til U (som er ukjent, men fast), og dette kunne gitt oss et enda bedre grunnlag for å sammenlikne om normaltilnærmingen virker rimelig Oppgave I Som det står skrevet i oppgaveteksten gir den relative frekvensen et anslag på den sanne verdien P(U < 0). Det stor talls lov garanterer at den relative frekvensen vil nærme seg denne sannsynligheten når antallet forsøk når mot uendelig Det er imidlertidig viktig å påpeke her at den relative frekvensen ikke nødvendigvis vil nærme seg F(0) = G( ) = G(0.338) 0.632318 (fra Excel). Vi kan faktisk gå så langt som å si at den antakelig ikke vil nærme seg denne verdien. Dersom normaltilnærmingen er god vil F(0) være en god tilnærming til P(U < 0), men at disse verdien er eksakt like hverandre er jo lite trolig. Jeg foretok 1 million simuleringer (i stedet for 500) og fikk da en observasjon av : = 0.631783. Vi ser at denne ligger svært nær tilnærmingen på 0.632318, og det tyder på at normaltilnærmingen for P(U < 0) er svært god. Den sier imidlertidig ikke at normaltilnærmingen er god for andre u-verdier. Det er dette vi prøver å se på i H, på en mer «skjønnsmessig» måte, selv om vi selvsagt også kunne gjort sammenlikningen med utgangspunkt i idéen fra denne oppgaven (bare for mange flere u-verdier).

Oppgave J Obs! = og ikke. Grunnen til at vi bruker i denne oppgaven er at vi skal ha et tosidig spredningsintervall. Dermed må vi fordele arealet α vi har til rådighet på hver av sidene. Tegn en figur. P(Z > ) = α Dette gjelder per definisjon! Med ord: er definert som den verdien som gjør at sannsynligheten for at Z tar verdier som er større enn dette er lik α. Lag en figur. P( ) = α/2 P(Z < - ) = α/2 (på grunn av symmetrien). Da har vi totalt P(- < Z < ) = P(Z < ) - P(Z < - ) = 1 - P( ) - P(Z < - ) = 1 - α/2 - α/2 = 1 - α. Z =. Ved å sette inn for Z kan en så finne et 100(1- α)% spredningsintervall for U. En kan også bruke formelen til Løvås (s.181) direkte. Tips: Lag en figur! Har du spørsmål, kommentarer eller finner feil; send en e-post til: eilifsolberg@gmail.com