ECON2130 Kommentarer til oblig Her har jeg skrevet ganske utfyllende kommentarer til en del oppgaver som mange slet med. Har noen steder gått en del utover det som det strengt tatt ble spurt om i oppgaven, men jeg tror dette kan hjelpe en del med forståelsen av temaet, og hva som var poenget med oppgaven. Starter med et par generelle ting som gikk igjen, for så å gå mer spesifikt inn på oppgave G, H, I og J. Histogram På histogramfronten var det litt av hvert å se Håper dette bare var fordi dere ikke fikk det til ordentlig i Excel. Når en skal lage histogram er det én svært viktig ting å tenke på: Summen av arealene til alle søylene skal være lik 1! For å få til dette må en velge søylehøyde = relativ frekvens / søylebredde (Det er altså IKKE lov til å ha relativ frekvens eller frekvens som søylehøyde). Det er i de fleste tilfeller også å anbefale og ha lik intervallbredde hele veien. På oppgave E er det nok lurt å ha intervallbredde 20. Det blir veldig mange intervaller av dette, over det man vanligvis anbefaler Grunnen til at dette likevel kan være gunstig her, er fordi vi kjenner fordelingen til V eksakt, og vi ønsker å ta all informasjonen videre til histogrammet. (Ved simuleringer og annen data er vi vanligvis ikke så nøye, og vil velger heller enn grovere oppdeling med færre intervaller for å få bedre oversikt over de hovedtrekkene i fordelingen). Bruk av normaltilnærmingen Vi definerer den stokastiske variabelen U = + + +. Der ene er identisk og uavhengig fordelt med forventningsverdi og standardavvik. Ifølge sentralgrenseteoremet vil da U være tilnærmet normalfordelt uansett hvilken fordeling V har (n bør være minst 20, så vi er litt i grenseland). Men hvordan skal vi gjøre dette? Når vi skal tilnærme en fordeling med en normalfordeling så er det mange måter en kan teoretisk kunne gjort dette på. Det finnes uendelig mange normalfordelinger med ulik forventningsverdi og standardavvik. Hvilken av dem skal vi velge? Det som umiddelbart virker fornuftig er jo å velge den normaltilnærmingen som har lik forventningsverdi og likt standardavvik som den stokastiske variabelen vi ser på. Vi finner at E(U) = 20*E(V) og Var(U) = 20*Var(V). Vi har da at U Normal(E(U), SD(U)) = Normal(20*E(V), For en generell N har vi at U Normal(n*E(V), *SD(V))
Det er altså ingenting mystisk med regel 5.19 og faktorene n og som har kommet inn i formelen. Disse kommer naturlig når vi finner forventningsverdien og standardavviket til variabelen U som er en sum av n er. Det som er viktig å merker seg når vi bruker regel 5.19 direkte er at = E(V) og = SD(V), altså forventningen og standardavviket til V og ikke til U (som en del har brukt)! Oppgave G Her klarte de fleste å generere de 10 000 observasjonene, lage histogram (men ofte med feil søylehøyde!) og finne gjennomsnitt og empirisk standardavvik. I tolkningen var det mange som var inne på viktige poeng, men det var også noen misforståelser. Jeg kommer fra nå av til bruke ordene forsøk og observasjoner litt om hverandre. Både antall forsøk og antall observasjoner betegner da antall simuleringer vi har foretatt og U-observasjoner vi har fått (som i utgangspunktet altså er 500). Det vi kan si er at siden gjennomsnittet,, er en forventningsrett estimator for forventningsverdien, så garanterer de store talls lov at ettersom vi øker antallet forsøk så vil gjennomsnittet nærme seg forventningsverdien. Med 500 observasjoner kan vi imidlertidig få betydelige avvik, og gjennomsnittsverdier rundt -250 og -150 er ikke uvanlig (50 i absolutt avvik). (Her kan en se på estimatorens standardfeil og lage et konfidensintervall hvis en skulle ønske det.). Når antall observasjoner er f.eks. 100 000 vil avviket være betydelig mindre. Under har jeg plottet hvordan gjennomsnittet har utviklet seg etter som jeg har gjort flere og flere forsøk. Ser at det i begynnelsen kan være betydelige avvik mellom gjennomsnittet og forventningsverdien, men at avvikene blir mindre og mindre etter som antall forsøk øker. Det er viktig å huske på her at dersom vi hadde foretatt en ny forsøksrekke, der vi observerte og noterte U-verdier, ville grafen under sett annerledes ut. Hovedtrekkene ville likevel vært der: varierer en del i begynnelsen, men stabiliserer seg etter hvert ved forventningsverdien (avvikene fra den blir mindre og mindre)
Det er viktig å bemerke at med «å nærme seg» menes ikke at f.eks. gjennomsnittet etter 1000 observasjoner nødvendigvis vil være nærmere forventningsverdien enn etter 500 observasjoner, men at dersom vi f.eks. ønsket å lage et 90% spredningsintervall for rundt forventningsverdien (som i oppgave F, bare for i stedet for ), vil bredden på dette spredningsintervallet være mindre ved 1000 observasjoner enn 500 observasjoner. (Fordi variansen til gjennomsnittet (som er vår estimator) blir mindre når n øker,). Vi kan for eksempel se at gjennomsnittet ligger rundt -200 etter 500 observasjoner, mens det etter ca. 700 observasjoner ligger på rundt -180, avstanden til forventningsverdien har altså økt Hva det vil si «å nærme seg» kan selvsagt gis en presis matematisk definisjon, men i denne oppgaven holder det å skjønne intuisjonen bak det. Sørg for at du forstår den!
Tilsvarende er en forventningsrett estimator for. Variansen til (husk at er en stokastisk variabel) reduseres med antall forsøk (n), og dermed kan vi si at = 350000 når n blir stor (går mot uendelig). Også her mulig å lage et spredningsintervall for pensum). (ikke Bemerkning. Overraskende nok er S ikke en forventningsrett estimator for. Vi kan derfor ikke si at det empiriske standardavviket vil nærme seg SD(U) = 590.608 når n blir stor. Men avviket er, imidlertidig, som regel såpass lite at dersom vi hadde hadde plottet dette tilsvarende som for gjennomsnitt og empirisk varians, ville det sett ut som den nærmet seg denne verdien (eller noe svært nærme). Vi kan derfor fortsatt med god samvittighet bruke S som estimator for (selv om den bommer ørlite på blink (jmf. Løvås blink-analogi)).
Oppgave H Her ønsker vi å gjøre en «skjønnsmessig» sammenlikning mellom fordelingen til U og normaltilnærmingen. Hvordan kan vi gjøre dette, når vi ikke vet hvordan fordelingen til U ser ut? Det vi kan gjøre er å starte med fordelingen vi fant i G. Denne fordelingen er selvsagt ikke lik fordelingen til U, men vi kan anta at den er en akseptabel tilnærming. De store talls lov forteller oss at når vi foretar flere og flere forsøk så vil fordelingen ved simuleringen nærme seg den eksakte fordelingen til U (de relative frekvensene i hvert intervall vil gå mot sannsynlighetene). Med 500 forsøk, kan fordelingen ligge noe unna fordelingen til U, men vi kan anta at den ligger «nærme nok». Så når vi skal sammenlikne om normaltilnærmingen til U er god, sammenlikner vi altså fordelingen vi får med simulering (som vi antar er en rimelig god tilnærming til U), og normaltilnærmingen til U (som vi enda ikke vet om er god eller dårlig!). Dette skal vi gjøre slik som på figur 5.23 s. 186 i boken av Løvås. Den simulerte fordelingen har vi fra G. Vi skal så plotte normaltilnærmingen i samme figur. Dette er mulig, men vanskelig å få til i Excel. Jeg har her plottet dem hver for seg. Det som gjenstår da er å tegne dem inn for hånd i samme figur, og så se i hvilken grad de to fordelingene «likner hverandre / er sammenfallende», og om du synes normaltilnærmingen virker rimelig ut ifra figuren.
Fordeling ved simulering Normaltilnærmingen Intervall Bin Frequency Relativ frekv. Søylebredde Søyehøyde NORMDIST(x,-200, 591.608, 0) x- 1700 verdi Sannsynlighetstetthet [-1700-1450) 1450 6 0,012 250 0,000048 1575 4,54E-05 [-1450, -1200) 200 18 0,036 250 0,000144 1325 1,11E-04 [-1200, -950) -950 32 0,064 250 0,000256 1075 2,26E-04 [-950, -700) -700 52 0,104 250 0,000416-825 3,86E-04 [-700, -450) -450 70 0,14 250 0,00056-575 5,51E-04 [-450, -200) -200 95 0,19 250 0,00076-325 6,59E-04 [-200, 50) 50 80 0,16 250 0,00064-75 6,59E-04 [50, 300) 300 56 0,112 250 0,000448 175 5,51E-04 [300, 550) 550 41 0,082 250 0,000328 425 3,86E-04 [550, 800) 800 22 0,044 250 0,000264 675 2,26E-04 [800, 1050) 1050 9 0,018 250 0,000072 925 1,11E-04 [1050, 1300) 1300 5 0,01 250 0,00004 1175 4,54E-05 [1300, 1550) 1550 3 0,006 250 0,000024 1425 1,56E-05 More 0 0,0008 0,0007 0,0006 0,0005 0,0004 0,0003 0,0002 0,0001 Histogram 0-1700 -1450-1200 -950-700 -450-200 50 300 550 800 1050 1300 1550 More Bin Sannsynlighetstetthet normaltilnærming 7,00E-04 6,00E-04 5,00E-04 4,00E-04 3,00E-04 2,00E-04 1,00E-04 0,00E+00-2000 -1500-1000 -500 0 500 1000 1500 2000
Man kan selvsagt få en mer nøyaktig normaltilnærmingskurve ved å beregne funksjonsverdien for flere x-verdier, men i denne oppgaven vil det være tilfredsstillende å ta en x-verdi per intervall. Det er også gunstig å velge midtpunktet på hvert intervall når en beregner funksjonsverdiene. Hvorfor? En viktig bemerkning her er at dersom vi hadde hatt flere observasjoner av U (gjort flere forsøk), ville vi fått et bedre bilde av fordelingen til U. Den simulerte fordelingen vil nærme seg den eksakte fordelingen til U. (Hva vil det si å «nærme seg»? Se kommentar oppgave G). Noe vi IKKE kan si er at fordelingen til U vil nærme seg normalfordelingen dersom vi foretar flere simuleringer. Fordelingen til U er gitt og endrer seg ikke! (Det er viktig å skille mellom antall simuleringer/forsøk og hvor mange verdier U er en sum av!) Dersom vi foretar flere simuleringer vil vi imidlertidig, få et bedre/sikrere bilde av den sanne fordelingen til U (som er ukjent, men fast), og dette kunne gitt oss et enda bedre grunnlag for å sammenlikne om normaltilnærmingen virker rimelig Oppgave I Som det står skrevet i oppgaveteksten gir den relative frekvensen et anslag på den sanne verdien P(U < 0). Det stor talls lov garanterer at den relative frekvensen vil nærme seg denne sannsynligheten når antallet forsøk når mot uendelig Det er imidlertidig viktig å påpeke her at den relative frekvensen ikke nødvendigvis vil nærme seg F(0) = G( ) = G(0.338) 0.632318 (fra Excel). Vi kan faktisk gå så langt som å si at den antakelig ikke vil nærme seg denne verdien. Dersom normaltilnærmingen er god vil F(0) være en god tilnærming til P(U < 0), men at disse verdien er eksakt like hverandre er jo lite trolig. Jeg foretok 1 million simuleringer (i stedet for 500) og fikk da en observasjon av : = 0.631783. Vi ser at denne ligger svært nær tilnærmingen på 0.632318, og det tyder på at normaltilnærmingen for P(U < 0) er svært god. Den sier imidlertidig ikke at normaltilnærmingen er god for andre u-verdier. Det er dette vi prøver å se på i H, på en mer «skjønnsmessig» måte, selv om vi selvsagt også kunne gjort sammenlikningen med utgangspunkt i idéen fra denne oppgaven (bare for mange flere u-verdier).
Oppgave J Obs! = og ikke. Grunnen til at vi bruker i denne oppgaven er at vi skal ha et tosidig spredningsintervall. Dermed må vi fordele arealet α vi har til rådighet på hver av sidene. Tegn en figur. P(Z > ) = α Dette gjelder per definisjon! Med ord: er definert som den verdien som gjør at sannsynligheten for at Z tar verdier som er større enn dette er lik α. Lag en figur. P( ) = α/2 P(Z < - ) = α/2 (på grunn av symmetrien). Da har vi totalt P(- < Z < ) = P(Z < ) - P(Z < - ) = 1 - P( ) - P(Z < - ) = 1 - α/2 - α/2 = 1 - α. Z =. Ved å sette inn for Z kan en så finne et 100(1- α)% spredningsintervall for U. En kan også bruke formelen til Løvås (s.181) direkte. Tips: Lag en figur! Har du spørsmål, kommentarer eller finner feil; send en e-post til: eilifsolberg@gmail.com