1 ECON 130 HG - februar 01 Løsningskisse for oppgaver til undervisningsfri uke 8 (0.-. februar 01) Oppg..1. Variabel: x = antall kundehenvendelser pr. dag 1. Antall observasjoner: n = 100 dager. I Excel kan vi lage en tabell over beskrivende størrelser ( Descriptives ): Descriptives Mean.61 Standard Error 0.17633 Median Mode Standard Deviation 1.76333 Sample Variance 3.10899 Kurtosis -0.1699 Skewness 0.63783 Range 7 Minimum 0 Maximum 7 Sum 61 Count 100 1 Merk at jeg bruker liten x for variabelnavnet her. Grunnen til det er at dette er en ren deskriptiv analyse uten noen antakelser om populasjon og data oppfattet som et tilfeldig utvalg. Det foreligger derfor ingen statistisk modell og ikke noe grunnlag for å tolke data som observasjoner av stokastiske variable.
Gjennomsnitt, modus (den verdi som forekommer oftest i materialet) og standardavvik er uthevet. Ettersom bare 8 mulige verdier av x forekommer, er det ingen grunn til å gruppe-dele materialet. Intervallbredden velges derfor som 1 i Excel. Følgende frekvenstabell produseres: Bin Frequency 0 9 1 0 6 3 18 11 8 6 7 3 8 0 More 0 Denne viser bl.a. at den hyppigst forekommende verdien (modus) er. Ved hjelp av Excel-modulen Data Analysis finner vi histogrammet (instrukser for å lage et histogram kan leses i Excel tutorial som ligger på emnesiden).
3 30 Antall henvendelser til trykkeriet pr. dag over 100 dager Absolutt frekvens 0 1 10 0 0 1 3 6 7 8 More Antall henvendelser Oppgave 3.1 8 elever fordeler seg i kategorier bestemt av kjønn og kunnskap om datamaskiner som vist i tabellen: Jente (J) Gutt (G) Sum Kan data (D) 6 10 16 Kan ikke data ( D ) 7 1 Sum 13 1 8 Vi trekker en elev (rent) tilfeldig (dvs. slik at hver elev har samme sjanse å bli trukket som er det som ligger i uttrykket rent tilfeldig ). Vi har dermed en uniform sannsynlighetsmodell og finner derfor sannsynlighetene: 16 PD ( ) = ( = 0.71) 8 P(eleven er jente og kan bruke datamaskin) 6 = PJ ( D) = ( = 0.1) 8 Vi får vite at eleven er jente. Sannsynligheten for at eleven kan datamaskin blir da (siden det er i alt 13 jenter): 6 PD ( J ) = ( = 0.6) 13
(Merk at, siden PD ( J) PD ( ), er D og J avhengige begivenheter.) 8 Trekker nå elever. Det er i alt = 378 ikke-ordnete utvalg på elever. Disse antas like sannsynlige. Siden det er 1 elever som ikke kan data, får vi 1 1 11 P(Ingen av de to i utvalget kan data) = = = 0.17 8 8 7 og 6 10 1 1 1 0 6101 P(Begge kan data og de er av forskjellig kjønn) = = = 0.19 8 378 Oppgave 3.18 Innledning om uavhengighet og avhengighet Den formelle definisjonen er: To begivenheter, A og B, sies å være (stokastisk) uavhengige hvis (og bare hvis) (1) PA ( B) = PAPB ( ) ( ) Merk at hvis PB ( ) > 0, og vi antar at (1) gjelder, så følger av (1) at () PAB ( ) = PA ( ) som uttrykker at sannsynligheten for A er uberørt av om vi vet at B har inntruffet (eller ikke) eller om vi ikke vet det. Dette uttrykker uavhengigheten mer intuitivt enn (1). Likevel velges (1) som den formelle definisjonen siden den ikke forutsetter noe om at PB ( ) > 0. For eksempel, i henhold til (1) er den umulige begivenheten,, uavhengig av enhver annen begivenhet, A [dette følger siden PA ( ) = P( ) = 0 og PAP ( ) ( ) = PA ( ) 0= 0 ]. () kan imidlertid ikke brukes i dette tilfellet siden (udefinert). (1) er altså litt mer generell enn (). PA ( ) 0 PA ( ) = = som er meningsløst P( ) 0 siden PA ( B) PA ( B) = PB ( )
Merk også at dersom (1) ikke gjelder, sies A og B å være avhengige begivenheter. Merk også at hvis () ikke gjelder (dvs. PAB ( ) PA ( ) ), så kan heller ikke (1) gjelde. Oppgaven: La A, B, C bety at datamaskin 1, eller 3 er OK henholdsvis. Får oppgitt PA ( ) = 0.90, PB ( ) = 0.8, PC ( ) = 0.81 og PA ( B) = 0.76, PA ( C) = 0.77, PB ( C) = 0.73 Vi får av dette og (1) at (3) A og B er uavhengige siden PAPB ( ) ( ) = (0.9)(0.8) = 0.76 = PA ( B) () A og C er avhengige siden PAPC ( ) ( ) = (0.9)(0.81) = 0.79 PA ( C) ( = 0.77) () B og C er avhengige siden PBPC ( ) ( ) = (0.8)(0.81) = 0.688 PB ( C) ( = 0.73) Det blir også spurt om det er nødvendig å foreta en beregning for å avgjøre om B og C er uavhengige eller ikke ut fra (3) og (). Svaret på det er ja. Selv om vi vet at A og B er uavhengige og at A og C er avhengige, så kan B og C være avhengige som her, men i andre eksempler der (3) og () gjelder, kan B og C være uavhengige (!). Derfor kan vi ikke vite om () holder uten en beregning. Et eksempel på det siste er følgende: La eksperimentet bestå i å kaste en rettferdig mynt ganger. Utfallsrommet er S= { ee 1,, e3, e} = {( MM, ), ( MK, ), ( KM, ), ( KK, )}, der for eksempel utfallet e = ( M, K) betyr at det blir mynt (M) i første kast og kron (K) i andre kast. At mynten er rettferdig kan vi uttrykke ved forutsetningen at de utfallene er like sannsynlige, Pe ( i ) = 1for i = 1,,3,. La A= K1 = { e3, e} være begivenheten at første kast gir kron, og B= K = { e, e} at det 1 1 andre kastet gir kron. Da blir PA ( ) = PB ( ) = =, mens PA ( B) = Pe ( ) = = PAPB ( ) ( ) - hvorav A og B er uavhengige. La nå C = A= { e1, e} = "mynt i første kast". Da er A og C avhengige siden PA ( C) = PA ( A) = P( ) = 0, som er forskjellig fra 1 1 1 PAPC ( ) ( ) = =. I dette tilfellet blir B og C uavhengige. (Sjekk selv!) En analogi kan kanskje (!) bidra til å øke forståelsen: Anta vi istedenfor begivenheter snakker om personer og lar avhengighet mellom begivenheter svare til å kjenne hverandre, mens uavhengighet svarer til å ikke kjenne hverandre. Da er det vel klart at selv om personen A ikke kjenner B, men kjenner C, så kan vi ikke vite om B og C kjenner hverandre eller ikke. Begge deler er mulig.
6 Oppgave 3.3 Siden apen godt kan trykke på samme tast flere ganger, er antall mulige ord 9 = 0 11 19. Anta apen trykker ganger. Siden antall mulige ord som begynner på H er blir (under forutsetning om uniform sannsynlighetsmodell dvs. at alle ord er like sannsynlige ): 9 1 9 9 P ( ordet begynner på H) = = = 0.03 Finner (hvis vi antar uniform sannsynlighetsmodell): 9 = 707 81, m P ( ordet inneholder akkurat en H) =, der m er antall ord med en og bare en H. Siden 9 det er osv, blir 8 ord med den ene H en på første plass, m = 8, og 8 P( ordet inneholder akkurat en H) = = 0.10 9 Ordet YANOV kan bare skje på en måte, slik at 1 8 P(YANOV) = = 0.00000009 =.9 10 9 8 ord med den ene H en på andre plass, Forutsetningen om uniform sannsynlighetsmodell høres tvilsom ut det er vel lite sannsynlig at apen trykker like ofte ute i kanten av brettet som i midten. Antakelig vil derfor noen tegn opptre oftere enn andre. Oppgave.7 Sannsynlighetsfordelingen til X er gitt ved x 0 1 3 PX ( = x) 0. 0.31 0.1 0.07 0.03 Definisjon.6 gir forventningen EX ( ) = xpx ( = x) = 0 (0.) + 1 (0.31) + (0.1) + 3 (0.07) + (0.03) = 0.9 alle x Regel.7 ( formel [.]) gir:
7 EX = xpx= x = + + + = ( ) ( ) 0 (0.) 1 (0.31) (0.03) 1.98 alle x (Merk at EX ( ) ikke er det samme som [ ] EX ( ) = (0.9) = 0.86! ) Av formel [.6] finner vi derfor variansen til X 3 : ( ) [ ] Var( X) = E X EX ( ) = 1.98 0.86 = 1.1336 Y har fordelingen y -3 - -1 0 1 3 PY ( = y) 0.01 0.0 0.06 0.1 0.8 0. 0.16 0.07 0.0 Av denne finner vi (sjekk!) ( ) EY ( ) = 1., E Y =.61, og dermed Var( Y ) =.61 (1.) =.07. La Z = X + 8Y. Vi ønsker å finne forventning og varians til den nye stokastiske variabelen, Z. Vi trenger da regel.1 og regel.17. Av regel.1 finner vi (ved å bruke konstantene a 1 =, a = 8 og b = 0 ) at EZ ( ) = E( X+ 8 Y) = E( X) + 8 EY ( ) = 7 Nå antas det at X og Y er uavhengige stokastiske variable (jfr. definisjon.16). Da kan vi bruke regel.17 (formel [.18]) som sier at variansen til en sum av stokastisk uavhengige stokastiske variable er summen av variansene, og at konstante koeffisienter foran variablene skal kvadreres. (Merk at denne regelen ikke gjelder hvis X og Y er avhengige (!). Jfr. regel.1.) Regel.17 Var( Z) = Var( X + 8 Y) = ( ) Var( X) + 8 Var( Y) = (1.1336) + 6 (.07) = 188.8 3 Var( X) E[ ( X µ ) ] =, der µ = E( X), betyr gjennomsnittlig verdi i det lange løp av ( X µ ) - som er kvadratisk avstand til forventningen µ for en vilkårlig observasjon av X. Var( X ) (også ofte betegnet som sigma i annen, σ ) er således et mål på gjennomsnittlig spredning i fordelingen for X. som betyr at begivenhetene ( X = x) og ( Y = y) er (stokastisk) uavhengige begivenheter for enhver kombinasjon av x og y. Dette innebærer at PX ( = x Y= y) = PX ( = x) PY ( = y) for alle kombinasjoner ( x, y ).
8 Oppgave.8 La Y være antall jenter i en -barns familie. I eksempel. (side 10) antas det implisitt at sannsynligheten for at en vilkårlig fødsel er en jente er PJ ( ) = 0.. Nå byttes denne forutsetningen ut med den noe mer realistiske forutsetning at PJ ( ) = 0.86 (som gir sannsynligheten for gutt, PG ( ) = 1 PJ ( ) = 0.1 i en vilkårlig fødsel). Videre antas implisitt (av Løvås) at kjønnet i to forskjellige fødsler er stokastisk uavhengige begivenheter. [Merknad. Løvås forutsetter strengt tatt bare at de 16 utfallene i tabell. er like sannsynlige. Hvis vi går ut fra at rekkefølgen av kjønn i enkeltutfallene angitt i tabell. er i henhold til alder (slik at, for eksempel, utfallet GGGJ betyr at de tre eldste er gutter mens den yngste er jente), så følger at P ( den eldste er G) = 8 16 = 0. siden det er 8 enkeltutfall i tabell. med G på 1. plass. Likeledes er det 8 utfall med G på. plass hvorav P (nest eldst er G) = 8 16 = 0.. Tilsvarende får vi P (de to eldste er gutter) = 16 = 0. siden det er enkeltutfall som har G på de to første plassene. Siden den siste sannsynligheten er produktet av de to foregående, følger av definisjonen på uavhengighet at begivenheten første fødsel gir gutt og. fødsel gir gutt, er uavhengige begivenheter. Tilsvarende argumentasjon mer generelt viser at kjønnet i to forskjellige fødsler er uavhengige begivenheter ut fra Løvås antakelse. M.a.o. Løvås antakelse impliserer uavhengighet mellom fødslene. ] For å komme videre med de reviderte kjønns-sannsynlighetene ved enkeltfødsler, trenger vi å vite noe mer enn bare sannsynligheter ved enkeltfødsler for å kunne sette opp sannsynligheter for kombinasjoner av utfall ved flere fødsler simultant. En rimelig tilleggsforutsetning ville i tråd med Løvås (og vanlig intuisjon) være å postulere at kjønnet i forskjellige fødsler er stokastisk uavhengige begivenheter. Med denne presiseringen finner vi PY P Y P P P P ( = 0) = P(GGGG) = (0.1) = 0.0698 3 ( = 1) = (GGGJ) + (GGJG) + (GJGG) + (JGGG) = (0.1) (0.86) siden faktorenes orden i et produkt er likegyldig. Tilsvarende regnes de andre punktsannsynlighetene for Y. Resultatet er gitt i tabellen y 0 1 3 PY ( = y) [ med PJ ( ) = 0.86 ] 0.0698 0.60 0.37 0.360 0.08 PY ( = y) [med PJ ( ) = 0.] 0.06 0.00 0.370 0.00 0.06 Vi ser at sannsynlighetene basert på den grovere (og enklere) antakelsen at PJ ( ) = PG ( ) = 1 gir en ganske god tilnærmelse til den noe mer realistiske sannsynlighetsfordeling for Y, og at det antakelig ikke er bryet verdt for mange problemstillinger å gjøre modellen mer realistisk på bekostning av analytisk enkelthet. Dette kan vel ses på som en illustrasjon på dilemmaet som alltid oppstår ved valg av modeller som grunnlag for analyse av data trukket fra den virkelige verden, nemlig et kompromiss mellom kravet om akseptabel realisme og analytisk Dette burde strengt tatt vært presisert i oppgaveteksten, noe som vel kan anses som en svakhet ved denne.
9 enkelthet. For mange problemstillinger ville vel resultater basert på den enklere modellen være tilstrekkelig akseptable. Merk for øvrig at begge fordelinger i tabellen er spesialtilfeller av den såkalte binomiske fordelingen som er behandlet i begynnelsen av kapittel, og kunne vært satt opp direkte basert på denne.