ST0103 Brukerkurs i statistikk Høst 2014

Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag ST0103 Brukerkurs i statistikk Høst 2014 Løsningsforslag Øving 1 2.1 Frekvenstabell For å lage en frekvenstabell må vi telle antall observasjoner av hvert antall henvendelser. Siden antall henvendelser på en gitt dag alltid ligger mellom 0 og 7 trenger vi en tabell med åtte rader. Videre lar vi tabellen ha tre kolonner. I den venstre kolonnen lister vi variabelen vi ønsker å tabulere frekvensen av, altså antall henvendelser. I den midterste kolonnen skriver vi frekvensen vi har observert hvert antall henvendelser med, altså hvor mange ganger hvert av tallene opptrer i tabellen i oppgaveteksten. I den høyre kolonnen skriver vi relativ frekvens, altså hvor stor andel av observasjonene hver observerte verdi utgjør. Vi finner de relative frekvensene ved å normalisere frekvensene i den midterste kolonnen. Siden det totalt er 100 observasjoner, normaliserer vi frekvensene ved å dele på 100. Antall henvendelser Frekvens Relativ frekvens 0 9 0.09 1 20 0.20 2 26 0.26 3 18 0.18 4 11 0.11 8 0.08 6 0.0 7 3 0.03 For å kontrollere utregningene kan vi sjekke at summen av frekvensene blir lik antall observasjoner, alstå 100, og at summen av de relative frekvensene blir 1. Merk at en frekvenstabell ikke nødvendigvis trenger å ha med både frekvenser og relative frekvenser. Histogram Histogrammet skal være et søylediagram som visualiserer innholdet i frekvenstabellen. Søylene bør være brede nok til at de er helt inntil hverandre. I tillegg ønsker vi at det totale arealet av søylene skal være lik 1. Hvis hver rad i frekvenstabellen representeres av en rektangulær søyle med bredde 1 og høyde lik den relative frekvensen, da vil arealet av søylen være lik relativ frekvens, og sammenlagt vil arealet av alle søylene være lik summen av de relative frekvensene, som er 1. Det kan være praktisk å sentrere hver søyle horisontalt på verdien den representerer, slik at søylen for null henvendelser strekker seg fra 0. til 0. på x-aksen, søylen for én henvendelse strekker seg fra 0. til 1., og så videre. 22. august 2014 Side 1 av 8

0.3 0.3 0.2 Relativ frekvens 0.2 0.1 0.1 0.0 0 0 1 2 3 4 6 7 Antall henvendelser Histogrammet har en skjev form. De høyeste søylene finner vi rundt to henvendelser. Høyden avtar gradvis når man beveger seg til høyre, dvs. mot flere henvendelser. Histogrammet har ikke noen tilsvarende hale på venstre side, siden antall henvendelser alltid er større enn eller lik null. En slik skjev form er typisk for histogrammer av ikke-negative variable. 2. Vi bør unngå å bruke gjennomsnitt som sentralmål når vi studerer inntektsforhold. Dette fordi fordelingen av inntekt ofte er svært skjev. Gjennomsnittsinntekten er gjerne mange ganger større enn inntekten til en typisk arbeidstaker. Medianinntekten er derimot et informativt sentralmål for inntekt, og er bedre skikket til å fortelle oss hvor inntektsnivået faktisk ligger. Sammenlignet med gjennomsnittet påvirkes medianen lite av den store skjevheten i utvalget, altså det at noen få arbeidstakere har svært høy inntekt. Modus kan også brukes som sentralmål for inntekt, men fungerer best dersom observasjonene er gruppert i intervaller, slik at det blir mange nok observasjoner av hvert intervall. Modus forteller da hvilket intervall en typisk inntekt ligger innenfor. 2.7 Median For å finne medianen begynner vi med å sortere tallene i stigende rekkefølge: 2 3 4 7 8 12. De to midterste tallene er 4 og 7, så medianen er (4 + 7/2 =.. Gjennomsnitt Gjennomsnittet av tallene er 2 + 3 + 4 + 7 + 8 + 12 6 = 36 6 = 6. 22. august 2014 Side 2 av 8

Standardavvik For å finne standardavviket regner vi først ut variansen, s 2 = 1 [ (2 6 2 + (3 6 2 + (4 6 2 + (7 6 2 + (8 6 2 + (12 6 2] 6 1 = 1 [ 4 2 + 3 2 + 2 2 + 1 2 + 2 2 + 6 2] = 1 70 = 14. Standardavviket er da s = 14 = 3.74. 2.8 Median Medianen er gjennomsnittet av de to midterste tallene, 1 000 004 + 1 000 007 2 = 1 000 00.. Gjennomsnitt Summen av tallene er 6 000 036, og gjennomsnittet er summen delt på 6, Standardavvik 6 000 036 6 = 1 000 006. Vi skal regne ut standardavviket, og ser først på de individuelle kvadratavvikene (1 000 002 1 000 006 2 = (2 6 2 (1 000 003 1 000 006 2 = (3 6 2 (1 000 004 1 000 006 2 = (4 6 2 (1 000 007 1 000 006 2 = (7 6 2 (1 000 008 1 000 006 2 = (8 6 2 (1 000 012 1 000 006 2 = (12 6 2. Dette er de samme kvadratavvikene som i oppgave 2.7, slik at variansen også i dette tilfellet blir s 2 = 1 [ 4 2 + 3 2 + 2 2 + 1 2 + 2 2 + 6 2] 6 1 = 1 70 = 14, og standardavviket blir 14 = 3.74. Tallene i denne oppgaven er forskjøvet oppover med 1 000 000 i forhold til tallene i oppgave 2.7. Dermed er medianen og gjennomsnittet forskjøvet tilsvarende i forhold til sentralmålene i oppgave 2.7. Spredningen til tallene er imidlertid uendret, slik at standardavviket er det samme som før. 22. august 2014 Side 3 av 8

2.9 Median Her er de to midterste tallene 400 og 700, så medianen er 400 + 700 2 = 0. Gjennomsnitt Gjennomsnittet blir 200 + 300 + 400 + 700 + 800 + 1200 6 = 3600 6 = 600. Standardavvik Variansen er s 2 = 1 [ (200 600 2 + (300 600 2 + (400 600 2 6 1 + (700 600 2 + (800 600 2 + (1200 600 2] = 1 [ 400 2 + 300 2 + 200 2 + 100 2 + 200 2 + 400 2] = 1 700 000 = 140 000, slik at standardavviket blir 140 000 = 374.17. Tallene som er gitt i denne oppgaven er de samme som i oppgave 2.7, men multiplisert med 100. Medianen og gjennomsnittet blir her 100 ganger tilsvarende sentralmål i oppgave 2.7. Til forskjell fra translasjon, som i oppgave 2.8, vil multiplikasjon endre spredningen til utvalget, så her finner vi også at standardavviket er 100 ganger større enn standardavviket i oppgave 2.7. 2.22 (19 Definisjon 2.3 gir oss følgende formel for varians: s 2 = 1 n (x i x 2, og vi skal vise at dette er det samme som ( n 1 x 2 i n x 2. Vi følger anbefalingen i oppgaveteksten, og bruker nederste linje i regel 2.2 til å utvide summen, ( s 2 = 1 n n (x i x 2 = 1 n x 2 i 2 x x i + n x 2. 22. august 2014 Side 4 av 8

Videre merker vi oss at siden x = 1/n n x i, så kan vi bytte ut n x i med n x. Dermed er ( n s 2 = 1 x 2 i 2 x(n x + n x 2 ( n = 1 x 2 i 2n x 2 + n x 2 ( n = 1 x 2 i n x 2. 3.1 Myntkast For et enkelt myntkast har vi to mulige utfall, M og K. Utfallsrommet blir S = {M, K}. Med to etterfølgende myntkast blir utfallsrommet S = {MM, MK, KM, KK }, hvor MM betyr at vi kaster mynt to ganger, MK betyr at vi først kaster mynt, deretter kron, og så videre. Terningkast Utfallsrommet er S = {1, 2, 3, 4,, 6}. At terningen viser partall kan identifiseres med hendelsen To terninger Med to terninger blir utfallsrommet A = {e S : e er et partall} = {2, 4, 6}. S = {11, 12, 13,..., 66}, det vil si alle kombinasjoner ij hvor i og j begge er elementer i {1, 2, 3, 4,, 6}. Det er seks mulige verdier av i, og seks mulige verdier for j, så totalt er det S = 6 2 = 36 utfall. Mengden som svarer til at begge terningene er like er A = {ij S : i = j} = {11, 22, 33, 44,, 66}. Mengden som svarer til at vi får minst en sekser er B = {ij S : i = 6 eller j = 6} = {ij S : i = 6} {ij S : j = 6} = {61, 62, 63, 64, 6, 66} {16, 26, 36, 46, 6, 66} = {61, 62, 63, 64, 6, 66, 16, 26, 36, 46, 6}. 22. august 2014 Side av 8

Av S = 36 mulige utfall er det B = 11 utfall som gir oss minst en sekser. Sannsynligheten for å få minst en sekser er dermed P (B = Antall gunstige utfall Antall mulige utfall = 11 36 = 0.306. Politisk meningsmåling Med utgangspunkt i kategoriene som er listet opp i Tabell 2.1, har vi utfallsrommet S = {RV, SV, AP, SP, V, KrF, H, FrP, Andre}. Anta at sentrumspartiene er SP, V og KrF. Da identifiserer vi hendelsen Personen er sentrumsvelger med delmengden A = {SP, V, KrF}. Landskamp Utfallsrommet er S = {i-j : i {0, 1, 2,...}, j {0, 1, 2,...}} = {0-0, 1-0, 0-1, 1-1, 2-0, 0-2, 2-1, 1-2, 2-2,...}, altså alle kombinasjoner av i-j hvor i og j er ikke-negative heltall. Vi får samme utfallsrom for andre spill som ikke har noen øvre grense for antall mål. Hendelsen uavgjort tilsvarer delmengden av S hvor lagene har like mange mål, A = {i-j S : i = j} = {0-0, 1-1, 2-2,...}. Antall barn Selv om antall barn i praksis er begrenset oppad, velger vi utfallsrommet S = {0, 1, 2,...} slik at vi slipper å sette en vilkårlig øvre grense. Hendelsen mer enn fire barn tilsvarer delmengden A = {e S : e > 4} = {, 6, 7,...}. Temperaturmåling Hvis vi runder av temperaturmålingen til nærmeste hele grad, kan vi betrakte de mulige utfallene som heltall. Nesbyen har tidligere opplevd temperaturer mellom 38.0 C og 3.6 C, så for å være rimelig sikre på å dekke alle mulige utfall velger vi utfallsrommet S = { 40, 39, 38,..., 40}. Anta at vi har kortbuksevær når temperaturen er større enn eller lik 18 C. Da defineres hendelsen kortbuksevær som A = {e S : e 18} = {18, 19, 20,..., 40}. 22. august 2014 Side 6 av 8

3.4 Revisoren kontrollerer en av seks permer. Alle permene velges med like stor sannsynlighet. La utfallsrommet S bestå av de seks permene, og la A være hendelsen De tvilsomme transaksjonene avsløres. Da består A kun av permen med de inkriminerende bilagene, mens komplimentet A består av de fem andre permene. Sannsynligheten for at de tvilsomme transaksjonene blir avslørt er da lik sannsynligheten for at revisoren velger riktig perm, P (A = Antall gunstige utfall Antall mulige utfall = 1 6. 3.6 La 1 bety at terningen viser ett øye, 2 at den viser to øyne, og så videre. Da er utfallsrommet S = {1, 2, 3, 4,, 6} og hendelsene A, B og C er definert som følger: A = {1}, B = {2, 4, 6}, C = {1, 2, 3}. Venn-diagrammet viser at A er en delmengde av C, og at 2 er et element i både B og C. A B er unionen av A og B. A B = {1} {2, 4, 6} = {1, 2, 4, 6} Hendelsen A B inntreffer både dersom vi får en ener og dersom vi får et partall. Sannsynligheten for dette er P (A B = P ({1, 2, 4, 6} = 4 6 = 2 3. A C er komplementet til snittet av A og C, altså alle utfall som ikke er felles for A og C. A C = {1} {1, 2, 3} = {1} = {2, 3, 4,, 6} Hendelsen A C inntreffer kun dersom vi får en ener, så komplementet A C inntreffer i alle andre tilfeller, og har sannsynlighet P (A C = P ({2, 3, 4,, 6} = 6. 22. august 2014 Side 7 av 8

A B er unionen av A og komplementet til B, alstå alle utfall som enten er i A eller ikke er i B. A B = {1} {2, 4, 6} = {1} {1, 3, } = {1, 3, } Hendelsen A B inntreffer dersom vi får et oddetall. Det skjer med sannsynlighet P (A B = P ({1, 3, } = 3 6 = 1 2. A B C er unionen av alle tre hendelsene A, B og C, alstå alle utfall som er i minst en av hendelsene. A B C = {1} {2, 4, 6} {1, 2, 3} = {1, 2, 3, 4, 6} Hendelsen A B C inntreffer dersom vi får en ener eller dersom terningen viser tre eller mindre eller dersom vi får et partall. Det eneste utfallet som ikke hører til denne hendelsen er en femmer. Sannsynligheten for at hendelsen inntreffer er P (A B C = P ({1, 2, 3, 4, 6} = 6. A B er snittet av A og komplementet til B, altså den delen av A som ikke overlapper med B. Siden A og B ikke overlapper er dette snittet identisk med A. A B = {1} {2, 4, 6} = {1} {1, 3, } = {1} Hendelsen A B inntreffer kun dersom vi får en ener. Sannsynligheten for det er P (A B = P ({1} = 1 6. A C B er snittet av komplimentet til B og komplimentet til snittet av A og C. Utfallene i denne mengden er verken elementer i B eller elementer i både A og C. A C B = {1} {1, 2, 3} {2, 4, 6} = {1} {1, 3, } = {2, 3, 4,, 6} {1, 3, } = {3, } Hendelsen A C B inntreffer dersom vi får en treer eller en femmer. Sannsynligheten for dette er P (A C B = P ({3, } = 2 6 = 1 3. 22. august 2014 Side 8 av 8