Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

2 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 3 4 Pensumoversikt Forelesninger og øvinger Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11.1 3 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse Forelesninger: Mandag 08:15 10:00 D3 Onsdag 12:15 14:00 D3 Øvinger: Torsdag 14:15 16:00 D119 Fredag 13:15 15:00 D151 Øvingslærer: Erik B. Solbu NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen.

5 6 Hva er statistikk? Oversikt Vitenskapen å samle inn, beskrive og tolke data Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens 8 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren

9 Populasjon og utvalg parameter og observator 10 Populasjon og utvalg parameter og observator 12 Datainnsamling (1.4) Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3) Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet Utvalgsramme: En liste over elementene som tilhører populasjonen som utvalget blir trukket fra. Utvalgsrammen må være representativ for populasjonen.

Utvalgsdesign: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket. Subjektivt utvalg: person velger utvalg utfra hvilke elementer vedkommende mener er representative for populasjonen. Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut.... 14 Grafisk presentasjon av data (2.2) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23 15 16 Sirkelgraf Søylegraf Abdominal General Eye, ear, nose, and throat Bones and joints Thoracic Neurosurgery Proctologic 0 20 40 60 80 100 Thoracic Bones and joints Eye, ear, nose, and throat General Abdominal Urologic Proctologic Neurosurgery Urologic

17 Paretodiagram 0 20 40 60 80 100 Abdominal General Urologic Proctologic Eye, ear, nose, and throat Bones and joints Neurosurgery Thoracic 18 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 60 70 80 90 19 Stem-and-leaf plot 20 Frekvensfordeling og histogram (2.3) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26 Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3

Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4 22 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: 23 24 Histogram (relativ frekvens) Mål for lokalisering av data (2.4) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2

Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Mode: Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, mode=1 Eksempel: Data 1, 2, 6, 10, ingen mode Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5 26 Mål på spredning (2.5) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x s 2 x) 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 = 2 n 1 27 Eksempel 28 Beregning av MAD (gjennomsnittlig absolutt avvik) Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20 Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4

29 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5 Enklere formel: s = (x x) 2 s 2 = n 1 x s 2 2 ( x) 2 /n = n 1 = 3.94 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5 31 Gjennomsnitt og standardavvik i frekvensfordeling (2.9) xf er summen av data og x 2 f er summen av kvadrerte data Da blir x f xf x 2 f 0 1 0 0 1 3 3 3 2 8 16 32 3 5 15 45 4 3 12 48 f = n = 20 xf = 46 x 2 f = 128 s 2 = x 2 f ( xf ) 2 / f = 128 462 /20 = 1.17 f 1 20 1 s = s 2 = 1.08

Gjennomsnitt Oppgave Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 x f 0 1 1 3 2 8 3 5 4 3 summen av data x = = antall data x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 20 x er tyngdepunktet i datamengden: x n = 46 20 = 2.3 Finn gjennomsnittet til x 35 36 Mål på beliggenhet (2.6) 5-tallssammendrag Kvartiler: Deler datasettet inn i fire like store deler: 1.KvartilQ 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2.KvartilQ 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3.KvartilQ 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag: L, Q 1, x,q 3,H

37 38 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, 00, Q 1 = 72, 50, Q 2 = 77, 00, Q 3 = 84, 00, H = 96, 00 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)