ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave

3 Pensumoversikt Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11.1 3 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse

4 Forelesninger og øvinger Forelesninger: Mandag 08:15 10:00 D3 Onsdag 12:15 14:00 D3 Øvinger: Torsdag 14:15 16:00 D119 Fredag 13:15 15:00 D151 Øvingslærer: Erik B. Solbu NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen.

5 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

6 Oversikt Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens

8 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren

9 Populasjon og utvalg parameter og observator

10 Populasjon og utvalg parameter og observator

Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3)

12 Datainnsamling (1.4) Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet Utvalgsramme: En liste over elementene som tilhører populasjonen som utvalget blir trukket fra. Utvalgsrammen må være representativ for populasjonen.

Utvalgsdesign: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket. Subjektivt utvalg: person velger utvalg utfra hvilke elementer vedkommende mener er representative for populasjonen. Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut....

14 Grafisk presentasjon av data (2.2) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23

15 Sirkelgraf General Eye, ear, nose, and throat Bones and joints Thoracic Neurosurgery Abdominal Proctologic Urologic

16 Søylegraf 0 20 40 60 80 100 Thoracic Bones and joints Eye, ear, nose, and throat General Abdominal Urologic Proctologic Neurosurgery

17 Paretodiagram 0 20 40 60 80 100 Abdominal General Urologic Proctologic Eye, ear, nose, and throat Bones and joints Neurosurgery Thoracic

18 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 60 70 80 90

19 Stem-and-leaf plot Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26

20 Frekvensfordeling og histogram (2.3) Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3

Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4

22 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

23 Histogram (relativ frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

24 Mål for lokalisering av data (2.4) Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2

Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Mode: Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, mode=1 Eksempel: Data 1, 2, 6, 10, ingen mode Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5

26 Mål på spredning (2.5) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x x) s 2 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 2 = n 1

27 Eksempel Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20

28 Beregning av MAD (gjennomsnittlig absolutt avvik) Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4

29 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5

Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 s = (x x) 2 s 2 = n 1 = 3.94 Enklere formel: s 2 = x 2 ( x) 2 /n n 1 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5

31 Gjennomsnitt og standardavvik i frekvensfordeling (2.9) x f xf x 2 f 0 1 0 0 1 3 3 3 2 8 16 32 3 5 15 45 4 3 12 48 f = n = 20 xf = 46 x 2 f = 128

xf er summen av data og x 2 f er summen av kvadrerte data Da blir s 2 = x 2 f ( xf) 2 / f = 128 462 /20 = 1.17 f 1 20 1 s = s 2 = 1.08

Oppgave Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 Finn gjennomsnittet til x x f 0 1 1 3 2 8 3 5 4 3

Gjennomsnitt summen av data x x = = antall data n x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 = 46 20 20 = 2.3 x er tyngdepunktet i datamengden:

35 Mål på beliggenhet (2.6) Kvartiler: Deler datasettet inn i fire like store deler: 1. Kvartil Q 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2. Kvartil Q 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3. Kvartil Q 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag: L, Q 1, x,q 3,H

36 5-tallssammendrag

37 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, 00, Q 1 = 72, 50, Q 2 = 77, 00, Q 3 = 84, 00, H = 96, 00

38 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)