ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere [1] Introduksjon til ST0202 Kapittel 1: Statistikk Kapittel 2: Deskriptiv analyse og presentasjon av en variabel Mette Langaas Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2011h/start Faginformasjon ST0202 Statistikk for samfunnsvitere. Hva er statistikk? Hvorfor må jeg lære statistikk? Vi starter på pensum!

3 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 11. utgave 10. utgave kan også brukes. 4 Pensumoversikt Kap. 1 Statistikk og datainnsamling (utvalgte deler) Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse

5 Forelesninger og øvinger Forelesninger: Tirsdag 16:15-18:00 D3 Onsdag 16:15-18:00 D3 Øvinger: Torsdag 14:15 16:00 DL146 Torsdag 16:15 18:00 DL135 Øvingslærer: Håkon Bull Hove NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen. De andre øvingene er frivillige og skal ikke leveres inn. 6 Fagets hjemmeside http://wiki.math.ntnu.no/st0202/2011h/start Her finner du forelesningsplan, slides fra forelesningene, øvingene, og all annen informasjon du måtte ha bruk for. Vi vil ikke bruke It s learning aktivt i faget.

Faginformasjon ST0202 Statistikk for samfunnsvitere. Hva er statistikk? Hvorfor må jeg lære statistikk? Vi starter på pensum! 8 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

10 Johnson & Kuby (læreboka!) Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens

11 Viktige definisjoner (1.1) Populasjon Den mengden av individer/objekter som vi ønsker å analysere egenskaper for. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren 12 Populasjon og utvalg parameter og observator

13 Populasjon og utvalg parameter og observator Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3)

15 Datainnsamling (1.3) Krav til utvalg: Utvalget må være representativt for populasjonen, og ikke skjevt: Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet 16 TV-debatt og representativ undersøkelse TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. Det blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion A/S. Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral

17 TV-debatt og representativ undersøkelse Spørsmål: Bør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 % 18 Representativt utvalg?

19 Eksperimenter og observasjonsstudier Det er to hovedmetoder for innsamling av data: Eksperiment (kontrollert studie, randomiserte forsøk): En effekt studeres under ulike kontrollerte betingelser. Eksempel: Sammenligning av to medikamenter, der gruppen av forsøkspersoner deles i to etter loddtrekning, og hver delgruppe får ett av medikamentene. Observasjonsstudie: Når det ikke er mulig å kontrollere bakgrunnsvariablene. Eksempel: Studie av sammenheng mellom forurensning og sykdommer. Her kan det trekkes et utvalg av personer, men bakgrunnsvariablene kan normalt ikke modifiseres av den som utfører undersøkelsen. Observasjonsstudie:

Eksperiment: 22 Datainnsamlingsprosessen Utvalgsramme ( sampling frame ): En liste over de elementene i populasjonen som utvalget skal trekkes fra. Ideelt: hele populasjonen. Utvalgsrammen må i alle tilfeller være representativ for populasjonen. Utvalgsdesign: Subjektivt utvalg: Et utvalg valgt utfra hvilke elementer som bedømmes som representative for populasjonen. (Blir skjevt!) Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut. Av denne sorten er: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket.

Hvorfor må jeg lære statistikk? Kapittel 2: Deskiptiv analyse og presentasjon av en-variabel data

25 Grafisk presentasjon av data (2.1) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23 26 Søylegraf

27 Paretodiagram 28 Sirkelgraf

29 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 30 Stem-and-leaf plot Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26

31 Frekvensfordeling og histogram (2.2) Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3 Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4

33 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: 34 Histogram (relativ frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

35 Mål for lokalisering av data (2.4) Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2 Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Typetall (mode): Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, typetall=1 Eksempel: Data 1, 2, 6, 10, inget typetall Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5

37 Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 38 Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003

Oppgave La dataene være: 1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 På frekvensform: Finn gjennomsnittet x til dataene x f 0 1 1 3 2 8 3 5 4 3 Løsning: Gjennomsnitt summen av data x x = = antall data n x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 = 46 20 20 = 2.3 x er tyngdepunktet i datamengden:

41 Mål på spredning (2.4) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x s 2 x) 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 = 2 n 1 42 Eksempel Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20

43 Beregning av MAD (gjennomsnittlig absolutt avvik) Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4 44 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5

Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 s = s 2 = (x x) 2 n 1 = 3.94 Enklere formel: s 2 = x 2 ( x) 2 /n n 1 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5 46 Mål på beliggenhet (2.5) Kvartiler: Deler de ordnede dataene inn i fire like store deler: 1. kvartil Q 1 : Verdien som er slik at 25% av dataene er mindre og 75% er større. 2. kvartil Q 2 : 50% av dataene er mindre og 50% er større. Det samme som medianen x 3. kvartil Q 3 : 75% av dataene er mindre og 25% er større. 5-tallssammendrag: L, Q 1, x, Q 3, H

47 5-tallssammendrag 48 Beregning av kvartilene Q 1, Q 2, Q 3 Data (n = 20): 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Step 1: Ranger fra minste til største: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 2: 25% av utvalgsstørrelsen 20 blir (20)(25) 100 = 5 Sett strek i dataene etter nr 5, 2 5 = 10 og 3 5 = 15: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 3: Sett Q 1 = 72 + 74 2 = 73, Q 2 = 76 + 78 2 = 77, Q 3 = 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 84 + 84 2 = 84

49 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 Bredden på boksen kalles Inter Quartile Range (IQR). 50 Hva om 25% av n ikke er et heltall? La f.eks. n = 19. Nå er 25% av 19 lik (19)(25) 100 = 4.75. Videre er 2 4.75 = 9.5, 3 4.75 = 14.25. Boka har da som konvensjon at Q 1 = det 5. største tall, Q 2 = det 10. største, Q 3 = det 15. største (dvs. gå opp til nærmeste heltall). Hvis alle tallene er forskjellige, er da 4 tall ekte mindre enn Q 1, 4 tall er ekte mellom Q 1 og Q 2 og 4 tall er ekte større enn Q 3. (Altså: Maksimum 25% av dataene ligger i hvert intervall, se tidligere figur).

51 Tolkning av standardavvik (2.6) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.) 52 Eksempel på bruk av standardavvik Data: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 På kalkulator kan vi beregne gjennomsnitt x = 77.3, standardavvik s = 10.3. Fra den empiriske regelen har vi da: ca. 68% av obs ligger innenfor ett standardavvik, dvs. innenfor 77.3 ± 10.3, dvs. mellom 67.0 og 87.6 (I virkeligheten er 14 av 20 obs, dvs. 70% her). ca. 95% av obs ligger innenfor to standardavvik, dvs. innenfor 77.3 ± 20.6, dvs. mellom 56.7 og 97.9 (I virkeligheten er 19 av 20 obs, dvs. 95% (!) her). ca. 99.7% av obs ligger innenfor tre standardavvik, dvs. innenfor 77.3 ± 30.9, dvs. mellom 46.4 og 108.2 (I virkeligheten er alle, dvs. 100% her).

53 Hva har du lært idag?