ST0202 Statistikk for samfunnsvitere [1]

Like dokumenter
ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

Kapittel 1: Introduksjon til statistikk og dataanalyse

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 22. august 2006.

Kapittel 1: Introduksjon til statistikk og dataanalyse

Kapittel 1 ser på. Statistikk i hverdagen

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Forkurs i kvantitative metoder ILP 2019

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Statistikk for språk- og musikkvitere 1

Statistikk og dataanalyse

Sannsynlighetsregning og Statistikk.

Kapittel 1: Data og fordelinger

Statistikk. Forkurs 2018

Et lite notat om og rundt normalfordelingen.

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Kapittel 3: Studieopplegg

Statistikk. Forkurs 2017

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Sentralmål og spredningsmål

Oppfriskning av blokk 1 i TMA4240

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Høst 2014

ECON Statistikk 1 Forelesning 2: Innledning

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Analyseoversikt, Uke 35

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

TMA4245 Statistikk: MTBYGG, MTING

Et lite notat om og rundt normalfordelingen.

Frivillig respons utvalg

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

UNIVERSITETET I OSLO

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

84 % er fornøyde med det tilbudet de får

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Introduksjon til statistikk og dataanalyse

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Binomisk sannsynlighetsfunksjon

TMA4240 Statistikk H2017 [15]

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

MET 3431 Statistikk Forelesning 1: Introduksjon til Statistikk

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

UNIVERSITETET I OSLO Matematisk Institutt

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger (Kapittel 5)

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

STK Oppsummering

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Seksjon 1.3 Tetthetskurver og normalfordelingen

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Transkript:

ST0202 Statistikk for samfunnsvitere [1] Introduksjon til ST0202 Kapittel 1: Statistikk Kapittel 2: Deskriptiv analyse og presentasjon av en variabel Mette Langaas Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2011h/start Faginformasjon ST0202 Statistikk for samfunnsvitere. Hva er statistikk? Hvorfor må jeg lære statistikk? Vi starter på pensum!

3 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 11. utgave 10. utgave kan også brukes. 4 Pensumoversikt Kap. 1 Statistikk og datainnsamling (utvalgte deler) Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse

5 Forelesninger og øvinger Forelesninger: Tirsdag 16:15-18:00 D3 Onsdag 16:15-18:00 D3 Øvinger: Torsdag 14:15 16:00 DL146 Torsdag 16:15 18:00 DL135 Øvingslærer: Håkon Bull Hove NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen. De andre øvingene er frivillige og skal ikke leveres inn. 6 Fagets hjemmeside http://wiki.math.ntnu.no/st0202/2011h/start Her finner du forelesningsplan, slides fra forelesningene, øvingene, og all annen informasjon du måtte ha bruk for. Vi vil ikke bruke It s learning aktivt i faget.

Faginformasjon ST0202 Statistikk for samfunnsvitere. Hva er statistikk? Hvorfor må jeg lære statistikk? Vi starter på pensum! 8 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

10 Johnson & Kuby (læreboka!) Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens

11 Viktige definisjoner (1.1) Populasjon Den mengden av individer/objekter som vi ønsker å analysere egenskaper for. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren 12 Populasjon og utvalg parameter og observator

13 Populasjon og utvalg parameter og observator Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3)

15 Datainnsamling (1.3) Krav til utvalg: Utvalget må være representativt for populasjonen, og ikke skjevt: Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet 16 TV-debatt og representativ undersøkelse TV2-programmet Holmgang er et debattprogram som utfører undersøkelser basert på telefonavstemming blant TV-seere. Det blir stilt et spørsmål med to svaralternativ, og seere inviteres til å ringe inn sin mening. Representative undersøkelser utføres av mange seriøse firma, bla. Opinion A/S. Eksempel tatt fra Dimkos et al. (2004), Norsk Regnesentral

17 TV-debatt og representativ undersøkelse Spørsmål: Bør Norge stenge grensene for flyktninger? Ja Nei Holmgang 89.4% 10.6 % Opinion A/S 17% 83 % 18 Representativt utvalg?

19 Eksperimenter og observasjonsstudier Det er to hovedmetoder for innsamling av data: Eksperiment (kontrollert studie, randomiserte forsøk): En effekt studeres under ulike kontrollerte betingelser. Eksempel: Sammenligning av to medikamenter, der gruppen av forsøkspersoner deles i to etter loddtrekning, og hver delgruppe får ett av medikamentene. Observasjonsstudie: Når det ikke er mulig å kontrollere bakgrunnsvariablene. Eksempel: Studie av sammenheng mellom forurensning og sykdommer. Her kan det trekkes et utvalg av personer, men bakgrunnsvariablene kan normalt ikke modifiseres av den som utfører undersøkelsen. Observasjonsstudie:

Eksperiment: 22 Datainnsamlingsprosessen Utvalgsramme ( sampling frame ): En liste over de elementene i populasjonen som utvalget skal trekkes fra. Ideelt: hele populasjonen. Utvalgsrammen må i alle tilfeller være representativ for populasjonen. Utvalgsdesign: Subjektivt utvalg: Et utvalg valgt utfra hvilke elementer som bedømmes som representative for populasjonen. (Blir skjevt!) Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut. Av denne sorten er: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket.

Hvorfor må jeg lære statistikk? Kapittel 2: Deskiptiv analyse og presentasjon av en-variabel data

25 Grafisk presentasjon av data (2.1) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23 26 Søylegraf

27 Paretodiagram 28 Sirkelgraf

29 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 30 Stem-and-leaf plot Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26

31 Frekvensfordeling og histogram (2.2) Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3 Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4

33 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: 34 Histogram (relativ frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

35 Mål for lokalisering av data (2.4) Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2 Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Typetall (mode): Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, typetall=1 Eksempel: Data 1, 2, 6, 10, inget typetall Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5

37 Median vs gjennomsnitt Bor du i Stavanger, og har postnummer 4009 eller 4044? I så fall tilhører du til de rikeste strøkene i byen. Vi har sortert samtlige skattytere i Stavanger på postnummer, og plukket ut to kriterier for å måle rikdom: Medianinntekt og antall millionærer per 1000 skattytere. Dermed har vi ett mål på formue og ett på inntekt. Til slutt i saken har vi redegjort for hvorfor nettopp disse målene er valgt. Målekriteriene: Vi har valgt å unngå gjennomsnittstall for inntekt og formue fordi gjennomsnitt er et upresist mål når det finnes ekstreme utslag i tallmaterialet. Kilde: Stavanger Aftenblad, 16. oktober 2003 38 Median vs gjennomsnitt: Eksempel Ni personer tjener 200.000 kroner hver, mens den siste tjener 10 millioner kroner. Hva er den mest representative inntekten i utvalget? De fleste vil si 200.000 kroner fordi ni av ti tjener så mye. Men dersom man regner gjennomsnittsinntekten for de ti, blir denne nesten 1,2 millioner kroner fordi den ene rike drar snittet så kraftig opp. Medianinntekten, som forteller hva den midterste i utvalget tjener når alle er sortert fra rikest til fattigst, blir derimot 200.000 kroner. Skattelistene er kanskje det beste eksempelet på utvalg hvor det finnes ekstreme utslag. Noen få skattytere tjener svært mye i forhold til «røkla», eller har en skyhøy formue. Dette fører til urealistisk høye gjennomsnittstall for noen tilfeldig utvalgte postnummer. Kilde: Stavanger Aftenblad, 16.10.2003

Oppgave La dataene være: 1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 På frekvensform: Finn gjennomsnittet x til dataene x f 0 1 1 3 2 8 3 5 4 3 Løsning: Gjennomsnitt summen av data x x = = antall data n x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 = 46 20 20 = 2.3 x er tyngdepunktet i datamengden:

41 Mål på spredning (2.4) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x s 2 x) 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 = 2 n 1 42 Eksempel Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20

43 Beregning av MAD (gjennomsnittlig absolutt avvik) Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4 44 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5

Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 s = s 2 = (x x) 2 n 1 = 3.94 Enklere formel: s 2 = x 2 ( x) 2 /n n 1 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5 46 Mål på beliggenhet (2.5) Kvartiler: Deler de ordnede dataene inn i fire like store deler: 1. kvartil Q 1 : Verdien som er slik at 25% av dataene er mindre og 75% er større. 2. kvartil Q 2 : 50% av dataene er mindre og 50% er større. Det samme som medianen x 3. kvartil Q 3 : 75% av dataene er mindre og 25% er større. 5-tallssammendrag: L, Q 1, x, Q 3, H

47 5-tallssammendrag 48 Beregning av kvartilene Q 1, Q 2, Q 3 Data (n = 20): 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Step 1: Ranger fra minste til største: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 2: 25% av utvalgsstørrelsen 20 blir (20)(25) 100 = 5 Sett strek i dataene etter nr 5, 2 5 = 10 og 3 5 = 15: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 3: Sett Q 1 = 72 + 74 2 = 73, Q 2 = 76 + 78 2 = 77, Q 3 = 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 84 + 84 2 = 84

49 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 Bredden på boksen kalles Inter Quartile Range (IQR). 50 Hva om 25% av n ikke er et heltall? La f.eks. n = 19. Nå er 25% av 19 lik (19)(25) 100 = 4.75. Videre er 2 4.75 = 9.5, 3 4.75 = 14.25. Boka har da som konvensjon at Q 1 = det 5. største tall, Q 2 = det 10. største, Q 3 = det 15. største (dvs. gå opp til nærmeste heltall). Hvis alle tallene er forskjellige, er da 4 tall ekte mindre enn Q 1, 4 tall er ekte mellom Q 1 og Q 2 og 4 tall er ekte større enn Q 3. (Altså: Maksimum 25% av dataene ligger i hvert intervall, se tidligere figur).

51 Tolkning av standardavvik (2.6) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.) 52 Eksempel på bruk av standardavvik Data: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 På kalkulator kan vi beregne gjennomsnitt x = 77.3, standardavvik s = 10.3. Fra den empiriske regelen har vi da: ca. 68% av obs ligger innenfor ett standardavvik, dvs. innenfor 77.3 ± 10.3, dvs. mellom 67.0 og 87.6 (I virkeligheten er 14 av 20 obs, dvs. 70% her). ca. 95% av obs ligger innenfor to standardavvik, dvs. innenfor 77.3 ± 20.6, dvs. mellom 56.7 og 97.9 (I virkeligheten er 19 av 20 obs, dvs. 95% (!) her). ca. 99.7% av obs ligger innenfor tre standardavvik, dvs. innenfor 77.3 ± 30.9, dvs. mellom 46.4 og 108.2 (I virkeligheten er alle, dvs. 100% her).

53 Hva har du lært idag?