ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

ST0202 Statistikk for samfunnsvitere

Statistikk. Forkurs 2017

Statistikk. Forkurs 2018

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Binomisk sannsynlighetsfunksjon

ST0103 Brukerkurs i statistikk Høst 2014

Sannsynlighetsregning og Statistikk.

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

ST0202 Statistikk for samfunnsvitere

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Forkurs i kvantitative metoder ILP 2019

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Seksjon 1.3 Tetthetskurver og normalfordelingen

ECON Statistikk 1 Forelesning 2: Innledning

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere

Anslag for usikkerhet av et sammensatt resultat basert på anslått usikkerhet ( feilmarginer ) for måleverdiene.

Beskrivende statistikk.

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Statistikk for språk- og musikkvitere 1

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Sentralmål og spredningsmål

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Sentralmål og spredningsmål

Kapittel 3: Studieopplegg

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

ECON2130 Kommentarer til oblig

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Tabell 1: Beskrivende statistikker for dataene

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Kapittel 1: Data og fordelinger

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere Kapittel 9-10 (oversikt): Inferens om én og to populasjoner

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ST0202 Statistikk for samfunnsvitere

Formelsamling i medisinsk statistikk

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Øving 7: Statistikk for trafikkingeniører

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

LØSNING: Oppgavesett nr. 1

Basisoppgaver til 2P kap. 3 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4240 Statistikk

Analyseoversikt, Uke 35

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Repeterbarhetskrav vs antall Trails

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Kap. 8: Utvalsfordelingar og databeskrivelse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Eksempel på data: Karakterer i «Stat class» Introduksjon

Introduksjon til statistikk og dataanalyse

UNIVERSITETET I OSLO

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 2: Beskrivende analyse og presentasjon av data for én variabel Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start

2 Grafisk presentasjon av data (2.1) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23

3 Sirkelgraf General Eye, ear, nose, and throat Bones and joints Thoracic Neurosurgery Abdominal Proctologic Urologic

4 Søylegraf 0 20 40 60 80 100 Thoracic Bones and joints Eye, ear, nose, and throat General Abdominal Urologic Proctologic Neurosurgery

5 Paretodiagram 0 20 40 60 80 100 Abdominal General Urologic Proctologic Eye, ear, nose, and throat Bones and joints Neurosurgery Thoracic

6 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 60 70 80 90

7 Stem-and-leaf plot Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26

8 Frekvensfordeling og histogram (2.2) Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3

Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4

10 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

11 Histogram (relativ frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

12 Mål for lokalisering av data (2.3) Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1+2+6+1+10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2

Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2+5 = 3.5 2 Mode: Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, mode=1 Eksempel: Data 1, 2, 6, 10, ingen mode Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1+10 2 = 5.5

14 Mål på spredning (2.4) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x x) s 2 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 2 = n 1

15 Eksempel Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20

16 Beregning av MAD (gjennomsnittlig absolutt avvik) Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4

17 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5

Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 s = (x x) s 2 2 = n 1 = 3.94 Enklere formel: s 2 = x 2 ( x) 2 /n n 1 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5

Oppgave La dataene være: 1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 På frekvensform: Finn gjennomsnittet x til dataene x f 0 1 1 3 2 8 3 5 4 3

Løsning: Gjennomsnitt summen av data x x = = antall data n x = 0 1+1 3+2 8+3 5+4 3 = 46 20 20 = 2.3 x er tyngdepunktet i datamengden:

21 Mål på beliggenhet (2.5) Kvartiler: Deler de ordnede dataene inn i fire like store deler: 1. kvartil Q 1 : Verdien som er slik at 25% av dataene er mindre og 75% er større. 2. kvartil Q 2 : 50% av dataene er mindre og 50% er større. Det samme som medianen x 3. kvartil Q 3 : 75% av dataene er mindre og 25% er større. 5-tallssammendrag: L, Q 1, x, Q 3, H

22 5-tallssammendrag

23 Beregning av kvartilene Q 1, Q 2, Q 3 Data (n = 20): 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Step 1: Ranger fra minste til største: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 2: 25% av utvalgsstørrelsen 20 blir (20)(25) 100 = 5 Sett strek i dataene etter nr 5, 2 5 = 10 og 3 5 = 15: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 3: Sett Q 1 = 72+74 2 = 73, Q 2 = 76+78 2 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 = 77, Q 3 = 84+84 2 = 84

24 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96

25 Hva om 25% av n ikke er et heltall? La f.eks. n = 19. Nå er 25% av 19 lik (19)(25) 100 = 4.75. Videre er 2 4.75 = 9.5, 3 4.75 = 14.25. Boka har da som konvensjon at Q 1 = det 5. største tall, Q 2 = det 10. største, Q 3 = det 15. største (dvs. gå opp til nærmeste heltall). Hvis alle tallene er forskjellige, er da 4 tall ekte mindre enn Q 1, 4 tall er ekte mellom Q 1 og Q 2 og 4 tall er ekte større enn Q 3. (Altså: Maksimum 25% av dataene ligger i hvert intervall, se tidligere figur).

26 Tolkning av standardavvik (2.6 ) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)

27 Eksempel på bruk av standardavvik Data: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 På kalkulator kan vi beregne gjennomsnitt x = 77.3, standardavvik s = 10.3. Fra den empiriske regelen har vi da: ca. 68% av obs ligger innenfor ett standardavvik, dvs. innenfor 77.3±10.3, dvs. mellom 67.0 og 87.6 (I virkeligheten er 14 av 20 obs, dvs. 70% her). ca. 95% av obs ligger innenfor to standardavvik, dvs. innenfor 77.3±20.6, dvs. mellom 56.7 og 97.9 (I virkeligheten er 19 av 20 obs, dvs. 95% (!) her). ca. 99.7% av obs ligger innenfor tre standardavvik, dvs. innenfor 77.3 ± 30.9, dvs. mellom 46.4 og 108.2 (I virkeligheten er alle, dvs. 100% her).