ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Like dokumenter
Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Sannsynlighetsregning og Statistikk.

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Statistikk og dataanalyse

UNIVERSITETET I OSLO

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistikk. Forkurs 2018

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistikk for språk- og musikkvitere 1

Binomisk sannsynlighetsfunksjon

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Statistikk. Forkurs 2017

Forslag til endringar

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

UNIVERSITETET I OSLO

Forkurs i kvantitative metoder ILP 2019

ECON Statistikk 1 Forelesning 2: Innledning

TMA4245 Statistikk: MTBYGG, MTING

Analyseoversikt, Uke 35

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Matematisk Institutt

Kapittel 3: Studieopplegg

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Seksjon 1.3 Tetthetskurver og normalfordelingen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppfriskning av blokk 1 i TMA4240

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Introduksjon til statistikk og dataanalyse

Kap. 8: Utvalsfordelingar og databeskrivelse

ST0202 Statistikk for samfunnsvitere

ST0103 Brukerkurs i statistikk Høst 2014

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk H2017 [15]

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Innhold. Innledning. Del I

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Tilfeldige variable (5.2)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kapittel 4.4: Forventning og varians til stokastiske variable

Utvalgsfordelinger (Kapittel 5)

Eksamensoppgave i ST3001

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

UNIVERSITETET I OSLO

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Tabell 1: Beskrivende statistikker for dataene

Sentralmål og spredningsmål

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ST0202 Statistikk for samfunnsvitere

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

84 % er fornøyde med det tilbudet de får

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave

3 Pensumoversikt Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11.1 3 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse

4 Forelesninger og øvinger Forelesninger: Mandag 08:15 10:00 D3 Onsdag 12:15 14:00 D3 Øvinger: Torsdag 14:15 16:00 D119 Fredag 13:15 15:00 D151 Øvingslærer: Erik B. Solbu NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen.

5 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

6 Oversikt Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens

8 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren

9 Populasjon og utvalg parameter og observator

10 Populasjon og utvalg parameter og observator

Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3)

12 Datainnsamling (1.4) Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet Utvalgsramme: En liste over elementene som tilhører populasjonen som utvalget blir trukket fra. Utvalgsrammen må være representativ for populasjonen.

Utvalgsdesign: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket. Subjektivt utvalg: person velger utvalg utfra hvilke elementer vedkommende mener er representative for populasjonen. Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut....

14 Grafisk presentasjon av data (2.2) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23

15 Sirkelgraf General Eye, ear, nose, and throat Bones and joints Thoracic Neurosurgery Abdominal Proctologic Urologic

16 Søylegraf 0 20 40 60 80 100 Thoracic Bones and joints Eye, ear, nose, and throat General Abdominal Urologic Proctologic Neurosurgery

17 Paretodiagram 0 20 40 60 80 100 Abdominal General Urologic Proctologic Eye, ear, nose, and throat Bones and joints Neurosurgery Thoracic

18 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 60 70 80 90

19 Stem-and-leaf plot Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26

20 Frekvensfordeling og histogram (2.3) Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3

Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4

22 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

23 Histogram (relativ frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser:

24 Mål for lokalisering av data (2.4) Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2

Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Mode: Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, mode=1 Eksempel: Data 1, 2, 6, 10, ingen mode Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5

26 Mål på spredning (2.5) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x x) s 2 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 2 = n 1

27 Eksempel Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20

28 Beregning av MAD (gjennomsnittlig absolutt avvik) Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4

29 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5

Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 s = (x x) 2 s 2 = n 1 = 3.94 Enklere formel: s 2 = x 2 ( x) 2 /n n 1 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5

31 Gjennomsnitt og standardavvik i frekvensfordeling (2.9) x f xf x 2 f 0 1 0 0 1 3 3 3 2 8 16 32 3 5 15 45 4 3 12 48 f = n = 20 xf = 46 x 2 f = 128

xf er summen av data og x 2 f er summen av kvadrerte data Da blir s 2 = x 2 f ( xf) 2 / f = 128 462 /20 = 1.17 f 1 20 1 s = s 2 = 1.08

Oppgave Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 Finn gjennomsnittet til x x f 0 1 1 3 2 8 3 5 4 3

Gjennomsnitt summen av data x x = = antall data n x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 = 46 20 20 = 2.3 x er tyngdepunktet i datamengden:

35 Mål på beliggenhet (2.6) Kvartiler: Deler datasettet inn i fire like store deler: 1. Kvartil Q 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2. Kvartil Q 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3. Kvartil Q 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag: L, Q 1, x,q 3,H

36 5-tallssammendrag

37 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, 00, Q 1 = 72, 50, Q 2 = 77, 00, Q 3 = 84, 00, H = 96, 00

38 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)