Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Like dokumenter
ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Sannsynlighetsregning og Statistikk.

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Et lite notat om og rundt normalfordelingen.

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Statistikk og dataanalyse

UNIVERSITETET I OSLO

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Statistikk. Forkurs 2018

Binomisk sannsynlighetsfunksjon

Statistikk for språk- og musikkvitere 1

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Forslag til endringar

Statistikk. Forkurs 2017

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Forkurs i kvantitative metoder ILP 2019

ECON Statistikk 1 Forelesning 2: Innledning

TMA4245 Statistikk: MTBYGG, MTING

Analyseoversikt, Uke 35

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO Matematisk Institutt

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

Kapittel 3: Studieopplegg

Seksjon 1.3 Tetthetskurver og normalfordelingen

Oppfriskning av blokk 1 i TMA4240

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kap. 8: Utvalsfordelingar og databeskrivelse

ST0202 Statistikk for samfunnsvitere

Introduksjon til statistikk og dataanalyse

ST0103 Brukerkurs i statistikk Høst 2014

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

TMA4240 Statistikk H2017 [15]

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

ST0202 Statistikk for samfunnsvitere

Innhold. Innledning. Del I

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Tilfeldige variable (5.2)

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Kapittel 4.4: Forventning og varians til stokastiske variable

Utvalgsfordelinger (Kapittel 5)

Eksamensoppgave i ST3001

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

UNIVERSITETET I OSLO

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Tabell 1: Beskrivende statistikker for dataene

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

ST0202 Statistikk for samfunnsvitere

84 % er fornøyde med det tilbudet de får

Seksjon 1.3 Tetthetskurver og normalfordelingen

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI.

Transkript:

2 Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 3 4 Pensumoversikt Forelesninger og øvinger Kap. 2 Beskrivende statistikk, én variabel Kap. 3 Beskrivende statistikk, to variabler Kap. 4 Sannsynlighetsregning Kap. 5 Diskrete sannsynlighetsfordelinger Kap. 6 Normalfordelingen Kap. 7 Fordelingen til gjennomsnittet Kap. 8 Innføring i statistisk inferens Kap. 9 Statistisk inferens, én populasjon Kap. 10 Statistisk inferens, to populasjoner Kap. 11.1 3 Kjikvadrattesten Kap. 12 Variansanalyse Kap. 13.3 6 Regresjonsanalyse Forelesninger: Mandag 08:15 10:00 D3 Onsdag 12:15 14:00 D3 Øvinger: Torsdag 14:15 16:00 D119 Fredag 13:15 15:00 D151 Øvingslærer: Erik B. Solbu NB: Tre av øvingssettene, nr. 3, 7 og 10, er obligatoriske. Besvarelsene på disse må godkjennes for at du skal få anledning til å ta eksamen.

5 6 Hva er statistikk? Oversikt Vitenskapen å samle inn, beskrive og tolke data Kap. 1-3: Beskrivende statistikk Kap. 4-7: Sannsynlighetsregning Kap. 8-13: Statistisk inferens 8 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren

9 Populasjon og utvalg parameter og observator 10 Populasjon og utvalg parameter og observator 12 Datainnsamling (1.4) Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3) Skjev ( biased ) utvalgsmetode: En utvalgsmetode som systematisk gir verdier som ikke er representative for populasjonen som det trekkes fra. (Motsatt: unbiased ) Årsaker til skjevhet: bekvemmelighet frivillighet Utvalgsramme: En liste over elementene som tilhører populasjonen som utvalget blir trukket fra. Utvalgsrammen må være representativ for populasjonen.

Utvalgsdesign: Enkelt tilfeldig utvalg: Et utvalg valgt slik at alle elementer i populasjonen har samme mulighet for å bli trukket. Subjektivt utvalg: person velger utvalg utfra hvilke elementer vedkommende mener er representative for populasjonen. Sannsynlighetsvektet utvalg: Et utvalg valgt slik at hvert element i populasjonen har en bestemt (kjent) sannsynlighet for å blir trukket ut.... 14 Grafisk presentasjon av data (2.2) Example 2.1 i boka: Operasjoner utført ved General Hospital siste år. Type of operation Number of cases Thoracic 20 Bones and joints 45 Eye, ear, nose, and throat 58 General 98 Abdominal 115 Urologic 74 Proctolyctic 65 Neurosurgery 23 15 16 Sirkelgraf Søylegraf Abdominal General Eye, ear, nose, and throat Bones and joints Thoracic Neurosurgery Proctologic 0 20 40 60 80 100 Thoracic Bones and joints Eye, ear, nose, and throat General Abdominal Urologic Proctologic Neurosurgery Urologic

17 Paretodiagram 0 20 40 60 80 100 Abdominal General Urologic Proctologic Eye, ear, nose, and throat Bones and joints Neurosurgery Thoracic 18 Punktplott ( dotplot ) 19 eksamensresultater: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 60 70 80 90 19 Stem-and-leaf plot 20 Frekvensfordeling og histogram (2.3) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 Plot: 5 2 6 268 7 24466688 8 22468 9 26 Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. x f 0 1 1 3 2 8 3 5 4 3

Hvis x kan anta mange ulike verdier kan en sette opp gruppert frekvensfordeling. x f 35 x < 45 2 45 x < 55 2 55 x < 65 7 65 x < 75 13 75 x < 85 11 85 x < 95 11 95 x < 105 4 22 Histogram (frekvens) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: 23 24 Histogram (relativ frekvens) Mål for lokalisering av data (2.4) Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Histogram, n=10 klasser: Gjennomsnitt summen av data x = antall data Eksempel: Data 1, 2, 6, 1, 10 = x n x = 1 + 2 + 6 + 1 + 10 5 = 20 5 = 4 Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 6, 10 x = 2

Median hvis antall verdier er et partall: Eksempel: Data 1, 1, 2, 5, 6, 10 x = 2 + 5 = 3.5 2 Mode: Den verdien som opptrer oftest. Eksempel: Data 1, 1, 2, 6, 10, mode=1 Eksempel: Data 1, 2, 6, 10, ingen mode Midtrang ( midrange ): Gjennomsnitt av høyeste og laveste. Eksempel: Data 1, 1, 2, 6, 10, Midtrang = 1 + 10 2 = 5.5 26 Mål på spredning (2.5) Rekkevidde (range): Differansen mellom største (H) og minste (L) verdi R = H L Gjennomsnittlig absolutt avvik: x x MAD = n Gjennomsnittlig kvadratisk avvik (utvalgsvarians): (x s 2 x) 2 = n 1 og (utvalgs)standardavvik (x x) s = s 2 = 2 n 1 27 Eksempel 28 Beregning av MAD (gjennomsnittlig absolutt avvik) Data 1, 1, 2, 6, 10 x 1 1 2 x = 20 5 = 4 6 10 x = 20 Obs Avvik Absolutt avvik x x x x x 1 1 4 = 3 3 1 1 4 = 3 3 2 2 4 = 2 2 6 6 4 = 2 2 10 10 4 = 6 6 x = 20 MAD = 16 5 = 3.2 x = 4

29 Beregning av utvalgsvarians (gjennomsnittlig kvadratisk avvik) Varians: Standardavvik: s 2 = (x x) 2 n 1 = 62 5 1 = 15.5 x x x (x x) 2 1 1 4 = 3 9 1 1 4 = 3 9 2 2 4 = 2 4 6 6 4 = 2 4 10 10 4 = 6 36 x = 20 (x x) 2 = 62 x = 4 s 2 = 62 5 1 = 15.5 Enklere formel: s = (x x) 2 s 2 = n 1 x s 2 2 ( x) 2 /n = n 1 = 3.94 x 2 = 1 2 + 1 2 + 2 2 + 6 2 + 10 2 = 142 x = 20 s 2 = 142 202 /5 5 1 = 15.5 31 Gjennomsnitt og standardavvik i frekvensfordeling (2.9) xf er summen av data og x 2 f er summen av kvadrerte data Da blir x f xf x 2 f 0 1 0 0 1 3 3 3 2 8 16 32 3 5 15 45 4 3 12 48 f = n = 20 xf = 46 x 2 f = 128 s 2 = x 2 f ( xf ) 2 / f = 128 462 /20 = 1.17 f 1 20 1 s = s 2 = 1.08

Gjennomsnitt Oppgave Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 x f 0 1 1 3 2 8 3 5 4 3 summen av data x = = antall data x = 0 1 + 1 3 + 2 8 + 3 5 + 4 3 20 x er tyngdepunktet i datamengden: x n = 46 20 = 2.3 Finn gjennomsnittet til x 35 36 Mål på beliggenhet (2.6) 5-tallssammendrag Kvartiler: Deler datasettet inn i fire like store deler: 1.KvartilQ 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2.KvartilQ 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3.KvartilQ 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag: L, Q 1, x,q 3,H

37 38 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, 00, Q 1 = 72, 50, Q 2 = 77, 00, Q 3 = 84, 00, H = 96, 00 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)