ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere [1]

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Eksamensoppgave i TMA4240 Statistikk

Kapittel 3: Studieopplegg

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Statistikk og dataanalyse

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Lineær regresjonsanalyse (13.4)

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Et lite notat om og rundt normalfordelingen.

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

ST0202 Statistikk for samfunnsvitere

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

TMA4245 Statistikk Eksamen desember 2016

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Inferens i regresjon

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen.

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Testobservator for kjikvadrattester

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Løsningsforslag til obligatorisk oppgave i ECON 2130

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Eksamensoppgåve i TMA4240 Statistikk

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Øving 1 TMA Grunnleggende dataanalyse i Matlab

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

1 10-2: Korrelasjon : Regresjon

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

UNIVERSITETET I OSLO

Seksjon 1.3 Tetthetskurver og normalfordelingen

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO

LØSNING: Oppgavesett nr. 1

Tabell 1: Beskrivende statistikker for dataene

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Kapittel 1: Data og fordelinger

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Sannsynlighetsregning og Statistikk.

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ØVINGER 2017 Løsninger til oppgaver. Øving 1

UNIVERSITETET I OSLO

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

ST0202 Statistikk for samfunnsvitere

Formelsamling i medisinsk statistikk

Eksamen i. MAT110 Statistikk 1

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Eksamensoppgave i TMA4255 Anvendt statistikk

MA155 Statistikk TI-nspire cx Kalkulator Guide

STK1000 Uke 37, Studentene forventes å lese Ch i læreboka (MMC). Beskrive enkle (bivariate) sammenhenger mellom variabler

Ridge regresjon og lasso notat til STK2120

Kap. 8: Utvalsfordelingar og databeskrivelse

Regresjon med GeoGebra

ST0103 Brukerkurs i statistikk Høst 2014

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Forkurs i kvantitative metoder ILP 2019

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Binomisk sannsynlighetsfunksjon

Kapittel 2: Hendelser

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

ST0202 Statistikk for samfunnsvitere

Transkript:

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Mål på beliggenhet (2.6) Kvartiler: Deler de ordnede dataene inn i fire like store deler: 1. kvartil Q 1 : 25% av dataene er mindre og 75% er større enn Q 1. 2. kvartil Q 2 : 50% av dataene er mindre og 50% er større enn Q 2, dvs. Q 2 er det samme som medianen x. 3. kvartil Q 3 : 75% av dataene er mindre og 25% er større enn Q 3. 5-tallssammendrag: L (minste observasjon), Q 1, x, Q 3, H (største observasjon)

3 5-tallssammendrag

4 Beregning av kvartilene Q 1, Q 2, Q 3 Data (n = 20): 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Step 1: Ranger fra minste til største: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 2: 25% av utvalgsstørrelsen 20 blir (20)(25) 100 = 5 Sett strek i dataene etter nr 5, 2 5 = 10 og 3 5 = 15: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 3: Sett 72 + 74 76 + 78 Q 1 = = 73, Q 2 = = 77, Q 3 = 2 2 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 84 + 84 2 = 84

5 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96

6 Hva om 25% av n ikke er et heltall? La f.eks. n = 19. Nå er 25% av 19 lik (19)(25) 100 = 4.75. Videre er 2 4.75 = 9.5, 3 4.75 = 14.25. Boka har da som konvensjon at Q 1 = det 5. største tall, Q 2 = det 10. største, Q 3 = det 15. største (dvs. gå opp til nærmeste heltall). Hvis alle tallene er forskjellige, er da 4 tall ekte mindre enn Q 1,4 tall er ekte mellom Q 1 og Q 2 og 4 tall er ekte større enn Q 3. (Altså: Maksimum 25% av dataene ligger i hvert intervall, se tidligere figur).

7 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)

8 Eksempel på bruk av standardavvik Data: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 På kalkulator kan vi beregne gjennomsnitt x = 77.3, standardavvik s = 10.3. Fra den empiriske regelen har vi da: ca. 68% av obs ligger innenfor ett standardavvik, dvs. innenfor 77.3 ± 10.3, dvs. mellom 67.0 og 87.6 (I virkeligheten er 14 av 20 obs, dvs. 70% her). ca. 95% av obs ligger innenfor to standardavvik, dvs. innenfor 77.3 ± 20.6, dvs. mellom 56.7 og 97.9 (I virkeligheten er 19 av 20 obs, dvs. 95% (!) her). ca. 99.7% av obs ligger innenfor tre standardavvik, dvs. innenfor 77.3 ± 30.9, dvs. mellom 46.4 og 108.2 (I virkeligheten er alle, dvs. 100% her).

9 Bivariate data (3.2) Bivariate data: verdien av to variable som er hentet fra samme objekt i populasjonen. To kategoriske variable: Eksempel der Gender er {Male,Female}. Major er {Business Administration,Liberal Arts,Technology}. Name Gender Major Adams M LA Argento F BA Baker M LA Bennett F LA Se Table 3.1 s. 147 i boka, Brock M BA som har data for 30 studenter. Brand M T Chun F LA Crain M T...

Krysstabell gender og major, frekvens Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 4 6 2 12 M 6 5 7 18 All 10 11 9 30 Cell Contents: Count

Søylegraf av tabellen over.

Krysstabell gender og major, prosent av total Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 13,33 20,00 6,67 40,00 M 20,00 16,67 23,33 60,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Total

Krysstabell gender og major, prosent av total i hver kolonne Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 40,00 54,55 22,22 40,00 M 60,00 45,45 77,78 60,00 All 100,00 100,00 100,00 100,00 Cell Contents: % of Column

Krysstabell gender og major, prosent av total i hver rad Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 33,33 50,00 16,67 100,00 M 33,33 27,78 38,89 100,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Row

En kategorisk og en numerisk variabel Eksempel med stopplengder for tre typer bildekk (Table 3.7 s. 151 i boka) Row Design A Design B Design C 1 37 33 40 2 36 35 39 3 34 34 41 4 40 42 41 5 38 38 40 6 32 34 43

Boxplot for de tre typene bildekk

To numeriske variable: Eksempel: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Row Student Push_Ups Sit_Ups 1 1 27 30 2 2 22 26 3 3 15 25 4 4 35 42 5 5 30 38 6 6 52 40 7 7 35 32 8 8 55 54 9 9 40 50 10 10 40 43

18 Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Eksempel: Punkt nederst til venstre: push ups er 15, sit ups er 25.

Spredningsplott: Plott av armstyrke mot gripestyrke for 149 håndverkere.

20 Lineær korrelasjon (3.3) Lineær korrelasjon måler lineær sammenheng mellom to variable. Med positiv korrelasjon menes at hvis x vokser, har også y en tendens til å vokse. Med negativ korrelasjon menes at hvis x vokser, har y en tendens til å avta. Her er ingen korrelasjon: 2 1 0 1 2 y 3 2 1 0 1 2 x

Positiv korrelasjon (0.5) y 2 1 0 1 2 1 0 1 2 x

Negativ korrelasjon (-0.5) y 2 1 0 1 2 2 1 0 1 2 3 x

Perfekt positiv korrelasjon (1) y 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x

Perfekt negativ korrelasjon (-1) y 2 1 0 1 2 2 1 0 1 2 x

Ingen lineær korrelasjon (men tydeligvis en ikke-lineær sammenheng) y 0 5 10 15 20 25 0 20 40 60 80 100 x

26 Pearsons produktmomentformel Numerisk mål på styrken av den lineære korrelasjonen: Den lineære korrelasjonskoeffisienten r: r = (x x)(y ȳ) (n 1)S x S y hvor S x og S y er standardavvikene til x og y.

Enklere formel hvor r = SS(xy) SS(x)SS(y) SS(x) = x 2 ( x) 2 n SS(y) = y 2 ( y) 2 n SS(xy) = x y xy n

28 Beregning av den lineære korrelasjonskoeffisienten r

30 Å forstå den lineære korrelasjonskoeffisienten r (fra boka)

31 Eksempel på metoden for å anslå korrelasjonskoeffisienten r

32 Årsakssammenheng (kausalitet) og skjulte (latente) variable Skjult (latent) variabel: En variabel som har en viktig effekt på sammenhengen mellom de observerte variablene, men som ikke er inkludert i undersøkelsen. Dersom det er sterk korrelasjon mellom to variable kan en ha at: Det er en direkte årsakssammenheng mellom de to variablene. Det er en reversert årsakssammenheng mellom de to variablene. Sammenhengen skyldes en tredje (eller flere) skjulte variable Sammenhengen kan være helt tilfeldig.

33 Advarsel En sterk korrelasjon betyr ikke nødvendigvis årsakssammenheng! Eksempler: Sammenheng mellom iskremsalg og antall drukningsulykker i juli måned. Det ble i sin tid påvist sammenheng mellom antall storker og antall barn i ulike regioner i Danmark. Forklaringen var at det er flere barn på landet, der det også er flere storker, ikke at barn kom med storken! Merk også: Kausalitet kan ikke påvises i observasjonsstudier. (Det vil alltid kunne være en bakenforliggende skjult variabel).

34 Lineær regresjon (3.4) Motivasjon: Korrelasjon er et mål på lineær sammenheng mellom to variable, men den gir oss ikke noe anslag for en av variablene når verdien av den andre er gitt. For eksempel: Gitt at en student tar 40 push-ups, hvor mange sit-ups kan en da anslå at han tar? I lineær regresjon antas at det er en sammenheng av formen: ŷ = b 0 + b 1 x som er formelen for en rett linje i matematikken.

EKSEMPEL: Plot av sit-ups mot push-ups og linjen ŷ = b 0 + b 1 x med b 0 = 14.9 ogb 1 = 0.66 funnet ved minste kvadraters metode. For x = 40 push ups, anslår ( predikerer ) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.

36 Minste kvadraters ( least squares ) metode Modell: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er b 1 = (x x)(y ȳ) (x x) 2 med ekvivalent formel b 1 = SS(xy) SS(x). y b1 x og b 0 = n

37 Prediksjon Av spesiell interesse er det å kunne gjøre prediksjoner basert på verdier av x. Dette gjøres ved å sette inn x verdier i uttrykket ŷ = b 0 + b 1 x Eksemplet vi så på: Gitt at en student tar 40 push-ups, predikerer vi antall sit-ups til ŷ = b 0 + b 1 x = 14.9 + 0.66 40 = 41.3

Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid.