ST0202 Statistikk for samfunnsvitere

Like dokumenter
ST0202 Statistikk for samfunnsvitere

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Lineær regresjonsanalyse (13.4)

ST0202 Statistikk for samfunnsvitere

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

TMA4245 Statistikk Eksamen desember 2016

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

1 10-2: Korrelasjon : Regresjon

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i TMA4240 Statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Testobservator for kjikvadrattester

ST0202 Statistikk for samfunnsvitere

Testobservator for kjikvadrattester

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Statistikk og dataanalyse

Kort overblikk over kurset sålangt

TMA4245 Statistikk Eksamen desember 2016

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

ST0202 Statistikk for samfunnsvitere

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

ST0202 Statistikk for samfunnsvitere

Regresjon med GeoGebra

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

Fra første forelesning:

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

ST0202 Statistikk for samfunnsvitere

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

Kapittel 3: Studieopplegg

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Eksamensoppgåve i TMA4240 Statistikk

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

Løsningsforslag til obligatorisk oppgave i ECON 2130

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Ridge regresjon og lasso notat til STK2120

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Fra krysstabell til regresjon

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

STK1000 Uke 37, Studentene forventes å lese Ch i læreboka (MMC). Beskrive enkle (bivariate) sammenhenger mellom variabler

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2009

Inferens i regresjon

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Sammenhenger. I dette kapitlet er emnet måter å studere sammenheng mellom to variable. Som tidligere er grunnleggende spørsmål:

Binomisk sannsynlighetsfunksjon

Løsning eksamen 2P våren 2008

Kapittel 6 - modell seleksjon og regularisering

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

TMA4240 Statistikk Høst 2016

Forelesning 13 Regresjonsanalyse

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

ST0103 Brukerkurs i statistikk Høst 2014

Om tilpasning av funksjoner til observerte dataer

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Innhold. Innledning. Del I

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

MAT-1004 Vårsemester 2017 Obligatorisk øving 3

MAT-1004 Vårsemester 2017 Obligatorisk øving 6

Formelsamling i medisinsk statistikk

Høye skårer indikerer høye nivåer av selvkontroll.

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamen i. MAT110 Statistikk 1

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Kapittel 1: Data og fordelinger

Transkript:

ST0202 Statistikk for samfunnsvitere Kapittel 3: Beskrivende analyse og presentasjon av data for to variabler (bivariate data) Bo Lindqvist Institutt for matematiske fag

2 Presentasjon av bivariate data (3.1) Bivariate data: verdien av to variabler (egenskaper) som er hentet fra samme objekt i populasjonen. Noteres som et par: (x, y). To kategoriske variabler: krysstabell, grupperte søylediagram. En kategorisk og en numerisk: flere boksplott. To numeriske: spredningsplott. Man kan beskrive hver variabel for seg, som i kapittel 2, men her skal vi fokusere på at begge variablene skal presenteres og beskrives sammen.

3 To kategoriske variabler Eksempel der Gender (x) er {Male,Female}. Major (y) er {Business Administration,Liberal Arts,Technology}. Name Gender Major Adams M LA Argento F BA Baker M LA Bennett F LA Se Table 3.1 s. 121 i boka, Brock M BA som har data for 30 studenter. Brand M T Chun F LA Crain M T...

4 Krysstabell gender og major, frekvens Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 4 6 2 12 M 6 5 7 18 All 10 11 9 30 Cell Contents: Count

5 Søylegraf

6 Krysstabell gender og major, prosent av total Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 13,33 20,00 6,67 40,00 M 20,00 16,67 23,33 60,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Total

7 Krysstabell gender og major, prosent av total i hver kolonne Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 40,00 54,55 22,22 40,00 M 60,00 45,45 77,78 60,00 All 100,00 100,00 100,00 100,00 Cell Contents: % of Column

8 Krysstabell gender og major, prosent av total i hver rad Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 33,33 50,00 16,67 100,00 M 33,33 27,78 38,89 100,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Row

9 En kategorisk og en numerisk variabel Eksempel med stopplengder for tre typer bildekk (Table 3.7 s. 151 i boka) Row Design A Design B Design C 1 37 33 40 2 36 35 39 3 34 34 41 4 40 42 41 5 38 38 40 6 32 34 43

10 Boksplott for de tre typene bildekk

11 To numeriske variabler Eksempel: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Row Student Push_Ups Sit_Ups 1 1 27 30 2 2 22 26 3 3 15 25 4 4 35 42 5 5 30 38 6 6 52 40 7 7 35 32 8 8 55 54 9 9 40 50 10 10 40 43

12 Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Eksempel: Punkt nederst til venstre: push ups er 15, sit ups er 25.

13 Spredningsplott Plott av armstyrke mot gripestyrke for 149 håndverkere.

14 Lineær korrelasjon (3.2) Lineær korrelasjon måler lineær sammenheng mellom to variable. Med positiv korrelasjon menes at hvis x vokser, har også y en tendens til å vokse. Med negativ korrelasjon menes at hvis x vokser, har y en tendens til å avta. Her er ingen korrelasjon: 2 1 0 1 2 y 3 2 1 0 1 2 x

Positiv korrelasjon (0.5) y 2 1 0 1 2 1 0 1 2 x

Negativ korrelasjon (-0.5) y 2 1 0 1 2 2 1 0 1 2 3 x

Perfekt positiv korrelasjon (1) y 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x

Perfekt negativ korrelasjon (-1) y 2 1 0 1 2 2 1 0 1 2 x

Ingen lineær korrelasjon (men tydeligvis en ikke-lineær sammenheng) y 0 5 10 15 20 25 0 20 40 60 80 100 x

20 Pearsons produktmomentformel Numerisk mål på styrken av den lineære korrelasjonen: Den lineære korrelasjonskoeffisienten r: r = (x x)(y ȳ) (n 1)S x S y hvor S x og S y er standardavvikene til x og y.

Enklere formel hvor r = SS(xy) SS(x)SS(y) SS(x) = x 2 ( x) 2 SS(y) = y 2 ( y) 2 n SS(xy) = x y xy n n

22 Beregning av den lineære korrelasjonskoeffisienten r

24 Å forstå den lineære korrelasjonskoeffisienten r (fra boka)

25 Eksempel på metoden for å anslå korrelasjonskoeffisienten r

26 Årsakssammenheng (kausalitet) og skjulte (latente) variable Skjult (latent) variabel: En variabel som har en viktig effekt på sammenhengen mellom de observerte variablene, men som ikke er inkludert i undersøkelsen. Dersom det er sterk korrelasjon mellom to variable kan en ha at: Det er en direkte årsakssammenheng mellom de to variablene. Det er en reversert årsakssammenheng mellom de to variablene. Sammenhengen skyldes en tredje (eller flere) skjulte variable Sammenhengen kan være helt tilfeldig.

27 Advarsel En sterk korrelasjon betyr ikke nødvendigvis årsakssammenheng! Eksempler: Sammenheng mellom iskremsalg og antall drukningsulykker i juli måned. Det ble i sin tid påvist sammenheng mellom antall storker og antall barn i ulike regioner i Danmark. Forklaringen var at det er flere barn på landet, der det også er flere storker, ikke at barn kom med storken! Merk også: Kausalitet kan ikke påvises i observasjonsstudier. (Det vil alltid kunne være en bakenforliggende skjult variabel).

28 Lineær regresjon (3.3) Motivasjon: Korrelasjon er et mål på lineær sammenheng mellom to variable, men den gir oss ikke noe anslag for en av variablene når verdien av den andre er gitt. For eksempel: Gitt at en student tar 40 push-ups, hvor mange sit-ups kan en da anslå at han tar? I lineær regresjon antas at det er en sammenheng av formen: ŷ = b 0 + b 1 x som er formelen for en rett linje i matematikken.

EKSEMPEL: Plot av sit-ups mot push-ups og linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 funnet ved minste kvadraters metode. For x = 40 push ups, anslår ( predikerer ) vi dermed antall sit-ups til å være ŷ = 14.9+0.66 40 = 41.3.

30 Minste kvadraters ( least squares ) metode Modell: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er b 1 = (x x)(y ȳ) (x x) 2 med ekvivalent formel b 1 = SS(xy) SS(x). y b1 x og b 0 = n

31 Prediksjon Av spesiell interesse er det å kunne gjøre prediksjoner basert på verdier av x. Dette gjøres ved å sette inn x verdier i uttrykket ŷ = b 0 + b 1 x Eksemplet vi så på: Gitt at en student tar 40 push-ups, predikerer vi antall sit-ups til ŷ = b 0 + b 1 x = 14.9+0.66 40 = 41.3

32 Prediksjon (forts). Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid.