ST0202 Statistikk for samfunnsvitere Kapittel 3: Beskrivende analyse og presentasjon av data for to variabler (bivariate data) Bo Lindqvist Institutt for matematiske fag
2 Presentasjon av bivariate data (3.1) Bivariate data: verdien av to variabler (egenskaper) som er hentet fra samme objekt i populasjonen. Noteres som et par: (x, y). To kategoriske variabler: krysstabell, grupperte søylediagram. En kategorisk og en numerisk: flere boksplott. To numeriske: spredningsplott. Man kan beskrive hver variabel for seg, som i kapittel 2, men her skal vi fokusere på at begge variablene skal presenteres og beskrives sammen.
3 To kategoriske variabler Eksempel der Gender (x) er {Male,Female}. Major (y) er {Business Administration,Liberal Arts,Technology}. Name Gender Major Adams M LA Argento F BA Baker M LA Bennett F LA Se Table 3.1 s. 121 i boka, Brock M BA som har data for 30 studenter. Brand M T Chun F LA Crain M T...
4 Krysstabell gender og major, frekvens Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 4 6 2 12 M 6 5 7 18 All 10 11 9 30 Cell Contents: Count
5 Søylegraf
6 Krysstabell gender og major, prosent av total Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 13,33 20,00 6,67 40,00 M 20,00 16,67 23,33 60,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Total
7 Krysstabell gender og major, prosent av total i hver kolonne Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 40,00 54,55 22,22 40,00 M 60,00 45,45 77,78 60,00 All 100,00 100,00 100,00 100,00 Cell Contents: % of Column
8 Krysstabell gender og major, prosent av total i hver rad Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 33,33 50,00 16,67 100,00 M 33,33 27,78 38,89 100,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Row
9 En kategorisk og en numerisk variabel Eksempel med stopplengder for tre typer bildekk (Table 3.7 s. 151 i boka) Row Design A Design B Design C 1 37 33 40 2 36 35 39 3 34 34 41 4 40 42 41 5 38 38 40 6 32 34 43
10 Boksplott for de tre typene bildekk
11 To numeriske variabler Eksempel: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Row Student Push_Ups Sit_Ups 1 1 27 30 2 2 22 26 3 3 15 25 4 4 35 42 5 5 30 38 6 6 52 40 7 7 35 32 8 8 55 54 9 9 40 50 10 10 40 43
12 Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Eksempel: Punkt nederst til venstre: push ups er 15, sit ups er 25.
13 Spredningsplott Plott av armstyrke mot gripestyrke for 149 håndverkere.
14 Lineær korrelasjon (3.2) Lineær korrelasjon måler lineær sammenheng mellom to variable. Med positiv korrelasjon menes at hvis x vokser, har også y en tendens til å vokse. Med negativ korrelasjon menes at hvis x vokser, har y en tendens til å avta. Her er ingen korrelasjon: 2 1 0 1 2 y 3 2 1 0 1 2 x
Positiv korrelasjon (0.5) y 2 1 0 1 2 1 0 1 2 x
Negativ korrelasjon (-0.5) y 2 1 0 1 2 2 1 0 1 2 3 x
Perfekt positiv korrelasjon (1) y 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x
Perfekt negativ korrelasjon (-1) y 2 1 0 1 2 2 1 0 1 2 x
Ingen lineær korrelasjon (men tydeligvis en ikke-lineær sammenheng) y 0 5 10 15 20 25 0 20 40 60 80 100 x
20 Pearsons produktmomentformel Numerisk mål på styrken av den lineære korrelasjonen: Den lineære korrelasjonskoeffisienten r: r = (x x)(y ȳ) (n 1)S x S y hvor S x og S y er standardavvikene til x og y.
Enklere formel hvor r = SS(xy) SS(x)SS(y) SS(x) = x 2 ( x) 2 SS(y) = y 2 ( y) 2 n SS(xy) = x y xy n n
22 Beregning av den lineære korrelasjonskoeffisienten r
24 Å forstå den lineære korrelasjonskoeffisienten r (fra boka)
25 Eksempel på metoden for å anslå korrelasjonskoeffisienten r
26 Årsakssammenheng (kausalitet) og skjulte (latente) variable Skjult (latent) variabel: En variabel som har en viktig effekt på sammenhengen mellom de observerte variablene, men som ikke er inkludert i undersøkelsen. Dersom det er sterk korrelasjon mellom to variable kan en ha at: Det er en direkte årsakssammenheng mellom de to variablene. Det er en reversert årsakssammenheng mellom de to variablene. Sammenhengen skyldes en tredje (eller flere) skjulte variable Sammenhengen kan være helt tilfeldig.
27 Advarsel En sterk korrelasjon betyr ikke nødvendigvis årsakssammenheng! Eksempler: Sammenheng mellom iskremsalg og antall drukningsulykker i juli måned. Det ble i sin tid påvist sammenheng mellom antall storker og antall barn i ulike regioner i Danmark. Forklaringen var at det er flere barn på landet, der det også er flere storker, ikke at barn kom med storken! Merk også: Kausalitet kan ikke påvises i observasjonsstudier. (Det vil alltid kunne være en bakenforliggende skjult variabel).
28 Lineær regresjon (3.3) Motivasjon: Korrelasjon er et mål på lineær sammenheng mellom to variable, men den gir oss ikke noe anslag for en av variablene når verdien av den andre er gitt. For eksempel: Gitt at en student tar 40 push-ups, hvor mange sit-ups kan en da anslå at han tar? I lineær regresjon antas at det er en sammenheng av formen: ŷ = b 0 + b 1 x som er formelen for en rett linje i matematikken.
EKSEMPEL: Plot av sit-ups mot push-ups og linjen ŷ = b 0 + b 1 x med b 0 = 14.9 og b 1 = 0.66 funnet ved minste kvadraters metode. For x = 40 push ups, anslår ( predikerer ) vi dermed antall sit-ups til å være ŷ = 14.9+0.66 40 = 41.3.
30 Minste kvadraters ( least squares ) metode Modell: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er b 1 = (x x)(y ȳ) (x x) 2 med ekvivalent formel b 1 = SS(xy) SS(x). y b1 x og b 0 = n
31 Prediksjon Av spesiell interesse er det å kunne gjøre prediksjoner basert på verdier av x. Dette gjøres ved å sette inn x verdier i uttrykket ŷ = b 0 + b 1 x Eksemplet vi så på: Gitt at en student tar 40 push-ups, predikerer vi antall sit-ups til ŷ = b 0 + b 1 x = 14.9+0.66 40 = 41.3
32 Prediksjon (forts). Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid.