ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag

2 Mål på beliggenhet (2.6) Kvartiler: Deler de ordnede dataene inn i fire like store deler: 1. kvartil Q 1 : 25% av dataene er mindre og 75% er større enn Q 1. 2. kvartil Q 2 : 50% av dataene er mindre og 50% er større enn Q 2, dvs. Q 2 er det samme som medianen x. 3. kvartil Q 3 : 75% av dataene er mindre og 25% er større enn Q 3. 5-tallssammendrag: L (minste observasjon), Q 1, x, Q 3, H (største observasjon)

3 5-tallssammendrag

4 Beregning av kvartilene Q 1, Q 2, Q 3 Data (n = 20): 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 Step 1: Ranger fra minste til største: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 2: 25% av utvalgsstørrelsen 20 blir (20)(25) 100 = 5 Sett strek i dataene etter nr 5, 2 5 = 10 og 3 5 = 15: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 Step 3: Sett 72 + 74 76 + 78 Q 1 = = 73, Q 2 = = 77, Q 3 = 2 2 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96 84 + 84 2 = 84

5 Box and whiskers display Data: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 84 5-tallssammendrag: L = 52, Q 1 = 73, Q 2 = 77, Q 3 = 84, H = 96

6 Hva om 25% av n ikke er et heltall? La f.eks. n = 19. Nå er 25% av 19 lik (19)(25) 100 = 4.75. Videre er 2 4.75 = 9.5, 3 4.75 = 14.25. Boka har da som konvensjon at Q 1 = det 5. største tall, Q 2 = det 10. største, Q 3 = det 15. største (dvs. gå opp til nærmeste heltall). Hvis alle tallene er forskjellige, er da 4 tall ekte mindre enn Q 1,4 tall er ekte mellom Q 1 og Q 2 og 4 tall er ekte større enn Q 3. (Altså: Maksimum 25% av dataene ligger i hvert intervall, se tidligere figur).

7 Tolkning av standardavvik (2.7) Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. (Gjelder eksakt for en normalfordelt populasjon, men gir generelt en god intuisjon av variasjon i data.)

8 Eksempel på bruk av standardavvik Data: 52 62 66 68 72 74 74 76 76 76 78 78 82 82 84 84 86 88 92 96 På kalkulator kan vi beregne gjennomsnitt x = 77.3, standardavvik s = 10.3. Fra den empiriske regelen har vi da: ca. 68% av obs ligger innenfor ett standardavvik, dvs. innenfor 77.3 ± 10.3, dvs. mellom 67.0 og 87.6 (I virkeligheten er 14 av 20 obs, dvs. 70% her). ca. 95% av obs ligger innenfor to standardavvik, dvs. innenfor 77.3 ± 20.6, dvs. mellom 56.7 og 97.9 (I virkeligheten er 19 av 20 obs, dvs. 95% (!) her). ca. 99.7% av obs ligger innenfor tre standardavvik, dvs. innenfor 77.3 ± 30.9, dvs. mellom 46.4 og 108.2 (I virkeligheten er alle, dvs. 100% her).

9 Bivariate data (3.2) Bivariate data: verdien av to variable som er hentet fra samme objekt i populasjonen. To kategoriske variable: Eksempel der Gender er {Male,Female}. Major er {Business Administration,Liberal Arts,Technology}. Name Gender Major Adams M LA Argento F BA Baker M LA Bennett F LA Se Table 3.1 s. 147 i boka, Brock M BA som har data for 30 studenter. Brand M T Chun F LA Crain M T...

Krysstabell gender og major, frekvens Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 4 6 2 12 M 6 5 7 18 All 10 11 9 30 Cell Contents: Count

Søylegraf av tabellen over.

Krysstabell gender og major, prosent av total Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 13,33 20,00 6,67 40,00 M 20,00 16,67 23,33 60,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Total

Krysstabell gender og major, prosent av total i hver kolonne Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 40,00 54,55 22,22 40,00 M 60,00 45,45 77,78 60,00 All 100,00 100,00 100,00 100,00 Cell Contents: % of Column

Krysstabell gender og major, prosent av total i hver rad Tabulated statistics: Gender; Major Rows: Gender Columns: Major BA LA T All F 33,33 50,00 16,67 100,00 M 33,33 27,78 38,89 100,00 All 33,33 36,67 30,00 100,00 Cell Contents: % of Row

En kategorisk og en numerisk variabel Eksempel med stopplengder for tre typer bildekk (Table 3.7 s. 151 i boka) Row Design A Design B Design C 1 37 33 40 2 36 35 39 3 34 34 41 4 40 42 41 5 38 38 40 6 32 34 43

Boxplot for de tre typene bildekk

To numeriske variable: Eksempel: Antall push ups og antall sit ups for ti tilfeldig valgte studenter. Row Student Push_Ups Sit_Ups 1 1 27 30 2 2 22 26 3 3 15 25 4 4 35 42 5 5 30 38 6 6 52 40 7 7 35 32 8 8 55 54 9 9 40 50 10 10 40 43

18 Spredningsplott ( scatter diagram ) Plott av antall sit ups mot antall push ups. Eksempel: Punkt nederst til venstre: push ups er 15, sit ups er 25.

Spredningsplott: Plott av armstyrke mot gripestyrke for 149 håndverkere.

20 Lineær korrelasjon (3.3) Lineær korrelasjon måler lineær sammenheng mellom to variable. Med positiv korrelasjon menes at hvis x vokser, har også y en tendens til å vokse. Med negativ korrelasjon menes at hvis x vokser, har y en tendens til å avta. Her er ingen korrelasjon: 2 1 0 1 2 y 3 2 1 0 1 2 x

Positiv korrelasjon (0.5) y 2 1 0 1 2 1 0 1 2 x

Negativ korrelasjon (-0.5) y 2 1 0 1 2 2 1 0 1 2 3 x

Perfekt positiv korrelasjon (1) y 3 2 1 0 1 2 3 3 2 1 0 1 2 3 x

Perfekt negativ korrelasjon (-1) y 2 1 0 1 2 2 1 0 1 2 x

Ingen lineær korrelasjon (men tydeligvis en ikke-lineær sammenheng) y 0 5 10 15 20 25 0 20 40 60 80 100 x

26 Pearsons produktmomentformel Numerisk mål på styrken av den lineære korrelasjonen: Den lineære korrelasjonskoeffisienten r: r = (x x)(y ȳ) (n 1)S x S y hvor S x og S y er standardavvikene til x og y.

Enklere formel hvor r = SS(xy) SS(x)SS(y) SS(x) = x 2 ( x) 2 n SS(y) = y 2 ( y) 2 n SS(xy) = x y xy n

28 Beregning av den lineære korrelasjonskoeffisienten r

30 Å forstå den lineære korrelasjonskoeffisienten r (fra boka)

31 Eksempel på metoden for å anslå korrelasjonskoeffisienten r

32 Årsakssammenheng (kausalitet) og skjulte (latente) variable Skjult (latent) variabel: En variabel som har en viktig effekt på sammenhengen mellom de observerte variablene, men som ikke er inkludert i undersøkelsen. Dersom det er sterk korrelasjon mellom to variable kan en ha at: Det er en direkte årsakssammenheng mellom de to variablene. Det er en reversert årsakssammenheng mellom de to variablene. Sammenhengen skyldes en tredje (eller flere) skjulte variable Sammenhengen kan være helt tilfeldig.

33 Advarsel En sterk korrelasjon betyr ikke nødvendigvis årsakssammenheng! Eksempler: Sammenheng mellom iskremsalg og antall drukningsulykker i juli måned. Det ble i sin tid påvist sammenheng mellom antall storker og antall barn i ulike regioner i Danmark. Forklaringen var at det er flere barn på landet, der det også er flere storker, ikke at barn kom med storken! Merk også: Kausalitet kan ikke påvises i observasjonsstudier. (Det vil alltid kunne være en bakenforliggende skjult variabel).

34 Lineær regresjon (3.4) Motivasjon: Korrelasjon er et mål på lineær sammenheng mellom to variable, men den gir oss ikke noe anslag for en av variablene når verdien av den andre er gitt. For eksempel: Gitt at en student tar 40 push-ups, hvor mange sit-ups kan en da anslå at han tar? I lineær regresjon antas at det er en sammenheng av formen: ŷ = b 0 + b 1 x som er formelen for en rett linje i matematikken.

EKSEMPEL: Plot av sit-ups mot push-ups og linjen ŷ = b 0 + b 1 x med b 0 = 14.9 ogb 1 = 0.66 funnet ved minste kvadraters metode. For x = 40 push ups, anslår ( predikerer ) vi dermed antall sit-ups til å være ŷ = 14.9 + 0.66 40 = 41.3.

36 Minste kvadraters ( least squares ) metode Modell: ŷ = b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y for punktene i spredningsplottet blir minst mulig. Da er b 1 = (x x)(y ȳ) (x x) 2 med ekvivalent formel b 1 = SS(xy) SS(x). y b1 x og b 0 = n

37 Prediksjon Av spesiell interesse er det å kunne gjøre prediksjoner basert på verdier av x. Dette gjøres ved å sette inn x verdier i uttrykket ŷ = b 0 + b 1 x Eksemplet vi så på: Gitt at en student tar 40 push-ups, predikerer vi antall sit-ups til ŷ = b 0 + b 1 x = 14.9 + 0.66 40 = 41.3

Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid.