Kapittel : Beskrivende statistikk Etter at vi har samlet inn data er en naturlig første ting å gjøre å prøve å oppsummere informasjonen i dataene på en hensiktsmessig måte. Hva som er hensiktsmessig måter å beskrive dataene på avhenger av hva slags type data vi har (hva slags variabeltype vi har samlet inn data for). Kategoriske data Kategoriske data er observasjoner av kategoriske variable som f.eks. farge, bosted, partitilhørighet, etc. En naturlig fremstilling av slike data er å telle opp hvor mange observasjoner vi har i hver kategori og så fremstille dette i en frekvenstabell eller figur.
Diskrete data Diskrete data er observasjoner av diskrete variable. Dvs bare enkelte tall langs tallinja er mulige verdier (i praksis ofte heltallene). Ved få mulige tallverdier kan tilsvarende tabell og figur som for kategoriske variable brukes: Kontinuerlige data Kontinuerlige data er observasjoner av kontinuerlige variable. Dvs alle tall i et intervall på tallinja er mulige verdier. Diskrete variable med mange mulige verdier (f.eks. mer enn 0) behandles også ofte på samme måte som kontinuerlige. For kontinuerlige data kan man lage lignende frekvenstabeller og histogram som for diskrete data, men må først dele dataene opp i passende intervaller. Eksempel: Desembertemperaturen på Sola i årene 957-006 (n=50 målinger): 4 3
Frekvenstabell: Intervall Antall Relativ frekvens (-6,-] 0.0 (-,0] 4 0.08 (0,] 5 0.30 (,4] 8 0.36 (4,6] 0. (6,8] 0.0 Intervallene velger man selv ut fra sunn fornuft. Histogram: I et histogram over kontinuerlige data bør søylene ha et areal som viser den relative frekvensen. Fra: areal = relativ frekvens Får vi: høyde av søyle = relativ frekvens/bredde Intervall Antall Relativ frekvens Bredde Søylehøyde (-6,-] 0.0 4 0.005 (-,0] 4 0.08 0.04 (0,] 5 0.30 0.5 (,4] 8 0.36 0.8 (4,6] 0. 0. (6,8] 0.0 0.0 6 5
Tidsserieplott For data over variable som endrer seg over tid er det naturlig å lage et tidsserieplot som illustrert under. Desembertemperatur Spredningsplott Dersom vi har data for flere variable fra samme enhet kan et spredningsplott (også kalt scatter-plott) gi en fin illustrasjon. Eksempel: Måling av x= antall år med utdanning og y= inntekt (i 000 kr) for n=8 personer: i 3 4 5 6 7 8 x i 5 4 7 0 8 6 y i 390 60 90 40 70 370 0 440 8 7
Eksempel: Resultat på midtsemesterprøve og slutteksamen. Generelt om plott: Det er mange måter plott kan gi feilaktige inntrykk på se avsnitt.3.6 i boka. Vær spesielt oppmerksom på bruken av y-aksen: 0 9
Numeriske oppsummeringsmål Vi har så langt sett på tabeller og plott for fremstilling av informasjon i datasett. Det finnes også ulike numeriske mål som er vanlige å bruke for å oppsummere informasjon i data. Det finnes bl.a. mål for beliggenheten til dataene på tallinjen (sentralmål) og for spredningen på tallinjen (spredningsmål). Senere i kurset (kap. 7) skal vi også lære om mål for sammenheng mellom variable (korrelasjon). De numeriske målene er stort sett ikke relevant å bruke for kategoriske data. Sentralmål De mest brukte sentralmålene (mål for beliggenhet på tallinja) til et datasett er median og gjennomsnitt. Anta generelt at vi har samlet inn et datasett bestående av n målinger som vi på symbolsk form betegner x,x,,x n. Som et eksempel skal vi se på en situasjon der vi har målt høyden til n=6 personer og fått datasettet: x =.73, x =.85, x 3 =.6, x 4 =.0, x 5 =.7 og x 6 =.88. Definisjon: Gjennomsnitt: n x x ( x x n n i i x n ) Eksempel: Høydedataene 6 x x i 6 i.80
Definisjon: Median: Observasjonen i midten. Sorter dataene i stigende rekkefølge. Medianen er observasjonen i midten, eller gjennomsnittet av de to observasjonene i midten dersom vi har et partall antall observasjoner. Eksempel: Høydedataene Sortert:.6,.7,.73,.85,.88,.0 Median: ~ x (.73.85).79 Eksempel: Hva blir medianen til dataene 3.3, 7., 7.0, 35.6, 9.3? 3 4
Et annet mål på beliggenhet som av og til brukes er modus (eller moden) som er den verdien som forekommer flest ganger i datasettet. Se avsnitt.4.. i boka 5 6
Spredningsmål Anta at vi har målt høyden til n=5 andre personer enn de vi betraktet tidligere og fått data x =.74, x =.76, x 3 =.79, x 4 =.84 og x 5 =.87. For disse dataene blir: x ~ x 5 3 5 i x x i.79 5 (.74.76.79.84.87).80 Dvs samme gjennomsnitt og median som forrige datasett - men vi ser at det er mye større spredning i det første datasettet: Datasett : Datasett: De mest brukte målene på spredning (variasjon) i tallene i et datasett er utvalgsvarians og utvalgsstandardavvik. 7 Definisjon: Utvalgsvarians: s n n x i x i Utvalgsstandardavvik: s s Eksempel: Høydedataene Datasett : s [(.73.80) 6 (.85.80) (.6.80) ] (.0.80) (.7.80) (.88.80) s 0.00 0.4 Datasett : s 0.003 og s 0.003 0.054 Dvs, minst spredning i datasett! 0.00 8
Tolkning av utvalgsvarians/- standardavvik: En grov tommelfingerregel sier at ofte (men ikke alltid) vil omtrent: Ca 68% av dataene ligge i intervallet: Ca 95% av dataene ligge i intervallet: Nesten alle dataene ligge i intervallet: x s, x s x s, x s x 3 s, x 3 s Denne regelen er OK når histogram over dataene er noenlunde symmetrisk. En (enda grovere) regel som alltid gjelder er at Minst 75% av dataene ligger i: x s, x s NB! Boka bruker i kap. bare benevnelsene varians og standardavvik for utvalgsvarians og utvalgsstandardavvik. Dette er uheldig da det lett fører til sammenblanding med varians og standardavvik i en sannsynlighetsfordeling som er begrep vi kommer til senere (i kap. 4..3). Jeg vil derfor konsekvent bruke ordene utvalgsvarians og utvalgsstandardavvik for varians/standardavvik til et utvalg (et datasett). s x s s s Andre mål på spredning i datasett som av og til brukes er variasjonsbredde, kvartilbredde og variasjonskoeffisient. Se kap..5 i boka. 0
Beskrivende statistikk i Excel For store datasett bruker vi dataverktøy til å hjelpe oss med å gjøre analysene. Det finnes mange ulike verktøy, og i dette kurset skal vi spesielt lære litt om hvordan å bruke Excel til slike formål. Les avsnitt.8 i boka for en innføring i hvordan å komme i gang med statistikk i Excel. Det finnes også mange nyttige innføringer på YouTube. Data legger man inn som kolonner (gjerne med en overskrift i første rad): NB! De fleste av statistikk-rutinene i Excel finnes under Dataanalyse. Dette er et tilleggsprogram som man første gang man bruker det må laste inn for å få aktivt. I Excel 007/00: (eller Start ) I eldre versjoner av Excel: Velg Verktøy -> Tillegg og marker ved avkryssing i boksen som kommer opp at du ønsker at tillegget Analyseverktøy skal gjøres tilgjengelig. Trykk OK, og nå vil Dataanalyse være tilgjengelig under Verktøy
Grunnleggende beskrivende statistikk får man regnet ut ved å åpne Dataanalyse-boksen (i Excel 007/00 finner man den helt til høyre under området Data ), og så velge Deskriptiv statistikk : 3 I boksen som kommer opp må man spesifisere inndataområdet (Input Range) og hvor man ønsker Output skrevet til. - Huk av Labels in first row når man har overskrift øverst i kolonnen. - Huk av for Summary statistics. 4
Med temperaturdataene får vi da resultatet under. 5 Resultatet ser ryddigere ut dersom man justerer antall desimaler til et passe antall. Gå til området Hjem, merker de cellene du ønsker å endre antall desimaler i, og velg Format og Formater celler : 6
Velg Tall under Format og sett antall desimaler til et passe tall, for eksempel : 7 Trykk OK og man får en penere utskrift: 8
Rutine for å lage histogram finner man også under Dataanalyse. Dessverre er rutinen for å lage histogram i Excel ikke særlig god for kontinuerlige data. For kategoriske og diskrete data er den ok. Vi skal først se på eksemplet fra boka med antall fødte barn. 9 I tillegg til dataene må vi angi en gruppering (kolonnen antall i eksemplet under). Excel lager da en frekvenstabell og en histogramsøyle for hver gruppe. 30
Vi får da: Ved å klikke ulike plasser på plottet kan man endre aksetekster, form og farge på søylene, osv. For eksempel til: 3 For kontinuerlige data gjøre man tilsvarende. Intervallene for histogrammet må spesifiseres og legges inn under Bin Range 3
Resultatet blir dessverre noe upresist: Det er mulig å triske til en mer korrekt x-akse på histogrammet se forklaring på YouTube-videoen: Create a Histogram with a Correct X-Axis Scale in Excel 007 http://www.youtube.com/watch?v=mha786ltstm 33 Det finnes også mange andre måter å plotte data på i Excel. Kakediagram lages enkelt når man først har laget en frekvenstabell. Marker gruppeinndelingene og frekvensene og velg Sett inn, Sektor og f. eks. et D sektordiagram : 34
Man får da dette kakediagrammet: 35 Tidsserieplott finner men tilsvarende under Sett inn og Punkt. (Ved samme valg kan man også få laget vanlig spredningsplott, velg da diagramtypen uten linjer, dvs den øverst til venstre under Punktdiagram ). Gir: 36
Oppsummering Frekvenstabeller: Nyttig for alle typer data ) Histogram: Areal av søyle angir relativ frekvens n Gjennomsnitt: x x i ( x x x n n n i Medianen: Observasjonen i midten Utvalgsvarians: s n n x i x i Utvalgsstandardavvik: s s 37