ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Like dokumenter
Sannsynlighetsregning og Statistikk.

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Kapittel 1: Data og fordelinger

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk. Forkurs 2017

Bruk SUMMER-funksjonen i formelen i G9. Oppgave 14. H. Aschehoug & Co Side 1

Statistikk. Forkurs 2018

1 Grafisk framstilling av datamateriale

2P, Statistikk Quiz. Test, 2 Statistikk

ST0103 Brukerkurs i statistikk Høst 2014

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Grunnleggende kurs i Excel. Langnes skole

Innhold. Innledning. Del I

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Sentralmål og spredningsmål

Statistikk Løsninger. Innhold. Statistikk Vg2P

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Et lite notat om og rundt normalfordelingen.

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Manual til Excel. For ungdomstrinnet ELEKTRONISK UNDERVISNINGSFORLAG AS

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

INNHOLD. Matematikk for ungdomstrinnet

Et lite notat om og rundt normalfordelingen.

Statistikk Oppgaver. Innhold. Statistikk Vg2P

ST0202 Statistikk for samfunnsvitere

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Analyseoversikt, Uke 35

Beskrivende statistikk.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Eksempel på data: Karakterer i «Stat class» Introduksjon

Løsningsforslag til obligatorisk oppgave i ECON2130 våren 2014 av Jonas Schenkel.

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial )

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Tema. Beskrivelse. Husk!

ST0202 Statistikk for samfunnsvitere

Statistikk. Mål. for opplæringen er at eleven skal kunne. planlegge, gjennomføre og vurdere statistiske undersøkelser

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

ECON Statistikk 1 Forelesning 2: Innledning

Stolpediagragram og histogram med regneark

Seksjon 1.3 Tetthetskurver og normalfordelingen

Innhold. Innledning. Del I

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial ) Oppgave 1

Eksamen våren 2016 Løsninger

UNIVERSITETET I OSLO

Kommentarer til boka Regneark for barnetrinnet 1

Sentralmål og spredningsmål

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Formellinje. Nytt ark

ST0202 Statistikk for samfunnsvitere

Forkurs i kvantitative metoder ILP 2019

Statistikk og dataanalyse

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Manual til Excel. For mellomtrinnet. Inger Nygjelten Bakke ELEKTRONISK UNDERVISNINGSFORLAG AS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Eksamen våren 2015 Løsninger

Tabell 1: Beskrivende statistikker for dataene

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

LØSNING: Oppgavesett nr. 1

DEL 1 Uten hjelpemidler

UNIVERSITETET I OSLO

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

Hvordan lage kontrolldiagrammer legge inn tall i Epidata. Eksempel I-diagram

Excel. Kursopplegg for SKUP-konferansen Laget av

Basisoppgaver til 2P kap. 3 Statistikk

Velkommen til TMA4240. Velkommen til TMA / 18

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Introduksjonsprogram for Revu: Markeringer

Kapittel 4.4: Forventning og varians til stokastiske variable

Seksjon 1.3 Tetthetskurver og normalfordelingen

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Despriptiv statistikk

Kapittel 5: Tilfeldige variable, forventning og varians.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

Transkript:

Kapittel : Beskrivende statistikk Etter at vi har samlet inn data er en naturlig første ting å gjøre å prøve å oppsummere informasjonen i dataene på en hensiktsmessig måte. Hva som er hensiktsmessig måter å beskrive dataene på avhenger av hva slags type data vi har (hva slags variabeltype vi har samlet inn data for). Kategoriske data Kategoriske data er observasjoner av kategoriske variable som f.eks. farge, bosted, partitilhørighet, etc. En naturlig fremstilling av slike data er å telle opp hvor mange observasjoner vi har i hver kategori og så fremstille dette i en frekvenstabell eller figur.

Diskrete data Diskrete data er observasjoner av diskrete variable. Dvs bare enkelte tall langs tallinja er mulige verdier (i praksis ofte heltallene). Ved få mulige tallverdier kan tilsvarende tabell og figur som for kategoriske variable brukes: Kontinuerlige data Kontinuerlige data er observasjoner av kontinuerlige variable. Dvs alle tall i et intervall på tallinja er mulige verdier. Diskrete variable med mange mulige verdier (f.eks. mer enn 0) behandles også ofte på samme måte som kontinuerlige. For kontinuerlige data kan man lage lignende frekvenstabeller og histogram som for diskrete data, men må først dele dataene opp i passende intervaller. Eksempel: Desembertemperaturen på Sola i årene 957-006 (n=50 målinger): 4 3

Frekvenstabell: Intervall Antall Relativ frekvens (-6,-] 0.0 (-,0] 4 0.08 (0,] 5 0.30 (,4] 8 0.36 (4,6] 0. (6,8] 0.0 Intervallene velger man selv ut fra sunn fornuft. Histogram: I et histogram over kontinuerlige data bør søylene ha et areal som viser den relative frekvensen. Fra: areal = relativ frekvens Får vi: høyde av søyle = relativ frekvens/bredde Intervall Antall Relativ frekvens Bredde Søylehøyde (-6,-] 0.0 4 0.005 (-,0] 4 0.08 0.04 (0,] 5 0.30 0.5 (,4] 8 0.36 0.8 (4,6] 0. 0. (6,8] 0.0 0.0 6 5

Tidsserieplott For data over variable som endrer seg over tid er det naturlig å lage et tidsserieplot som illustrert under. Desembertemperatur Spredningsplott Dersom vi har data for flere variable fra samme enhet kan et spredningsplott (også kalt scatter-plott) gi en fin illustrasjon. Eksempel: Måling av x= antall år med utdanning og y= inntekt (i 000 kr) for n=8 personer: i 3 4 5 6 7 8 x i 5 4 7 0 8 6 y i 390 60 90 40 70 370 0 440 8 7

Eksempel: Resultat på midtsemesterprøve og slutteksamen. Generelt om plott: Det er mange måter plott kan gi feilaktige inntrykk på se avsnitt.3.6 i boka. Vær spesielt oppmerksom på bruken av y-aksen: 0 9

Numeriske oppsummeringsmål Vi har så langt sett på tabeller og plott for fremstilling av informasjon i datasett. Det finnes også ulike numeriske mål som er vanlige å bruke for å oppsummere informasjon i data. Det finnes bl.a. mål for beliggenheten til dataene på tallinjen (sentralmål) og for spredningen på tallinjen (spredningsmål). Senere i kurset (kap. 7) skal vi også lære om mål for sammenheng mellom variable (korrelasjon). De numeriske målene er stort sett ikke relevant å bruke for kategoriske data. Sentralmål De mest brukte sentralmålene (mål for beliggenhet på tallinja) til et datasett er median og gjennomsnitt. Anta generelt at vi har samlet inn et datasett bestående av n målinger som vi på symbolsk form betegner x,x,,x n. Som et eksempel skal vi se på en situasjon der vi har målt høyden til n=6 personer og fått datasettet: x =.73, x =.85, x 3 =.6, x 4 =.0, x 5 =.7 og x 6 =.88. Definisjon: Gjennomsnitt: n x x ( x x n n i i x n ) Eksempel: Høydedataene 6 x x i 6 i.80

Definisjon: Median: Observasjonen i midten. Sorter dataene i stigende rekkefølge. Medianen er observasjonen i midten, eller gjennomsnittet av de to observasjonene i midten dersom vi har et partall antall observasjoner. Eksempel: Høydedataene Sortert:.6,.7,.73,.85,.88,.0 Median: ~ x (.73.85).79 Eksempel: Hva blir medianen til dataene 3.3, 7., 7.0, 35.6, 9.3? 3 4

Et annet mål på beliggenhet som av og til brukes er modus (eller moden) som er den verdien som forekommer flest ganger i datasettet. Se avsnitt.4.. i boka 5 6

Spredningsmål Anta at vi har målt høyden til n=5 andre personer enn de vi betraktet tidligere og fått data x =.74, x =.76, x 3 =.79, x 4 =.84 og x 5 =.87. For disse dataene blir: x ~ x 5 3 5 i x x i.79 5 (.74.76.79.84.87).80 Dvs samme gjennomsnitt og median som forrige datasett - men vi ser at det er mye større spredning i det første datasettet: Datasett : Datasett: De mest brukte målene på spredning (variasjon) i tallene i et datasett er utvalgsvarians og utvalgsstandardavvik. 7 Definisjon: Utvalgsvarians: s n n x i x i Utvalgsstandardavvik: s s Eksempel: Høydedataene Datasett : s [(.73.80) 6 (.85.80) (.6.80) ] (.0.80) (.7.80) (.88.80) s 0.00 0.4 Datasett : s 0.003 og s 0.003 0.054 Dvs, minst spredning i datasett! 0.00 8

Tolkning av utvalgsvarians/- standardavvik: En grov tommelfingerregel sier at ofte (men ikke alltid) vil omtrent: Ca 68% av dataene ligge i intervallet: Ca 95% av dataene ligge i intervallet: Nesten alle dataene ligge i intervallet: x s, x s x s, x s x 3 s, x 3 s Denne regelen er OK når histogram over dataene er noenlunde symmetrisk. En (enda grovere) regel som alltid gjelder er at Minst 75% av dataene ligger i: x s, x s NB! Boka bruker i kap. bare benevnelsene varians og standardavvik for utvalgsvarians og utvalgsstandardavvik. Dette er uheldig da det lett fører til sammenblanding med varians og standardavvik i en sannsynlighetsfordeling som er begrep vi kommer til senere (i kap. 4..3). Jeg vil derfor konsekvent bruke ordene utvalgsvarians og utvalgsstandardavvik for varians/standardavvik til et utvalg (et datasett). s x s s s Andre mål på spredning i datasett som av og til brukes er variasjonsbredde, kvartilbredde og variasjonskoeffisient. Se kap..5 i boka. 0

Beskrivende statistikk i Excel For store datasett bruker vi dataverktøy til å hjelpe oss med å gjøre analysene. Det finnes mange ulike verktøy, og i dette kurset skal vi spesielt lære litt om hvordan å bruke Excel til slike formål. Les avsnitt.8 i boka for en innføring i hvordan å komme i gang med statistikk i Excel. Det finnes også mange nyttige innføringer på YouTube. Data legger man inn som kolonner (gjerne med en overskrift i første rad): NB! De fleste av statistikk-rutinene i Excel finnes under Dataanalyse. Dette er et tilleggsprogram som man første gang man bruker det må laste inn for å få aktivt. I Excel 007/00: (eller Start ) I eldre versjoner av Excel: Velg Verktøy -> Tillegg og marker ved avkryssing i boksen som kommer opp at du ønsker at tillegget Analyseverktøy skal gjøres tilgjengelig. Trykk OK, og nå vil Dataanalyse være tilgjengelig under Verktøy

Grunnleggende beskrivende statistikk får man regnet ut ved å åpne Dataanalyse-boksen (i Excel 007/00 finner man den helt til høyre under området Data ), og så velge Deskriptiv statistikk : 3 I boksen som kommer opp må man spesifisere inndataområdet (Input Range) og hvor man ønsker Output skrevet til. - Huk av Labels in first row når man har overskrift øverst i kolonnen. - Huk av for Summary statistics. 4

Med temperaturdataene får vi da resultatet under. 5 Resultatet ser ryddigere ut dersom man justerer antall desimaler til et passe antall. Gå til området Hjem, merker de cellene du ønsker å endre antall desimaler i, og velg Format og Formater celler : 6

Velg Tall under Format og sett antall desimaler til et passe tall, for eksempel : 7 Trykk OK og man får en penere utskrift: 8

Rutine for å lage histogram finner man også under Dataanalyse. Dessverre er rutinen for å lage histogram i Excel ikke særlig god for kontinuerlige data. For kategoriske og diskrete data er den ok. Vi skal først se på eksemplet fra boka med antall fødte barn. 9 I tillegg til dataene må vi angi en gruppering (kolonnen antall i eksemplet under). Excel lager da en frekvenstabell og en histogramsøyle for hver gruppe. 30

Vi får da: Ved å klikke ulike plasser på plottet kan man endre aksetekster, form og farge på søylene, osv. For eksempel til: 3 For kontinuerlige data gjøre man tilsvarende. Intervallene for histogrammet må spesifiseres og legges inn under Bin Range 3

Resultatet blir dessverre noe upresist: Det er mulig å triske til en mer korrekt x-akse på histogrammet se forklaring på YouTube-videoen: Create a Histogram with a Correct X-Axis Scale in Excel 007 http://www.youtube.com/watch?v=mha786ltstm 33 Det finnes også mange andre måter å plotte data på i Excel. Kakediagram lages enkelt når man først har laget en frekvenstabell. Marker gruppeinndelingene og frekvensene og velg Sett inn, Sektor og f. eks. et D sektordiagram : 34

Man får da dette kakediagrammet: 35 Tidsserieplott finner men tilsvarende under Sett inn og Punkt. (Ved samme valg kan man også få laget vanlig spredningsplott, velg da diagramtypen uten linjer, dvs den øverst til venstre under Punktdiagram ). Gir: 36

Oppsummering Frekvenstabeller: Nyttig for alle typer data ) Histogram: Areal av søyle angir relativ frekvens n Gjennomsnitt: x x i ( x x x n n n i Medianen: Observasjonen i midten Utvalgsvarians: s n n x i x i Utvalgsstandardavvik: s s 37