Analyseoversikt, Uke 35

Like dokumenter
STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 37, Studentene forventes å lese Ch i læreboka (MMC). Beskrive enkle (bivariate) sammenhenger mellom variabler

Et lite notat om og rundt normalfordelingen.

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

STK1000 Obligatorisk oppgave 1 av 2

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Kapittel 1: Data og fordelinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Sannsynlighetsregning og Statistikk.

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

UNIVERSITETET I OSLO

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Statistikk. Forkurs 2018

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

ECON Statistikk 1 Forelesning 2: Innledning

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistikk. Forkurs 2017

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Forkurs i kvantitative metoder ILP 2019

Eksempel på data: Karakterer i «Stat class» Introduksjon

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Øving 1 TMA Grunnleggende dataanalyse i Matlab

ST0202 Statistikk for samfunnsvitere

ØVINGER 2017 Løsninger til oppgaver. Øving 1

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

Statistikk for språk- og musikkvitere 1

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Seksjon 1.3 Tetthetskurver og normalfordelingen

Tabell 1: Beskrivende statistikker for dataene

UNIVERSITETET I OSLO

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Seksjon 1.3 Tetthetskurver og normalfordelingen

2P, Statistikk Quiz. Test, 2 Statistikk

ECON240 Statistikk og økonometri. Arild Aakvik, professor Institutt for økonomi

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

Introduksjon til statistikk og dataanalyse

UNIVERSITETET I OSLO

Statistikk Løsninger. Innhold. Statistikk Vg2P

ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

ST0202 Statistikk for samfunnsvitere [1]

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

ST0103 Brukerkurs i statistikk Høst 2014

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Beskrivende statistikk Litt om SPSS

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Medisinsk statistikk Del I høsten 2009:

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Kapittel 3: Studieopplegg

STK1000 Innføring i anvendt statistikk

1 Grafisk framstilling av datamateriale

Studier, region og tilfredshet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Statistikk er begripelig

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Kapittel 1: Introduksjon til statistikk og dataanalyse Foreleses tirsdag 9. januar 2007.

INNHOLD. Matematikk for ungdomstrinnet

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Fagdag Klima en klimakonferanse for realfagslærere

Sentralmål og spredningsmål

Velkommen til TMA4240. Velkommen til TMA / 18

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Kapittel 5: Tilfeldige variable, forventning og varians.

Sentralmål og spredningsmål

UNIVERSITETET I OSLO

Statistikk. Mål. for opplæringen er at eleven skal kunne. planlegge, gjennomføre og vurdere statistiske undersøkelser

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Oppfriskning av blokk 1 i TMA4240

Statistikk Oppgaver. Innhold. Statistikk Vg2P

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Sentralmål og spredningsmål

UNIVERSITETET I OSLO Matematisk Institutt

Binomisk sannsynlighetsfunksjon

Høgskolen i Sør-Trøndelag Avdeling Trondheim Økonomisk Høgskole EKSAMENSOPPGAVE

Oppsummering & spørsmål 20. april Frode Svartdal

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Transkript:

Analyseoversikt, Uke 35

STK1000 Uke 35, 2016. Studentene forventes å lese Ch 1.1-1.3 i læreboka (MMC). Avsnittet om Stem-and-leaf-plot er ikke pensum. Ulike typer data Kategoriske data MMC: «Kvalitative beskrivelser» Numeriske data «Tall-beskrivelser» 2 kategorier Dikotome data/ binære data Flere kategorier Nominale data Ordnede kategorier Ordinale data Telledata Diskrete data Målinger Kontinuerlige data Eks 1 Appelsin/klementin Mann/kvinne Favorittfrukt: eple/pære/appelsin/ banan Karakter i STK1000 «Liker appelsin» på en skala fra 1 til 5 Antall båter (# betyr antall) Appelsinvekt Skrelletid Eks 2 Kjønn Syk/Frisk Ja/Nei For/Mot Diagnoser Yrker Arter Kjemiske stoffer Geologiske perioder Utdanning Stadier i kreftutvikling # Barn # Beinbrudd # Ulykker # Grantrær Alder Penger Temperatur Tid Avstand Det er viktig å vite hvilken type data du har, fordi ulike typer data må analyseres ulikt.

Boka beskriver flere detaljer. Noen ting er verdt å få med seg: Måleinstrument brukes både om en kjøkkenvekt som tallfester hvor tung maten er, og et spørreskjema for å tallfeste livskvalitet Data er av og til interessant i nøyaktig den formen de samles inn, eks: Høyde Vekt mmol/l Smertefri sjelden smerter ofte smerter kontinuerlige smerter Alder Andre ganger trenger vi å transformere data før vi analyserer dem, eks: BMI = vekt (kg) / (høyde (m) ) 2 Logaritmisk skala av mengden av et stoff Smertefri versus smerter Barnebillett/Voksenbillett

Deskriptiv statistikk Hva og hvorfor? Vi har data som er samlet inn, og skal presentere dem/beskrive dem for å gi en oversikt til andre. Eller for oss selv. Hva er riktig type deskriptiv statistikk? Det avhenger av Hva forskningsspørsmålet er, og hvilken type data du har. Ulike typer data må analyseres ulikt, også når vi skal oppsummere/beskrive dem. Hvordan lager vi det? For hånd Excel R SPSS/SAS/STATA/ Hvordan tolker vi andres deskriptive statistikk? Media Vitenskapelige artikler Lærebøker

Deskriptiv statistikk er figurer/plott og oppsummeringstall som beskriver et datasett. Kategoriske data (Noen ganger diskrete data): Fordelingen av verdier vises ved frekvenser (antall), andeler og prosenter, (Frekvens)tabeller, Stolpediagram = Søylediagram, Kakediagram Det vanligste/typiske oppsummeres med Typetall = Mode Kontinuerlige data (Noen ganger diskrete data): Fordelingen av verdier vises ved Histogram eller Boksplott Avhengig av om fordelingen er symmetrisk eller skjev, oppsummeres det vanlige/typiske med gjennomsnitt eller median, og spredningen med standardavvik (SD) eller kvartiler. Både slike figurer (Stolpe/Søyle/Kake-diagram, og histogram/boksplott), og slike oppsummeringstall (mode, gjennomsnitt, median, SD og kvartiler), kalles deskriptiv statistikk. Les i boka hvordan man lager de ulike diagrammene/plottene.

Eksempel på histogram og boksplott. Figur fra Røislien, Frøslie: «Tall forteller», Gyldendal 2013 Hva ser vi etter i et histogram eller boksplott? Er fordelingen skjev eller symmetrisk? Har fordelingen en eller flere topper? Har fordelingen lette eller tunge haler? Outliere? Hvor er senteret? MMC: Shape. Skewed/Symmetric MMC: Tails

Eksempler

Oppsummeringstall for det vanlige/typiske/senteret i en fordeling av kontinuerlige data (av og til diskrete data): Gjennomsnittet er tyngdepunktet i datasettet, altså den verdien du kunne balansert histogrammet på, hvis du skulle båret det som et serveringsbrett. n x = 1 n x i Gjennomsnittet er utmerket når datasettet er (relativt) symmetrisk. Gjennomsnittet påvirkes lett av enkeltverdier som er store eller små, og regnes for å være et lite robust mål på senteret. i=1 Medianen er den verdien som deler datasettet i to like store deler, slik at det er like mange observasjoner som er mindre enn medianen, som det er observasjoner som er større enn medianen. Medianen er tverrstreken inne i boksen i boksplottet. Medianen blir ikke særlig påvirket av enkeltverdier som er spesielt store eller spesielt små, og er et robust oppsummeringstall for senteret i fordelingen. Når fordelingen er symmetrisk, er medianen og gjennomsnittet lik.

Eksempler. Oransje pil markerer gjennomsnittet.

Oppsummeringstall for spredningen i en fordeling av kontinuerlige data (av og til diskrete data): Minimumsverdien og maksimumsverdien er de enkleste oppsummeringstallene for spredning i verdier. Min og max er ikke robuste mål for spredning. Kvartiler: Hvis vi deler inn datasettet i fire like store deler mellom minste og største verdi, med like mange observasjoner i hvert intervall (se figuren), finner vi de såkalte kvartilene. 25% av observasjonene er mindre enn nedre kvartil (Q 1 ), og 25% av verdiene er større enn øvre kvartil (Q 3 ). Q 2 er det samme som medianen. Min Q 1 Q 2 Q 3 Max Kvartilene blir ikke særlig påvirket av enkeltverdier som er spesielt store eller spesielt små, og er robuste oppsummeringstall for spredningen til de midterste 50% av observasjonene.

Eksempler. Lilla strek viser Min Max (range), og de lilla boksene i boksplottene viser Q 1 Q 3 (interquartile range)

(Fortsatt:) Oppsummeringstall for spredningen i en fordeling av kontinuerlige data (av og til diskrete data): Standardavviket, SD, S, stdev, sd sd = 1 n 1 (x i x ) 2 n i=1 Standardavviket er et utmerket oppsummeringstall for spredningen når datasettet ligner på en normalfordeling, altså når fordelingen er symmetrisk, entoppet, og har lette haler. (Mer om normalfordelingen i neste uke) Da vil intervallet x ± 2sd inneholde omtrent 95% av observasjonene, og så godt som ingen observasjoner befinner seg utenfor x ± 3sd. (Mer om dette neste uke.) Hvis man oppgir x og sd som oppsummeringstall, har man altså implisitt sagt at fordelingen ligner på en normalfordeling, og at de fleste observasjonene ligger mellom 2 til 3 standardavvik fra midten. Og motsatt: Hvis man oppgir median og kvartiler som oppsummeringstall, har man implisitt sagt at fordelingen er skjev. Standardavviket påvirkes enda lettere enn gjennomsnittet av enkeltverdier som er store eller små, og regnes for å være et lite robust mål på spredningen.

Eksempler. Rosa histogrammer er de jeg absolutt ville brukt x og sd som oppsummeringstall

Schwartz I, Tuchner M, Tsenter J, Shochina M, Shoshan Y, Katz-Leurer M, Meiner Z: Cognitive and functional outcomes of terror victims who suffered from traumatic brain injury. Brain Injury, 2008; 22:255 263

Voldner N, Qvigstad E, Frøslie KF, GodangK, Henriksen T, Bollerslev J: Increased risk of macrosomia among overweight women with high gestational rise in fasting glucose. Journal of Maternal-Fetal and Neonatal Medicine 2010;23:74-81

Andre temaer fra MMC: Time plot: Utsettes til neste kapittel, siden det involverer to variabler (tid, og det som varierer over tid), og derfor enten kan sees på som et spesialtilfelle av en bivariat analyse, eller en tidsrekke. «5-number summary : Min, Q 1, Q 2, Q 3, Max. Fornuftig og opplagt. Varians: Var = sd 2 Var = n 1 n 1 (x i x ) 2 i=1

Oppsummeringstall må altså velges etter at vi har funnet ut hvilken type data vi har, og vi har undersøkt formen på fordelingen. Kort oppsummert:

Neste uke: STK1000 Uke 36, 2016. Studentene forventes å lese Ch 1.4 + 3.1-3.3 + 3.5 i læreboka (MMC). Temaer: Normalfordeling Planlegging av studier, design, og innsamling av data