STK1000 Uke 37, Studentene forventes å lese Ch i læreboka (MMC). Beskrive enkle (bivariate) sammenhenger mellom variabler

Like dokumenter
Analyseoversikt, Uke 35

Planlegging av studier, design, og innsamling av data

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

ST0202 Statistikk for samfunnsvitere

Andre obligatoriske oppgave i STK1000 H2016: Innlevering: Besvarelsen leveres på instituttkontoret ved Matematisk institutt i 7.

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO

Oppgaver til Studentveiledning I MET 3431 Statistikk

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Et lite notat om og rundt normalfordelingen.

Statistikk er begripelig

Kort overblikk over kurset sålangt

Statistikk og dataanalyse

STK1000 Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

Kapittel 3: Studieopplegg

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

Formelsamling i medisinsk statistikk

1 10-2: Korrelasjon : Regresjon

Oppgaver til Studentveiledning II MET 3431 Statistikk

TMA 4255 Forsøksplanlegging og anvendte statistiske metoder

Et lite notat om og rundt normalfordelingen.

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Forskningsprosjektet. Repeterte målinger på én time. Eksempel 1. Eksempel 2. Eksempel

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

UNIVERSITETET I OSLO

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Obligatorisk oppgave 2

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Bivariate analyser. Analyse av sammenhengen mellom to variabler. H 0 : Ingen sammenheng H 1 : Sammenheng

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

UNIVERSITETET I OSLO

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

MET 3431: Statistikk (våren 2011) Introduksjon. Genaro Sucarrat. Institutt for samfunnsøkonomi, BI.

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Velkommen. til STK1000, Innføring i anvendt statistikk. statistikk er historien om de mange 24/08/2016

UNIVERSITETET I OSLO

Statistikk i klinikken. Arild Vaktskjold 2015

Sannsynlighetsregning og Statistikk.

Inferens i regresjon

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Oppsummering & spørsmål 20. april Frode Svartdal

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Eksempel på data: Karakterer i «Stat class» Introduksjon

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Studier, region og tilfredshet

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Introduksjon til Generaliserte Lineære Modeller (GLM)

ECON Statistikk 1 Forelesning 2: Innledning

Fagdag Klima en klimakonferanse for realfagslærere

STK1000 Obligatorisk oppgave 2 av 2

Utvalgsfordelinger (Kapittel 5)

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Velkommen til TMA4240. Velkommen til TMA / 18

Data og beskrivende statistikk Introduksjon til SPSS. 7. april 2005 Tron Anders Moger

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Tabell 1: Beskrivende statistikker for dataene

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

MET 3431 Statistikk Forelesning 1: Introduksjon til Statistikk

Lineær regresjon. Respons y Outcome Endepunkt Avhengig variabel Output-variabel Endogen variabel

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ST0202 Statistikk for samfunnsvitere

Transkript:

STK1000 Uke 37, 2016. Studentene forventes å lese Ch 2.1-2.3+2.6 i læreboka (MMC). Beskrive enkle (bivariate) sammenhenger mellom variabler Demonstrasjon i Rstudio: IQdata, z-scorer, kjønn, vgs-snitt, studietid, foreldres utdanningsnivå

Sammenhenger mellom to variabler kalles bivariate sammenhenger, og analyser av sammenhenger mellom to variabler, kalles ofte bivariate analyser. Eksperimentelle design Begge variablene kan være kategorisk eller kontinuerlig (eller en annen type data): Ja/Nei Ny behandling/gammel behandling Aktiv medisin/placebo Ulike typer gjødsel Ulike doser av cellegift Ja/nei Kjemisk prosess starter/starter ikke Pasienten blir frisk/ikke Mengden korn Graden av celledød Ulike typer data medfører at det er ulike måter å beskrive sammenhengen på, og ulike tall for å oppsummere den, akkurat som for deskriptiv statistikk.

Analyseoversikt, Uke 35

Kategorisk variabel mot kategorisk variabel (Ch 2.6) (Husk at både ordinale variabler (ordnede kategorier) og diskrete variabler (telledata) av og til må behandles som kategoriske variabler, og av og til som kontinuerlige variabler.) Beskrive sammenheng: Krysstabell (altså frekvenstabell for hver gruppe) Kalles også Toveis-tabell, kontingenstabell, krysstabell Eksempel: Blodtype og yrke registrert for 160 RH-ansatte ved ansatte-inngangen mellom 8 og 9 en kald høstdag: Yrke Tot Lege Spl Adm Stat A 9 20 55 0 84 Blodtype AB 1 3 5 1 10 B 2 6 17 0 25 0 5 11 33 2 51 Tot 17 40 110 3 160

Felles fordeling (joint distribution) Marginale fordelinger (det er to av dem) Betinget fordeling Er vi interessert i de observerte antallene eller i (prosent)andelene? Eksempel: Resultater fra to forskjellige meningsmålinger Count Meningsmåling stemme_til Total 1 FrP 2 Ikke FrP 1 VG 2 Aftenposten Total 272 161 433 734 569 1303 1006 730 1736

Eksempel: Risiko for kolektomi i løpet av de 5 første årene etter diagnose for pasienter med Ulcerøs kolitt. Prospektiv studie. Count Røykestatus Kolektomi Total 1 Kolektomert 2 Ikke kol 1 Røyker 2 Ikke-røyker Total 2 40 42 59 251 310 61 291 352 Risiko for uforklart fosterdød for førstegangsfødende sammenlignet med de som har født før. Retrospektiv studie. Count Røyking Føds elsgruppe Total 1 Dødføds el 2 Kontroll, levendefødt 1 10 eller flere 2 under 10 sigaretter sigaretter daglig daglig Total 16 7 23 41 81 122 57 88 145 Oppsummeringstall for sammenheng: Tallene i kysstabellene, evt uttrykt i (prosent)andeler Odds ratio (OR), Relativ risiko (RR)

gestasjonsalder: svangerskapets lengde Kontinuerlig variabel mot kategorisk variabel (eller kategorisk mot kontinuerlig) Beskrive sammenheng: Boksplott for hver gruppe (Side 97 + Ch1.3: «Side-by-side boxplot») Eksempel: Svangerskapslengde for førstegangsfødende og de som har født før 43,00 42,00 41,00 40,00 39,00 38,00 37,00 førstega Oppsummeringstall for sammenheng: rekoding av paritet har født Deskriptiv statistikk for hver gruppe, differanser mellom gjennomsnitt eller medianer.

CRP Eksempel: CRP-målinger for ulike grupper pasienter med kronisk betent tarm 300 250 200 150 100 50 0 1 2 3 4

Eksempel: Blodsukkerverdier for gravide kvinner på to tidspunkt i svangerskapet, gruppert etter deres BMI-kvartil, og om de fødte et stort barn eller ikke. Stort barn ble definert som over 4200g. N, Qvigstad E, Frøslie KF, GodangK, Henriksen T, Bollerslev J: Increased risk of macrosomia among overweight women with high gestational rise in fasting glucose. Journal of Maternal-Fetal and Neonatal Medicine 2010;23:74-81

Kontinuerlig variabel mot kontinuerlig variabel (Ch 2.2) Beskrive sammenheng: Scatterplot («Spredningsdiagram») Eksempel: Fastende blodsukker og insulin for gravide kvinner (fra STORK-studien ved Rikshospitalet) Velg selv hva som skal være på x-aksen og y-aksen. Men: Hvis (du mistenker at) den ene variabelen er en forklaringsvariabel og den andre en responsvariabel, bør forklaringsvariabelen være på x-aksen.

Hva ser vi etter? Lineærsammenheng? (en glattet linje (boka: Smoother) kan være nyttig) Positiv/negativ sammenheng? Outliere? Potensiale for at transformasjoner vil gjøre det mer lineært?

Oppsummeringstall for sammenheng: Pearsons korrelasjonskoeffisient r Tallfester graden av lineær sammenheng mellom to kontinuerlige variabler. Tolkbarhet forutsetter at minst en av variablene er normalfordelte. Sjekk v/ scatter-plott (ellipseform?), histogram, QQ-plott Eksempel: Blodsukker og insulin: r = 0.28 Egenskaper for korrelasjonskoeffisienter Korrelasjonskoeffisienten er alltid et tall mellom -1 og 1 Hvis uavhengighet: Korrelasjon = 0 Korrelasjon 1.0 eller 1.0: Eksakt lineær sammenheng

Negativ og positiv korrelasjon www.guessthecorrelation.com

Noen vanlige korrelasjonsfeller: Tidsutvikling Målinger fra uavhengige individer? Manipulering av utvalg? (Ikke tilfeldig?) Ikke-lineære sammenhenger? Hvordan unngå dem? Scatter, scatter og atter scatter!

En spesialutgave av scatter pots: «Time plots», der x-aksen viser tid. (Boka, side 23-24) Eksempel: Månedlig overvåking av sykehusinfeksjoner forårsaket av bakterien «Pseudomonas Aeruginosa». Statistisk prosesskontroll med plotting av antall infeksjoner per måned. «Dent-O-Sept-saken»: http://www.aftenposten.no/norge/50-dode-etter-bakteriesmitte-fra-dent-o-sept-524351b.html

Eksempel: Månedlig overvåking av sykehusinfeksjoner forårsaket av bakterien «Pseudomonas Aeruginosa». Statistisk prosesskontroll med plotting av antall dager mellom nye infeksjoner.

Boka, side 95 Markering av undergrupper i dataene (inkludere en kategorisk variabel i scatterplottet) På denne måten inkluderes en ekstra variabel, og det er ikke lenger en bivariat sammenheng.

Vær varsom-plakaten for bivariate analyser. Assosiasjon, hva betyr det? Assosiasjon er ikke det samme som kausalitet. Gjelder alle bivariate analyser.

En annen måte å oppsummere lineære sammenhenger på: Beregn linja y = ax + b som passer best til punktene (Ch 2.4 i boka) Etter dette er det nyttig å repetere, for dette (Ch 1, 3 og deler av Ch 2) er den overordnede introduksjonen i kurset. Vi må forstå hvordan forskningsprosessen fungerer og hvilke valg vi har når det gjelder å samle inn data (Ch 3), hvordan vi presenterer og oppsummerer informasjon vi har samlet inn (Ch 1), og hvordan vi beskriver enkle sammenhenger mellom variabler (Ch 2). Dette er i stor grad diskusjons- eller lesestoff. Hvis vi derimot skal forstå essensen i statistiske analyser, altså hva et konfidensintervall, en p-verdi eller en statistisk test er og tolkes, må vi grave oss lenger ned i tekniske begreper og mer matematikk. Det starter med Ch 3.4, og fortsetter i Ch 4, 5 og 6. Kommer: STK1000 Uke 39 og utove. Studentene forventes å lese Ch 3.4 og Ch 4 i læreboka (MMC). Essensen i statistisk analyse