Kan vi stole på resultater fra «liten N»?

Like dokumenter
Analytisk strategier for persontilpasset medisin og helseovervåkning

Test, 3 Sannsynlighet og statistikk

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Kort overblikk over kurset sålangt

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

TMA4240 Statistikk H2010 (20)

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

6.2 Signifikanstester

Verdens statistikk-dag.

1 9-3: Sammenligne gjennomsnitt for to uavhengige stikkprøver : Sammenligne gjennomsnitt for to relaterte stikkprøver

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4240 Statistikk Høst 2016

i x i

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

Kapittel 3: Studieopplegg

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

STUDIEÅRET 2016/2017. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 27. april 2017 kl

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Fasit for tilleggsoppgaver

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Forkurs i kvantitative metoder ILP 2019

Statistikk for språk- og musikkvitere 1

Forelesning 7 Statistiske beskrivelser av enkeltvariabler. Mål for sentraltendens

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Statistikk. Forkurs 2017

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Statistikk og dataanalyse

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Statistikk. Forkurs 2018

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Hypotesetesting. mot. mot. mot. ˆ x

TMA4240 Statistikk H2010 (22)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting. Kp. 6 Hypotesetesting ...

Repeterte målinger. Repeterte målinger. Eirik Skogvoll. Gjentatte observasjoner på samme individ:

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Mer om hypotesetesting

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Forkaste H 0 "Stikkprøven er unormal" Akseptere H 0 "Stikkprøven er innafor normalen" k kritisk verdi. Utgangspunkt for H 0

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ME Metode og statistikk Candidate 2511

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Hypotesetesting: Prinsipper. Frode Svartdal UiTø Januar 2014 Frode Svartdal

ST0202 Statistikk for samfunnsvitere

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Statistikk i klinikken. Arild Vaktskjold 2015

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Løsningsforslag eksamen STAT100 Høst 2010

TMA4240 Statistikk H2010 (19)

Oppsummering & spørsmål 20. april Frode Svartdal

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

10.1 Enkel lineær regresjon Multippel regresjon

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Kapittel 9 og 10: Hypotesetesting

Løsningsforslag: STK2120-v15.

Løsning eksamen desember 2017

Sannsynlighet og statistikk S2 Oppgaver

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

ECON240 VÅR / 2016 BOKMÅL

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Repeterte målinger. Repeterte målinger. Eirik Skogvoll

EKSAMEN 4016/4016N VITENSKAPSTEORI OG NATURSYN. Tid : 1 time (9-10)

Informasjon om eksamen SOS Kvantitativ metode

Sannsynlighet og statistikk S2 Løsninger

ST0202 Statistikk for samfunnsvitere

Skoleeksamen i SOS Kvantitativ metode

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

TMA4245 Statistikk Eksamen desember 2016

1 10-2: Korrelasjon : Regresjon

Eksamensoppgave i ST3001

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Kapittel 4.4: Forventning og varians til stokastiske variable

Løsningsforslag til obligatorisk innlevering 3.

Transkript:

Kan vi stole på resultater fra «liten N»? Olav M. Kvalheim Universitetet i Bergen

Plan for dette foredraget Hypotesetesting og p-verdier for å undersøke en variabel p-verdier når det er mange variabler Er økt populasjon (N) eller flere variabler (mønster) best for å oppnå økt signifikans? Eksempel

Hypotesetesting og p-verdier Oppgave: Vi ønsker å finne ut om kvinner og menn i en region, f.eks. en kommune, har forskjellig for nivå av det gode kolesterolet (HDL) i blod. I statistikkens verden formuleres oppgaven som en hypotese, H1, som må testes opp mot den alternative hypotesen H0 (nullhypotesen) om at det ikke er en forskjell.

Hypotesetesting og p-verdier Fremgangsmåte for å løse oppgaven: Vi samler inn og analyserer blodprøver fra N kvinner og N menn valgt tilfeldig i kommunen, men med en lik profil i alderssammensetning.

Hypotesetesting og p-verdier Resultat av datainnsamling: Vi får en tabell med to kolonner, en for HDL i blod hos menn og en for kvinner (N=10): Menn Kvinner 1,1 1,9 1,6 1,5 1,3 1,3 0,9 1,8 1,7 1,4 1,4 1,6 1,5 1,5 1,1 1,0 1,2 1,7 1,3 1,4

Hypotesetesting og p-verdier Analyse av data: Vi tallene i tabellen og får en sum for HDL i blod hos menn og en for kvinner: Menn Kvinner 1,1 1,9 1,6 1,5 1,3 1,3 0,9 1,8 1,7 1,4 1,4 1,6 1,5 1,5 1,1 1,0 1,2 1,7 1,3 1,4 13,1 15,1

Hypotesetesting og p-verdier Analyse av data: Ved å dele summen på N=10 får vi et gjennomsnitt for HDL i blod hos menn og kvinner: Menn Kvinner Sum 13,1 15,1 Snitt 13,1 : 10 = 1,31 15,1 : 10 = 1,51

Hypotesetesting og p-verdier Resultat av analyse: Kvinner har i gjennomsnitt 0,2 enheter mer av «det gode kolesterolet» HDL i blodet enn menn.

Hypotesetesting og p-verdier Konklusjon: Kvinner har høyere nivåer av HDL enn menn! Kan vi stole på dette? Er dette et resultat som er «statistisk signifikant»?

Hypotesetesting og p-verdier For å svare på dette må vi gjøre litt mer analyse.

Hypotesetesting og p-verdier Mer analyse av data: Vi regner ut differansen mellom målt HDL og gjennomsnittet beregnet for menn (1,3) og kvinner (1,5): Menn Kvinner -0,2 0,4 0,3 0 0-0,2-0,4 0,3 0,4-0,1 0,1 0,1 0,2 0-0,2-0,5-0,1 0,2 0-0,1

Hypotesetesting og p-verdier Mer analyse av data: Vi regner ut variasjonen i HDL for menn og kvinner ved å summere de kvadrerte avvikene fra gjennomsnittet for kvinner og menn: Menn Kvinner 0,04 0,16 0,09 0 0 0,04 0,16 0,09 0,16 0,01 0,01 0,01 0,04 0 0,04 0,25 0,01 0,04 0 0,01 0,55 0,61

Hypotesetesting og p-verdier Mer analyse av data: Ved å dele variasjonen i HDL for menn og kvinner med N-1 = 9 (tap av en frihetsgrad siden vi har beregnet gjennomsnitt HDL) får vi variansen i HDL: Menn Kvinner Variasjon 0,55 0,61 Varians 0,55 : 9 = 0,06 0,61 : 9 = 0,07

Hypotesetesting og p-verdier Mer analyse av data: Ved å ta kvadratroten av varians får vi standard avvik i HDL for menn og kvinner: Menn Kvinner Variasjon 0,55 0,61 Varians 0,55 : 9 = 0,06 0,61 : 9 = 0,07 Stand. Avvik 0,06 = 0,24 0,07 = 0,26 Standard avvik er et mål på spredning av målte HDL-nivåer i menn og kvinner!

Hypotesetesting og p-verdier Resultat av analyse: Snitt ± Stand. Avvik Menn 1,31 ± 0,24 Kvinner 1,51 ± 0,26 Forutsetning: Målingene tilfeldig fordelt rundt snittverdiene. 68% av målingene fordele seg innenfor et stand. avvik over (+) og under (-) snittverdiene.

Hypotesetesting og p-verdier 1. Vi ønsket å teste om kvinner og menn har forskjellig nivå av «det gode kolesterolet» (HDL) i blod. 2. Vi har samlet inn materiale fra N kvinner og menn og vil teste en nullhypotese om at de er like. 3. Ved å utføre en test (f.eks. en såklat t-test når data er normalfordelt både for kvinner og menn) kan vi beregne en sannsynlighet p for at nullhypotesen er korrekt. 4. Dersom p blir mindre enn en valgt grenseverdi, ofte 0.05, forkastes nullhypotesen, og vi kan konkludere med at det er en signifikant forskjell mellom kvinner og menn i HDL-nivå.

Hva bestemmer signifikans (p-verdi)? Forskjellen i middelverdi og spredning (standardavvik) av HDL-nivå for kvinner og menn. Ved å øke antall observasjoner blir spredningen (standard avvik) mindre og signifikans av testen øker. => Signifikans øker med kvadratroten av antall observasjoner, N kvinner og N menn. Små forskjeller kan bli signifikante (liten p) dersom antall målinger er stort!

Hva bestemmer signifikans (p-verdi)? Store forskjeller kan bli signifikante (liten p) selv om antall målinger er lite dersom det er (forholdsvis) stor forskjell i middelverdi eller liten spredning!

Hva om vi har flere variabler som skal testes for signifikans? Vi ønsker å sammenligne om middelverdien for kvinner og menn er like for nivå i blod av TC, LDL, HDL og TG (nullhypotese). Siden sannsynligheten for å finne forskjeller øker når antall tester øker, må vi korrigere for multippel testing. Dette kan gjøre på to måter, Bonferroni eller «false discovery rate», FDR.

Korrigerte p-verdier for Bonferroni og FDR For Bonferroni med 4 tester kreves p-verdi mindre eller lik 0.0125 for å forkaste nullhypotesen for hver enkelt variabel svarende til 0.05-nivå for en test. For FDR sorteres p-verdiene i stigende rekkefølge. For variabelen med lavest p-verdi må p være mindre eller lik 0.0125 for at noen av variablene skal være signifikant på 0.05-nivå, men hvis første er under så er neste signifikant på 0.05-nivå dersom p er mindre eller lik 0.025 osv.

Hvilke konsekvenser har denne strategien for hypotesetesting? Måling av mange variabler => større N er nødvendig => Fokus på en variabel om gangen siden testing av flere variabler krever sterk økning N; 2 variabler impliserer 4N, 3 variabler 9N osv. for å opprettholde samme signifikansnivå (p) forutsatt omtrent samme forskjell i middelverdi og spredning på de målte variablene.

Er det andre konsekvenser? Man tar en datatabell med mange variabler og plotter en og en variabel om gangen inntil man (tilfeldigvis) finner en sammenheng. Men: Man har da egentlig gjort en multippel testing uten å korrigere p!

Tradisjonelt en variabel om gangen I tradisjonell «univariat» tilnærming brukes verdi på en variabel (markør) for å skille mellom to grupper individer. Grå sone viser område der det kan være vanskelig å si hvilken gruppe en person tilhører.

Finnes det en alternativ strategi? Måling av mange variabler samtidig f. eks. med spørreskjema => Lav pris sammenlignet med å øke N. Finnes det en strategi som kan gi høy signifikans med forholdsvis liten N, men mange variabler?

Bedre alternativ mønster av flere variabler I «multivariat» tilnærming brukes flere variabler (markører) sammen for å gi et mønster som hjelper for å se forskjellene mellom de to gruppene av individer.

Bedre alternativ mønster av flere variabler Høy korrelasjon (sammenheng) mellom variablene betyr høy (statistisk) signifikans med lav N!

Sammenheng mellom kardiorespiratorisk form og lipoproteinmønster i friske voksne

BMI Chol TG ApoA1 ApoB CM VLDL LDL HDL VLDL-VL VLDL-L VLDL-M VLDL-S LDL-L LDL-M LDL-S LDL-VS HDL-VL HDL-L HDL-M HDL-S HDL-VS VLDL-Size LDL-Size HDL-Size Selectivity Ratio (6 minutters gangtest) Lipoproteinmønster relatert til resultat av 6 minutters gangtest, voksne kvinner (N ca. 40) 1.5000 1.0000 0.5000 0.0000-0.5000-1.0000 Korrelasjon mellom målt og beregnet antall meter gått: R2Y=0.57

Fedme øker hastigheten på metabolsk aldring

Endringer i fettstoffskiftet etter fedmeoperasjon

Takk for oppmerksomheten!

Kjønnsforskjeller og forandringer i lipoproteinmønster fra prepubertet til voksen og ved aldring Rajalahti et al. (2016), Metabolomics, 12:51. Rajalahti et al. (2016) Metabolomics, 12:81.

Lipoprotein-mønster for barn Små kjønnsforskjeller Gutter har høyere HDL konsentrasjon enn jenter Jenter har høyere VLDL (og TG) konsentrasjoner enn gutter Forklaring: Gutter er mer fysisk aktive enn jenter

Forandring i lipoproteinmønster fra prepubertet til voksen Blå => menn, rød => kvinner

Forandringer i lipoproteinmønster med aldring Blå => menn, rød => kvinner