Regional forskingskonferanse for Psykiatri og rusfeltet Vår 2013. Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU

Like dokumenter
Kunnskapshierarkiet- Hva betyr det for oss? Olav M. Linaker 2011

Kan vi stole på resultater fra «liten N»?

Nysgjerrigper. Forskningsrådets tilbud til barneskolen. Annette Iversen Aarflot Forskningsrådet, 13.november 2015 Nysgjerrigperkonferansen 2015.

STUDIEÅRET 2013/2014. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Fredag 25. april 2014 kl

Sjekkliste for vurdering av en kohortstudie

Hva er evidens? Eva Denison

Mer om hypotesetesting

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Utvalgsstørrelse, styrke

Kapittel 3: Studieopplegg

STUDIEÅRET 2012/2013. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Onsdag 24. april 2013 kl

SJEKKLISTE FOR VURDERING AV EN KOHORTSTUDIE

Hypotesetesting: Prinsipper. Frode Svartdal UiTø Januar 2014 Frode Svartdal

6.2 Signifikanstester

STUDIEÅRET 2012/2013. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 27. august 2013 kl

Oppsummering & spørsmål 20. april Frode Svartdal

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

KLH 3002 Epidemiologi Eksamen Høst 2011 Eksaminator: Geir W. Jacobsen, ISM

Statistikk er begripelig

Kunnskapsbasert fysioterapi - kritisk vurdering av et randomisert kontrollert forsøk, RCT

Kurs i kunnskapshåndtering å finne, vurdere, bruke og formidle forskningsbasert kunnskap i praksis. Hege Kornør og Ida-Kristin Ørjasæter Elvsaas

Nasjonale prøver i lesing, regning og engelsk på 5. trinn 2015

Repeated Measures Anova.

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT) Målgruppe: studenter og helsepersonell Hensikt: øvelse i kritisk vurdering

Group-based parent-training programmes for improving emotional and behavioural adjustment in children from birth to three years old

Prosjektbeskrivelsen består av

Sjekkliste for vurdering av en randomisert kontrollert studie (RCT)

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Hvordan forstå meta-analyse

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 25. august 2015 kl

Løsningsforslag Til Statlab 5

Kunnskapsesenterets Bruk og tolkning nye PPT-mal av meta-analyser. Jan Odgaard-Jensen, statistiker

Utprøving av KOR i døgnbehandling ved Nordlandsklinikken. Silje Wangberg, KoRus Nord og HiN

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Legg merke til at summen av sannsynlighetene for den gunstige hendelsen og sannsynligheten for en ikke gunstig hendelse, er lik 1.

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Bjørn H. Grønberg PRC & Kreftklinikken, St. Olavs Hospital. European Palliative Care Research Centre (PRC)

«Litterasitetsutvikling i en tospråklig kontekst»

Noen momenter ved vurdering av eksamen PSY1010 PSYC1100 høsten 2018.

Sjekkliste for vurdering av en kasuskontrollstudie

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

OM EXTRANET OG KAMPANJENS MÅLINGER (innsatsområdene UVI og SVK) Side 2

Lot-lot variasjon -bakgrunn og forslag til utførelse

Leker gutter mest med gutter og jenter mest med jenter? Et nysgjerrigpersprosjekt av 2. klasse, Hedemarken Friskole 2016

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Undersøkelse om utdanning

Logistisk regresjon 2

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Litterasitetsutvikling i en tospråklig kontekst

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Statistikk & dataanalyse: Et eksempel. Frode Svartdal UiT mars 2015

Samlet rapport fra evalueringen HEL907 høst 2015.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Bærekraftig utvikling - forskerspiren. Maria Sviland, Skolelaboratoriet NTNU

Høye skårer indikerer høye nivåer av selvkontroll.

Hvordan analysere måledata vha statistisk prosesskontroll? Side 2

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT)

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Slutninger fra data FRODE SVARTDAL UIT 2015

Vaksine mot livmorhalskreft - så flott! Så hvorfor ikke udelt entusiasme?

EKSAMEN I TMA4245 Statistikk

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

Tema Kvalitativ og kvantitativ forskningsmetode. Forskningsmetode. Kausalitet. Reliabilitet og validitet. Usikkerhet. IA mandag 5/9-2014

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Hva kan bidra til å styrke vår emosjonelle utvikling, psykiske helse og positive identitet?

Mestringsforventninger i matematikk. Learning Regions Karin Sørlie, Ingrid Syse & Göran Söderlund

Prosjektbeskrivelsen består av

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

Bedømmelse av usikkerhet

En studie av behandling for mennesker med samtidige rus og psykiske lidelser

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

Trygghet og innflytelse. i Fredrikstad kommune

Introduction to the Practice of Statistics

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Sentralmål og spredningsmål

Helse- og Overdoseteamet i Trondheim kommune. Foto: Geir Hageskal

Brukerundersøkelser når innvandrere er brukere (forts.) Elisabeth Gulløy Statistisk sentralbyrå 15. september 2010

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Metodisk arbeid. Strukturert arbeidsmåte for å nå et bestemt mål

Kursopplegg og innleveringer på OADM 3090, vår 2009

ter». Men det er et problem med denne påstanden, for hvis den er absolutt sann, så må den være absolutt usann.

Møtesaksnummer 41/15. Saksnummer 14/ Dato 3. november Kontaktperson Nina Bachke. Sak

Utdrag fra Beate Børresen og Bo Malmhester: Filosofere i barnehagen, manus mars 2008.

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

FORSKNINGSMETODE NOEN GRUNNLEGGENDE KONSEPTER

Analytisk strategier for persontilpasset medisin og helseovervåkning

KVANTITATIV METODE. Marit Schmid Psykologspesialist, PhD HVL

Høyest dødelighet blant ufaglærte menn

Komplekse intervensjoner Metodiske utfordringer. Liv Wensaas PhD, RN, Leder for FOU enheten Helse og omsorg Asker kommune

Hypotesetesting. mot. mot. mot. ˆ x

EKSAMENSBOOST - TIPS OG RÅD. Ingrid Sand og Linda Therese Sørensen MN-fakultetet

Refleksjonsnotat Januar

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Transkript:

Regional forskingskonferanse for Psykiatri og rusfeltet Vår 2013 Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU

Effektiv forskning Dette møtet skal handle om å gjøre forskningsarbeidet vårt effektivt Vi skal få mest mulig kunnskap og produksjon ut av minst mulig innsats Grådighet og latskap er en uslåelig kombinasjon forutsatt at den moralske ryggraden er sterk nok

Vi skal ta utgangspunkt i noen begreper Forskningsspørsmålet Statistisk power Statistisk signifikansgrense Effektstørrelse Klinisk signifikans Andre trusler mot effektiv forskning Og vi skal skule til et hypotetisk forskningsprosjekt underveis

Forskningsspørsmålet Relevant og interessant Presist hvem og hva gjelder det Upresise spørsmål gir upresise svar Observerbart Om vi ikke kan oppdage variasjoner i det vi er interessert i er det ikke mulig å finne dem Testbart Er spørsmålet formet som noe det går an å avkrefte?

Hva er statistisk power En studies evne til å oppdage forskjeller eller sammenhenger hvis de finnes Tradisjonelt settes ønsket styrke ofte til 0,80 Dvs. at det er 80 % sjanse til å finne forskjeller som er der Eller at vi finner forskjeller som er der i 4 av 5 studier. =Sannsynligheten for å unngå type II feil En type-ii-feil er en statistisk feil som består i en feilaktig godtakelse av nullhypotesen. Hvis man konkluderer at nullhypotesen er sann, selv om den egentlig er falsk, har man altså gjort en type-ii-feil

Hva påvirker Power (styrke) En studies Power påvirkes av: Valgt signifikansnivå (alpha oftest 0.05) Effektstørrelsen på det vi er interessert i Antallet som studeres Ved resultater der vi ikke finner ventede forskjeller kan vi gjøre en post-hoc analyse for å se hvor stor sjansene for å finne noe var Hvis vi har bestemt oss for ønsket Power, Signifikansnivå og ønsket Effektstørrelse, kan vi beregne hvor mange som trenges i en undersøkelse (apriori power analyse)

Hvordan påvirkes Power Power svekkes av Strengere alpha (p<0.001) Mindre effektstørrelse Mindre antall studerte (N) Ved en gitt alpha (0.05) ser det slik ut ved forskjellige effektstørrelser (power på y-akse, antall på x-aksen) 120 100 80 60 40 20 0 10 30 50 80 100 200 500 0.20 0.50 0.80

Hvorfor er dette viktig? Ved å ta hensyn til de forhold som inngår i Powerberegningen, kan vi lage mer effektiv forskning Der vi ikke trenger så mange personer, da det er det som ofte er arbeids- og tidskrevende Vi skal se på delelementene Statistisk signifikansgrense Effektstørrelse Klinisk signifikans Hensikten er å begrense den nødvendige N og å kunne være rimelig sikker på resultatet selv om det er negativt.

Statistisk signifikans Sjansene for å gjøre type I feil Dvs. finne noe som ikke er der I vitenskapelig litteratur er den ganske fastlåst til 0.05 eller mindre (eller tilsvarende konfidensintervall) Ser vi på flere forhold i samme undersøkelse må vi korrigere nivået for dette (Bonferroni) Derfor vil en studie som tester flere hypoteser (som multippel regresjon med flere kovariater) i realiteten ha en alpha mindre enn 0.05 Ved å legge inn kovariater svekker vi altså Power Konsekvens: Jobb med protokollen til du har funnet ut hva som er viktig å få svar på Og still bare det ene spørsmålet! Hva med enhalede tester?

Effektstørrelse Hva er Effektstørrelse: formler M er gjennomsnittsverdi, SD er standardavviket

Cohen s d Psykologen Jacob Cohen (1923-1998) populariserte dette målet på styrken av sammenhenger som ofte kalles for Cohen s d (standardized mean difference) Han foreslo også grove retningslinjer for hva som tilsvarte liten, middels og stor effekt knyttet til størrelsen på d Fordelen med effektstørrelser er at de er relativt uavhengige av opprinnelig måleskala. Man transformerer de opprinnelige tall til antatt sammenliknbare størrelser, noe som anvendes i metaanalyser Størrelsen på d er avhengig av spredningen i de aktuelle data d fra en studie er derfor forskjellig fra d fra en annen studie i absolutt størrelse målt etter skalaen tallene er hentet fra Stor effektstørrelse er derfor forskjellig fra klinisk signifikans

Skjønnsmessige grenseverdier Effect size: Standardized mean difference: (d) small = 0.20 medium = 0.50 large = 0.80 d? r? OR? AUC? Effect size: r Small 0.10 Medium 0.30 Large 0.50 Effect size: Odds-ratio small = 1.50 medium = 2.50 large = 4.30

Andre effektstørrelser Korrelasjonskoeffisienten (r) Odds ratio F Eta squared AUC Input Type Input Value r 0,3000 r d odds ratio f eta-squared AUC 0,3000 0,6290 3,1294 0,3145 0,0900 0,6717

Vi går tilbake til Cohen s formel Altså: Standardized mean difference er Mean1-Mean2/ felles Standardavvik d blir altså større når forskjellene mellom gruppene øker og d blir mindre når spredningen i observasjonene øker

Dette er påvirkbart Ser vi på forskjellen i Mean (M1-M2) kan vi maksimere den på forskjellige måter Vi må bestemme observasjonsmåte Vi må bestemme oss for hvor store (små) forskjeller vi er interessert i (klinisk signifikans) Da er det en fordel å kjenne måleinstrumentet selv Eller kanskje det finnes etablerte grenseverdier av interesse? Stort sett bør vi ta sikte på endringer/ forskjeller som er store nok til å være klinisk observerbare og meningsfulle

Kan vi øke forskjellene? (M 1 -M 2 ) Her kan vi se på måleinstrumentene våre utvalget prosedyrer design

Måleinstrumentene Er det presist Fanger det opp de viktige tingene vi er interessert i (validitet) Fanger det opp irrelevante ting (intern konsistens) Fanger det opp ting vi ikke tror vil endres og/eller konstante ting (manglende endringssensitivitet) Hvor viktige disse tingene er varierer med forskningsspørsmålet kan være annerledes for korrelasjonsstudier enn for effektstudier

Følsomhet Er skalaen lang nok til å fange opp interessante forskjeller Er skalaen sensitiv nok i det området vi er interessert i Dette krever både vurderinger og kanskje kliniske piloter/ utprøvinger

Utvalget Mange hensyn å ta: relevans, generaliserbarhet, unngå bias For å bedre muligheter for tydelige forskjeller mellom grupper: Har du valgt personer med bedringspotensiale (eller variasjoner i tilstanden ved korrelasjonsstudier) uten komorbiditet som påvirker måleinstrumentet uten komorbiditet som påvirker effekten av tiltaket Som er relativt like for å unngå «uhell» under randomisering

Prosedyrer Andre ting enn vår «intervensjon» kan påvirke tilstanden og måleverdien: Tid Person Observeres på «samme» tidspunkt Er personene som skal observere samkjørt Kommunikasjon Er det rom for personlige formuleringer og emosjonspåvirkning Rekkefølger Rekkefølgen kan spille en rolle ved flere typer observasjoner Håndtering av biologiske prøver Avleses urinstiks i samme typen lys Ligger prøvene korrekt tid før analyser Er analyseapparater kalibrert Vi ønsker at mest mulig skal være likt

Randomisering Randomisering sikrer mot skjevhet hvis utvalget er stort, men ikke ved små utvalg Studie Kontroll Menn 8 12 Kvinner 12 8 Sum 20 20 P= 0,21 Kanskje bør vi Matche i par? Kan vi gjøre stratifiserte analyser

Designet Har kontrollgruppen samme grad eller frekvens av det du er interessert i? De dårligste har ofte stort eller lite bedringspotensiale Er kontrollenes vilkår klart forskjellige fra studiegruppen Sammenlikner du ny behandling med en allerede kjent effektiv behandling? Sammenlikner du to risikogrupper med hverandre?

Vi går igjen tilbake til Cohen s formel Altså: Standardized mean difference er Mean1-Mean2/ felles Standardavvik d blir altså større når forskjellene mellom gruppene øker og d blir mindre når spredningen i observasjonene øker

Hva med spredningen? Alle observasjoner inneholder støy og bias Støy er tilfeldig variasjon, bias er systematisk variasjon i en bestemt retning Støy øker spredningen på irrelevant måte Derved vil effektstørrelsen og derfor power minke 120 For å redusere støy kan vi se på Måleinstrumentet Utvalget Prosedyrer 100 80 60 40 20 0.20 0.50 0.80 0 10 30 50 80 100 200 500

Hva med nevneren SD er standardavviket eller s: Den blir mindre når individuelle avvik fra snittet er små, dvs. når populasjonene er homogene Den kan også bli mindre når N vokser (hvis flertallet har små avvik)

Presisjon Måleinstrumentet Fanger det opp bare det vi er interessert i (validitet, intern konsistens) Har det en iboende liten irrelevant spredning Inter-rater reliabilitet Test-retest reliabilitet Alternate forms reliabilitet Sammenlikne med gullstandard

Utvalget Har vi utvalg som er relativt like for det aktuelle måleinstrument (og for alminnelig klinisk gangsyn og for dokumenterte variasjoner) Kan særlige problemstillinger øke spredningen kunstig (rusmidler, funksjon, sykdom, kriser, alder, kjønn.) Bør vi sikre oss liten spredning med inklusjons- og eksklusjonskriterier Kan gå utover rekrutteringen En kan få mer like utvalg ved matching og stratifisering

Prosedyrer Andre ting enn kan påvirke våre observasjoner og gi irrelevant spredning, ikke bare pga observasjonsmåten, men også fordi folk er påvirkbare: Tid Observeres på «samme» tidspunkt Person Er personene som skal observere samkjørt Kommunikasjon Er det rom for personlige formuleringer og emosjonspåvirkning Rekkefølger Rekkefølgen kan spille en rolle ved flere typer observasjoner Håndtering av biologiske prøver Avleses urinstiks i samme typen lys Ligger prøvene korrekt tid før analyser Er analyseapparater kalibrert Vi ønsker igjen at mest mulig skal være likt

En observatør Observatørene Dagsform Trening/ hyppighet av skåring Sym- og antipatier Ulike referanserammer De umiddelbare og nære omgivelser kan farge vurderinger Flere observatører Er de samkjørt skårer de like ting likt? Opplæring, trening, Omgivelser/ setting Trenger du å dokumentere inter-rater reliabilitet? Kan du bruke konsensus som endepunkt

Samarbeid Har man laget strenge inklusjonseksklusjonskriterier blir rekruttering raskt et problem Samarbeid mellom flere enheter er da en mulighet for å øke rekruttering Enheter er forskjellige på mange vis Dette kan utsette både størrelsen på oppnådd endring og spredningen for fare Flere enheter gir logistiske og prosedyremessige problemer og en bør vurdere om det svarer seg

Bias Bias er systematiske skjevheter i utvalg, prosedyrer eller observasjoner Hvis de er planlagte er det forskningsjuks! Mens tilfeldige variasjoner gir uklare svar, vil Bias gi feil svar Vanlige tiltak mot bias er Randomisering Blinding Likebehandling Crossover designs Unngå frafall Bindende analyseplan

Frafall Stort frafall reduserer N som kan analyseres og kan øke standardavviket, og svekker Power Et annet problem er at de frafalne kan skjule viktige deler av sannheten (F. eks. bivirkninger) Særlig om frafallet er skjevfordelt bør en tenke på dette Skjevt frafall kan i verste fall føre til helt feil konklusjon

Vi må prøve å hindre frafall Ikke gjøre deltakelse verre enn vi må Vise takknemlighet og folkeskikk Vise entusiasme og motivere deltakere Inklusive samarbeidspartnere Premier? Aktiv oppfølging/ purring (be om tillatelse ved samtykket) Kan vi kompensere frafall med analyser?

Blinding Ideelt sett skulle ingen av de som deltar i arbeidet, hverken som pasienter eller forskere/ assistenter ha peiling på hva som foregår. Det kan være vanskelig Det er lettere å forkle en pille enn et lengre terapiprogram, lysbehandling, opplæring og trening. Man kan bedre dette ved at de som skårer hovedresultater er blindet Pasientene selv kan også skåre, men relevansen til en del kliniske størrelser kan være uklar, og de er heller ikke upåvirkelige

Oppsummert: Det er en stor fordel å vite nøyaktig hva vi lurer på Vi må maksimere gruppeforskjeller Vi må minimere tilfeldig støy i observasjonene Vi må motvirke bias