Deskriptiv statistikk for sentrum og spredning i fordelingen. Gjennomsnitt og standardavvik. eller

Eksempel : tall dager i sykehus. Ikke-parametriske tester versus parametriske tester Stia Lyderse Presetert på Regioal forskigskoferase for psykiatri og rusfeltet Ålesud 4 jui 03 Behadlig : 6, 5, 37,, 3, 0, 7,, 3, 38 0,, 3, 5, 7,, 6, 37, 38, 3 Behadlig B 4, 3, 5,, 6,, 03, 65, 40, 5, 3, 49, 43, 5,, 6, 3, 3, 40, 49, 65, 5, 4, 03, 43 3 4 Example : EORTC Quality of life questioaire do you feel depressed? * performace Crosstabulatio Cout do you feel depressed? Total : ot at all : a little 3: partly 4: very much performace who 0- who -4 Total 05 7 3 63 49 49 7 76 0 8 8 437 548 5 6 Deskriptiv statistikk for setrum og spredig i fordelige Gjeomsitt og stadardavvik eller Data: x, x,..., x Lettere å rege ut Gjeomsitt: x ( x x... x ) x i i ( ) (Empirisk) varias: s ( x x ) x x i i i i Media og kvartiler (iterkvartilbredde = avstad mellom edre og øvre kvartil) (Empirisk) stadardavvik: s ( xi x) ( ) i

7 Normalfordelige I e del situasjoer er skalavariable (tilærmet) ormalfordelt, dvs symmetrisk og med e spesiell klokkeformet fasog. x f ( x) e Når data er ormalfordelt: Ca 68% ligger ie stadardavvik fra gjeomsittet Ca 95% ligger ie stadardavvik fra gjeomsittet Visse metoder forutsetter at data er (tilærmet) ormalfordelt. F.eks Studet s t-test, valig regresjosaalyse 8 Data sortert: x() x()... x( ) Media: x( )/ hvis er oddetall ( x( /) x( /) ) / hvis er partall Mediae deler tallmaterialet på midte. Like mage observasjoer uder som over mediae. Nedre kvartil, media, øvre kvartil: Deler tallmaterialet i fire like store deler. 9 0 Eksempel : tall dager i sykehus. Behadlig : 6, 5, 37,, 3, 0, 7,, 3, 38 0,, 3, 5, 7,, 6, 37, 38, 3 Behadlig B 4, 3, 5,, 6,, 03, 65, 40, 5, 3, 49, 43, 5,, 6, 3, 3, 40, 49, 65, 5, 4, 03, 43 Hvilke(t) mål vil du bruke på setrum og spredig i fordeligee? Hva blir media og kvartiler for behadlig? Eksempel - EORTC data Performace status who 0- who -4 Gjeomsitt.73.4 Stadardavvik 0.83 0.87 media

3 4 Valg av deskriptiv statisikk for setrum og spredig i fordelige Gjeomsitt og stadardavvik ELLER media og kvartiler ELLER begge deler? vheger av målsettige med aalyse. Hvis data er symmetrisk fordelt (for eksempel ormalfordelt): Media = gjeomsitt Hvis data ikke er ormalfordelt: Gaske valig å oppgi media og kvartiler. OK å oppgi gjeomsitt og stadardaavvik. Med stadardavviket har ikke samme ekle tolkig som i ormalfordelige. OK å ata ormalforeldig i små datasett? J, hvis rimelig atakelse basert på ae kuskap eller ispeksjo av data. Sammelike to grupper: Studet s t-test (parametrisk metode) eller Wilcoxo-Ma-Whitey s test (ikkeparametrisk metode)? 5 6 Sammelike to grupper Studet s t-test Sammeliker gjeomsitt i fordeligee Forutsetter at data er (tilærmet) ormalfordelt Robust mot avvik fra ormalfordelig såfremt ikke ekstremt store eller ekstremt små observasjoer Ka også berege kofidesitervall for differase Wilcoxo-Ma-Whiteys test Er observasjoee i de ee gruppe høyere e i de adre (ikke bare om mediaee er forskjellige) Baserer seg på ragordig av observasjoee, glemmer deretter verdiee av de opprielige observasjoee Gjør INGEN forutsetig om ormalfordelig (eller ae parametrisk fordelig) Kjært bar har mage av: Wilcoxo s rak sum test Wilcoxo s two sample test Ma-Whitey s U test Wilcoxo-Ma-Whitey s test 7 8 Hvorda sjekke om data avviker fra ormalfordelige? Hvis media avviker mye fra gjeomsitt, så er data ikke symmetrisk fordelt (og dermed ikke ormalfordelt). (Me ikke omvedt!) Statistisk test: Kolmogorov-Smiroff mye brukt me lite eget. Shapiro-Wilk oe bedre eget. Histogram med ormalfordeligskurve: Vaskelig å vurdere Q-Q plott: Veleget! Eksempel: tall dager i sykehus. Behadlig : 6, 5, 37,, 3, 0, 7,, 3, 38 x 3.90, s 36.4, media = 9 Behadlig B 4, 3, 5,, 6,, 03, 65, 40, 5, 3, 49, 43 x 76.54, s 75.86, media = 40 B Hva ka vi si om forskjell mellom og B i populasjoe? 3

9 0 tall dager forutsatt (tilærmet) ormalfordelt Ikke-parametriske metoder: Forutsetter ige parametrisk fordelig: Basert på ragordige av observasjoee, glemmer origialdata Behadlig sortert: 0,, 3, 5, 7,, 6, 37, 38, 3 Rag:,, 4, 5.5, 7, 8, 0.5, 4, 5, 0 Gjeomsittsrag: 8.7 ltså: tall dager er ikke ormalfordelt. Behadlig B sortert:, 5,, 6, 3, 3, 40, 49, 65, 5, 4, 03, 43 Rag: 3, 5.5, 9, 0.5,.5,.5, 6, 7, 8, 9,,, 3 Gjeomsittsrag: 4.54 Wilcoxo-Ma-Whitey s test for to uavhegige utvalg: P=0.04 3 4 Example: EORTC Quality of life questioaire do you feel depressed? * performace Crosstabulatio Cout do you feel depressed? Total : ot at all : a little 3: partly 4: very much performace who 0- who -4 Total 05 7 3 63 49 49 7 76 0 8 8 437 548 4

5 6 Eksempel - EORTC data Studet s t-test eller ikke-parametrisk metode? Er du Performace status deprimert? who 0- who -4 Gjeomsitt.73.4 Stadardavvik 0.83 0.87 media Observert differase:.4.73 = 0.4 Er det forskjell på forvetet depresjos-skåre mellom de to gruppee? Hvis data er ormalfordelt: Ikke-parametriske metoder har tilærmet (dvs este) like høy teststyrke som t-teste i middels store og store datasett Ikke-paramteriske metoder er vesetlig svakere e t-teste i små datasett. Hvis data ikke er ormalfordelt: T-teste OK hvis ikke ekstreme observasjoer Bruke t-teste på trasformerte data? Bruk e ikke-parametrisk test Studet s T-test: 95% KI (0.3, 0.59), p-verdi < 0.00 Wilcoxo-Ma-Whitey (Ikke-parametrisk test): p-verdi < 0.00 Studet s t-test: Ka også berege tilhørede kofidesitervall. Ka geeraliseres til regresjosaalyse med justerig for adre variable 7 Fra Vacouver-retigslijee : Statistics Whe possible, quatify fidigs ad preset them with appropriate idicators of measuremet error or ucertaity (such as cofidece itervals). void relyig solely o statistical hypothesis testig, such as the use of P values, which fails to covey importat iformatio about effect size. 8 Bruk t-teste hvis mulig: Høyere statistisk styrke (i små datasett) Ka også berege kofidesitervall Ka geeraliseres til lieær regresjo for å ikludere adre kovariater ICMJE Iteratioal Committe of Medical Joural Editors http://www.icmje.org/#prepare, jauar 03 9 Refereces: ltma, D. G. & Blad, J. M. 009, "Practice Statistics Notes Parametric v o-parametric methods for data aalysis", British Medical Joural, vol. 338. Blad, J. M. & ltma, D. G. 009, "Practice Statistics Notes alysis of cotiuous data from small samples", British Medical Joural, vol. 338. 5