Beskrivende statistikk Litt om SPSS HSTAT1101: 20. aug. 2004 Odd Aalen 1
Introduksjon Kunnskap om verden rundt oss kommer ofte via tall og data, dvs statistikk. Hvaersuntogusunt. Epidemiologi. Hvilke behandlinger virker. Kliniske prøvninger. Statistikk er også et styringsredskap Ventelister i sykehus Karakterer i ungdomsskolen I ledelse og økonomi må man ha data for å kunne styre bedriften 2
Medisinske budskap i media er ofte basert på statististikk. Fra VG 1.9.03: 3
Børskursen 16. august 4
Dødelighet i Tanzania og i Norge 25 Dødelighet per 1000 kvinner per år 20 15 10 5 0 15-19 25-29 35-39 45-49 55-59 20-24 30-34 40-44 50-54 Tanzania Norge Aldersgruppe (år) 5
New England Journal of Medicine, Editorial, Jan. 6, 2000, p. 42-49 The eleven most important developments in medicine in the past millennium Elucidation of human anatomy and physiology Discovery of cells and their substructures Elucidation of the chemistry of life Application of statistics to medicine Development of anesthesia Discovery of the relation of microbes to disease Elucidation of inheritance and genetics Knowledge of the immune system Development of body imaging Discovery of antimicrobial agents Development of molecular pharmacotherapy 6
Statistiske data Statistiske data kommer fra: Måling med et instrument på en skala Eksempler: Feber: 39.6 (Naturvitenskapelig) Karakterer til eksamen (Vurdering, skjønn) Kategorisering. Eksempler: mann / kvinne deprimert / ikke deprimert 7
Usikkerhet i data Reliabilitet: Hvor presise er dataene? Hvor mye kan de endres hvis observasjonen gjentas? Validitet: Måler vi faktisk det vi ønsker å få informasjon om? Er målingen relevant? Eksempel: karakterer på skole og universitet 8
Reliabilitet av spørreskjema/intervju Undersøkelse om alkoholbruk (menn 31-50 år): Gjennomsnittlig antall ganger de som sier at de har brukt alkohol siste år, oppgir at de har følt seg beruset: 1993 (spørreskjema): 14.1 berus. pr. år 1994 (MMI-intervju): 7.3 berus. pr. år I 1994 ble det spurt om tydelig beruset, ellers samme ordlyd. 9
Beskrivende statistikk Tabeller Grafiske fremstillinger Sentralmål Variasjonsmål Epidemiologiske mål 10
Alder til 100 medisinerstudenter 24 21 22 26 26 22 21 19 23 21 20 24 27 19 30 24 22 21 22 20 19 23 20 20 23 21 22 22 21 20 24 22 22 22 23 21 23 19 20 23 20 25 26 22 21 22 20 22 21 20 20 19 19 23 23 22 20 21 22 19 21 22 20 23 22 22 21 20 19 24 26 22 19 21 24 22 23 22 19 21 21 24 21 19 39 31 21 18 24 21 22 23 19 26 32 22 21 23 19 28 11
Hyppighetstabell for alder AGE Freq Percent Cum Percent 18.00 1 1.0 1.0 19.00 13 13.0 14.0 20.00 13 13.0 27.0 21.00 19 19.0 46.0 22.00 22 22.0 68.0 23.00 12 12.0 80.0 24.00 8 8.0 88.0 25.00 1 1.0 89.0 26.00 5 5.0 94.0 27.00 1 1.0 95.0 28.00 1 1.0 96.0 30.00 1 1.0 97.0 31.00 1 1.0 98.0 32.00 1 1.0 99.0 39.00 1 1.0 100.0 Total 100 100.0 12
Histogram: Fordeling av alder blant nye medisinerstudenter (n=100) 25 Studenter fra med.fak. (< 30 år). Kull H98 20 15 10 Antall studenter 5 0 17 18 19 20 21 22 23 24 25 26 27 28 29 Alder (år) 13
Sentralmål Gjennomsnitt Summere alle tall, og dele på antallet Median Ordne alle tall i stigende rekkefølge Medianen er det midterste (eller gjennomsnitt av de to midterste) 14
Sentralmål fortst. Eksempel: Sentralmål for studentenes alder (n = 100 studenter): Gjennomsnittsalder: 22.4 år Medianalder: 21.9 år Median versus gjennomsnitt: Gjennomsnittet kan være sårbart overfor ekstreme verdier. Medianen er derimot robust. 15
Variasjonsmål Standardavvik definisjon på neste slide Fraktiler (persentiler): eks.: 25%-fraktilen er den verdi som 25% av materialet under seg og 75% over seg Alder kull H98: standardavvik: 3.09 år 25%-fraktil: 20.5 år nedre kvartil 75%-fraktil: 23.2 år øvre kvartil 16
Standardavvik Målinger: Gjennomsnitt: x = 1 ( x + x + + x ) = 1 x 1 2 Standardavvik: x, x,..., 1 2 x n n n n i s = ( x x) 1 2 n 1 i 17
Typer av grafisk fremstilling Histogram Box-plott Spredningsdiagram Insidenskurve 18
Histogram Histogram over vekt. Data fra medisinerstudenter (n=95) Antall studenter Vektfordeling blant 95 studenter 25 20 15 10 5 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Vekt (kg) 19
Box-plott Box-plott for sammenlikning av høyde blant menn og kvinner. Data fra medisinerstudenter (n=95) Høyde 200 190 180 170 160 150 N = 49 kvinne 46 mann Kjønn 20
Spredningsdiagram Spredningsdiagram for vekt mot høyde. (n=95) 100 90 80 70 60 Vekt (kg) 50 40 150 160 170 180 190 200 Høyde (cm) 21
Spredningsdiagram med linjer 100 Spredningsdiagram av vekt mot høyde. Innlagte regresjonslinjer for menn og kvinner (n=95) Vekt (kg) 90 80 70 60 50 40 150 160 170 180 190 Kjønn mann kvinne 200 Høyde (cm) 22
Insidens av malignt melanom blant kvinner i Norge 18 Aldersjustert insidens per 100,000 personår 16 14 12 10 8 6 4 2 0 56-60 61-65 66-70 71-75 76-80 81-85 86-90 91-95 Tidsperiode i 5-års intervaller 23
Statististikkpakken SPSS SPSS er et stort system av programmer som kan brukkes til å utføre statistiske beregninger og analyser. Noen øvelser i kurset vil benytte SPSS. SPSS er tilgjengelig på PC-stuene ved Det medisinske fakultet. SPSS blir benyttet i første øvelse. 24
Beskrivende statistikk i SPSS Beskrivende analyse kan utføres på følgende måte: Klikk Analyze - Descriptive Statistics - Explore. Klikk på de relevante variablene og overfør dem til Dependent List. Klikk på Plots, fjern krysset ved Stem and leaf og sett i stedet et kryss ved Histogram. Klikk på Continue for å forlate Plots-menyen. Klikk så på OK for å få jobben utført 25
Utskrift fra SPSS Explore: Høyde 95 studenter Strek over det som ikke er gjennomgått ennå. Descriptives hoeyde Mean 95% Confidence Interval for Mean Lower Bound Upper Bound Statistic Std. Error 175.3158.86090 173.6064 177.0251 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis 175.2602 175.0000 70.410 8.39106 159.00 193.00 34.00 12.00 -.053.247 -.741.490 26
Hvordan lage spredningsdiagram i SPSS For å lage spredningsdiagram, klikk på Graphs - Scatter - Define. Plukk ut de to variablene som skal være på Y-aksen og X-aksen henholdsvis Hvis du ønsker å skille mellom gruppene, kan du overføre grupperingsvariabelen til Set Markers by Et spredningsdiagram kan redigeres ved å dobbeltklikke på diagrammet. Du får da opp en Chart Editor. Klikk på høyre musetast ved et av punktene i det nye diagrammet, og velg f.eks. Add Fit Line at Total. Du får da en rett linje (en såkalt regresjonslinje). Du får også en meny som gjør at du kan velge mellom flere kurver. 27
SPSS spredningsdiagram med linje 800,00 Gjennomsnitt av seks målinger av lungefunksjon (PEF) mot høyde. pefmean 700,00 600,00 500,00 400,00 300,00 160,00 170,00 180,00 190,00 hoeyde 28