Statistikk er begripelig
men man må begynne med ABC
ANOVA ANOVA er brukt til å sammenligne gjennomsnittsverdier Slik er det, selv om det er Analysis of Variance man sier
BIVARIAT Bivariat analyse er godt nok for å gi litt lyse Men for å finne strukturer må vi bruk multivariat analyse
Univariat analyse Bivariat analyse Multivariat analyse Beskrivelse eller test av en variabel Beskrivelse eller test av en variabel mot en uavhengig variabel; lønn mot kjønn f eks Flere enn to variabler i analysen. Hvordan flere uavhengige variabler påvirker en avhengig variabel eller sammenheng på annen måte.
COX-REGRESJON Cox-regresjon er brukt for overlevelsedaten Den avhengige variabelen er hasardraten.
Data Data er opplysninger som foreligger som tall Er det annen type av opplysninger kan de uttrykkes som tall i alle fall
Alder 15, 22, 38 og så videre Kjønn Helse Mann=0 Kvinne=1 Godt helse=10. Dårlig helse=1
Ensidig test Ensidige tester må brukes med stor forsiktighet Brukes bare når man har en svært god grunn til å gjøre det
Frekvensfordeling Frekvensfordelingen er hvor dataanalysen starter, det gjeller all Hvor mange ganger de forskjellige verdiene på en variabel forekommer presenteres i prosenter eller absolutte tall
ER I GODT HUMØR * KJONN Crosstabulation KJONN ER I GODT HUMØR Total ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN KVINNE MANN Total 14 15 29,3%,4%,3% 452 412 864 9,1% 9,7% 9,4% 1490 1395 2885 30,0% 32,9% 31,3% 3008 2422 5430 60,6% 57,1% 59,0% 4964 4244 9208 100,0% 100,0% 100,0%
Gjennomsnitt Gjennomsnittlig behagelig temperatur har den som ligger med hode i stekeovnen og bena i isvann Bruk gjennomsnitt med gott forstand, når det finns ekstreme observasjoner er det bedre med median.
Gjennomsnittlige liggetider for pasienter Liggetidene for syv pasienter ved en medisinsk avdeling var 22 dager. Kan dette brukes for planering på avdelingen?
Observert antall De observerte liggetidene (i dager): 5, 5, 5, 7,10,16 og 106 Gjennomsnittsverdien ER 22 dager Gjennomsnittet hvis vi fjerner den ekstreme observasjonen er 8 dager Medianen er 7 dager.
Gjennomsnitt Gjennomsnittlig behagelig temperatur har den som ligger med hode i stekeovnen og bena i isvann Bruk gjennomsnitt med gott forstand, når det finns ekstreme observasjoner er det bedre med median.
Histogram Histogram viser det antall forekomster som er i hvert intervall
Alder, HUNT2 1500 1000 Count 500 0 20 40 60 80 ALDER VED FREMMØTE
6 000 5 000 4 000 Frequency 3 000 2 000 5000 1 000 Mean =3,49 Std. Dev. =0,676 N =9 208 4000 0 0 1 2 ER I GODT HUMØR 3 4 5 Count 3000 2000 1000 29 864 2885 5430 ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE ER I GODT HUMØR
Ikke-parametriske tester Ikke-parametriske tester skal brukes når dine data ikke er normalfordelt i små sampel, for kvalitative variabler og i en fordelning som er skjevfordelt
kji-kvadrat-test kji-kvadrat-test er brukt for uavhengighetstest Når data er delt i kategorier kan dette vare best
ER I GODT HUMØR * KJONN Crosstabulation KJONN ER I GODT HUMØR Total ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN KVINNE MANN Total 14 15 29,3%,4%,3% 452 412 864 9,1% 9,7% 9,4% 1490 1395 2885 30,0% 32,9% 31,3% 3008 2422 5430 60,6% 57,1% 59,0% 4964 4244 9208 100,0% 100,0% 100,0% Kji-2=12,0; P=0,007
Konfidensintervall Konfidensintervallet indikerer hvor presist det populasjonsverdi du søker kan bli vist
38% av en tilfeldig utvalgt gruppe kvinner sov dårlig fordi deres ektefeller snorket så kraftig. 95% konfidensintervall for andelen med forstyrret nattsøvn var 20 til 56%. Hvor stor andel i populasjonen? Omtrent 38% Men: 5% risiko att andelen er lavere en 20% eller høyre en 56%
Logistisk regresjon Logistisk regresjon er brukt for å forklare binære responser log-odds for å forklare eller predikere er resultatene av logistiske regresjonsanalyser
log-odds -> OR=Odds Ratio mann kvinna Risiko for mann: 60/100=0,60 Høyt kolesterolverdi 60 75 Odds for mann: 60/40=1,5 Risiko for kvinna: 75/100=0,75 Normalt 40 25 Odds for kvinna: 75/25=3 kolesterolverdi OR=(Odds for kvinna)/(odds for man)=3/1,5=2
Målenivå Målenivå beskriver type av skala hvis dine variabler er nominala, kvantitative eller ordinala
Nominalt nivå Nominale variabler deler in i kategorier kjønn eller diagnoser er noen eksempler
Ordinalt nivå Ordinale variablers kategorier har innebygd gradient Når helse måles ordinalt blir rekkefølgen kjent
Alle målenivåer Nominalt nivå gruppering etter kategori Ordinalt nivå gruppering etter kategorier som har given ordning Intervallnivå ekvidistant skala; like langt avstand fra ett verdi til neste på skalaen langs hele skalaen Ratio skala ekvidistant skala med absolutt nullpunkt
Navn Alder; Alder-20 Ratio Intervall Ordinal Nominal Anders 15-5 < 20 Ung Bodil 22 2 20-39 Ung Carl 38 18 20-39 Eldre Doris 55 35 40+ Eldre
P-verdi P-verdi er ett måle på fare at vårt resultat blev til av tilfeldig variasjon bare
qvartiler Qvartiler deler data i fjerdedeler Men på norsk skriver man disse som kvartiler
Regresjon Regresjonsanalyse er brukt for å estimere modeller for en avhengig variabels sammenheng med uavhengige variabler
Standardavvik Standardavvik sir hvor langt det er fra enkeltdataene til gjennomsnittet som er i senter
Histogram 250 200 Frequency 150 100 50 0 0 20 40 60 ALDER VED FREMMØTE 80 100 Mean =49,42 Std. Dev. =16,454 N =9 258
t-test t-test er test for gjennomsnitt, ett meget brukt test for små utvalg og intervalldata kan dette vare best
Utvalg Utvalget er den gruppe vi valt å studere Med tilfeldige utvalg kan vi også generalisere
Variasjonskoeffisient Variasjonskoeffisient er standardavvik delt på gjennomsnittet, det angis som prosent Med slik måle kan du sammenlike uavhengig enhet, kroner med kg eller gradient
x x er en variabel, en egenskap som varierer Variabelverdier for hver observasjonsenhet er hva vi registrerer.
y Avhengig variabel er ofte kallet y Vi spørrer oss hvilke x påvirker y og hvor my
z z-transformasjon gjør en variabel standardisert, z-variabelen har gjennomsnittsverdien null, standardavvik er en
Omregning til z-skårer En 80-åring går 400 meter på 5,1 minutter og skårer 70 av 100 mulige poeng på en hukommelsetest. Er han bedre til å gå eller til å huske? Vi beregner z-skårer etter gjennomsnittsresultat og standardavvik for referansegruppen:
80- åringen Gjennom snitt Standard avvik z Gå 400 meter 5,1 minutter 8,9 minutter 5,5 minutter (5,1-8,9)/5,5 = -4,8/5,5 = -0,7 Huske 70 poeng 68 poeng 25 poeng (70-68)/25 = 2/25 = 0,1
Å Å sammenlike forskjellige grupper gjør man best Med ett utvalg av statistiske teknikker; analyser og test
Ulla Romild Rådgiver i statistikk (Ph D)