Statistikk er begripelig

Like dokumenter
Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

(b) På slutten av dagen legger sekretæren inn all innsamlet informasjon i en ny JMP datafil. Hvor mange rader og søyler(kolonner) har datafila?

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Til bruk i metodeundervisningen ved Høyskolen i Oslo

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

STUDIEÅRET 2011/2012. Utsatt individuell skriftlig eksamen. STA 200- Statistikk. Mandag 27. august 2012 kl

Statistikk & dataanalyse: Et eksempel. Frode Svartdal UiT mars 2015

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Forkurs i kvantitative metoder ILP 2019

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Statistikk & dataanalyse: Et eksempel. Frode Svartdal UiT april 2016

Sannsynlighetsregning og Statistikk.

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Oppsummering & spørsmål 20. april Frode Svartdal

Eksamensoppgave i ST3001

Statistikk i klinikken. Arild Vaktskjold 2015

Oppgaver til Studentveiledning I MET 3431 Statistikk

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

EKSAMEN I SOS1120 KVANTITATIV METODE 6. DESEMBER 2007 (4 timer)

Forskningsmetoder. Måling, målefeil. Frode Svartdal. UiTø V Frode Svartdal FRODE SVARTDAL 1

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Definisjoner av begreper Eks.: interesse for politikk

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

SKOLEEKSAMEN I. SOS1120 Kvantitativ metode. 13. desember timer

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

Kort overblikk over kurset sålangt

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Logistisk regresjon 1

SPSS Statistics-kurs 2014

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Øving 7: Statistikk for trafikkingeniører

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

Forelesning 17 Logistisk regresjonsanalyse

MEVIT2800. Forelesning, 14/09/07 Audun Beyer

Studier, region og tilfredshet

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

6.2 Signifikanstester

Repeterte målinger. Repeterte målinger. Eirik Skogvoll

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2002

Løsningsforslag Til Statlab 5

Eksamensoppgave i PSY1011/4111 Psykologiens metodologi

STUDIEÅRET 2011/2012. Individuell skriftlig eksamen. STA 200- Statistikk. Fredag 9. mars 2012 kl

Forelesning 10 Kjikvadrattesten

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

Forskningsmetoder. Data: Måling og målefeil. Frode Svartdal. UiTø FRODE SVARTDAL 1 V Frode Svartdal

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

Øving 1 TMA Grunnleggende dataanalyse i Matlab

STUDIEÅRET 2013/2014. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Fredag 25. april 2014 kl

Seksjon 1.3 Tetthetskurver og normalfordelingen

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

ECON Statistikk 1 Forelesning 2: Innledning

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

Statistikk og dataanalyse

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Eksamensoppgave i TMA4255 Anvendt statistikk

3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

Høye skårer indikerer høye nivåer av selvkontroll.

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Skoleeksamen i SOS Kvantitativ metode

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen i. STA 200- Statistikk. Mandag 24. august 2015 kl

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

UNIVERSITETET I OSLO

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Inferens i regresjon

ME Metode og statistikk Candidate 2511

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Medisinsk statistikk Del I høsten 2009:

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen i STA 200- Statistikk. Torsdag 16. april 2015 kl

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

Eksamensoppgave i ST3001

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

SKOLEEKSAMEN 2. november 2007 (4 timer)

Kapittel 3: Studieopplegg

Fra krysstabell til regresjon

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Hvordan forstå meta-analyse

UNIVERSITETET I OSLO

Kan vi stole på resultater fra «liten N»?

Transkript:

Statistikk er begripelig

men man må begynne med ABC

ANOVA ANOVA er brukt til å sammenligne gjennomsnittsverdier Slik er det, selv om det er Analysis of Variance man sier

BIVARIAT Bivariat analyse er godt nok for å gi litt lyse Men for å finne strukturer må vi bruk multivariat analyse

Univariat analyse Bivariat analyse Multivariat analyse Beskrivelse eller test av en variabel Beskrivelse eller test av en variabel mot en uavhengig variabel; lønn mot kjønn f eks Flere enn to variabler i analysen. Hvordan flere uavhengige variabler påvirker en avhengig variabel eller sammenheng på annen måte.

COX-REGRESJON Cox-regresjon er brukt for overlevelsedaten Den avhengige variabelen er hasardraten.

Data Data er opplysninger som foreligger som tall Er det annen type av opplysninger kan de uttrykkes som tall i alle fall

Alder 15, 22, 38 og så videre Kjønn Helse Mann=0 Kvinne=1 Godt helse=10. Dårlig helse=1

Ensidig test Ensidige tester må brukes med stor forsiktighet Brukes bare når man har en svært god grunn til å gjøre det

Frekvensfordeling Frekvensfordelingen er hvor dataanalysen starter, det gjeller all Hvor mange ganger de forskjellige verdiene på en variabel forekommer presenteres i prosenter eller absolutte tall

ER I GODT HUMØR * KJONN Crosstabulation KJONN ER I GODT HUMØR Total ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN KVINNE MANN Total 14 15 29,3%,4%,3% 452 412 864 9,1% 9,7% 9,4% 1490 1395 2885 30,0% 32,9% 31,3% 3008 2422 5430 60,6% 57,1% 59,0% 4964 4244 9208 100,0% 100,0% 100,0%

Gjennomsnitt Gjennomsnittlig behagelig temperatur har den som ligger med hode i stekeovnen og bena i isvann Bruk gjennomsnitt med gott forstand, når det finns ekstreme observasjoner er det bedre med median.

Gjennomsnittlige liggetider for pasienter Liggetidene for syv pasienter ved en medisinsk avdeling var 22 dager. Kan dette brukes for planering på avdelingen?

Observert antall De observerte liggetidene (i dager): 5, 5, 5, 7,10,16 og 106 Gjennomsnittsverdien ER 22 dager Gjennomsnittet hvis vi fjerner den ekstreme observasjonen er 8 dager Medianen er 7 dager.

Gjennomsnitt Gjennomsnittlig behagelig temperatur har den som ligger med hode i stekeovnen og bena i isvann Bruk gjennomsnitt med gott forstand, når det finns ekstreme observasjoner er det bedre med median.

Histogram Histogram viser det antall forekomster som er i hvert intervall

Alder, HUNT2 1500 1000 Count 500 0 20 40 60 80 ALDER VED FREMMØTE

6 000 5 000 4 000 Frequency 3 000 2 000 5000 1 000 Mean =3,49 Std. Dev. =0,676 N =9 208 4000 0 0 1 2 ER I GODT HUMØR 3 4 5 Count 3000 2000 1000 29 864 2885 5430 ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE ER I GODT HUMØR

Ikke-parametriske tester Ikke-parametriske tester skal brukes når dine data ikke er normalfordelt i små sampel, for kvalitative variabler og i en fordelning som er skjevfordelt

kji-kvadrat-test kji-kvadrat-test er brukt for uavhengighetstest Når data er delt i kategorier kan dette vare best

ER I GODT HUMØR * KJONN Crosstabulation KJONN ER I GODT HUMØR Total ALDRI NOEN GANGER GANSKE OFTE FOR DET MESTE Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN Count % within KJONN KVINNE MANN Total 14 15 29,3%,4%,3% 452 412 864 9,1% 9,7% 9,4% 1490 1395 2885 30,0% 32,9% 31,3% 3008 2422 5430 60,6% 57,1% 59,0% 4964 4244 9208 100,0% 100,0% 100,0% Kji-2=12,0; P=0,007

Konfidensintervall Konfidensintervallet indikerer hvor presist det populasjonsverdi du søker kan bli vist

38% av en tilfeldig utvalgt gruppe kvinner sov dårlig fordi deres ektefeller snorket så kraftig. 95% konfidensintervall for andelen med forstyrret nattsøvn var 20 til 56%. Hvor stor andel i populasjonen? Omtrent 38% Men: 5% risiko att andelen er lavere en 20% eller høyre en 56%

Logistisk regresjon Logistisk regresjon er brukt for å forklare binære responser log-odds for å forklare eller predikere er resultatene av logistiske regresjonsanalyser

log-odds -> OR=Odds Ratio mann kvinna Risiko for mann: 60/100=0,60 Høyt kolesterolverdi 60 75 Odds for mann: 60/40=1,5 Risiko for kvinna: 75/100=0,75 Normalt 40 25 Odds for kvinna: 75/25=3 kolesterolverdi OR=(Odds for kvinna)/(odds for man)=3/1,5=2

Målenivå Målenivå beskriver type av skala hvis dine variabler er nominala, kvantitative eller ordinala

Nominalt nivå Nominale variabler deler in i kategorier kjønn eller diagnoser er noen eksempler

Ordinalt nivå Ordinale variablers kategorier har innebygd gradient Når helse måles ordinalt blir rekkefølgen kjent

Alle målenivåer Nominalt nivå gruppering etter kategori Ordinalt nivå gruppering etter kategorier som har given ordning Intervallnivå ekvidistant skala; like langt avstand fra ett verdi til neste på skalaen langs hele skalaen Ratio skala ekvidistant skala med absolutt nullpunkt

Navn Alder; Alder-20 Ratio Intervall Ordinal Nominal Anders 15-5 < 20 Ung Bodil 22 2 20-39 Ung Carl 38 18 20-39 Eldre Doris 55 35 40+ Eldre

P-verdi P-verdi er ett måle på fare at vårt resultat blev til av tilfeldig variasjon bare

qvartiler Qvartiler deler data i fjerdedeler Men på norsk skriver man disse som kvartiler

Regresjon Regresjonsanalyse er brukt for å estimere modeller for en avhengig variabels sammenheng med uavhengige variabler

Standardavvik Standardavvik sir hvor langt det er fra enkeltdataene til gjennomsnittet som er i senter

Histogram 250 200 Frequency 150 100 50 0 0 20 40 60 ALDER VED FREMMØTE 80 100 Mean =49,42 Std. Dev. =16,454 N =9 258

t-test t-test er test for gjennomsnitt, ett meget brukt test for små utvalg og intervalldata kan dette vare best

Utvalg Utvalget er den gruppe vi valt å studere Med tilfeldige utvalg kan vi også generalisere

Variasjonskoeffisient Variasjonskoeffisient er standardavvik delt på gjennomsnittet, det angis som prosent Med slik måle kan du sammenlike uavhengig enhet, kroner med kg eller gradient

x x er en variabel, en egenskap som varierer Variabelverdier for hver observasjonsenhet er hva vi registrerer.

y Avhengig variabel er ofte kallet y Vi spørrer oss hvilke x påvirker y og hvor my

z z-transformasjon gjør en variabel standardisert, z-variabelen har gjennomsnittsverdien null, standardavvik er en

Omregning til z-skårer En 80-åring går 400 meter på 5,1 minutter og skårer 70 av 100 mulige poeng på en hukommelsetest. Er han bedre til å gå eller til å huske? Vi beregner z-skårer etter gjennomsnittsresultat og standardavvik for referansegruppen:

80- åringen Gjennom snitt Standard avvik z Gå 400 meter 5,1 minutter 8,9 minutter 5,5 minutter (5,1-8,9)/5,5 = -4,8/5,5 = -0,7 Huske 70 poeng 68 poeng 25 poeng (70-68)/25 = 2/25 = 0,1

Å Å sammenlike forskjellige grupper gjør man best Med ett utvalg av statistiske teknikker; analyser og test

Ulla Romild Rådgiver i statistikk (Ph D)