Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Like dokumenter
Repeated Measures Anova.

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

ST0202 Statistikk for samfunnsvitere

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

ST0202 Statistikk for samfunnsvitere

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Fasit for tilleggsoppgaver

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

10.1 Enkel lineær regresjon Multippel regresjon

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

ST0202 Statistikk for samfunnsvitere

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Oppgave N(0, 1) under H 0. S t n 3

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Effektstørrelse. Tabell 1. Kritiske verdier for Pearson s produkt-moment-korrelasjon med 5% og 1% signifikansnivå. N 5% 1% N 5% 1%

Testobservator for kjikvadrattester

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

TMA4245 Statistikk Eksamen desember 2016

Skoleeksamen i SOS Kvantitativ metode

6.2 Signifikanstester

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Verdens statistikk-dag.

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ECON240 VÅR / 2016 BOKMÅL

Inferens i regresjon

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Kap. 12: Variansanalyse

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

EKSAMENSOPPGAVER STAT100 Vår 2011

Klassisk ANOVA/ lineær modell

Kapittel 3: Studieopplegg

ST0202 Statistikk for samfunnsvitere

Inferens i fordelinger

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i TMA4240 Statistikk

Forelesning 13 Regresjonsanalyse

UNIVERSITETET I OSLO

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Fra krysstabell til regresjon

Løsningsforslag eksamen STAT100 Høst 2010

Eksamensoppgave i TMA4255 Anvendt statistikk

Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Eksamensoppgave i TMA4255 Anvendt statistikk

Definisjoner av begreper Eks.: interesse for politikk

1 10-2: Korrelasjon : Regresjon

ST0202 Statistikk for samfunnsvitere Kapittel 11: Anvendelser av kjikvadratfordelingen Kapittel 12: Variansanalyse (ANOVA)

Kort overblikk over kurset sålangt

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

MOT310 Statistiske metoder 1, høsten 2011

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

ST0202 Statistikk for samfunnsvitere

Tilleggsoppgaver for STK1110 Høst 2015

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

UNIVERSITETET I OSLO

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

UNIVERSITETET I OSLO

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 2003

PSY Forskningsmetode II: Eksperimentell design og statistisk analyse, høst 2015.

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

Løsningsforslag eksamen 25. november 2003

Fra første forelesning:

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

Prøveeksamen i STK3100/4100 høsten 2011.

Kan vi stole på resultater fra «liten N»?

Transkript:

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Beskrive fordelinger (sentraltendens, variasjon og form): Observasjon y i Sentraltendens (gjennomsnitt) m y = y i / n Variasjon (spredning) SS (kvadratsummen) (y i m y ) 2 Variansen (var) (y i m y ) 2 / (n-1) = SS / (n-1) Standardavviket [ (y i m y ) 2 / (n-1)] = (SS / (n-1)) = (var) Fordeling

Generelt: Ved multivariate analyser (flere uavhengige variabler) i SPSS, vil de mest aktuelle prosedyrene være: Logistic regression, Regression Linear og GLM Univariate.

Regresjonslinja: y = a + b*x Husk tolkning av a og b fra psy1010/psyc1100! b (regresjonskoeffisienten) vil være å tolke som endring i y når x øker med en. Og forklart varians (R 2 ) vil her være.44 Her: Predikert Salnow = -7.332 + 1.564*Edlevel dvs. vi forventer her en økning i Salnow på 1564 dollar når Edlevel øker med ett år. Men hva betyr øker med en når x-variabelen er en kvalitativ variabel? Da er det nyttig å formulere problemet på en annen måte!

Enveis variansanalyse

Dersom den uavhengige variabelen er kvalitativ (nominalnivå) og har flere enn to nivåer, må vi beregne varianskomponentene ( forklart og uforklart ) på en annen måte enn vi gjorde ved den lineære regresjonsanalysen. Da benytter vi de metodene som historisk har fått betegnelsen variansanalyse.

Vi bruker oppgave-2.pdf som eksempel:

Vi er (som vanlig) interesserte i om variasjon i den uavhengige variabelen (x) kan antas å skape variasjon i den avhengige variabelen (y). Eller i dette konkrete tilfellet om variasjon i gruppe skaper variasjon i symptomnivå. Dette kunne vi også kunne formulere som et spørsmål om gjennomsnittsforskjeller mellom grupper i noen bøker foretrekkes det... Vi beregner totalvariasjonen i symptomnivå ved kvadratsummen (SS): SS total ( y i y) 2 47.33

Denne totalvariasjonen kan vi nå spalte opp i to komponenter. Vi beregner først variasjonen under forutsetning av at alle personene i hver gruppe har samme symptomnivå: SS b g j1 n j i1 ( y j y) 2 g j1 n j ( y j y) 2 23.33 Dette ser jo komplisert ut men vi gir ganske enkelt hver person et symptomnivå tilsvarende gjennomsnittsnivået i den gruppa personen tilhører og beregner deretter SS på vanlig måte. Dette kaller vi mellomgruppe (between groups) variasjonen og denne er da helt uavhengig av den variasjonen som måtte være mellom personer innen samme gruppe.

Vi beregner nå variasjonen ved hver persons avvik fra gjennomsnittet i den gruppa personen tilhører: SS w g 1 ng j 1 ( y ij y j ) 2 24 Vi beregner ganske enkelt hver persons avvik fra gjennomsnittet i sin egen gruppe og beregner deretter SS på vanlig måte. Dette kaller vi innen gruppe (within groups) variasjonen og denne er da helt uavhengig av eventuelle gjennomsnittsforskjeller mellom gruppene. Vi har nå tre variasjonsmål og det er lett å se at dersom det ikke hadde vært noen forskjeller mellom gruppene så ville SS w blitt den samme som SS total. Tilsvarende ville SS b blitt den samme som SS total dersom det ikke hadde vært noen forskjeller innen gruppene.

SStotal = SSb + SSw = Forklart + Uforklart Her: 47.33 = 23.33 + 24 Dersom vi ønsker det kan vi nå enkelt definere en indeks som sier oss hvor mye den forklarte variasjonen utgjør av totalvariasjonen. eta 2 " Forklart" Total SSb SStotal R 2 I variansanalyse sammenheng kalles denne gjerne eta 2. Dere kjenner den fra regresjonsanalysen som R 2. Dette er bare ulike navnekonvensjoner. Her får vi: eta 2 23.33 47.33.49

Vanligvis vil dere selvsagt bruke et av de mange programmene for variansanalyse i Spss. Da ville en utskrift kunne se slik ut: De andre tallene i tabellen benytter vi for å konstruere en signifikanstest for den forklarte variansen. Se også Fronter: oppgave-2-beregninger.xlsx for mer detaljerte beregninger.

F-testen : Problemet er at resultatene vi har fått kunne oppstått som resultat av en helt tilfeldig prosess! Dersom vi her hadde trukket tre tilfeldige utvalg av størrelse 5 fra en og samme populasjon (med et gitt totalgjennomsnitt og en gitt varians), kalt disse gruppe K, P og T, og gjennomført en variansanalyse, ville vi som en funksjon av tilfeldig samplingvariasjon ha fått en viss variasjon i gruppegjennomsnittene og dermed en R 2 > 0. Denne situasjonen betrakter vi som vår null-hypotese (H 0 ). Alternativt kunne det være systematikk her ved at en eller flere av gruppene faktisk stammer fra populasjoner med et annet gjennomsnitt. Vi ønsker her å ta et rasjonelt valg mellom disse to scenariene og signifikanstesten hjelper oss her. For å illustrere hva som vil skje når data genereres ved en slik tilfeldig prosess (H 0 er sann) simulerte jeg dette. Jeg konstruerte en populasjon med gjennomsnitt = 4.33 og varians = 2. Fra denne trakk jeg tre tilfeldige utvalg av størrelse n=5 og gjennomførte en enveis Anova med tre grupper. Dette gjentok jeg 3000 ganger, og hver gang beregnet jeg og tok vare på: F MSS MSS b w Dette skulle jeg egentlig ha fortsatt med i det uendelige, men det er jo veldig lenge da

En slik simulering trenger vi ikke å gjøre i praksis fordi: Dersom null-hypotesen stemmer vil vi kunne estimere variansen i populasjonen som observasjonene stammer fra ved enten MSSb eller MSSw! Men dersom null-hypotesen ikke stemmer vil det ikke lenger være likegyldig hvilket av disse vi velger. Da vil bare MSSw være et estimat av variansen i populasjonen. Dersom vi beregner en ratio mellom et variansestimat basert på SSb (MSSb) og et basert på SSw (MSSw), vil vi derfor forvente at denne ratioen skal bli 1 dersom null-hypotesen stemmer. En slik ratio vil være F-fordelt gitt null-hypotesen derfor kalles denne en F. I vårt tilfelle ville F-verdiene fordele seg slik dersom H 0 stemmer:

Vi kan dermed beregne sannsynligheten for å observere en så avvikende (eller mer avvikende), F-verdi enn den vi har observert dersom null-hypotesen stemmer den såkalte p-verdien (eller signifikansnivået ): obs H sann PF H sann P 0 0 Dersom denne er mindre enn en gitt verdi forkaster vi H 0. Som dere ser av figuren på forrige side er denne i dette tilfellet svært liten. Spss har også beregnet denne i Anova-tabellen. Vi forkaster dermed H 0 og antar at våre observasjoner er resultat av en systematisk prosess og ikke generert av en tilfeldighetsmekanisme. Denne testen er nærmere beskrevet i læreboka!

Generelt for alle signifikanstester : 1. Formuler en null-hypotese (H 0 ). Svært ofte velger vi null-hypoteser som tilsier at observerte data er generert av en tilfeldighetsmekanisme. 2. Beregn en testobservator (F, t, χ 2, osv.). 3. Finn samplingfordelinga til denne (hvordan denne vil fordele seg ved repetert sampling fra populasjonen) dersom H 0 er sann. Dette har heldigvis statistikerne løst for oss.. Vi bruker oftest testobservatorer som er F, t eller χ 2 fordelte, men det finnes mange andre teoretiske fordelinger som benyttes. 4. Finn fra samplingfordelinga sannsynligheten for den testobservatoren vi har observert. Her: P{F H 0 sann). 5. Dersom denne er liten forkast H 0. Og liten er det vanlig å operasjonalisere som P <.05 eller P <.01. Dersom vi ikke har et dataprogram (Excel, Spss, etc.) tilgjengelig, og må bruke kalkulatoren, vil det være vanskelig å beregne denne P-verdien. Da må vi nøye oss med kritiske verdier hentet fra en tabell. I slike tabeller finner vi hvor stor (eller liten) vår testobservator må være før vi kan forkaste H 0 på.05 eller.01 nivå. Se neste side.

Multiple Comparisons.

A B B-A 1 53.54 65.31 11.76 2 39.15 69.53 30.38 3 67.33 63.98-3.36 4 46.81 58.63 11.82 5 54.10 61.09 6.99 6 48.33 60.75 12.43 7 62.21 57.86-4.35 8 38.63 64.73 26.10 9 50.85 58.42 7.56 10 57.84 51.46-6.39 11 56.16 64.95 8.79 12 42.28 54.41 12.12 13 50.43 62.06 11.63 14 35.09 54.75 19.67 15 52.30 55.90 3.59 16 43.98 59.39 15.41 17 40.16 35.97-4.19........ 99999 50.73 60.03 9.30 100000 52.41 76.57 24.16 Mean: 49.97 59.98 10.00 Sd: 10.03 10.04 14.18 Varians: 100.64 100.78 200.96 Trekker 100000 tilfeldige tall fra to fordelinger. Den ene (A) har gjennomsnitt 50 og varians=100. Den andre har gjennomsnitt=60 og varians=100. Tallene A og B er trukket helt uavhengige av hverandre, og korrelasjonen (kovariansen) mellom dem er dermed 0. Beregner differansen mellom A og B. Legg merke til hva som skjer med variansen til denne differansen (B-A).

Vi ønsker å sammenligne to av flere mulige gjennomsnitt med hverandre, og kan bruke en «t-test»: Vi trenger da variansen til en differanse mellom gjennomsnitt eller variansen i samplingfordelinga til differanser mellom gjennomsnitt. Generelt (se simulerte tall på forrige side): var(a-b) = var(a) + var(b) 2*Kov(A,B) Her er det ingen kovarians mellom tallene vi er interesserte i siden gjennomsnittene er fra to grupper samplet uavhengig av hverandre (mer om dette når vi kommer til repeated measures Anova). Så her: var(a-b) = var(a) + var(b)

Vi er interesserte i variansen til differansen mellom to gjennomsnitt: Vi husker (fra psy1100/psyc1010) at variansen til et gjennomsnitt er: Dersom vi kan anta at observerte data for de to gruppene er samplet fra populasjoner med samme varians og har samme n, får vi: hvor n er antall i hvilken som helst av gruppene. Men som vanlig må vi estimere σ 2!

Vi vet fra det vi har snakket om tidligere at dersom H 0 er sann, vil både MSS between og MSS within være estimater av σ 2. Dersom H 0 ikke er sann vil fortsatt MSS within estimere σ 2 - selv om MSS between ikke vil det. Da kan vi bruke følgende som estimat: En stor fordel er at vi her kan bruke samme estimat av σ 2 uansett hvilke grupper vi sammenligner. Det gir mening dersom vi kan anta at gruppene er samplet fra populasjoner med samme varians. Og vi kan bruke en t-test: H 0 : µ 1 -µ 2 = 0 Og finne P{t H 0 =sann} fra en t-fordeling med df within (df error ) frihetsgrader.

Men hva gjør vi dersom n er forskjellig i de to gruppene? Her finnes det flere forslag. Vi går ikke gjennom dem i dette kurset. Her bruker vi tilnærmingen som brukes blant annet i SPSS. Vi kunne skrevet om formelen som vi brukte over: Denne brukes i SPSS også der hvor n 1 og n 2 er ulike:

Regne-eksempel fra data i oppgave-2.pdf :

Og utskrift fra Spss:

Effect-size.

For «forklart varians» (overall-effekten): For differanser mellom gjennomsnitt («kontraster»): Cohen's Standard d r r 2 2.00 0.71 0.50 1.90 0.69 0.47 1.80 0.67 0.45 1.70 0.65 0.42 1.60 0.63 0.39 1.50 0.60 0.36 1.40 0.57 0.33 1.30 0.55 0.30 1.20 0.51 0.27 1.10 0.48 0.23 1.00 0.45 0.20 0.90 0.41 0.17 LARGE 0.80 0.37 0.14 0.70 0.33 0.11 0.60 0.29 0.08 MEDIUM 0.50 0.24 0.06 0.40 0.20 0.04 0.30 0.15 0.02 SMALL 0.20 0.10 0.01 0.10 0.05 0.00 0.00 0.00 0.00

Et nytt regne-eksempel med data fra filen (se Fronter): cortisol.sav.

cortisol N Mean Std SE 95% CI Min Max Lower Upper 1 Normals 31 2.371 1.668 0.300 1.759 2.983 1.000 10.000 2 Major Depression 14 13.500 8.136 2.174 8.803 18.198 1.000 25.000 3 Bipolar Depression 14 2.371 2.838 0.759 0.733 4.010 0.500 11.200 4 Atypical 4 2.125 1.801 0.900-0.740 4.990 0.900 4.800 Total 63 4.829 6.237 0.786 3.258 6.399 0.500 25.000 ANOVA SS df MSS F Sig. Between Groups 1353.71 3 451.24 25.15 0.000000 Within Groups 1058.42 59 17.94 Total 2412.13 62 Multiple Comparisons LSD (I) diag (J) diag Mean Diff SE Sig. 95% CI Lower Upper SE t p 1 Normals 2 Major Depression -11.129 1.364 0.000-13.858-8.400 sqrt(17.939*(1/31+1/14))=1.364-8.160 0.000 3 Bipolar Depression 0.000 1.364 1.000-2.730 2.729 sqrt(17.939*(1/31+1/14))=1.364 0.000 1.000 4 Atypical 0.246 2.250 0.913-4.257 4.749 sqrt(17.939*(1/31+1/4))=2.250 0.109 0.913 2 Major Depression 1 Normals 11.129 1.364 0.000 8.400 13.858 3 Bipolar Depression 11.129 1.601 0.000 7.925 14.332 4 Atypical 11.375 2.401 0.000 6.570 16.180 3 Bipolar Depression 1 Normals 0.000 1.364 1.000-2.729 2.730 2 Major Depression -11.129 1.601 0.000-14.332-7.925 4 Atypical 0.246 2.401 0.919-4.559 5.051 4 Atypical 1 Normals -0.246 2.250 0.913-4.749 4.257 2 Major Depression -11.375 2.401 0.000-16.180-6.570 3 Bipolar Depression -0.246 2.401 0.919-5.051 4.559