Generelle lineære modeller i praksis

Like dokumenter
Lineære modeller i praksis

Multisample Inference del 2 (Rosner ) Øyvind Salvesen

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Variansanalyse. Uke Variansanalyse. ANOVA=ANalysis Of Variance

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Innhold. Multisample inference - del 2 (Rosner, ) Data Effect of Lead Exposure (Eks. i Rosner Kap mm)

Fra krysstabell til regresjon

Multisample Inference del 2 (Rosner )

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Eksamensoppgave i ST3001

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

Klassisk ANOVA/ lineær modell

KLMED 8006 Anvendt medisinsk statistikk - Vår 2009 Repeterte målinger

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Forelesning 3 STK3100

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Bakgrunn. KLMED 8006 Anvendt medisinsk statistikk - Vår 2008 Repeterte målinger. Overvekt: løp for livet

Forelesning 8 STK3100/4100

Forelesning 13 Analyser av gjennomsnittsverdier. Er inntektsfordelingen for kvinner og menn i EU-undersøkelsen lik?

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Psykologisk institutt

EXAMINATION PAPER. Exam in: STA-3300 Date: Wednesday 27. November 2013 Time: Kl 09:00 13:00 Place: Åsgårdsv All printed and written

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

UNIVERSITETET I OSLO

Multippel lineær regresjon

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

EKSAMENSOPPGAVER STAT100 Vår 2011

Statistisk analyse av data fra planlagte forsøk

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

SOS3003 Eksamensoppgåver

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

10.1 Enkel lineær regresjon Multippel regresjon

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Variansanalyse og lineær regresjon notat til STK2120

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

FINAL EXAM. Exam in: STA-3300 Applied Statistics 2 Date: Wednesday 28. November Time: 09:00 13:00 Place: Åsgårdvegen 9. All printed and written

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Frequencies. Frequencies

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Frequencies. Frequencies

OPPGAVE 1 MA Universitetet i Agder Institutt for matematiske fag EKSAMEN. Emnekode: MA-202 Emnenavn: Statistikk 2

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Forelesning 13 Regresjonsanalyse

SOS 31 MULTIVARIAT ANALYSE

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Repeated Measures Anova.

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Prøveeksamen i STK3100/4100 høsten 2011.

Logistisk regresjon 1

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

UNIVERSITETET I OSLO

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

Eksamensoppgave i TMA4255 Anvendt statistikk

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N

UNIVERSITETET I OSLO

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Oppgave N(0, 1) under H 0. S t n 3

Transkript:

Generelle lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y en eller flere uavhengige variabler: x,..,x k Den betingede fordeling av Y gitt x,..,x k antas at være normal med en forventning som avhenger av x-ene og en varians som er uavhengig av x-ene: E(Y x,x,...,x )= β + β x k - De uavhengige variablene kan være kategorivariabler eller kvantitative. - Kategoriske variabler omkodes som dummyvariabler. - Interaksjoner kan tilføyes i form av produktvariabler. k j= j j Én kategorivariabel med mer enn to kategorier Enveis variansanalyse To eller flere kategorivariabler To- eller flerveis variansanalyser En eller flere kvantitative variabler Lineær regresjon Både kategorivariabler og kvantitative variabler Generelle lineære modeller (*) *) Dekker også en rekke komplekse modeller, multivariabel respons og avhengige observasjoner Generelle lineære modeller i praksis Utføre en analyse av effekten av røykevaner og distraksjon på hyppigheten av feil gjort i utførelsen av visse oppgaver. Designet forsøk, balansert design. Primært problem: Hvilken betydning har de uavhengige variablene for feilhyppighet? Er det interaksjoner (samspill) mellom effekten av de uavhengige variablene? Responsvariabel: Antall feil () Uavhengige: Oppgave (task) Røykevaner (smkgrp) Grad av distraksjon () Sekundære problemer: Er relasjonen mellom grad distraksjon og feilhyppighet lineær? Kan den betingede fordeling av feilhyppighet og de andre variablene antas å være normal? Er variansene homogene? 4

Analyseplan Innledende databeskrivelse Univariat Bivariat Den innledende analyse kan gi ideer til den egentlige analyse, men skal ikke i seg selv føre til endelige analyseresultater pga. risikoen for konfundering. Den egentlige analyse: Trinnvis modellsøking Modellkontroll Estimering av parametrer i den endelige modell 5 task smkgrp 9 7 8.. 97 7 75 6 8 8 64 8 5 7 6 4 54 49 4 48 9 49 96 4 8 65 9 47 5 96 6 7 9 8 4 6 Feilhyppighet i Task = fordelt på røykevaner Error Bars show Mean +/-, SD 6 Bars show Means 4 Descriptives N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum NonSmokers 5 8,87 4,687,79,7 7, 4 56 Delayed smokers 5 9,9, 5,98 8,78 5,8 6 7 Active Smokers 5 47,5 4,65,78 9,4 55,65 75 45 8,78 8,55,69,5 44, 4 75 ANOVA NonSmokers Delayed smokers Active Smokers Between Groups Within Groups Sum of 64,78,689 4,744,4 7,4 4 78,58 44,778 44 7 8

Kontraster Contrast NonSmokers Delayed smokers Active Smokers -,5 -,5 Assume equal variances Does not assume equal variances Contrast Tests Contrast - Value of Contrast Std. Error t df Sig. (- tailed) -4,87 5,78 -,87 4,7-7,6 6,95 -,47 4,9-4,87 4,97 -,99,4,5-7,6 6,49 -,8 5,58,48 task smkgrp 9 7 8.. 97 7 75 6 8 8 64 8 5 7 6 4 54 49 4 48 9 49 96 4 8 65 9 47 5 96 6 7 9 8 4 9 Mean Feilhyppighet fordelt på oppgaver og røykevaner 5 4 Patrecog Cognitive Driving Task NonSmokers Delayed smokers Active Smokers Descriptive Statistics Task Mean Std. Deviation N Patrecog NonSmokers 9,4,44 5 Delayed smokers 9,6 4,45 5 Active Smokers 9,9 6,59 5 9,64 4,5 45 Cognitive NonSmokers 8,87 4,687 5 Delayed smokers 9,9, 5 Active Smokers 47,5 4,65 5 8,78 8,55 45 Driving NonSmokers 9,9 6,6 5 Delayed smokers 6,8 5,44 5 Active Smokers,,89 5 6,6 5,7 45 NonSmokers 6,7,88 45 Delayed smokers 8,78 9,59 45 Active Smokers 9,9,975 45 8,6 8,9 5

Samspill Toveis ANOVA-modell error = μ + task + smkgrp + task smkgrp + ε ijk i j ij k 5 Task Patrecog Cognitive Driving Tests of Between-Subjects Effects 4 Mean Source Corrected Model Intercept smkgrp task smkgrp * task Error Corrected Type III Sum of 744,76(a) 8 968,9 6,798, 459,74 459,74 47,89, 54,548 77,74,644,97 866,56 4,76,895, 78,65 4 68,6 6,6, 587, 6 7,85 94, 5 45,96 4 NonSmokers Delayed smokers Active Smokers a R Squared =,7 (Adjusted R Squared =,68) 4 Parameter Estimates Hva betyr alt dette? 95% Confidence Interval Parameter B Std. Error t Sig. Intercept,,68,87,86 -,97 7,69 [smkgrp=] 7,6,79,4,47,96 5,4 [smkgrp=] 4,467,79,78,4 -,7,97 [smkgrp=] (a)..... [task=] 7,6,79,4,47,96 5,4 [task=] 45,,79,9, 7,696 5,74 [task=] (a)..... [smkgrp=] * [task=] -8, 5,6 -,57, -8,745,479 [smkgrp=] * [task=] -6,67 5,6-4,898, -6,879-5,655 [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] -4,8 5,6 -,895,7-5,4 5,8 [smkgrp=] * [task=] -,67 5,6 -,5,6 -,679 -,455 [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... [smkgrp=] * [task=] (a)..... a This parameter is set to zero because it is redundant. Omkoding av kategorisk variabel Task t t,task= ("Patrecog"), ellers,task= ("Cognitive"), ellers Konsekvens: Dersom Task = ( Driving ), blir t og t begge lik. 5 6

Omkoding av kategorisk variabel Smoke Dummyvariabler for samspill s,smoke= ("Nonsmokers"), ellers Samspill SMKGRP*TASK: s,smoke= ("Delayed smokers"), ellers Konsekvens: Dersom Smoke = ( Active smokers ), blir s og s begge lik. 4 nye indikatorvariabler: ts=t*s, ts=t*s, ts=t*s, ts=t*s Samspill opptrer når effekten av en faktor (f.eks. røykevaner) varierer med nivået til en annen faktor (her TASK). Rent konkret kunne det antas at røyking gav større (el. mindre) feilhyppighet på en kognitiv oppgave, og omvendt på bilkjøring. 7 8 Regresjonsmodell y= α+ βt+ βt+ βs+ βs+ βts + βts + βt s + βt s + ε Model 4 5 6 7 8 ANOVA(b) Sum of Regression 744,76 8 968,9 6,798,(a) Residual 587, 6 7,85 45,96 4 a Predictors: (Constant), ts, ts, ts, ts, t, t, s, s b Coefficients(a) Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. (Constant),,68,87,86 t 7,6,79,96,4,47 t 45,,79,6,9, s 7,6,79,96,4,47 s 4,467,79,5,78,4 ts -8, 5,6 -,9 -,57, ts -4,8 5,6 -,8 -,895,7 ts -6,67 5,6 -,45-4,898, ts -,67 5,6 -,7 -,5,6 9 Patrecog NonSmokers Cognitive NonSmokers Driving NonSmokers 75 5 5 Patrecog Delayed smokers Cognitive Delayed smokers Driving Delayed smokers 75 5 5 Patrecog Active Smokers Cognitive Active Smokers Driving Active Smokers 75 5 5 75 5 5 75 75 5 5 75 75 5 5 75

ANCOVA-modell Inkluderer en kontinuerlig kovariabel, error = μ + task + smkgrp + task smkgrp + δ + ε ijk i j ij k Tests of Between-Subjects Effects Type III Sum of Source Corrected Model 689,6(a) 9 44,89 56,59, Intercept 89,95 89,95,474, 4644,876 4644,876 64,98, task 87,485 95,4 66,86, smkgrp 56,57 8,69,97, task * smkgrp 66,5 4 46,68 5,684, Error 894,4 5 7,59 94, 5 Corrected 45,96 4 a R Squared =,8 (Adjusted R Squared =,789) Parameter Estimates 95% Confidence Interval Parameter B Std. Error t Sig. Intercept -7,9 4,55-6,67, -5,55-8,67,9,6 8,58,,,64 [task=],79,5,96,4 -,447 9,94 [task=] 7,965,6,84,,6 44, [task=] (a)..... [smkgrp=],686,48,85,95 -,545 8,96 [smkgrp=],,9,,8 -, 9, [smkgrp=] (a)..... [task=] * [smkgrp=] -,49 4,45 -,55,58 -,96 6,8 [task=] * [smkgrp=] -,98 4,74 -,669,54 -,584 5,79 [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] -8,7 4,468-4,86, -7,54-9,859 [task=] * [smkgrp=] -6,45 4,4 -,458,47-5,4, [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... [task=] * [smkgrp=] (a)..... a This parameter is set to zero because it is redundant. Regresjonsmodell y = α+ βt+ βt+ βs+ βs+ βt s + βt s + βt s + βt s + δ + ε ANOVA(b) Model 4 5 6 7 8 Sum of Regression 689,6 9 44,89 56,59,(a) Residual 894,4 5 7,59 45,96 4 a Predictors: (Constant),, t, s, ts, ts, ts, s, ts, t Coefficients(a) Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. (Constant) -7,9 4,55-6,67, t,79,5,96,96,4 t 7,965,6,977,84, s,686,48,69,85,95 s,,9,8,,8 ts -,49 4,45 -,4 -,55,58 ts -,98 4,74 -,5 -,669,54 ts -8,7 4,468 -, -4,86, ts -6,45 4,4 -, -,458,47,9,6,7 8,58, Forlengs seleksjon av regressorer Coefficients(a) Standardized Unstandardized Coefficients Coefficients B Std. Error Beta t Sig. (Constant) 8,,89 6,7, t,778,59,79 4,949, (Constant) -6,6 4, -6,99, t 8,469,78,7 6,67,,,8,59 8,7, (Constant) -5,75,96-6,59, t,7,787,856 8,69,,7,5,54 8,87, ts -4,5,649 -,45-5,44, a Forslag til endelig modell: y=.75+.7t 4.5t s +.7 + ε 4

Sjekk av endelig modell Histogram Normal P-P Plot of Regression Standardized Residual 5, Expected Cum Prob,8,6,4 Frequency 5 5,,,,,4,6,8 Observed Cum Prob, - - - Regression Standardized Residual Mean =5,46E-7 Std. Dev. =,989 N =5 5 6 Scatterplot Regression Standardized Residual - - - - - Regression Standardized Predicted Value Homogen varians? Transformere? Utliggere? Ekskludere? 7 8