Kapittel 6 - modell seleksjon og regularisering

Størrelse: px
Begynne med side:

Download "Kapittel 6 - modell seleksjon og regularisering"

Transkript

1 Kapittel 6 - modell seleksjon og regularisering Geir Storvik 21. februar /22

2 Lineær regresjon med mange forklaringsvariable Lineær modell: Y = β 0 + β 1 x β p x p + ε Data: {(x 1, y 1 ),..., (x n, y n )} Minste kvadraters estimate: β = (X T X) 1 Xy. Hvis n p: Var( ˆβ j ) liten og god prediksjon på testdata Hva hvis n p? p > n: X T X singulær, ikke mulig å regne ut β n > p men ikke mye større: Var( ˆβ j ) stor og dårlig prediksjon på testdata Uansett hvis p stor: Innkludering av mange x j er i modell gjør det vanskelig å tolke modell. Ønsker å forenkle modell Variabel seleksjon: Velge ut viktige variable Krymping: Krympe ˆβ j mot 0 for å minske variabilitet. Dimensjonsreduksjon: Projisere x ned i lavere dimensjon z = Φx R q, q < p. Aktuelle tilnærminger også for klassifikasjon og ikke-lineære metodeer 2/22

3 Variabel seleksjon Sett tidligere: Foroverseleksjon, bakoverseleksjon, blanding av disse Alternativer: Søke gjennom alle modeller, bedre optimeringsmetoder Hvordan måle kvalitet på modell? R 2 blir større jo flere variable vi innkluderer Kryssvalidering C p, AIC, BIC, justert R 2 3/22

4 Seleksjonskriterier RSS = n (y i ŷ i ) 2 der ŷ i er basert på d kovariater. R 2 = 1 RSS for optimistisk. TSS Radj 2 = 1 RSS/(n d 1) TSS/(n 1) [ ] E = σ 2 RSS n d 1 hvis lineær modell er riktig. Mallows C p : (ˆσ 2 er estimat på σ 2 basert på alle p kovariater) C p = 1 n (RSS + 2d ˆσ2 ) AIC = 2 log(l( ˆθ)) + 2 θ Lineære modeller: AIC = Konst + n log(ˆσ 2 ) + 2(d + 2) der ˆσ 2 er estimat innen den model en ser på Vil typisk inkludere litt for mange variable BIC = 2 log(l( ˆθ)) + log(n) θ Lineære modeller: AIC = Konst + n log(ˆσ 2 ) + log(n)(d + 2) der ˆσ 2 er estimat innen den model en ser på Straffer hardere de mer komplekse modeller AIC og BIC kan brukes også utenfor lineære modeller. 4/22

5 AIC - forskjeller fra boka Lineære Gaussiske modeller (θ = (β, σ 2 ), θ = d + 2): log(l(θ)) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 (y i µ i ) 2 ˆµ i =x T i ˆσ 2 = 1 n ˆβ = ŷ i (y i ŷ i ) 2 ML estimat log(l( ˆθ)) = n 2 log(2π) n 2 log(ˆσ2 ) 1 2ˆσ 2 (y i ŷ i ) 2 = n 2 log(2π) n 2 log(ˆσ2 ) n 2 AIC =n log(2π) + n log(ˆσ 2 ) + n + 2(d + 2) =Konst + n log(ˆσ 2 ) + 2(d + 2) Merk: Forskjellig fra boka (!). Boka ikke helt nøyaktig her. 5/22

6 Diskusjon om kriterier R 2 adj, C p, AIC og BIC: Bruker alle data, men justerer overtilpasningen som ligger i treningsdata ved å innføre straffeledd". Baserer seg på antatt modell Ofte raske å beregne Kryssvalidering Kan brukes mer generelt Dog er AIC/BIC enklere å bruke når det f.eks er avhengigheter mellom observasjoner Klarer ikke å utnytte alle data ved tilpasning Validerer litt andre modelltilpasninger enn den som en vil bruke til slutt 6/22

7 Søk gjennom modeller Med p variable er det 2 p mulige modeller 2^p 0e+00 4e+05 8e p Søk gjennom alle modeller Residual Sum of Squares 2e+07 4e+07 6e+07 8e+07 R Number of Predictors Number of Predictors Sammenlikning baseres på p + 1 modeller. 7/22

8 Forover/bakover seleksjon Søker igjennom p 1 k=0 (p k)=1+p(p+1)/2 modeller Kan også brukes hvis p n, stopper da ved modeller av størrelse n 1. Kan også gi bedre statistiske egenskaper da mindre sjanse for overtilpasning Også mulig med bakoverseleksjon men kun hvis n > p. Også mulig med hybrid tilnærminger, dvs gå både forover og bakover Illustrasjon: Hitters data Hitters.R 8/22

9 Krympe metoder Seleksjon av variable vanskelig Hard beslutning, enten β j estimert ved LS eller satt lik 0. Idé krympe metoder: Begrensninger eller regulariseringer av β j -ene. Utgangspunkt: Minste kvadrater minimerer mhp β 2 RSS(β) = y i β 0 β j x ij Regularisinger: Legge inn straffeledd på for store β j er Ridge regresjon: Kvadratisk (l 2 ) straffeledd Lasso regresjon: l 1 type straffeledd Vil skrive om modell til Y i =β 0 + β j x ij + ε i =β 0 + = β 0 + β j x j + β j (x ij x j ) + ε i β j x ij + ε i Sløyfer i det etterfølgende, antar n x ij = 0. 9/22

10 Ridge regresjon Ønsker å minimere mhp β h(β) = y i β 0 Utledning: som gir normallikninger β j x ij β 0 h(β) = 2 β l h(β l ) = λ y i β 0 y i β 0 β 2 j β j x ij = 2 (y i β 0 ) β j x ij x il + 2 ˆβ l, l 1 ˆβ 0 = 1 n y i = ȳ ˆβ j x ij x il + β l = (y i ȳ)x il = y i x il, l = 1,..., p som på matriseform kan skrives (X har nå ikke 1 i første kollonne og β = (β 1,..., β p )) (X T X + λi) ˆβ = X T y ˆβ ridge = ˆβ = (X T X + λi) 1 X T y 10/22

11 Ridge regresjon og skalering h(β) = y i β j x ij 2 + λ β 2 j j=0 Straffeledd avhengig av skalering på x-ene Vanlig å standardisere x-ene før bruk av Ridge regresjon: x ij = 1 n x ij n (x ij x j ) 2 11/22

12 Ridge for ortogonale forklaringsvariable Anta n x ijx il = 0 for l j. Da er X T X = I. ˆβ ridge =(X T X + λi) 1 X T y =(I + λi) 1 X T y = λ IXT y = λ (XT X) 1 X T y = λ ˆβ LS 12/22

13 Ridge regresjon på Credit data Standardized Coefficients e 02 1e+00 1e+02 1e+04 Income Limit Rating Student Standardized Coefficients λ ˆβ R λ 2/ ˆβ 2 13/22

14 Hvorfor fungerer Ridge regresjon? Ridge regresjon vist seg å fungere bra i mange reelle anvendelser Anta ortogonale x-er, så ˆβ ridge = 1 1+λ E[ ˆβ ridge ] = λ ˆβ LS β ( ) 2 Var[ ˆβ ridge 1 ] = Var[ ˆβ LS ] 1 + λ ˆβ LS Innfører skjevhet, men minker varians Simulerte data (sort=skjevhet, grønn=varians, lilla=test MSE) Mean Squared Error Mean Squared Error e 01 1e+01 1e λ ˆβ R λ 2/ ˆβ 2 14/22

15 Dualitet Minimering av y i β j x ij 2 + λ β 2 j j=0 er matematisk ekvivalent med minimering av y i β j x ij j=0 2 under restriksjonen p β2 j s der s vil være en funksjon av λ. Alternativ formulering noe lettere å forholde seg til geometrisk 15/22

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 - FASIT Eksamensdag: Torsdag 15. juni 2017. Tid for eksamen: 09.00 13.00. Oppgavesettet er på 5 sider. Vedlegg: Tillatte

Detaljer

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

Prøveeksamen STK2100 (fasit) - vår 2018

Prøveeksamen STK2100 (fasit) - vår 2018 Prøveeksamen STK2100 (fasit) - vår 2018 Geir Storvik Vår 2018 Oppgave 1 (a) Vi har at E = Y Ŷ =Xβ + ε X(XT X) 1 X T (Xβ + ε) =[I X(X T X) 1 X T ]ε Dette gir direkte at E[E] = 0. Vi får at kovariansmatrisen

Detaljer

Ridge regresjon og lasso notat til STK2120

Ridge regresjon og lasso notat til STK2120 Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle

Detaljer

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2018) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon STK2100 - Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Oppsummering av kurset 17. april 2018 Hovedproblem Input x R p. Output y Numerisk: regresjon Kategorisk: Klassifikasjon Gitt

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2 Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Eksamensdag: Torsdag 4. juni 28. Tid for eksamen: 4.3

Detaljer

STK2100. Obligatorisk oppgave 1 av 2

STK2100. Obligatorisk oppgave 1 av 2 14. februar 2018 Innleveringsfrist STK2100 Obligatorisk oppgave 1 av 2 Torsdag 1. mars 2018, klokken 14:30 gjennom Devilry (https:devilry.ifi.uio.no). Praktiske instruksjoner Første side av din innlevering

Detaljer

Forelesning 8 STK3100/4100

Forelesning 8 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering -

Detaljer

Tilleggsoppgaver for STK1110 Høst 2015

Tilleggsoppgaver for STK1110 Høst 2015 Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 p. 1/3 Forelesning 9 STK3100/4100 Plan for forelesning: 18. oktober 2012 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 2/3 Modell med

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 Forelesning 9 STK3100/4100 Plan for forelesning: 17. oktober 2011 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 1 Modell med alle antagelser

Detaljer

Prøveeksamen STK vår 2017

Prøveeksamen STK vår 2017 Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form:

Detaljer

STK Oppsummering

STK Oppsummering STK1110 - Oppsummering Geir Storvik 11. November 2015 STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer

Detaljer

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka: MOT30 Statistiske metoder, høsten 2006 Løsninger til regneøving nr. 8 (s. ) Oppgaver fra boka: Oppgave.5 (.3:5) ) Først om tolking av datautskriften. Sammendrag gir følgende informasjon: Multippel R =R,

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1100 Statistiske metoder og dataanalyse 1 - Løsningsforslag Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30

Detaljer

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2 MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: Oppgave 11.27 (11.6:13) Modell: Y i = α + βx i + ε i der ε 1,..., ε n u.i.f. N(0, σ 2 ). Skal finne konfidensintervall

Detaljer

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - Fornuftig verdi Inferens STK1110 - Repetisjon av relevant stoff fra STK1100 Geir Storvik 12. august 2015 Data x 1,..., x n evt også y 1,..., y n Ukjente parametre θ kan være flere Vi ønsker å si noe om θ basert på data.

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,

Detaljer

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y Statistiske metoder 1 høsten 004. Løsningsforslag Oppgave 1: a) Begge normalplottene gir punkter som ligger omtrent på ei rett linje så antagelsen om normalfordeling ser ut til å holde. Konfidensintervall

Detaljer

Oppgave N(0, 1) under H 0. S t n 3

Oppgave N(0, 1) under H 0. S t n 3 MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr 9 (s 1) Oppgave 1 Modell: Y i β 0 + β 1 x i + β 2 x 2 i + ε i der ε 1,, ε n uif N(0, σ 2 ) e) Y Xβ + ε der Y Y 1 Y n, X 1 x 1 x 2 1

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1 Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30 18.00. Oppgavesettet

Detaljer

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: Oppgave 11.25 (11.27, 11.6:13) Modell: Y i = α + βx i + ε i der ε 1,..., ε n u.i.f. N(0, σ 2 ). Skal nne

Detaljer

Ekstraoppgaver for STK2120

Ekstraoppgaver for STK2120 Ekstraoppgaver for STK2120 Geir Storvik Vår 2011 Ekstraoppgave 1 Anta X 1 og X 2 er uavhengige med X 1 N(1.0, 1.0) og X 2 N(2.0, 1.5). La X = (X 1, X 2 ) T. Definer c = ( ) 2.0 3.0, A = ( ) 1.0 0.5 0.0

Detaljer

Fasit og løsningsforslag STK 1110

Fasit og løsningsforslag STK 1110 Fasit og løsningsforslag STK 1110 Uke 36: Eercise 8.4: a) (57.1, 59.5), b) (57.7, 58, 9), c) (57.5, 59.1), d) (57.9, 58.7) og e) n 239. (Hint: l(n) = 1 = 2z 1 α/2 σ/n 1/2 ). Eercise 8.10: a) (2.7, 7.5),

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30

Detaljer

6.6 Anvendelser på lineære modeller

6.6 Anvendelser på lineære modeller 6.6 Anvendelser på lineære modeller Skal først se på lineær regresjon for gitte punkter i planet: det kan formuleres og løses som et minste kvadraters problem! I mere generelle lineære modeller er man

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 Maskinlæring g statistiske metder fr prediksjn g klassifikasjn Eksamensdag: Trsdag 15. juni 2017. Tid fr eksamen: 09.00

Detaljer

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader. FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da

Detaljer

Kp. 12 Multippel regresjon

Kp. 12 Multippel regresjon Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Kp 12 Multippel Bjørn H Auestad Kp 11: Regresjonsanalyse 1 / 46 Kp 12 Multippel ; oversikt Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt 121 Introduction

Detaljer

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2. Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start 2 Kap. 13: Lineær korrelasjons-

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Tlf: Eksamensdato: August 2014 Eksamenstid (fra til): Hjelpemiddelkode/Tillatte hjelpemidler:

Detaljer

vekt. vol bruk

vekt. vol bruk UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: 10. desember 2010. Tid for eksamen: 14.30 18.30. Oppgavesettet er

Detaljer

Modellvalg ved multippel regresjon notat til STK2120

Modellvalg ved multippel regresjon notat til STK2120 Modellvalg ved multippel regresjon notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på hvordan vi kan velge ut hvilke forklaringsvariabler vi skal ha med i en regresjonsmodell.

Detaljer

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100 Forelesning 7 STK3100/4100 p. 1/2 Forelesning 7 STK3100/4100 8. november 2012 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Forelesning

Detaljer

Løsningsforslag: STK2120-v15.

Løsningsforslag: STK2120-v15. Løsningsforslag: STK2120-v15 Oppgave 1 a) Den statistiske modellen er: X ij = µ i + ϵ ij, j = 1,, J, i = 1,, I Her indekserer i = 1,, I gruppene og j = 1,, J observasjone innen hver gruppe Feilleddene

Detaljer

Forelesning 3 STK3100

Forelesning 3 STK3100 Eks. Fødselsvekt mot svangerskapslengde og kjønn Forelesning 3 STK3100 8. september 2008 S. O. Samuelsen Plan for forelesning: 1. Generelt om lineære modeller 2. Variansanalyse - Kategoriske kovariater

Detaljer

Generelle lineære modeller i praksis

Generelle lineære modeller i praksis Generelle lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y en eller flere uavhengige

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Oppgave 1 a Forventet antall dødsulykker i år i er E(X i λ i. Dermed er θ i λ i E(X i forventet antall dødsulykker per 100

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet

Detaljer

Ekstraoppgaver STK3100 h10

Ekstraoppgaver STK3100 h10 Ekstraoppgaver STK3100 h10 Oppgave 1 En-veis variansanalyse modellen kan formuleres som Y ij = µ + α i + ɛ ij (1) der α i = 0 og ɛ ij er i.i.d N(0, σ 2 ). Her representerer er Y ij j te observasjon fra

Detaljer

STK juni 2016

STK juni 2016 Løsningsforslag til eksamen i STK220 3 juni 206 Oppgave a N i er binomisk fordelt og EN i np i, der n 204 Hvis H 0 er sann, er forventningen lik E i n 204/6 34 for i, 2,, 6 6 Hvis H 0 er sann er χ 2 6

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 4. juni 2016 Eksamenstid (fra til): 09.00

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse Forelesning 4 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen?

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 4. juni 2007. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Oppgave 1 Oppgave 11.5 fra læreboka. Oppgave 2 Oppgave 11.21 fra læreboka. Oppgave

Detaljer

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave. Løsningsforslag STK1110-h11: Andre obligatoriske oppgave. Oppgave 1 a) Legg merke til at X er gamma-fordelt med formparameter 1 og skalaparameter λ. Da er E[X] = 1/λ. Små verdier av X tyder derfor på at

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 22. mai 2014 Eksamenstid (fra til): 09.00-13.00

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning 11 STK3100/4100 Plan for forelesning: 1. november 2012 Geir Storvik 1. Generaliserte lineære blandede modeller Eksempler R-kode GLMM - generell formulering av modell Likelihood og estimering

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

Fra krysstabell til regresjon

Fra krysstabell til regresjon Fra krysstabell til regresjon La oss si at vi er interessert i å undersøke i hvilken grad arbeidstid er avhengig av utdanning. Vi har ca. 3200 observasjoner (dvs. arbeidstakere som er spurt). For hver

Detaljer

Oppsummering av STK2120. Geir Storvik

Oppsummering av STK2120. Geir Storvik Oppsummering av STK2120 Geir Storvik Vår 2011 Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter Generelle

Detaljer

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i TMA4267 Lineære statistiske modellar Institutt for matematiske fag Eksamensoppgåve i TMA4267 Lineære statistiske modellar Fagleg kontakt under eksamen: Øyvind Bakke Tlf: 73 59 81 26, 990 41 673 Eksamensdato: 22. mai 2015 Eksamenstid (frå

Detaljer

Oppgave 1. Kilde SS df M S F Legering Feil Total

Oppgave 1. Kilde SS df M S F Legering Feil Total MOT30 Statistiske metoder, høste0 Løsninger til regneøving nr. 0 (s. ) Oppgave Y ij = µ i + ε ij, der ε ij uavh. N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig

Detaljer

Løsningsforslag eksamen 27. februar 2004

Løsningsforslag eksamen 27. februar 2004 MOT30 Statistiske metoder Løsningsforslag eksamen 7 februar 004 Oppgave a) Y ij = µ i + ε ij, der ε ij uavh N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig variasjon)

Detaljer

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2 TMA4245 Statistikk Vår 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalte oppgaver 12, blokk II Denne øvingen består av oppgaver om enkel lineær regresjon. De handler

Detaljer

Løsningsforslag eksamen 25. november 2003

Løsningsforslag eksamen 25. november 2003 MOT310 Statistiske metoder 1 Løsningsforslag eksamen 25. november 2003 Oppgave 1 a) Vi har µ D = µ X µ Y. Sangere bruker generelt trapesius-muskelen mindre etter biofeedback dersom forventet bruk av trapesius

Detaljer

STK Oppsummering

STK Oppsummering STK1100 - Oppsummering Geir Storvik 6. Mai 2014 STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder Institutt for matematiske fag Eksamensoppgave i ST1201/ST6201 Statistiske metoder Faglig kontakt under eksamen: Nikolai Ushakov Tlf: 45128897 Eksamensdato: 20. desember 2016 Eksamenstid (fra til): 09:00

Detaljer

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 7 Faglig kontakt under eksamen: Mette Langaas (988 47 649) BOKMÅL EKSAMEN I TMA4255 ANVENDT STATISTIKK Fredag 25.

Detaljer

Bootstrapping og simulering Tilleggslitteratur for STK1100

Bootstrapping og simulering Tilleggslitteratur for STK1100 Bootstrapping og simulering Tilleggslitteratur for STK1100 Geir Storvik April 2014 (oppdatert April 2016) 1 Introduksjon Simulering av tilfeldige variable (stokastisk simulering) er et nyttig verktøy innenfor

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 12 Denne øvingen består av oppgaver om enkel lineær regresjon. De handler blant

Detaljer

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 10 LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011 Oppgave 1 Oljeleting a) Siden P(A

Detaljer

Forelesning 13 Regresjonsanalyse

Forelesning 13 Regresjonsanalyse Forelesning 3 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen?

Detaljer

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene. Estimering 2 -Konfidensintervall Dekkes av kap. 9.4-9.5, 9.10, 9.12 og forelesingsnotatene. En (punkt-)estimator ˆΘ gir oss et anslag på en ukjent parameterverdi, men gir oss ikke noen direkte informasjon

Detaljer

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK Noregs teknisk naturvitskaplege universitet Institutt for matematiske fag Side 1 av 7 Fagleg kontakt under eksamen: Mette Langaas (988 47 649) NYNORSK EKSAMEN I TMA4255 ANVENDT STATISTIKK Fredag 25. mai

Detaljer

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk Gruvedrift Notat for TMA/TMA Statistikk Institutt for matematiske fag, NTNU I forbindelse med planlegging av gruvedrift i et område er det mange hensyn som må tas når en skal vurdere om prosjektet er lønnsomt.

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK2120 Skisse til løsning/fasit. Eksamensdag: Torsdag 5. juni 2014. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider.

Detaljer

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100 Gamma regresjon Forelesning 7 STK3100/4100 26. september 2008 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Modell: Har y Gamma(µ,ν),

Detaljer

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 R-kode for alle oppgaver er gitt bakerst. Oppgave 1 (a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn.

Detaljer

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4255 ANVENDT STATISTIKK Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 11 Faglig kontakt under eksamen: Mette Langaas (988 47 649) BOKMÅL EKSAMEN I TMA4255 ANVENDT STATISTIKK Fredag 7.

Detaljer

ECON240 VÅR / 2016 BOKMÅL

ECON240 VÅR / 2016 BOKMÅL ECON240 VÅR / 2016 BOKMÅL UNIVERSITETET I BERGEN EKSAMEN UNDER SAMFUNNSVITENSKAPELIG GRAD [ DATO og KLOKKESLETT FOR EKSAMEN (START OG SLUTT) ] Tillatte hjelpemidler: Matematisk formelsamling av K. Sydsæter,

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1110 FASIT. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider. Vedlegg: Tillatte

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1000 Innføring i anvendt statistikk Eksamensdag: Mandag 3. desember 2018. Tid for eksamen: 14.30 18.30. Oppgavesettet er på

Detaljer

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt Bjørn H. Auestad Kp. 11: Regresjonsanalyse 1 / 57 Kp. 11 Regresjonsanalyse; oversikt 11.1 Introduction to Linear Regression 11.2 Simple Linear Regression 11.3 Least Squares and the Fitted Model 11.4 Properties

Detaljer

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator. Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004 Dato: 29.september 2016 Klokkeslett: 09 13 Sted: Tillatte hjelpemidler: B154 «Tabeller og formler i statistikk» av Kvaløy og

Detaljer

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 19. mai 2017 Eksamenstid (fra til): 09.00

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 Ei bedrift produserer elektriske komponentar. Komponentane kan ha to typar

Detaljer

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1 MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1 Oppgave 1 a) Normalantakelse: Målingene x 1,..., x 21 og y 1,..., y 8 betraktes som utfall av tilfeldige variable X 1,..., X 21

Detaljer

Prøveeksamen i STK3100/4100 høsten 2011.

Prøveeksamen i STK3100/4100 høsten 2011. Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller p. 1/34 Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller STK3100/4100-23. august 2011 Geir Storvik (Oppdatert

Detaljer

7. november 2011 Geir Storvik

7. november 2011 Geir Storvik Forelesning 13 STK3100/4100 Plan for forelesning: 7. november 2011 Geir Storvik Generaliserte lineære blandede modeller 1. Sammenlikning ulike estimeringsmetoder 2. Tolkning parametre 3. Inferens Konfidensintervaller

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Kapittel 3: Beskrivende analyse og presentasjon av data for to variabler (bivariate data) Bo Lindqvist Institutt for matematiske fag 2 Presentasjon av bivariate data

Detaljer

Oppgave 14.1 (14.4:1)

Oppgave 14.1 (14.4:1) MOT30 Statistiske metoder, høste006 Løsninger til regneøving nr. 0 (s. ) Modell: Oppgave 4. (4.4:) Y ijk = µ + α i + β j + (αβ) ij + ε ijk, der ε ijk uavh. N(0, σ ) der µ er gjennomsnittseffekten, α i

Detaljer

Emne 10 Litt mer om matriser, noen anvendelser

Emne 10 Litt mer om matriser, noen anvendelser Emne 10 Litt mer om matriser, noen anvendelser (Reelle) ortogonale matriser La A være en reell, kvadratisk matrise, dvs. en (n n)-matrise hvor hvert element Da vil A være ortogonal dersom: og Med menes

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK2120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 6. juni 2011. Tid for eksamen: 14.30 18.30. Oppgavesettet er

Detaljer

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist, tlf. 975 89 418 EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA440 Statistikk Høst 009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Løsningsskisse Oppgave a) n 8, i x i 675, x 37.5, i y i 488, i x i 375, i x iy i

Detaljer

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert! MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1 Flott! Samlet sett leverer dere gode resultater. Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert! Totalt

Detaljer

Forelesning 6 STK3100

Forelesning 6 STK3100 Scorefunksjon og estimeringsligninger for GLM Forelesning 6 STK3100 29. september 2008 S. O. Samuelsen Plan for forelesning: 1. Observert og forventet informasjon 2. Optimeringsrutiner 3. Iterative revektede

Detaljer

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som: Hypotesetesting. 10 og fore- Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte for å undersøke hypoteser (påstander) knyttet til parametre i sannsynlighetsfordelinger.

Detaljer

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Anvendt medisinsk statistikk, vår Repeterte målinger, del II Anvendt medisinsk statistikk, vår 009 Repeterte målinger, del II Eirik Skogvoll Overlege, Klinikk for anestesi og akuttmedisin 1. amanuensis, Enhet for anvendt klinisk forskning (med bidrag fra Harald

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: MAT Lineær algebra Eksamensdag: Mandag,. desember 7. Tid for eksamen: 4. 8.. Oppgavesettet er på 8 sider. Vedlegg: Tillatte hjelpemidler:

Detaljer