Ridge regresjon og lasso notat til STK2120

Like dokumenter
Modellvalg ved multippel regresjon notat til STK2120

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

STK juni 2016

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Kapittel 6 - modell seleksjon og regularisering

Tilleggsoppgaver for STK1110 Høst 2015

Variansanalyse og lineær regresjon notat til STK2120

Inferens i regresjon

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Prøveeksamen STK2100 (fasit) - vår 2018

Prøveeksamen STK vår 2017

vekt. vol bruk

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

TMA4240 Statistikk H2010

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Eksamensoppgave i TMA4267 Lineære statistiske modeller

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2009

Forelesning 3 STK3100

UNIVERSITETET I OSLO

Kp. 12 Multippel regresjon

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Oppgave 1: Feil på mobiltelefoner

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgave i TMA4240 Statistikk

FORMELSAMLING TIL STK1100 OG STK1110

10.1 Enkel lineær regresjon Multippel regresjon

Kort overblikk over kurset sålangt

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk 2014

EKSTRAOPPGAVER I STK1110 H2017

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Løsningsforslag: STK2120-v15.

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Forelesning 7 STK3100

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

UNIVERSITETET I OSLO

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Oppgavesett 5, s. 1. Oppgave 1. Oppgave 2. Oppgave 3

Fasit for tilleggsoppgaver

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk Eksamen desember 2015

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Fra krysstabell til regresjon

NORMALFORDELINGER, KOVARIANSMATRISER OG ELLIPSOIDER

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

TMA4240 Statistikk Høst 2018

EKSAMEN I TMA4255 ANVENDT STATISTIKK

STK Oppsummering

UNIVERSITETET I OSLO

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4245 Statistikk Eksamen desember 2016

Fasit og løsningsforslag STK 1110

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

UNIVERSITETET I OSLO

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Introduksjon til Generaliserte Lineære Modeller (GLM)

Oppgave N(0, 1) under H 0. S t n 3

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO

Forelesning 8 STK3100/4100

STK2100. Obligatorisk oppgave 1 av 2

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA-1001.

Bootstrapping og simulering Tilleggslitteratur for STK1100

Dato: Tirsdag 28. november 2006 Lengde på eksamen: 4 timer Tillatte hjelpemidler: Kun standard enkel kalkulator, HP 30S

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Bootstrapping og simulering

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Transkript:

Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle når vi har mange forklaringsvariabler i forhold til antall observasjoner. Notatet er et supplement til det som står om lineær regresjon i avsnittene 12.7 og 12.8 i boka til Devore & Berk (D&B). Når ikke annet er sagt bruker vi notasjonen i denne boka. 1. Balansen mellom skjevhet og varians Vi vil anta at vi har observasjoner (Y i, x i ); i = 1, 2,..., n. Her er Y i -ene uavhengige og normalfordelte med varians σ 2, mens x i = (x i1,..., x ik ) er vektorer av forklaringsvariabler svarende til Y i ; i = 1, 2,..., n. Vi vil anta x i -ene er gitte vektorer (dvs. ikke stokastiske) og at E(Y i ) = f(x i ) for en funksjon f. [Men merk at i mange anvendelser vil x i -ene være observerte verdier av stokastiske vektorer X i. I slike situasjoner ser vi på den betingete forventningen til Y i gitt X i = x i.] På grunnlag av observasjonene (Y i, x i ) bestemmer vi en modell ˆf(x0 ) som kan predikere en ny observasjon Y 0 ut fra den tilhørende vektoren av forklaringsvariabler x 0. En slik modell kan for eksempel være en lineær regresjonsmodell, slik at ˆf(x 0 ) = x ˆβ. 0 For å se hvor god modellen er til å predikere Y 0, kan vi se på (den kvadratiske) prediksjonsfeilen ( [ PE(x 0 ) = E Y 0 ˆf(x ] ) 2 0 ). (1) Vi kan skrive om prediksjonsfeilen som følger [siden Y 0 er uavhengig av ˆf(x 0 ) og EY 0 = f(x 0 )]: ( [ PE(x 0 ) = E {Y 0 EY 0 } + {f(x 0 ) E ˆf(x 0 )} + {E ˆf(x 0 ) ˆf(x ] ) 2 0 )} = E ( {Y 0 EY 0 } 2) ( + E {E ˆf(x 0 ) f(x 0 )} 2) + E ({ ˆf(x 0 ) E ˆf(x 0 )} 2) = σ 2 + Bias 2 { ˆf(x 0 )} + V( ˆf(x 0 ), (2) der σ 2 = V (Y 0 ) og Bias{ ˆf(x 0 )} = E ˆf(x 0 ) f(x 0 ) er skjevheten for estimatoren ˆf(x 0 ). Av (2) ser vi at prediksjonsfeilen avhenger både av skjevheten og variansen til estimatoren ˆf(x 0 ). For å få best mulig prediksjon må vi derfor finne en passende balanse mellom skjevhet og varians. Det er altså ikke nødvendigvis best å bruke en forventningsrett estimator for f(x 0 ). Vi kan få bedre prediksjon ved å bruke en estimator som er litt skjev hvis den har (tilstrekkelig mye) mindre varians. Det gir en motivasjon for å se på andre estimatorer for den multiple lineære regresjonsmodellen enn minste kavadraters estimator. 2. Ridge regresjon Vi har den lineære regresjonsmodellen Y i = β 0 + β 1 x i1 + + β k x ik + ϵ i, (3) der x ij -ene er gitte forklaringsvariabler og ϵ i -ene er uavhengige og N(0, σ 2 )-fordelte stokastiske variabler. Vi vil i dette notatet anta at alle forklaringsvariablene er sentrert, dvs. at x ij = 0 for j = 1, 2,..., k. (4) 1

Merk at vi kan sentrere forklaringsvariablene ved å trekke gjennomsnittet fra av hver av dem. Merk videre at en slik sentrering ikke endrer β 1,..., β k i (3). Det er bare konstantledded β 0 som blir et annet når vi sentrerer forklaringsvariablene. Minste kvadraters estimatorer for β 0, β 1,... β k er de verdiene av b 0, b 1,... b k som minimerer kvadratsummen (jf. side 683 i D&B) g(b 0, b 1,..., b k ) = [Y i (b 0 + b 1 x i1 + + b k x ik )] 2. (5) Hvis det er stor korrelasjon mellom forklaringsvariablene og/eller vi har mange forklaringsvariabler i forhold til antall observasjoner, vi minste kvadraters estimatorer ha stor varians. Da kan det være bedre å bruke estimatorer for β j -ene som ikke er forventningsrette, men som har mindre varians. En slik mulighet er ridge regresjon. I stedet for å minimere kvadratsummen (5), minimerer vi for ridge regresjon den straffete kvadratsummen h(b 0, b 1,..., b k ) = k [Y i (b 0 + b 1 x i1 + + b k x ik )] 2 + λ b 2 j, (6) j=1 der vi straffer store verdier av b j -ene. (Merk at vi ikke straffer store verdier av b 0.) I (6) er λ 0 en parameter som angir hvor stor straff vi får for store verdier av b j -ene. Når vi deriverer (6) med hensyn på b 0 og b j for j = 1,..., k, får vi b 0 h(b 0, b 1,..., b k ) = 2 b j h(b 0, b 1,..., b k ) = 2 [Y i (b 0 + b 1 x i1 + + b k x ik )] [Y i (b 0 + b 1 x i1 + + b k x ik )] x ij + 2λb j Vi setter de partiellderiverte lik null, og bruker (4). Da får vi ligningene: og nb 0 = Y i (7) b 1 x i1 x ij + + b k x ik x ij + λb j = x ij Y i (8) for j = 1,..., k. Ridge estimatoren er løsningen av disse k + 1 ligningene. Ridge estimatoren for β 0 er dermed ˆβ 0 = Y = 1 n = Y i, mens ridge estimatoren for β = (β 1,..., β k ) er gitt som løsningen av ligningssystemet ( X X + λi ) b = X Y. (9) 2

Her er Y = (Y 1,..., Y n ), b = (b 1,..., b k ), I er identitetsmatrisen av dimensjon k k og x 11 x 12 x 1k X = x 21 x 22 x 2k..... (10) x n1 x n2 x nk Merk at matrisen (10) ikke er den samme X-matrisen som den som er gitt på side 706 i D&B. Forskjellen er at X-matrisen i D&B har en kolonne med 1-tall, mens matrisen (10) ikke har det. Tilsvarende skriver vi nå vektorene β = (β 1,..., β k ) og b = (b 1,..., b k ) uten konstantleddene β 0 og b 0. Vi løser (9) og får rigde estimatoren ˆβ λ = ( X X + λi ) 1 X Y. (11) Merk at estimatoren avhenger av verdien av λ. Hvordan vi kan velge λ, tar vi opp i avsnitt 5. Når vi bruker minste kvadraters metode, vil en endring av skalaen for den j-te forklaringsvariabelen bli kompensert ved en tilsvarende endring av estimatet ˆβ j slik at produktet ˆβ j x ij blir det samme. (Hvis vi for eksempel endrer skalaen for alder fra år til måneder, vil minste kvadraters estimat når vi bruker måneder som tidsskala være tolv ganger så stort som det estimatet vi får når vi bruker år som tidsskala.) Men for ridge estimatoren er det ikke slik. Derfor er det for ridge regresjon vanlig å standardisere alle forklaringsvariablene slik at n x2 ij = 1 for j = 1,..., k. 3. Egenskaper til ridge estimatoren Vi vil studere egenskapene til rigde estimatoren ˆβ λ = ( ˆβ λ1,..., ˆβ λk ). Av (11) ser vi at ˆβ λj er en lineærkombinasjon av Y i -ene, så ˆβ λj er normalfordelt. For å finne forventning og varians, ser vi først på hvordan ridge estimatoren henger sammen med minste kvadraters estimator. Minste kvadraters estimator er gitt ved: ˆβ = ( X X ) 1 X Y. Merk at (12) er minste kvadraters estimator for β = (β 1,..., β k ), dvs. uten konstantledded β 0. Ved en liten modifikasjon av resonementene på sidene 711 og 712 i D&B har vi at E(ˆβ) = β og Cov(ˆβ) = σ 2 (X X) 1. Vi kan nå omforme ridge estimatoren (11): ˆβ λ = ( X X + λi ) 1 ( X X ) ( X X ) 1 X Y = [ (X X)(I + λ(x X) 1 ) ] 1 ( X X ) ( X X ) 1 X Y = ( I + λ(x X) 1) 1 ( X X ) 1 X Y = ( I + λ(x X) 1) 1 ˆβ. (13) Av (13) får vi dermed at (12) og E(ˆβ λ ) = ( I + λ(x X) 1) 1 E(ˆβ) = ( I + λ(x X) 1) 1 β. (14) Cov(ˆβ λ ) = ( I + λ(x X) 1) 1 Cov(ˆβ) ( I + λ(x X) 1) 1 = σ 2 ( I + λ(x X) 1) 1 ( X X ) 1 ( I + λ(x X) 1) 1. (15) 3

4. Et eksempel Formelene (14) og (15) er nokså komplekse, så det er vanskelig å se hva de gir oss. Som en liten illustrasjon ser vi derfor på situasjonen det forklaringsvariablene er ortonormale, dvs. at n x2 ij = 1 for j = 1,..., k og n x ijx il = 0 for j l. Da har vi at X X = I, slik at og E(ˆβ λ ) = (1 + λ) 1 β Cov(ˆβ λ ) = σ 2 (1 + λ) 2 I. (17) Merk at vi får E(ˆβ) og Cov(ˆβ) ved å sette λ = 0 i (16) og (17). Vi er interessert i å predikere en ny observasjon Y 0 ut fra den tilhørende vektoren av forklaringsvariabler x 0. Det kan vi gjøre ved å bruke minste kvadraters prediktor: ˆf(x 0 ) = x 0 ˆβ eller ved å bruke ridge prediktoren: ˆf λ (x 0 ) = x 0 ˆβ λ. For minste kvadraters prediktor (18) har vi ( ) E ˆf(x0 = x 0E(ˆβ) = x 0β ( ) V ˆf(x0 = x 0Cov(ˆβ)x 0 = σ 2 x 0x 0 (16) (18) (19) Av (2) får vi da prediksjonsfeilen PE(x 0 ) = σ 2 + σ 2 x 0x 0 For ridge prediktoren (19) har vi ( ) E ˆfλ (x 0 = x 0E(ˆβ λ ) = (1 + λ) 1 x 0β ( ) V ˆfλ (x 0 = x 0Cov(ˆβ λ )x 0 = σ 2 (1 + λ) 2 x 0x 0 og prediksjonsfeilen blir (20) PE λ (x 0 ) = σ 2 + [ (1 + λ) 1 x 0β x 0β ] 2 + σ 2 (1 + λ) 2 x 0x 0 ( ) λ 2 = σ 2 + (x 1 + λ 0β) 2 + σ 2 (1 + λ) 2 x 0x 0 (21) For å sammenligne prediksjonsfeilene, ser vi på differansen mellom (21) og (20): ( ) λ 2 PE λ (x 0 ) PE λ (x 0 ) = σ 2 + (x 1 + λ 0β) 2 + σ 2 (1 + λ) 2 x 0x 0 { σ 2 + σ 2 x } 0x 0 ( ) λ 2 = (x 1 + λ 0β) 2 λ(2 + λ) (1 + λ) 2 σ2 x 0x 0 ( ) ( ) λ 2 2 = σ 2 x x 0 0x β 0 1 + λ σ λ(2 + λ) x 0 x 0 (1 + λ) 2 (22) Av (22) ser vi{ at ridge estimatoren har mindre prediksjonsfeil enn minste kvadraters estimator ( ) 2 x når 0 < λ < 2 0 β 1}. σ x 0 x 0 4

5. Kryssvalidering Vi ser igjen på den generelle situasjonen fra avsnitt 2. For å bestemme den beste verdien av λ kan vi bruke kryssvalidering. Vi ser her på leave one out cross validation. Et alternativ er k-fold cross validation. Vi starter med å velge en sekvens av λ-verdier fra verdier nær null til store verdier. (Strengt tatt er vi interessert i alle verdier av λ > 0, men det er ikke praktisk mulig.) Så går vi fram på denne måten: For hver verdi av λ gjør vi følgende: Bruk alle observasjonene unntatt den i-te til å bestemme ridge estimatoren ( i) Bruk ˆβ λ til å predikere Y i, og la Ŷ (λ) i være prediksjonen vi får. Beregn kryssvalideringsfeilen ˆβ ( i) λ. CV(λ) = 1 ( ) Y i n Ŷ (λ) 2 i (23) Det beste valget av λ er det som gir minst verdi av CV(λ). 5. Et eksempel Vi vil vise hvordan vi kan bruke R til å bestemme rigde estimatene og til å finne den beste verdien av λ ved kryssvalidering. Til illustrasjon vil vi bruke en studie med data for 442 pasienter med sukkersyke. Som en del av denne studien ønsket en å bruke ti forklaringsvariabler og 54 interaksjoner mellom dem til å predikere et mål for progresjon av sykdommen ett år fram i tid (y). De ti forklaringsvariablene er alder (ald), kjønn (sex), kroppsmasseindeks (bmi), gjennomsnittlig blodtrykk (map), og seks målinger av blodserum (tc, ldl, hdl, tch, ltg, glu). På datafilen er alle forklaringsvariablene sentrert og standardisert (slik at n x ij = 0 og = 1 for alle j). n x2 ij Vi leser dataene inn i en dataramme som vi kaller diabetes slik det er beskrevet på kurssiden. Vi vil bruke pakken glmnet til å utføre ridge regresjon. Når vi skal bruke denne pakken, må vi først definere vektoren av responser (Y) og X-matrisen (10): > y=diabetes$y > x=model.matrix(y~.,data=diabetes)[,-1] Så bestemmer vi rigde estimatene (11) for en sekvens av λ-verdier (som kommandoen velger selv hvis vi ikke angir dem) og plotter dem som en funksjon av logaritmen til λ (opsjonen alpha=0 gir oss ridge estimatene): > ridge.mod=glmnet(x,y,alpha=0) > plot(ridge.mod,xvar="lambda") 5

Vi får da plottet: 64 64 64 64 64 Coefficients 200 0 100 200 300 400 500 2 4 6 8 10 Log Lambda Vi ser at rigde estimatene avtar etter som vi øker verdien av λ, dvs. gir større straff til store verdier av estimatene. For å bestemme beste verdi av λ gjør vi en kryssvalidering og plotter CV (λ) som en funksjon av logaritmen til λ : cv.ridge=cv.glmnet(x,y,alpha =0,nfolds=length(y),grouped=F) plot(cv.cv.ridge) Vi får da plottet: 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64 64 Mean Squared Error 3000 3500 4000 4500 5000 5500 6000 2 4 6 8 10 log(lambda) 6

Den λ-verdien som minimerer CV (λ) er markert med den første av de to loddrette linjene på plottet. Ved å gi kommandoen cv.ridge$lambda.min finner vi verdien λ = 15.14. Denne verdien av λ har vi også markert på det første plottet ovenfor. Vi får de tilhørende ridge estimatene ved kommandoen coef(cv.ridge,s="lambda.min"). 6. Lasso Et alternativ til ridge regresjon er lasso ( least absolute shrinkage and selection operator ). Også for lasso straffer vi store verdier av estimatene. Men for lasso bruker vi den straffete kvadratsummen h(b 0, b 1,..., b k ) = k [Y i (b 0 + b 1 x i1 + + b k x ik )] 2 + λ b j (24) j=1 Teorien for lasso er noe vanskeligere enn for ridge regresjon, så vi vil ikke gå inn på denne. Men en viktig effekt av at lasso-straffen er definert ut fra absoluttverdiene til b j -ene, er at flere av lasso estimatene vil bli eksakt lik null. Denne egenskapen til lasso, gjør estimatene lettere å fortolke enn estimatene for ridge regresjon. Vi ser til slutt på eksemplet fra forrige avsnitt. For å få lasso estimatene for en sekvens av λ-verdier (som kommandoen velger selv hvis vi ikke angir dem) og plott dem som en funksjon av logaritmen til λ gir vi kommandoene (opsjonen alpha=1 gir oss lasso): > lasso.mod=glmnet(x,y,alpha=1) > plot(lasso.mod,xvar="lambda") Vi får da plottet: 62 53 33 7 0 Coefficients 500 0 500 4 2 0 2 4 Log Lambda Vi ser at lasso estimatene avtar etter som vi øker verdien av λ og at de etterhvert blir lik null. (Tallene over plottet angir hvor mange estimater som ikke er lik null.) 7

For å bestemme beste verdi av λ gjør vi en kryssvalidering og plotter CV(λ) som en funksjom av logaritmen til λ : cv.lasso=cv.glmnet(x,y,alpha=1,nfolds=length(y),grouped=f) plot(cv.lasso) Vi får da plottet: 60 58 57 53 50 48 41 34 32 27 15 11 7 4 4 3 2 0 Mean Squared Error 3000 3500 4000 4500 5000 5500 6000 2 0 2 4 log(lambda) Den λ-verdien som minimerer CV(λ) er markert med den første av de to loddrette linjene på plottet. Ved å gi kommandoen cv.lasso$lambda.min finner vi verdien λ = 2.52. Denne verdien av λ har vi også markert på det første plottet ovenfor. Vi får de tilhørende lasso estimatene ved kommandoen coef(cv.lasso,s="lambda.min"). 8