Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form: Y = Xβ + ε, ε N(0, σ 2 I) La ˆβ være minste kvadraters estimatet for β. Vi vil i denne oppgaven se på størrelsen RSS = n i=1 (Y i Ŷi) 2 der Ŷ = xt i ˆβ. (a) Vis at E = Y Ŷ = [I n X(X T X) 1 X T ]ε der I n er diagonalmatrisen av størrelse n n. Hva blir forventningsvektoren og kovariansmatrisen til E? (b) Vis at E[RSS] = σ 2 (n p 1) RSS = (Y Ŷ )T (Y Ŷ ). Hint: Vis at RSS = trase(ee T ) der trasen til en matrise er summen av diagonalleddene. Du kan videre bruke at trase(ab) = trase(ba) for A og B matriser av matchende størrelse. (c) Vis at Cov(ŷ i, E j ) = 0 for alle i, j. Diskuter dette resultatet. Hint: Det kan her være lettere å jobbe direkte med vektorene ŷ og E. Krysskovariansmatrisen mellom to stokastiske vektorer U og V kan skrives Cov(U, V ) og vi har det generelle resultatet Cov(AU, BV ) = ACov(U, V )B T. 1
Oppgave 2 Vi vil her se på en regresjonssetting der vi har noen forklaringsvariable x og antar Y = f(x) + ε Vi ønsker å predikere Y med en tapsfunksjon L(y, ŷ) = (y ŷ) 2. Vi har som vanlig data {(y i, x i ), i = 1,..., n}. (a) Vis at den optimale prediktor i denne situasjonen er Ŷ = f(x). Spesifiser spesielt hva som menes med optimalt her og hvilke antagelser dette resultatet bygger på. (b) Anta nå Ŷ (x 0) = ˆf(x 0 ) for et nytt punkt x 0. Vis at forventet tap kan skrives som E[(Y Ŷ (x 0)) 2 x 0 ] = (f(x 0 ) E[ f(x 0 )]) 2 +E[( f(x 0 ) E[ f(x 0 ) x 0 ]) 2 x 0 ]+Var(ε) Gi en fortolkning av de ulike ledd på venstre side (c) La nå ˆf 1 (x) være en prediktor basert på en ganske restriktiv metode/modell mens ˆf 2 (x) er basert på en mer fleksibel tilnærming. Diskuter de ulike leddene i likningen ovenfor i denne settingen. (d) Diskuter ulike metoder for å estimere forventet tap. Ta spesielt opp styrker og svakheter med ulike metoder. Oppgave 3 I denne oppgaven skal vi se på et dataset frogs der interessevariabelen er tilstedeværelse av en spesifikk type frosker på ulike lokasjoner (0/1 variabel der 1 svarer til tilstedeværelse). Det er 9 ulike forklaringsvariable, alle numeriske. En logisisk regresjonstilpasning ga følgende resultater: C o e f f i c i e n t s : Estimate Std. Error z value Pr( > z ) ( I n t e r c e p t ) 1.635 e+02 2.153 e+02 0.759 0.44764 northing 1.041 e 02 1.654 e 02 0.630 0.52901 e a s t i n g 2.158e 02 1.268 e 02 1.702 0.08872 a l t i t u d e 7.091 e 02 7.705 e 02 0.920 0.35745 distance 4.835e 04 2.060 e 04 2.347 0.01893 NoOfPools 2.968 e 02 9.444 e 03 3.143 0.00167 NoOfSites 4.294 e 02 1.095 e 01 0.392 0.69482 avrain 4.058e 05 1.300 e 01 0.000 0.99975 meanmin 1.564 e+01 6.479 e+00 2.415 0.01574 meanmax 1.708 e+00 6.809 e+00 0.251 0.80198 Log-likelihood verdier for denne tilpasningen ble -97.83. Hvis y i er responsvariabelen for observasjon i og ŷ i er tilhørende prediksjon, ga det følgende tabell (eller forvirringsmatrise): y\ŷ 0 1 0 113 20 1 24 55 2
(a) Basert på resultatene fra tilpasningen med den logistiske regresjonen, vil dette være en modell du er fornøyd med? Begrunn svaret. En alternativ modell også basert på logistisk regresjon ga følgende resultater: C o e f f i c i e n t s : Estimate Std. Error z value Pr( > z ) ( I n t e r c e p t ) 6.916 e+01 1.611 e+01 4.293 1.76 e 05 e a s t i n g 9.236e 03 4.479 e 03 2.062 0.03921 a l t i t u d e 3.217 e 02 8.049 e 03 3.997 6.41 e 05 distance 5.099e 04 1.837 e 04 2.776 0.00550 NoOfPools 2.969 e 02 9.091 e 03 3.266 0.00109 meanmin 8.916 e+00 2.030 e+00 4.391 1.13 e 05 med log-likelihood verdi lik -98.71. Tilhørende forvirringsmatrise ble i dette tilfellet y\ŷ 0 1 0 112 21 1 24 55 (b) Forklar hvorfor log-likelihood verdier for den nye modellen er lavere enn for den første modellen. Bruk disse log-likelihood verdiene til å gjøre et valg mellom de to typer modeller. Spesifiser hvilket kriterie du bruker for dette valget. (c) Forklar hva P-verdiene gitt i siste kolonne i de to tabeller betyr. Diskuter de faktiske verdier som kommer ut av de to modellene. Gi også en mulig forklaring på at for de forklaringsvariable som er med i begge tabeller så er P-verdiene ganske forskjellige. Vi vil nå se på klassifikasjonstrær. Plottet nedenfor viser et estimert tre med 5 noder: meanmin < 3.11667 NoOfPools < 71 distance < 1600 0 1 altitude < 1295 0 1 0 y\ŷ 0 1 0 117 16 1 24 55 3
(d) Forklar hvorfor en likelihood funksjon for et klassifikasjonstre kan skrives på formen L(θ) = n i=1 p y i i (1 p i) 1 y i der p i = c m for x i R m. (e) For det spesifikke klassifikasjonstre blir log-likelihood verdien lik -90.21. Hva blir antall parametre i dette tilfelle? Bruk dette til å beregne AIC verdien for klassifikasjonstreet og vurder denne modellen i forhold til tidligere modeller. La oss nå i stedet se på bruk av kryss-validering. Tabellene nedenfor gir forvirringsmatriser for logistisk regresjon med 5 forklaringsvariable samt for klassifikasjonstre med 5 endenoder Logistisk regresjon Klassifikasjonstre y\ŷ 0 1 0 1 0 109 24 100 33 1 24 55 24 55 (f) Kommenter forskjeller mellom disse forvirringsmatrisene og de vi fikk tidligere. Basert på disse nye forvirringsmatrisene, hvilken metode vil du foretrekke? Tilslutt vil vi se på bagging. Forvirringsmatrisene nedenfor er basert på out-of-bag estimering. Logistisk regresjon Klassifikasjonstre y\ŷ 0 1 0 1 0 109 24 115 18 1 24 55 32 47 (g) Forklar hvordan bagging kan benyttes i forbindelse med både logistisk regresjon og klassifikasjonstrær. Forklar hvordan out-of-bag ideen kan brukes for å klassifisere hver observasjon og dermed gi forvirringsmatriser. Diskuter resultatene, både i forhold til kryss-valideringen tidligere og logistisk regresjon kontra klassifikasjon. Oppgave 4 Anta Y = f(x) + ε der f(x) er et stykkevis kvadratisk polynom: f(x) = { β 0,1 + β 1,1 x + β 2,1 x 2 β 0,2 + β 1,2 x + β 2,2 x 2 for x < c for x c 4
(a) Anta vi ønsker å legge inn begrensninger på f(x) ved at funksjonen er både kontinuerlig og at den har kontinuerlig derivert. Hvilke begrensninger legger det på β j,m -ene? Hvor mange effektive (eller frie) parametre ender vi da opp med? (b) La nå g(x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 (x c) 2 + der (x c) 2 + = (x c) 2 hvis x > c og 0 ellers. Vis at g(x) er kontinuerlig, har kontinuerlig derivert og er kvadratisk innenfor hver av intervallene (, c) og [c, ). (c) Vis at vi kan oppnå f(x) = g(x) for passende valg av θ j, j = 0,..., M + 1. Anta nå Y = f(x)+ε der f(x) er et stykkevis kvadratisk polynom delt opp i flere intervaller: f(x) = β 0,m + β 1,m x + β 2,m x 2 for c m 1 x < c m for m = 1,..., M, c 0 = < c 1 < < c M 1 < c M = (d) Anta igjen vi ønsker å legge inn begrensninger på f(x) ved at funksjonen er både kontinuerlig og at den har kontinuerlig derivert. Hvilke begrensninger legger det på β j,m -ene? Hvor mange effektive (eller frie) parametre ender vi da opp med? (e) Hvordan kan estimering av parametrene utføres? Du behøver ikke å utføre selve beregningene, bare beskrive hva slags metode som kan brukes. Oppgave 5 Vi skal i denne oppgaven se på et datasett om luftkvalitet. Datasettet er fra mai til september 1973 og måler ozon nivå (skala er ppb=parts per billion) i New York sammen med flere andre forklaringsvariable. Vi vil i første omgang konsentrere oss om temperatur (Fahrenheit). Figuren nedenfor viser plott av ozon mot temperatur. Vi vil anta en modell Y = f(x) + ε der x er temperatur og Y er ozon nivå. 5
Ozone 0 50 100 150 60 70 80 90 Temperature Vi vil i første omgang konsentrere oss om lokal regresjon i en dimensjon. La K(x i, x 0 ) være en vektfunksjon som angir hvor mye vekt vi skal gi til observasjon i når vi ønsker å predikere x 0. Matematisk kan dette beskrives ved at vi minimerer n K(x i, x 0 )(y i β 0 (x 0 ) i=1 d β j (x 0 )x j i )2 j=1 mhp β 0 (x 0 ),..., β d (x 0 ). Vi får da en prediksjon i punktet x 0 gitt ved ˆf(x 0 ) = ˆβ 0 (x 0 ) + d ˆβ j (x 0 )x j i j=1 (a) For d = 1, utled de optimale estimater for β 0 (x 0 ), β 1 (x 0 ) (det er nok å sette opp et likningssystem som estimatene må tilfredsstille). Blir ˆf(x 0 ) en forventningsrett prediktor? Begrunn svaret. Vis at ŷ i = ˆf(x i ) = n j=1 S ijy j for alle i. Argumenter for at dette også gjelder for d = 2. (b) Nedenfor er plott av estimert sammenheng mellom temperatur og ozon basert på lokal regresjon med d = 1 (venstre) og d = 2 (høyre). For disse to regresjonene er de tilhørende kjernefunksjoner K(x i, x 0 ) valgt slik at n i=1 S ii er omtrent lik for d = 1 og d = 2. Hvorfor er dette rimelig å gjøre? Estimert feilrate (basert på et uavhengig test sett) var 688.96 for d = 1 og 698.71 for d = 2. Basert på plottet nedenfor, argumenter hvorfor dette er rimelig i dette tilfellet. 6
lo(temp, span = 0.469, degree = 1) -40 0 40 80 60 70 80 90 lo(temp, span = 0.6, degree = 2) -40 0 40 80 60 70 80 90 Temp Temp (c) Et alternativ til lokal regresjon er splines. Nedenfor er et estimat av f ved bruk av glattingsspline (smoothing spline). Også her er ŷ i = ˆf(x i ) = n j=1 S ijy j (dette behøver du ikke å vise) og n i=1 S ii er omtrent lik det vi fikk for lokal regresjon. Den estimerte funksjonen ser her ut til å være noe glattere enn hva tilfellet var for lokal regresjon. Argumenter for hvorfor dette kan være rimelig. Feilraten på testsettet ble i dette tilfellet 694.66. Basert på disse resultatene, hvilken metode vil du foretrekke? s(temp, 3.9) -40-20 0 20 40 60 80 60 70 80 90 Temp (d) Vi skal nå utvide modellen til også å inkludere vind. Vi vil nå anta en modell Y = f 1 (x 1 ) + f 2 (x 2 ) + ε der x 1 svarer til temperatur og x 2 svarer til vind. f 1 ( ) og f 2 ( ) er glatte funksjoner. Hvilken klasse av metoder faller denne modellen innenfor? Nedenfor viser tilpasning av f 2 (x 2 ) der f 1 (x 1 ) = 0 (venstre) og der f 1 (x 1 ) er tilpasset simultant. Diskuter likeheter/forskjeller mellom de to estimatene av f 2 (x 2 ). 7
lo(wind) -50 0 50 100 lo(wind) -20 0 20 40 5 10 15 Wind 5 10 15 Wind (e) Anta du har en god metode for å tilpasse en modell Y = f(x) + ε der f( ) er en glatt funksjon. Forklar hvordan du kan bruke denne metoden for å tilpasse en modell med to glatte funksjoner (som i punkt (d)). Oppgave 6 (a) Nevn minst 3 metoder relatert til regresjon eller klassifikasjon som enkelt paralleliseres? (b) Vil noen av disse metodene også være minne-besparende? Oppgave 7 Spam filtre er ofte basert på statistiske klassifikasjonsmetoder for å skille mellom reelle og spam mail. Slike metoder baserer seg bl.a. på frekvensen av ulike ord i mail. Hvis vi lar W være et ord som vi tenker opptrer oftere i spam enn i reell mail, er en mulig prosedyre å basere seg på Pr(V S) = q > p = Pr(V R) der V er begivenheten at W er et ord i mailen, S at en mail er spam mens R er at en mail er reell. Anta videre at r er andelen av mail som er reelle. (a) Utled en klassifikasjonsregel der du klassifiserer til spam hvis sannsynligheten for at det er en spam-mail er større enn 0.5. (b) Anta nå at vi vil se mer alvorlig på reelle mail som klassifiseres som spam enn på spam mail som klassifiseres som reelle mail. Forklar hvordan dette kan formuleres matematisk og utled en optimal klassifikasjonsregel i dette tilfellet. Anta nå at du har et sett av ord W 1,..., W M som ofte forekommer. La V m være begivenheten at ordet W m forekommer i en mail. V = (V 1,..., V M ) vil da være en vektor av binære variable (der 1 svarer til at ordet forekommer i mailen). La videre Pr(V m S) = q m og Pr(V m R) = p m. 8
(c) Anta nå at Pr(V S) = M m=1 qvm m (1 q m ) 1 Vm og Pr(V R) = M m=1 pvm m (1 p m ) 1 Vm. Hva slags antagelse bygger disse sannsynlighetene på? Utled en klassifikasjonsregel også i dette tilfellet. (d) Ofte ser en ikke bare på enkeltord men også par av ord. La V m,m at både ordene W m og W m. Diskuter fordeler og ulemper med en slik tilnærming. angi begivenheten 9