UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte hjelpemidler: Oppgave 1 Ige Godkjet kalkulator og formelsamliger for STK1100/STK1110 og STK2100 Kotroller at oppgavesettet er komplett før du begyer å besvare spørsmålee. (a) I modeller med faktorer, sier regresjoskoeffisietee oe om ivået til de ulike kategoriee. Imidlertid, år også et kostatledd er med, blir det for mage parametre og vi må begrese/redusere disse til e dimesjo lavere. Dette ka gjøres på ulike måter, e er å sette de første lik ull, hvor de resterede koeffisietee måler avvik fra de første kategorie. (b) Vi har AIC = 2 log-lik + 2 p der p er atall parametre i modelle. Her er p = 17 som gir AIC= 2 ( 308.8) + 2 17 = 651.6. Side flere av de estimerte koeffisietee har e tilhørede p-verdi som er gaske høy, tyder det på at vi bør ta bort oe variable. (c) Når vi gjør begresiger på modelle, vil vi ha et midre rom å optimere likelihoode på, oe som medfører lavere verdi. Her blir AIC= 2 ( 318.0) + 2 6 = 648.0. Da dee verdie er oe midre e hva vi fikk tidligere, er de ye modelle å foretrekke. (d) For GAM har vi at ŷ = Sy og frihetsgrader blir da bereget ved trase(s). Vi får et høyere atall frihetsgrader her pga ikke-liearitet. Her blir da AIC= 2 ( 312.2)+2 8.4 = 641.2. Vi får da e forbedrig i forhold til tidligere modeller. Plottee viser ikke e veldig sterk ikke-liearitet, me gitt megde data blir de likevel sigifikat. (Fortsettes på side 2.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 2 (e) Defiisjoee av regioee vil være kombiasjoer av logiske operatorer basert på ulike forklarigsvariable. Dermed kommer iteraksjoer i. Vi har at hver Y i er biomisk fordelt med ett forsøk. Sasylighetee for å få 1 ka variere fra observasjo til observasjo. Dette er da markert ved å ha e ideks i på p i. Ved å i tillegg ata uavhegighet mellom resposee, får vi da produktet av ledd av type p y i i (1 p i) 1 y i. Side vi for klassifikasjostrær atar at sasylighetee er like iefor hver regio, blir da p i = c m for x i R m. (f) Det er ikke helt opplagt hvorda e skal telle atall parametre i dette tilfellet. Vi har 13 edeoder som gir 13 c m parametre. I mage situasjoer bruker e dette som atall parametre. I tillegg har vi imidlertid 12 oppsplittiger. Hver oppsplittig har to parametre, e som spesifiserer hvilke variabel som skal splittes opp og e som spesifiserer hvilke verdi oppsplittige skal skje på. Totalt blir det dermed 13 + 2 12 = 37 parametre. (E ka imidlertid argumetere for at Sex ikke har oe ekstra spesifiserig av hvor oppsplittig skal skje slik at e evetuelt også kue bruke 36 parametre. Merk at for adre faktorer med mer e 2 ivåer må e bestemme et ivå gjeom hvorda oppsplittig skjer.) Dette gir e AIC verdi på AIC = 2 ( 279.5) + 2 37 = 633.0 dvs oe bedre e vi fikk med de tidligere modeller. (g) Trær gir ofte overtilpasig. E mulighet er å stoppe oppsplittig tidligere, me da ka e miste iteraksjoer som kommer seere. Det er derfor valig å først lage et stort tre og så beskjære dette for å miske variase. I prisippet blir frihetsgrader her eda vaskeligere å berege side vi i prisippet bør ta hesy til hele prosesse for å geerere det beskjærte treet. Hvis vi imidlertid ku forholder oss til størrelse på det edelige tre, får vi 9+2*8=25 frihetsgrader. Da blir AIC = 2 ( 287.349) + 2 25 = 624.698 som gir e ytterligere reduksjo i forhold til tidligere verdier. Kombiert med at vi å får et oe eklere tre å forholde oss til er derfor dette treet å foretrekke. (h) For å få et realistisk mål på hvorda e metode fugerer, må det evalueres på data som ikke er blitt brukt til treig. E mulighet (Fortsettes på side 3.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 3 er å dele opp i et treigssett og et testsett, me da vil vi få et midre treigssett å estimere modelle med. Kryss-validerig utytter data bedre ved å sirkulere testsettet. E øsker ofte å måle metoder ved å se på hvorda det oppfører seg på ye datasett. Slike ye datasett er imidlertid ikke alltid tilgjegelig AIC (som ku bruker treigsdatasettet) vil ikke alltid gi et realistisk mål på hvor god e modell/metode er (baserer seg mye på modellatagelser). Et bedre mål ka være prediksjosfeil på ye data. Hvis vi imidlertid ikke har for mye data, vil vi tape edel estimerigsstyrke ved å ta bort e del av dataee til test. Kryss-validerig har si styrke i at det er e metode som både oppår et stort testsett (faktisk hele datasettet) og samtidig får et treigssett som er gaske stort (e adel (K 1)/K der K er atall grupper). E ekstra fordel med CV er at det ka parallelliseres slik at beregigstid ikke ødvedigvis blir alt for stor. Baggig og Radom Forest: Begge tar utgagspukt i at trær ka ha stor variasjo (egetlig e hvilke som helst metode med stor varias) og robustifiserer dette ved å istedet kombiere mage prediktorer basert på ulike datasett. De ulike datasett blir kostruert ved bootstrappig. Baggig og Radom Forest skiller seg ved at Baggig beytter alle forklarigsvariable ved hvert splitt mes Radom Forest gjør begresiger i settet av variable for å oppå midre korrelasjo mellom de ulike trær (prediktorer) som blir laget. Nevrale ett er gitt ved z im =h(α T mx i ), m = 1,..., M (1) T i =β 0 + β T z i (2) y i =g(t i ) + ε i (3) der både h( ) ad g( ) er mulige ikke-lieære fuktioer. Figur 1 illustrerer modelle. z-ee ka oppfattes som latete variable. Dype ett oppås ved å ha flere lag med latete variable. (i) Resultatee ka tyde på at iteraksjoer likevel ikke er så viktige i dee situasjoe (alle de beste modellee er av GAM type). Videre ka det se ut som ikke-lieæriteter er viktig, me at variabelseleksjoe mhp GAM ikke fugerer så godt. E mulig metode for å evaluere feilrate er å bruk de verdi ma har fått på de valge metode. Merk imidlertid at selv om hver av feilratee ka være forvetigsrette iefor hver metode, så vil vi å bruke miimum av 10 variable. Et slikt miimum vil ikke leger være forvetigsrett, og vil typisk være oe for optimistisk. Ideelt sett burde vi hatt et ekstra test-sett å vurdere de edelige modell på. (Fortsettes på side 4.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 4 y z 1 z 2 z 3 z M 1 z M x 1 x 2 x 3 x p 1 x p Figure 1: Visualisatio of eural etwork with oe hidde layer. For det spesifikke problemet vil imidlertid prediksjo på ye data ikke være så aktuelt, ma er mer iteressert i å lære sammeheger. Sett fra dette perspektivet er det bra at e rimelig ekel model blir valgt, dog kaskje litt egativt at ikke oe av variablee blir valgt bort. Oppgave 2 (a) Vi har at der Y i =β 0 + β 1 x i1 + β 2 x i2 + ε i =β 0 + β 1 x 1 + β 2 x 2 + β 1 (x i1 x 1 ) + β 2 (x i2 x 2 ) + ε i = β 0 + β 1 x i1 + β 2 x i2 + ε i β 0 =β 0 + β 1 x 1 + β 2 x 2 x i1 =x i1 x 1 x i2 =x i2 x 2 β 0 agir å forvetet ivå år begge forklarigsvariable har verdier lik gjeomsittsverdiee av de observerte x-er. (b) Hvis forklarigsvariablee har veldig ulike skalaer, ka det være hesiktsmessig å legge ulike straffeledd på disse. Et alterativ kue være å skalere x-ee på forhåd. Ikke opplagt hva som er best. Side det er e e-til-e korrespodase mellom (β 0, β 1, β 2 ) og ( β 0, β 1, β 2 ) med β 0 = β 0 + β 1 x 1 + β 2 x 2 og vi har at (Fortsettes på side 5.) h(β 0, β 1, β 2 ) = h(β 0 + β 1 x 1 + β 2 x 2, β 1, β 2 ),

Eksame i STK2100, Torsdag 14. jui 2018. Side 5 vil de to miimerigsproblemee være ekvivalete. Vi har at β 0 h( β0, β 1, β 2 ) = 2 = 2 (y i β 0 β 1 x i1 β 2 x i2 ) (y i β 0 ) som hvis vi setter lik ull gir optimal verdi ˆ β0 = ȳ. (c) Vi har at β 1 h( β0, β 1, β 2 ) = 2 β 2 h( β0, β 1, β 2 ) = 2 (y i β 0 β 1 x i1 β 2 x i2 ) x i1 (y i β 0 β 1 x i1 β 2 x i2 ) x i2 som hvis vi setter lik ull gir likigssystemet β 1 [ β 1 x 2 i1 + λ 1 ] + β 2 x i2 x i1 = x i2 x i1 + β 2 [ x 2 i2 + λ 2 ] = y i x i1 y i x i2 Hvis i (x i1 x 1 )(x i2 x 2 ) = i x i1 x i2 = 0, forekler likigssystemet seg til β 1 [ β 2 [ x 2 i1 + λ 1 ] = x 2 i2 + λ 2 ] = som gir løsige (y i ȳ) x i1 (y i ȳ) x i2 ˆβ 1 = ˆβ 2 = y i x i1 x2 i1 + λ 1 y i x i2 x2 i2 + λ 2 Vi får da side β 0 = β 0 β 1 x 1 β 2 x 2 at ˆβ 0 = ȳ y i x i1 x2 i1 + λ x 1 y i x i2 1 x2 i2 + λ x 2 2 (Fortsettes på side 6.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 6 (d) De første metode svarer til miste kvadraters metode. De adre svarer til valig Ridge regresjo. Det ser ut som det er viktigst å straffe β 1 (svarede til de mist sigifikate variabel), og valig Ridge ser da ut til å legge mest vekt på dee variabele. Valg av λ blir derfor mest påvirket av hvor mye vi treger å straffe β 1, og g dermed at λ 1 λ (faktisk lik i dette tilfellet). Hvis vi skulle bruke dee metode på mage forklarigsvariable for vi iallefall to problemer: Et umerisk problem ved at vi må miimere med hesy på mage λ j er. Et statistisk problem ved at vi ka lett få overtilpasig år vi å ifører mege ye tuigparametre i metode.