UNIVERSITETET I OSLO

Like dokumenter
UNIVERSITETET I OSLO

Prøveeksamen STK vår 2017

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Prøveeksamen STK2100 (fasit) - vår 2018

UNIVERSITETET I OSLO

vekt. vol bruk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Kapittel 6 - modell seleksjon og regularisering

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Prøveeksamen i STK3100/4100 høsten 2011.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

STK2100. Obligatorisk oppgave 1 av 2

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I TMA4255 ANVENDT STATISTIKK

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I TMA4285 TIDSREKKEMODELLER Fredag 7. desember 2012 Tid: 09:00 13:00

Forelesning 9 STK3100/4100

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Informasjon om eksamen SOS Kvantitativ metode

TMA4245 Statistikk Eksamen desember 2016

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Ridge regresjon og lasso notat til STK2120

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Forelesning 8 STK3100/4100

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamen ST2303 Medisinsk statistikk Onsdag 3 juni 2009 kl

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kvinne Antall Tabell 1a. Antall migreneanfall i året før kvinnene fikk medisin.

TMA4240 Statistikk Høst 2009

Inferens i regresjon

Forelesning 9 STK3100/4100

EKSAMENSOPPGAVE STA-2004.

UNIVERSITETET I OSLO

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO

STK juni 2016

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4255 Anvendt statistikk

Transkript:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2 Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Eksamensdag: Torsdag 4. juni 28. Tid for eksamen: 4.3 8.3. Oppgavesettet er på 7 sider. Vedlegg: Tillatte hjelpemidler: Ingen Godkjent kalkulator og formelsamlinger for STK/STK og STK2 Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Oppgave Vi skal i denne oppgaven se på et datasett om overlevelse etter Titanic katastrofen. Variablene som inngår er Survival =Nei, =Ja, faktor Age Alder i måneder, en numerisk variabel Pclass Billett klasse, =st, 2=2nd, 3=3rd, faktor Sex Kjønn (menn/kvinner), faktor Sibsp Antall søsken/ektefeller ombord, numerisk. Parch Antall foreldre/barn ombord, numerisk Fare Billettpris, numerisk Cabin Kabin nummer, faktor som i utgangspunktet har 48 ulike verdier, men som er redusert/gruppert til 9; N (no cabin), A, B, C, D, E, F, G, T. Embarked Havn for ombordstigning, C=Cherbourg, Q=Queenstown, S=Southhampton, faktor Vi vil se på et delsett av det totale sett bestående av 72 individer. Vi vil starte med en enkel logistisk regresjonsmodell. Tilpasning ga følgende regresjonstabell: (Fortsettes på side 2.)

Eksamen i STK2, Torsdag 4. juni 28. Side 2 Estimate Std. Error z value Pr(> z ) (Intercept) 3.8723.6692 5.79. Pclass2 -.6793.553 -.34.788 Pclass3 -.827.582-3.48.5 Sexmale -2.69.2279 -.8. Age -.439.85-5.5. SibSp -.3553.36-2.72.65 Parch -.69.25 -.55.585 Fare.29.3.97.3298 CabinA.274.7877.43.524 CabinB.558.638.87.389 CabinC -.68.582 -.2.97 CabinD.9392.646.53.265 CabinE.5267.649 2.52.6 CabinF.272.7936.53.25 CabinG -.899.24 -.88.3783 EmbarkedQ -.7989.65 -.32.867 EmbarkedS -.435.2838 -.53.252 Når en bruker denne modellen til å predikere de samme data (ved å predikere til den mest sannsynlige klassen) får vi en feilrate på 9.%. Log-likelihood verdien for denne modellen er -38.8. (a) Forklar hvorfor regresjonstabellen lister opp færre rader enn antall nivåer for faktor variablene. Gitt at vi her har en Treatment begrensning (vi setter koeffisienten svarende til det første nivået lik null), hva slags tolkning har da regresjonskoeffisientene for de øvrige nivåer? (b) Beregn AIC-verdien for denne modellen. Diskutér hvorfor det kan være rimelig å forenkle modellen noe. (c) Nedenfor er utskrift fra en alternativ modell: Estimate Std. Error z value Pr(> z ) (Intercept) 4.3254.457 9.6. Pclass2 -.463.2848-4.94. Pclass3-2.645.2859-9.25. Sexmale -2.69.25-2.8. Age -.449.82-5.46. SibSp -.3786.24-3.2.8 Når en bruker denne modellen til å predikere de samme data (ved å predikere til den mest sannsynlige klassen) får en en feilrate på 9.38%. Log-likelihood verdien for denne modellen er -38.. Forklar hvorfor log-likelihood verdien blir mindre i dette tilfellet. Argumentér hvorfor denne modellen likevel er å foretrekke. (Fortsettes på side 3.)

Eksamen i STK2, Torsdag 4. juni 28. Side 3 En alternativ modell er en generaliserte additive modell (GAM). Plottene nedenfor viser de ikke-lineære funksjoner som inngikk i en modellen der de samme forklaringsvariable som i oppgave (c) ble brukt. Log-likelihood verdien for denne modellen er -32.2 mens estimert antall frihetsgrader er 8.4. s(age,2.6) 4 2 2 s(sibsp,.84) 4 2 2 2 4 6 8 Age 2 3 4 5 SibSp (d) Forklar hvordan antall frihetsgrader blir beregnet i dette tilfellet. Bruk dette til å sammenlikne denne modellen med de tidligere modeller. Kommentér om plottene viser signifikante ikke-lineariteter. (e) Nok en alternativ modell kan fås ved å bruke klassifikasjonstrær. Nedenfor er et plot av et klassifikasjonstre basert på endenoder. (Fortsettes på side 4.)

Eksamen i STK2, Torsdag 4. juni 28. Side 4 Classification Tree for Titanic Sex=b 424/288 Cabin=ah 36/93 Pclass=c 64/95 Age>=3.5 37/52 Age>=7.5 53/4 Fare>=2.8 55/47 9/48 32/43 5/9 Cabin=dg 53/33 /8 2/3 Age>=6.5 35/44 22/6 Age>=43.5 3/27 Age>=36.5 3/28 4/6 9/7 2/2 6/ Parch<.5 25/27 Fare>=7.888 2/8 4/9 5/8 6/ Diskuteŕ hvorfor klassifikasjonstrær gir mulighet for å inkludere interaksjoner mellom forklaringsvariable. Forklar hvorfor en likelihood funksjon for et klassifikasjonstre med en respons tilhørende to klasser kan skrives på formen L(θ) = n i= p y i i ( p i) y i der p i = c m for x i R m. (f) For det spesifikke tre fikk vi en log-likelihood verdi på -279.452. Bruk dette til å vurdere denne modellen mot de tidligere modellene. (g) Diskutér hvorfor det kan være hensiktsmessig å beskjære trær. Nedenfor er et tre beskåret ned til 9 endenoder. Log-likelihood verdien i dette tilfellet er -287.349. Vurder også denne modellen mot de tidligere modeller. (Fortsettes på side 5.)

Eksamen i STK2, Torsdag 4. juni 28. Side 5 Pruned Classification Tree for Titanic Sex=b 424/288 Cabin=ah 36/93 Pclass=c 64/95 Age>=3.5 37/52 Age>=7.5 53/4 Fare>=2.8 55/47 9/48 32/43 5/9 Cabin=dg 53/33 /8 2/3 35/44 22/6 Age>=43.5 3/27 9/7 2/2 (h) Nedenfor er gitt en tabell over estimert feilrate basert på kryssvalidering (delt opp i 8 grupper). Alternative metoder som Bagging, Random Forest og nevrale nett er også inkludert. Metode Feilrate (%) Logistisk regresjon, alle variable 5.59 Logistisk regresjon, variabel seleksjon 7.84 GAM, alle variable.24 GAM, variabel seleksjon 6.85 Klassifikasjonstre, noder 2.37 Klassifikasjonstre, 9 noder 9.94 Bagging 2.79 Random Forrest 9.38 Nevrale nett (5 latente noder) 2.37 Dype nett (3 latente lag med 5 noder i hver) 22.75 Diskutér fordelene med å bruke kryss-validering for å evaluere metoder. Beskriv kort hvordan Bagging, Random Forest, Nevrale nett og dype nett fungerer. (i) Diskutér mulige forklaringer på at de mest enkle metoder ser ut til å fungere best i dette tilfellet. Anta du velger den metode med minst estimert feilrate, diskutér hvordan du kan si noe om hvor godt denne valgte metoden vil virke. Ta med både styrker og svakheter med ditt valg. (Fortsettes på side 6.)

Eksamen i STK2, Torsdag 4. juni 28. Side 6 Oppgave 2 Anta en lineær regresjonsmodell Y i = β + β x i + β 2 x i2 + ε i, i =,..., n der ε i N(, σ 2 ) og alle støyledd er uavhengige. (a) Vis at vi kan skrive om modellen til Y i = β + β x i + β 2 x i2 + ε i, i =,..., n der i x i = i x i2 =. Hva slags tolkning har β i denne formuleringen av modellen? (b) Anta vi ønsker å estimere β = (β, β, β 2 ) ved minimering av h(β, β, β 2 ) = n (y i β β x i β 2 x i2 ) 2 + λ β 2 + λ 2 β2. 2 i= (Vi vil i det etterfølgende kalle de verdier som minimerer h for de optimale verdier). Diskutér situasjoner hvor det kan være hensiktsmessig å bruke λ λ 2. Vis at minimering av h(β) kan oppnås ved minimering av h( β, β, β 2 ) = n (y i β β x i β 2 x i2 ) 2 + λ β 2 + λ 2 β2. 2 i= Finn den optimale verdi for β. (c) Sett opp et ligningssystem som de optimale verdier av (β, β 2 ) må tilfredsstille. Under antagelsen om at i (x i x )(x i2 x 2 ) =, utled eksplisitte uttrykk for de optimale verdier for (β, β 2 ). Hva blir den optimale verdi for β da? Vi vil nå se på Hitters datasettet der en ønsker å predikere Salary basert på mange ulike forklaringsvariable. Vi vil imidlertid kun se på to av disse her: PutOuts og Hits. En enkel lineær regresjon basert på de to forklaringsvariablene ga følgende resultater: Estimate Std. Error t value Pr(> t ) (Intercept) 535.9259 24.63 2.78. PutOuts 83.7694 25.8357 3.24.3 Hits 72.7897 25.8357 6.69. For å se på effekten av straffeledd, ble 3 ulike forsøk sammenliknet: (Fortsettes på side 7.)

Eksamen i STK2, Torsdag 4. juni 28. Side 7 λ = λ 2 =. λ = λ 2 = λ der λ er bestemt ved minimering av kryss-validert estimat på kvadratisk feil. λ λ 2 der (λ, λ 2 ) er begge bestemt ved kryss-validert estimat på sum av kvadratisk feil De kryss-validerte estimatene på sum av kvadratisk feil ble henholdsvis 63367, 6366 (λ = 2.) og 6342 (λ = 2., λ 2 = 2.2). (d) Hva slags metoder svarer de 2 første forsøk til? Basert på resultatene som er oppgitt, hvorfor kan det være rimelig at den optimale felles λ verdi i det andre forsøket svarer til λ i det tredje forsøket? Diskutér utfordringer i forbindelse med å innføre ulike straffeledd for de forskjellige forklaringsvariable når antall forklaringsvariable øker.