Prøveeksamen STK vår 2017

Like dokumenter
Prøveeksamen STK2100 (fasit) - vår 2018

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

STK Oppsummering

Ridge regresjon og lasso notat til STK2120

UNIVERSITETET I OSLO

Kapittel 6 - modell seleksjon og regularisering

STK2100. Obligatorisk oppgave 1 av 2

Forelesning 8 STK3100/4100

Prøveeksamen i STK3100/4100 høsten 2011.

STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Oppgave N(0, 1) under H 0. S t n 3

Ekstraoppgaver for STK2120

TMA4240 Statistikk Eksamen desember 2015

Oppsummering av STK2120. Geir Storvik

UNIVERSITETET I OSLO

vekt. vol bruk

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

STK juni 2016

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSTRAOPPGAVER I STK1110 H2017

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Forelesning 9 STK3100/4100

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

6.6 Anvendelser på lineære modeller

10.1 Enkel lineær regresjon Multippel regresjon

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i TMA4240 Statistikk

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

TMA4240 Statistikk Eksamen desember 2015

Forelesning 9 STK3100/4100

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

UNIVERSITETET I OSLO

Bootstrapping og simulering Tilleggslitteratur for STK1100

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2016

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Forelesning 3 STK3100

STK Oppsummering

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Inferens i regresjon

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Ekstraoppgaver STK3100 h10

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk 2014

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Løsningsforslag: STK2120-v15.

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgave i TMA4245 Statistikk

UNIVERSITETET I OSLO

Forelesning 7 STK3100/4100

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4245 Statistikk Eksamen august 2014

ELE Matematikk valgfag

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Forelesning 7 STK3100

EKSAMENSOPPGAVE STA-1001.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Fasit og løsningsforslag STK 1110

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

Eksamensoppgave i TMA4255 Anvendt statistikk

TMA4240 Statistikk H2010

EKSTRAOPPGAVER I STK1110 H2018

Løsningsforslag eksamen 25. november 2003

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Transkript:

Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form: Y = Xβ + ε, ε N(0, σ 2 I) La ˆβ være minste kvadraters estimatet for β. Vi vil i denne oppgaven se på størrelsen RSS = n i=1 (Y i Ŷi) 2 der Ŷ = xt i ˆβ. (a) Vis at E = Y Ŷ = [I n X(X T X) 1 X T ]ε der I n er diagonalmatrisen av størrelse n n. Hva blir forventningsvektoren og kovariansmatrisen til E? (b) Vis at E[RSS] = σ 2 (n p 1) RSS = (Y Ŷ )T (Y Ŷ ). Hint: Vis at RSS = trase(ee T ) der trasen til en matrise er summen av diagonalleddene. Du kan videre bruke at trase(ab) = trase(ba) for A og B matriser av matchende størrelse. (c) Vis at Cov(ŷ i, E j ) = 0 for alle i, j. Diskuter dette resultatet. Hint: Det kan her være lettere å jobbe direkte med vektorene ŷ og E. Krysskovariansmatrisen mellom to stokastiske vektorer U og V kan skrives Cov(U, V ) og vi har det generelle resultatet Cov(AU, BV ) = ACov(U, V )B T. 1

Oppgave 2 Vi vil her se på en regresjonssetting der vi har noen forklaringsvariable x og antar Y = f(x) + ε Vi ønsker å predikere Y med en tapsfunksjon L(y, ŷ) = (y ŷ) 2. Vi har som vanlig data {(y i, x i ), i = 1,..., n}. (a) Vis at den optimale prediktor i denne situasjonen er Ŷ = f(x). Spesifiser spesielt hva som menes med optimalt her og hvilke antagelser dette resultatet bygger på. (b) Anta nå Ŷ (x 0) = ˆf(x 0 ) for et nytt punkt x 0. Vis at forventet tap kan skrives som E[(Y Ŷ (x 0)) 2 x 0 ] = (f(x 0 ) E[ f(x 0 )]) 2 +E[( f(x 0 ) E[ f(x 0 ) x 0 ]) 2 x 0 ]+Var(ε) Gi en fortolkning av de ulike ledd på venstre side (c) La nå ˆf 1 (x) være en prediktor basert på en ganske restriktiv metode/modell mens ˆf 2 (x) er basert på en mer fleksibel tilnærming. Diskuter de ulike leddene i likningen ovenfor i denne settingen. (d) Diskuter ulike metoder for å estimere forventet tap. Ta spesielt opp styrker og svakheter med ulike metoder. Oppgave 3 I denne oppgaven skal vi se på et dataset frogs der interessevariabelen er tilstedeværelse av en spesifikk type frosker på ulike lokasjoner (0/1 variabel der 1 svarer til tilstedeværelse). Det er 9 ulike forklaringsvariable, alle numeriske. En logisisk regresjonstilpasning ga følgende resultater: C o e f f i c i e n t s : Estimate Std. Error z value Pr( > z ) ( I n t e r c e p t ) 1.635 e+02 2.153 e+02 0.759 0.44764 northing 1.041 e 02 1.654 e 02 0.630 0.52901 e a s t i n g 2.158e 02 1.268 e 02 1.702 0.08872 a l t i t u d e 7.091 e 02 7.705 e 02 0.920 0.35745 distance 4.835e 04 2.060 e 04 2.347 0.01893 NoOfPools 2.968 e 02 9.444 e 03 3.143 0.00167 NoOfSites 4.294 e 02 1.095 e 01 0.392 0.69482 avrain 4.058e 05 1.300 e 01 0.000 0.99975 meanmin 1.564 e+01 6.479 e+00 2.415 0.01574 meanmax 1.708 e+00 6.809 e+00 0.251 0.80198 Log-likelihood verdier for denne tilpasningen ble -97.83. Hvis y i er responsvariabelen for observasjon i og ŷ i er tilhørende prediksjon, ga det følgende tabell (eller forvirringsmatrise): y\ŷ 0 1 0 113 20 1 24 55 2

(a) Basert på resultatene fra tilpasningen med den logistiske regresjonen, vil dette være en modell du er fornøyd med? Begrunn svaret. En alternativ modell også basert på logistisk regresjon ga følgende resultater: C o e f f i c i e n t s : Estimate Std. Error z value Pr( > z ) ( I n t e r c e p t ) 6.916 e+01 1.611 e+01 4.293 1.76 e 05 e a s t i n g 9.236e 03 4.479 e 03 2.062 0.03921 a l t i t u d e 3.217 e 02 8.049 e 03 3.997 6.41 e 05 distance 5.099e 04 1.837 e 04 2.776 0.00550 NoOfPools 2.969 e 02 9.091 e 03 3.266 0.00109 meanmin 8.916 e+00 2.030 e+00 4.391 1.13 e 05 med log-likelihood verdi lik -98.71. Tilhørende forvirringsmatrise ble i dette tilfellet y\ŷ 0 1 0 112 21 1 24 55 (b) Forklar hvorfor log-likelihood verdier for den nye modellen er lavere enn for den første modellen. Bruk disse log-likelihood verdiene til å gjøre et valg mellom de to typer modeller. Spesifiser hvilket kriterie du bruker for dette valget. (c) Forklar hva P-verdiene gitt i siste kolonne i de to tabeller betyr. Diskuter de faktiske verdier som kommer ut av de to modellene. Gi også en mulig forklaring på at for de forklaringsvariable som er med i begge tabeller så er P-verdiene ganske forskjellige. Vi vil nå se på klassifikasjonstrær. Plottet nedenfor viser et estimert tre med 5 noder: meanmin < 3.11667 NoOfPools < 71 distance < 1600 0 1 altitude < 1295 0 1 0 y\ŷ 0 1 0 117 16 1 24 55 3

(d) Forklar hvorfor en likelihood funksjon for et klassifikasjonstre kan skrives på formen L(θ) = n i=1 p y i i (1 p i) 1 y i der p i = c m for x i R m. (e) For det spesifikke klassifikasjonstre blir log-likelihood verdien lik -90.21. Hva blir antall parametre i dette tilfelle? Bruk dette til å beregne AIC verdien for klassifikasjonstreet og vurder denne modellen i forhold til tidligere modeller. La oss nå i stedet se på bruk av kryss-validering. Tabellene nedenfor gir forvirringsmatriser for logistisk regresjon med 5 forklaringsvariable samt for klassifikasjonstre med 5 endenoder Logistisk regresjon Klassifikasjonstre y\ŷ 0 1 0 1 0 109 24 100 33 1 24 55 24 55 (f) Kommenter forskjeller mellom disse forvirringsmatrisene og de vi fikk tidligere. Basert på disse nye forvirringsmatrisene, hvilken metode vil du foretrekke? Tilslutt vil vi se på bagging. Forvirringsmatrisene nedenfor er basert på out-of-bag estimering. Logistisk regresjon Klassifikasjonstre y\ŷ 0 1 0 1 0 109 24 115 18 1 24 55 32 47 (g) Forklar hvordan bagging kan benyttes i forbindelse med både logistisk regresjon og klassifikasjonstrær. Forklar hvordan out-of-bag ideen kan brukes for å klassifisere hver observasjon og dermed gi forvirringsmatriser. Diskuter resultatene, både i forhold til kryss-valideringen tidligere og logistisk regresjon kontra klassifikasjon. Oppgave 4 Anta Y = f(x) + ε der f(x) er et stykkevis kvadratisk polynom: f(x) = { β 0,1 + β 1,1 x + β 2,1 x 2 β 0,2 + β 1,2 x + β 2,2 x 2 for x < c for x c 4

(a) Anta vi ønsker å legge inn begrensninger på f(x) ved at funksjonen er både kontinuerlig og at den har kontinuerlig derivert. Hvilke begrensninger legger det på β j,m -ene? Hvor mange effektive (eller frie) parametre ender vi da opp med? (b) La nå g(x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 (x c) 2 + der (x c) 2 + = (x c) 2 hvis x > c og 0 ellers. Vis at g(x) er kontinuerlig, har kontinuerlig derivert og er kvadratisk innenfor hver av intervallene (, c) og [c, ). (c) Vis at vi kan oppnå f(x) = g(x) for passende valg av θ j, j = 0,..., M + 1. Anta nå Y = f(x)+ε der f(x) er et stykkevis kvadratisk polynom delt opp i flere intervaller: f(x) = β 0,m + β 1,m x + β 2,m x 2 for c m 1 x < c m for m = 1,..., M, c 0 = < c 1 < < c M 1 < c M = (d) Anta igjen vi ønsker å legge inn begrensninger på f(x) ved at funksjonen er både kontinuerlig og at den har kontinuerlig derivert. Hvilke begrensninger legger det på β j,m -ene? Hvor mange effektive (eller frie) parametre ender vi da opp med? (e) Hvordan kan estimering av parametrene utføres? Du behøver ikke å utføre selve beregningene, bare beskrive hva slags metode som kan brukes. Oppgave 5 Vi skal i denne oppgaven se på et datasett om luftkvalitet. Datasettet er fra mai til september 1973 og måler ozon nivå (skala er ppb=parts per billion) i New York sammen med flere andre forklaringsvariable. Vi vil i første omgang konsentrere oss om temperatur (Fahrenheit). Figuren nedenfor viser plott av ozon mot temperatur. Vi vil anta en modell Y = f(x) + ε der x er temperatur og Y er ozon nivå. 5

Ozone 0 50 100 150 60 70 80 90 Temperature Vi vil i første omgang konsentrere oss om lokal regresjon i en dimensjon. La K(x i, x 0 ) være en vektfunksjon som angir hvor mye vekt vi skal gi til observasjon i når vi ønsker å predikere x 0. Matematisk kan dette beskrives ved at vi minimerer n K(x i, x 0 )(y i β 0 (x 0 ) i=1 d β j (x 0 )x j i )2 j=1 mhp β 0 (x 0 ),..., β d (x 0 ). Vi får da en prediksjon i punktet x 0 gitt ved ˆf(x 0 ) = ˆβ 0 (x 0 ) + d ˆβ j (x 0 )x j i j=1 (a) For d = 1, utled de optimale estimater for β 0 (x 0 ), β 1 (x 0 ) (det er nok å sette opp et likningssystem som estimatene må tilfredsstille). Blir ˆf(x 0 ) en forventningsrett prediktor? Begrunn svaret. Vis at ŷ i = ˆf(x i ) = n j=1 S ijy j for alle i. Argumenter for at dette også gjelder for d = 2. (b) Nedenfor er plott av estimert sammenheng mellom temperatur og ozon basert på lokal regresjon med d = 1 (venstre) og d = 2 (høyre). For disse to regresjonene er de tilhørende kjernefunksjoner K(x i, x 0 ) valgt slik at n i=1 S ii er omtrent lik for d = 1 og d = 2. Hvorfor er dette rimelig å gjøre? Estimert feilrate (basert på et uavhengig test sett) var 688.96 for d = 1 og 698.71 for d = 2. Basert på plottet nedenfor, argumenter hvorfor dette er rimelig i dette tilfellet. 6

lo(temp, span = 0.469, degree = 1) -40 0 40 80 60 70 80 90 lo(temp, span = 0.6, degree = 2) -40 0 40 80 60 70 80 90 Temp Temp (c) Et alternativ til lokal regresjon er splines. Nedenfor er et estimat av f ved bruk av glattingsspline (smoothing spline). Også her er ŷ i = ˆf(x i ) = n j=1 S ijy j (dette behøver du ikke å vise) og n i=1 S ii er omtrent lik det vi fikk for lokal regresjon. Den estimerte funksjonen ser her ut til å være noe glattere enn hva tilfellet var for lokal regresjon. Argumenter for hvorfor dette kan være rimelig. Feilraten på testsettet ble i dette tilfellet 694.66. Basert på disse resultatene, hvilken metode vil du foretrekke? s(temp, 3.9) -40-20 0 20 40 60 80 60 70 80 90 Temp (d) Vi skal nå utvide modellen til også å inkludere vind. Vi vil nå anta en modell Y = f 1 (x 1 ) + f 2 (x 2 ) + ε der x 1 svarer til temperatur og x 2 svarer til vind. f 1 ( ) og f 2 ( ) er glatte funksjoner. Hvilken klasse av metoder faller denne modellen innenfor? Nedenfor viser tilpasning av f 2 (x 2 ) der f 1 (x 1 ) = 0 (venstre) og der f 1 (x 1 ) er tilpasset simultant. Diskuter likeheter/forskjeller mellom de to estimatene av f 2 (x 2 ). 7

lo(wind) -50 0 50 100 lo(wind) -20 0 20 40 5 10 15 Wind 5 10 15 Wind (e) Anta du har en god metode for å tilpasse en modell Y = f(x) + ε der f( ) er en glatt funksjon. Forklar hvordan du kan bruke denne metoden for å tilpasse en modell med to glatte funksjoner (som i punkt (d)). Oppgave 6 (a) Nevn minst 3 metoder relatert til regresjon eller klassifikasjon som enkelt paralleliseres? (b) Vil noen av disse metodene også være minne-besparende? Oppgave 7 Spam filtre er ofte basert på statistiske klassifikasjonsmetoder for å skille mellom reelle og spam mail. Slike metoder baserer seg bl.a. på frekvensen av ulike ord i mail. Hvis vi lar W være et ord som vi tenker opptrer oftere i spam enn i reell mail, er en mulig prosedyre å basere seg på Pr(V S) = q > p = Pr(V R) der V er begivenheten at W er et ord i mailen, S at en mail er spam mens R er at en mail er reell. Anta videre at r er andelen av mail som er reelle. (a) Utled en klassifikasjonsregel der du klassifiserer til spam hvis sannsynligheten for at det er en spam-mail er større enn 0.5. (b) Anta nå at vi vil se mer alvorlig på reelle mail som klassifiseres som spam enn på spam mail som klassifiseres som reelle mail. Forklar hvordan dette kan formuleres matematisk og utled en optimal klassifikasjonsregel i dette tilfellet. Anta nå at du har et sett av ord W 1,..., W M som ofte forekommer. La V m være begivenheten at ordet W m forekommer i en mail. V = (V 1,..., V M ) vil da være en vektor av binære variable (der 1 svarer til at ordet forekommer i mailen). La videre Pr(V m S) = q m og Pr(V m R) = p m. 8

(c) Anta nå at Pr(V S) = M m=1 qvm m (1 q m ) 1 Vm og Pr(V R) = M m=1 pvm m (1 p m ) 1 Vm. Hva slags antagelse bygger disse sannsynlighetene på? Utled en klassifikasjonsregel også i dette tilfellet. (d) Ofte ser en ikke bare på enkeltord men også par av ord. La V m,m at både ordene W m og W m. Diskuter fordeler og ulemper med en slik tilnærming. angi begivenheten 9