UNIVERSITETET I OSLO

Like dokumenter
UNIVERSITETET I OSLO

ECON240 Statistikk og økonometri

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen mai 2017

Løsningsforslag til eksamen i STK desember 2010

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

UNIVERSITETET I OSLO

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

TMA4240 Statistikk Høst 2009

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Løsningsforslag Oppgave 1

TMA4240 Statistikk Høst 2015

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

Løsning TALM1005 (statistikkdel) juni 2017

Løsningsforslag ST2301 øving 3

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

TMA4245 Statistikk Eksamen 9. desember 2013

TMA4245 Statistikk Vår 2015

Oppgaver fra boka: Med lik men ukjent varians antatt har vi fra pensum at. t n1 +n 2 2 under H 0 (12 1) (12 1)

UNIVERSITETET I OSLO

Oppgaver fra boka: X 2 X n 1

MOT310 Statistiske metoder 1, høsten 2011

Kapittel 8: Estimering

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

TMA4240 Statistikk Høst 2016

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Statistikk og økonomi, våren 2017

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Forkunnskaper i matematikk for fysikkstudenter. Derivasjon.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Eksamen desember 2015

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

LØSNING: Eksamen 28. mai 2015

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

ST1201 Statistiske metoder

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

IN3030 Uke 12, v2019. Eric Jul PSE, Inst. for informatikk

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

n 2 +1) hvis n er et partall.

TMA4240 Statistikk Høst 2016

EKSAMEN Løsningsforslag

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

Lineær regresjonsanalyse (13.4)

Totalt Antall kandidater oppmeldt 1513 Antall møtt til eksamen 1421 Antall bestått 1128 Antall stryk 247 Antall avbrutt 46 % stryk og avbrutt 21%

TMA4240 Statistikk 2014

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen august 2015

Estimering 1 -Punktestimering

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

H T. Amundsen INNHOLD

Eksempeloppgave REA3028 Matematikk S2 Eksempel på eksamen våren 2015 etter ny ordning. Ny eksamensordning. Del 1: 3 timer (uten hjelpemidler)

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

Estimering 1 -Punktestimering

TMA4240/4245 Statistikk 11. august 2012

Estimering 2. -Konfidensintervall

Prøveeksamen STK2100 (fasit) - vår 2018

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

EKSAMEN Løsningsforslag

STK1100 våren 2017 Estimering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Likningssystem for maksimum likelihood løsning

TMA4240 Statistikk Høst 2015

EKSAMENSOPPGAVE. Mat-1060 Beregningsorientert programmering og statistikk

8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 4

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

LØSNINGSFORSLAG TIL EKSAMEN STE 6219 Digital signalbehandling

Modeller og parametre. STK Punktestimering - Kap 7. Eksempel støtfangere. Statistisk inferens. Binomisk fordeling. p X (x) = p x (1 p) n x

Eksamen REA3028 S2, Våren 2010

Påliteligheten til en stikkprøve

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

ST1201 Statistiske metoder

Ukeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1

Detaljert løsningsveiledning til ECON1310 seminaroppgave 9, høsten der 0 < t < 1

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

Til nå, og så videre... TMA4240 Statistikk H2010 (25) Mette Langaas. Foreleses mandag 15.november, 2010

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

Transkript:

UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte hjelpemidler: Oppgave 1 Ige Godkjet kalkulator og formelsamliger for STK1100/STK1110 og STK2100 Kotroller at oppgavesettet er komplett før du begyer å besvare spørsmålee. (a) I modeller med faktorer, sier regresjoskoeffisietee oe om ivået til de ulike kategoriee. Imidlertid, år også et kostatledd er med, blir det for mage parametre og vi må begrese/redusere disse til e dimesjo lavere. Dette ka gjøres på ulike måter, e er å sette de første lik ull, hvor de resterede koeffisietee måler avvik fra de første kategorie. (b) Vi har AIC = 2 log-lik + 2 p der p er atall parametre i modelle. Her er p = 17 som gir AIC= 2 ( 308.8) + 2 17 = 651.6. Side flere av de estimerte koeffisietee har e tilhørede p-verdi som er gaske høy, tyder det på at vi bør ta bort oe variable. (c) Når vi gjør begresiger på modelle, vil vi ha et midre rom å optimere likelihoode på, oe som medfører lavere verdi. Her blir AIC= 2 ( 318.0) + 2 6 = 648.0. Da dee verdie er oe midre e hva vi fikk tidligere, er de ye modelle å foretrekke. (d) For GAM har vi at ŷ = Sy og frihetsgrader blir da bereget ved trase(s). Vi får et høyere atall frihetsgrader her pga ikke-liearitet. Her blir da AIC= 2 ( 312.2)+2 8.4 = 641.2. Vi får da e forbedrig i forhold til tidligere modeller. Plottee viser ikke e veldig sterk ikke-liearitet, me gitt megde data blir de likevel sigifikat. (Fortsettes på side 2.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 2 (e) Defiisjoee av regioee vil være kombiasjoer av logiske operatorer basert på ulike forklarigsvariable. Dermed kommer iteraksjoer i. Vi har at hver Y i er biomisk fordelt med ett forsøk. Sasylighetee for å få 1 ka variere fra observasjo til observasjo. Dette er da markert ved å ha e ideks i på p i. Ved å i tillegg ata uavhegighet mellom resposee, får vi da produktet av ledd av type p y i i (1 p i) 1 y i. Side vi for klassifikasjostrær atar at sasylighetee er like iefor hver regio, blir da p i = c m for x i R m. (f) Det er ikke helt opplagt hvorda e skal telle atall parametre i dette tilfellet. Vi har 13 edeoder som gir 13 c m parametre. I mage situasjoer bruker e dette som atall parametre. I tillegg har vi imidlertid 12 oppsplittiger. Hver oppsplittig har to parametre, e som spesifiserer hvilke variabel som skal splittes opp og e som spesifiserer hvilke verdi oppsplittige skal skje på. Totalt blir det dermed 13 + 2 12 = 37 parametre. (E ka imidlertid argumetere for at Sex ikke har oe ekstra spesifiserig av hvor oppsplittig skal skje slik at e evetuelt også kue bruke 36 parametre. Merk at for adre faktorer med mer e 2 ivåer må e bestemme et ivå gjeom hvorda oppsplittig skjer.) Dette gir e AIC verdi på AIC = 2 ( 279.5) + 2 37 = 633.0 dvs oe bedre e vi fikk med de tidligere modeller. (g) Trær gir ofte overtilpasig. E mulighet er å stoppe oppsplittig tidligere, me da ka e miste iteraksjoer som kommer seere. Det er derfor valig å først lage et stort tre og så beskjære dette for å miske variase. I prisippet blir frihetsgrader her eda vaskeligere å berege side vi i prisippet bør ta hesy til hele prosesse for å geerere det beskjærte treet. Hvis vi imidlertid ku forholder oss til størrelse på det edelige tre, får vi 9+2*8=25 frihetsgrader. Da blir AIC = 2 ( 287.349) + 2 25 = 624.698 som gir e ytterligere reduksjo i forhold til tidligere verdier. Kombiert med at vi å får et oe eklere tre å forholde oss til er derfor dette treet å foretrekke. (h) For å få et realistisk mål på hvorda e metode fugerer, må det evalueres på data som ikke er blitt brukt til treig. E mulighet (Fortsettes på side 3.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 3 er å dele opp i et treigssett og et testsett, me da vil vi få et midre treigssett å estimere modelle med. Kryss-validerig utytter data bedre ved å sirkulere testsettet. E øsker ofte å måle metoder ved å se på hvorda det oppfører seg på ye datasett. Slike ye datasett er imidlertid ikke alltid tilgjegelig AIC (som ku bruker treigsdatasettet) vil ikke alltid gi et realistisk mål på hvor god e modell/metode er (baserer seg mye på modellatagelser). Et bedre mål ka være prediksjosfeil på ye data. Hvis vi imidlertid ikke har for mye data, vil vi tape edel estimerigsstyrke ved å ta bort e del av dataee til test. Kryss-validerig har si styrke i at det er e metode som både oppår et stort testsett (faktisk hele datasettet) og samtidig får et treigssett som er gaske stort (e adel (K 1)/K der K er atall grupper). E ekstra fordel med CV er at det ka parallelliseres slik at beregigstid ikke ødvedigvis blir alt for stor. Baggig og Radom Forest: Begge tar utgagspukt i at trær ka ha stor variasjo (egetlig e hvilke som helst metode med stor varias) og robustifiserer dette ved å istedet kombiere mage prediktorer basert på ulike datasett. De ulike datasett blir kostruert ved bootstrappig. Baggig og Radom Forest skiller seg ved at Baggig beytter alle forklarigsvariable ved hvert splitt mes Radom Forest gjør begresiger i settet av variable for å oppå midre korrelasjo mellom de ulike trær (prediktorer) som blir laget. Nevrale ett er gitt ved z im =h(α T mx i ), m = 1,..., M (1) T i =β 0 + β T z i (2) y i =g(t i ) + ε i (3) der både h( ) ad g( ) er mulige ikke-lieære fuktioer. Figur 1 illustrerer modelle. z-ee ka oppfattes som latete variable. Dype ett oppås ved å ha flere lag med latete variable. (i) Resultatee ka tyde på at iteraksjoer likevel ikke er så viktige i dee situasjoe (alle de beste modellee er av GAM type). Videre ka det se ut som ikke-lieæriteter er viktig, me at variabelseleksjoe mhp GAM ikke fugerer så godt. E mulig metode for å evaluere feilrate er å bruk de verdi ma har fått på de valge metode. Merk imidlertid at selv om hver av feilratee ka være forvetigsrette iefor hver metode, så vil vi å bruke miimum av 10 variable. Et slikt miimum vil ikke leger være forvetigsrett, og vil typisk være oe for optimistisk. Ideelt sett burde vi hatt et ekstra test-sett å vurdere de edelige modell på. (Fortsettes på side 4.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 4 y z 1 z 2 z 3 z M 1 z M x 1 x 2 x 3 x p 1 x p Figure 1: Visualisatio of eural etwork with oe hidde layer. For det spesifikke problemet vil imidlertid prediksjo på ye data ikke være så aktuelt, ma er mer iteressert i å lære sammeheger. Sett fra dette perspektivet er det bra at e rimelig ekel model blir valgt, dog kaskje litt egativt at ikke oe av variablee blir valgt bort. Oppgave 2 (a) Vi har at der Y i =β 0 + β 1 x i1 + β 2 x i2 + ε i =β 0 + β 1 x 1 + β 2 x 2 + β 1 (x i1 x 1 ) + β 2 (x i2 x 2 ) + ε i = β 0 + β 1 x i1 + β 2 x i2 + ε i β 0 =β 0 + β 1 x 1 + β 2 x 2 x i1 =x i1 x 1 x i2 =x i2 x 2 β 0 agir å forvetet ivå år begge forklarigsvariable har verdier lik gjeomsittsverdiee av de observerte x-er. (b) Hvis forklarigsvariablee har veldig ulike skalaer, ka det være hesiktsmessig å legge ulike straffeledd på disse. Et alterativ kue være å skalere x-ee på forhåd. Ikke opplagt hva som er best. Side det er e e-til-e korrespodase mellom (β 0, β 1, β 2 ) og ( β 0, β 1, β 2 ) med β 0 = β 0 + β 1 x 1 + β 2 x 2 og vi har at (Fortsettes på side 5.) h(β 0, β 1, β 2 ) = h(β 0 + β 1 x 1 + β 2 x 2, β 1, β 2 ),

Eksame i STK2100, Torsdag 14. jui 2018. Side 5 vil de to miimerigsproblemee være ekvivalete. Vi har at β 0 h( β0, β 1, β 2 ) = 2 = 2 (y i β 0 β 1 x i1 β 2 x i2 ) (y i β 0 ) som hvis vi setter lik ull gir optimal verdi ˆ β0 = ȳ. (c) Vi har at β 1 h( β0, β 1, β 2 ) = 2 β 2 h( β0, β 1, β 2 ) = 2 (y i β 0 β 1 x i1 β 2 x i2 ) x i1 (y i β 0 β 1 x i1 β 2 x i2 ) x i2 som hvis vi setter lik ull gir likigssystemet β 1 [ β 1 x 2 i1 + λ 1 ] + β 2 x i2 x i1 = x i2 x i1 + β 2 [ x 2 i2 + λ 2 ] = y i x i1 y i x i2 Hvis i (x i1 x 1 )(x i2 x 2 ) = i x i1 x i2 = 0, forekler likigssystemet seg til β 1 [ β 2 [ x 2 i1 + λ 1 ] = x 2 i2 + λ 2 ] = som gir løsige (y i ȳ) x i1 (y i ȳ) x i2 ˆβ 1 = ˆβ 2 = y i x i1 x2 i1 + λ 1 y i x i2 x2 i2 + λ 2 Vi får da side β 0 = β 0 β 1 x 1 β 2 x 2 at ˆβ 0 = ȳ y i x i1 x2 i1 + λ x 1 y i x i2 1 x2 i2 + λ x 2 2 (Fortsettes på side 6.)

Eksame i STK2100, Torsdag 14. jui 2018. Side 6 (d) De første metode svarer til miste kvadraters metode. De adre svarer til valig Ridge regresjo. Det ser ut som det er viktigst å straffe β 1 (svarede til de mist sigifikate variabel), og valig Ridge ser da ut til å legge mest vekt på dee variabele. Valg av λ blir derfor mest påvirket av hvor mye vi treger å straffe β 1, og g dermed at λ 1 λ (faktisk lik i dette tilfellet). Hvis vi skulle bruke dee metode på mage forklarigsvariable for vi iallefall to problemer: Et umerisk problem ved at vi må miimere med hesy på mage λ j er. Et statistisk problem ved at vi ka lett få overtilpasig år vi å ifører mege ye tuigparametre i metode.