Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsynlighet for hver type utfall fra 1 til 6. Ved to terninger, er utfallene antatt

Like dokumenter
e) Gjenta b-d for døgnvannføring også (finnes på Hvis

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Statistikk og dataanalyse

HØGSKOLEN I STAVANGER

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksponensielle klasser og GLM

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

TMA4240 Statistikk Høst 2016

Et lite notat om og rundt normalfordelingen.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Kort overblikk over kurset sålangt

Kapittel 3: Studieopplegg

Et lite notat om og rundt normalfordelingen.

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

UNIVERSITETET I OSLO

STK Oppsummering

Løsningsforslag til obligatorisk oppgave i ECON 2130

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2015

Kontinuerlige sannsynlighetsfordelinger.

Bruk av statistisk analyse i større faglig systemer, med eksempler fra hydrologisk database i NVE.

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Medisinsk statistikk Del I høsten 2009:

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Matteknologisk utdanning

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

i x i

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

EKSAMENSOPPGAVER STAT100 Vår 2011

Om eksamen. Never, never, never give up!

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

6.2 Signifikanstester

10.1 Enkel lineær regresjon Multippel regresjon

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk H2010 (20)

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

TMA4240 Statistikk 2014

Introduksjon til Generaliserte Lineære Modeller (GLM)

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Om eksamen. Never, never, never give up!

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Hypotesetesting (kp. 6) ÅMA110 Sannsynlighetsregning med statistikk, våren Tre deler av faget/kurset: 1. Beskrivende statistikk

EKSAMEN I TMA4300 BEREGNINGSKREVENDE STATISTIKK Torsdag 16 Mai, 2013

TMA4240 Statistikk H2010

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

ST0202 Statistikk for samfunnsvitere

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Hypotesetesting av λ og p. p verdi.

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4245 Statistikk

Notat 3 - ST februar 2005

TMA4245 Statistikk Eksamen desember 2016

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

ÅMA110 Sannsynlighetsregning med statistikk, våren Hypotesetesting (kp. 6) Hypotesetesting, innledning. Kp.

ECON2130 Kommentarer til oblig

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

UNIVERSITETET I OSLO

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

TMA4240 Statistikk 2014

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Fasit for tilleggsoppgaver

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

Skoleeksamen i SOS Kvantitativ metode

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

TMA4245 Statistikk Eksamen august 2014

Løsningsforslag eksamen 25. november 2003

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

DEL 1 GRUNNLEGGENDE STATISTIKK

Transkript:

Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsnlighet for hver tpe utfall fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig. a) Hva er sannsnligheten for å få et spesifikt utfall på to terninger, f.eks. sannsnligheten for å få 5 på første terning og 2 på andre? b) Hva blir da sannsnligheten for å få sum=2 på de to terningene? Gjenta for sum=3, sum=4, sum=5, sum=6, sum=7, sum=8. c) Hva er sannsnligheten for å få sum<=4? d) Hva er sannsnligheten for to like? e) Hva er sannsnligheten for å få to like og sum<=4? f) Hva er sannsnligheten for enten å få sum<=4 eller to like terninger? Du kan bruke svaret fra c, d og e. g) Både fra regelen for betinget sannsnlighet og fra listen av utfall der sum<=4, hva blir sannsnligheten for to like gitt sum<=4? h) Regn ut sannsnligheten for sum<=4 gitt to like, både fra liste av mulige utfall og fra Baes formel.

Oppgave 2 betingete sannsnligheter Hobbitun-rådet har avgjort at man skal ekspandere hobbit-landen vestover. Dessverre viser det seg at landene vestover er infisert av drager! Av de 10kmx10km arealene som er studert så langt, var 70% av dem drage-infisert. En standard-protokoll for område-undersøkelse ble lagt. Et standardisert testområde av mindre størrelse, inne i området man undersøker, blir finkjemmet av feltbiologer. Hobbitun biologiske avdeling har funnet at sannsnligheten for å finne drager i et testområde hvis området det er i er infisert av drager, er 50% Hvis det ikke er noen drage i området, blir det selvfølgelig ingen deteksjon i testområdet. Dragon Here be dragons?? Hobbit No dragons

Oppgave 2 forts. Modell: Områdets drage-status (L) Sanns. for drage detektert i testområde (D) Hva er (marginal) sannsnlighet for å finne en drage, hvis du ikke vet om området er infisert eller ikke? eller Vis med Baes formel at sannsnligheten for å at et område er infisert av drager, gitt at du fant en drage i testområdet, er 100%. Drager Drager funnet Ingen drager Drager Finn sannsnligheten for at det er drager i området gitt at du ikke fant noen. Kunne du forvente at sannsnligheten minsket fra originalsannsnligheten (70%) selv uten å vite deteksjonssannsnligheten? Drager Drager funnet Ingen drager Drager Ingen drager

Oppgave 3: På Blindern er det slik at det er 33.9% sjanse for at det regner en dag, hvis det regnet gårsdagen, og 12.9% sjanse for at det regner en dag hvis det ikke regnet gårsdagen. PS: Antar stasjonaritet, altså at alle sannsnligheter er de samme fra dag til dag, under de samme forutsetningene. a) Hva er sannsnligheten for at det regner en tilfeldig dag? (I.e. hva er marginalsannsnligheten for regn?) Tips: P(regn i dag)=p(regn i dag og regn i går)+p(regn i dag men ikke i går). b) Hvorfor er sjansen for at det regnet i går gitt at det regner i dag også 33.9%? (Tips: Baes formel)

Oppgave 4: Utfør R-koden på http://folk.uio.no/trondr/nvekurs/hoelen1.r Denne koden skal gi svar på følgende: a) Ta en titt på årsvannføringer (snitt) fra Hølen. b) Se på histogram sammen med en normalfordeling med samme snitt (forventing) og varians som data. Se om dataene ser noenlunde normalfordelt ut. c) Gjør et QQ-plott for også å sjekke data mot normalfordelingen. d) Gjør det samme som i b og d, men bruk lognormalfordelingen i stedet, der log-snitt og logvarians er den samme fordelingen som i data. e) Gjenta b-d for døgnvannføring også (finnes på http://folk.uio.no/trondr/nvekurs/trenddognhoelen.txt). Hvis konklusjonene blir litt ulike, hva er grunnen?

Oppgave 5: Forventingsverdien til årsvannføringer fra Hølen. http://folk.uio.no/trondr/nvekurs/hoelen2.r a) Estimer forventningsverdien. b) Sjekk om forventingen er 10m 3 /s ved en t-test. Bruk gjerne 5% signifikansnivå (konfidens 95%). c) Vis data sammen med konfidensintervallet. Er det en bekmring at såpass masse års-snitt ligger utenfor konfidensintervallet? Er det 95% sannsnlighet for at egentlig forventingsverdi ligger innefor det spesifikke konfidensintervallet? d) Kunne vi gjort a-c for døgndata også? e) Skal nå foreta samme analse der vi bruker lognormalfordelingen hellers enn normalfordelingen. Kjør en bootstrap-analse som angir 95% konfidensintervall. Hva sier dette om antagelsen forventing=10m 3 /s?

Oppgave 6: Forveningsverdien til årsvannføringer fra Hølen Baesiansk analse http://folk.uio.no/trondr/nvekurs/hoelen3.r Antar at data er normalfordelt. Har en vag men informativ prior for vannførings-forventningen, 0 ==10, se slide 17-18. Antar vi kjenner =2.83. a) Hvordan blir a posteriorifordelingen i dette tilfelle? Estimer vannføringsforventningen fra dette. Er dette veldig forskjellig fra det du fikk i oppgave 5a? b) Lag et 95% troverdighetsintervall for vannførings-forventningen (Tips: 95% av sannsnlighetsmassen befinner seg innenfor +/-1.96 standardavvik fra forventningsverdien i en normalfordeling). Ble dette me forskjellig fra 5b? Kan du fra dette konkludere noe angående antagelsen vannføringsforventning=10m 3 /s? c) Skal nå teste antagelsen vannførings-forventning=10m 3 /s Baesiansk. Sammenlign marginalsannsnlighetstettheten for de data vi fikk vs sannsnlighetstettheten når =10. Hva antder dette? d) Skal nå bruke resultatet fra c til å regne på modellsannsnligheter. Modell 0 har =10 mens modell 1 er slik som spesifisert ovenfor. Bruk f ( D M ) Pr( M ) Pr( M D) f ( D M ') Pr( M ') og anta at a priori-sannsnligheten for hver modell er 50%. Hva blir konklusjonen?

Oppgave 7: Baesiansk gjentaksanalse for bestemt nivå i kontinuerlig tid. Skal se på faren for å overgå en spesifikk vannførings-verdi. Antar slike hendelser foregår uavhengig i tid. Altså at antall hendelser innefor en tidsperiode er Poissonfordelt. Bruker gjentaks-intervall, T, som parameter i denne fordelingen. Da får vi Antar invers-gamma-fordeling (siden det er matematisk behagelig å gjøre det) for gjentaksintervallet Får da at marginalfordelingen blir: (dette er den såkalte negativ binomiske fordelingen). T t e T t T t P /! ) / ( ) tid løpet av hendelser i ( T e T T f / 1 ) ( ) ( t t p p p t P der ) (1 1 ) tid løpet av hendelser i (

Oppgave 7 (forts.): Kode finnes på http://folk.uio.no/trondr/nvekurs/grta_ekstrem.r ( t / T) P( hendelser i løpet av tid t T) e! 1 P( hendelser i løpet av tid t ) p a) Stasjonen Grta har hatt vannføring>1.5m 3 /s =27 ganger i løpet av t=44 år. Plott a priori-fordeling og marginalfordeling hvis du bruker ==1 som førkunnskap. b) Hva blir det generelle uttrkket for a posteriori-fordelingen til T? Plott den for Grta for ==1 sammen med a priori-fordelingen. Forsøk også ==0.5 og til og med ==0 (ikke-informativt). Ble det noen stor forskjell i a posteriori-fordelingen? Sammenlign med klassisk estimat: T ML =t/=1.63 år. c) Kan du finne prediksjons-fordelingen til antall ne flommer på Grta de neste hundre år? Plott i så tilfelle denne. Sammenlign med Poisson-fordeling hvis man tar ML-parameteren for gitt. Hvorfor er sistnevnte fordeling skarpere enn den Baesianske prediksjonsfordelingen? d) Kjør en enkel MCMC-algoritme fra a posteriori-fordelingen. Se etter når trekningen stabiliserer seg (burn-in) og hvor mange trekninger som trenges før du få en trekning som er ca. uavhengig (spacing). e) Hent 1000 uavhengige trekninger etter burn-in. Sammenlign med teoretisk a posteriori-fordeling (histogram og qq-plott). f) Foreta n MCMC-trekning men bruk nå a priori som er f(t)=lognormal(=0,=2). (Dette kan ikke løses analtisk). Sammenlign med de trekningene du fikk i d. t / T (1 1 f ( T) T e ( ) t p) der p t / T

Oppgave 8: Ekstremverdi-analse på Bulken (rundt 120 år med data). Kode: http://folk.uio.no/trondr/nvekurs/bulken_ekstrem.r Data: : http://folk.uio.no/trondr/nvekurs/bulken_max.txt Skal bruke Gumbel-fordelingen som fordelings-kandidat her: f ( x, ) 1 e ( x)/ e ( x ) / a) Foreta et ekstremplott, det vil si sorter vannføringene og plott dem mot estimert gjentakintervall n 0.12 t i der n er antall år og i er en løpe-indeks fra n til 1. i 0.44 b) Foreta en ekstremverditilpasning via første to l-momenter, 1 og 2. Sammenlign med det du får fra DAGUT. Parameterne forholder seg til l- momentene som = 2 /log(29, = 1-0.57721. Estimater for 1 og 2 fås som ˆ 1 n n 1 ˆ x j x, 2 (( j 1) ( n j) ) n j1 n( n 1) j1 1 c) Plott flomstørrelse som funksjon av gjentaksintervall gitt l-momentestimatene sammen med data (a). d) Foreta ML-estimering av parameterne. e) Plott flomstørrelse som funksjon av gjentaksintervall gitt ML-estimatene. f) (Obs: hvis dette blir for mstisk, slutt her.) Foreta Baesiansk analse med flat prior. Foreta 1000 MCMC-trekninger (burnin=1000, spacing=1000). Sammenlign. g) Bruk også prediksjonsfordelingen (altså der du tar parameterusikkerheten med i betraktningen) til å foreta samme plott som i a, c og e. x ( j) Sorterte data

Oppgave 9: Sjekk om årsmiddel-data for stasjon Hølen har en lineær tidstrend. Kode: http://folk.uio.no/trondr/statkurs/hoelen_detrend.r a) Tilpass en lineær regresjon til årsmiddel-dataene og tolk resultatet. b) Plott data og tilpasning. Ser det rimelig ut? c) De-trend data ene, d.v.s. fjern den lineære trenden. d) Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte.

Oppgave 10: Sjekk om døgnmiddel-data for stasjon Hølen har en sesong-trend. Kode: http://folk.uio.no/trondr/statkurs/hoelen_sesong.r a) Tilpass en multilineær regresjon av døgnmiddeldataene mot tid pluss 4 sett trigonometriske funksjoner (sinus og cosinus) og tolk resultatet. b) Plott data og tilpasning. Ser det rimelig ut? c) De-trend data ene, d.v.s. fjern den lineære trenden. d) Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte. e) Gjenta etter log-transform av vannføringene. Ble det bedre?

Oppgave 11: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Grta (altså lineær regresjon på log-skala). Kode: http://folk.uio.no/trondr/statkurs/grta.r a) Plott data, både på original-skala og log-skala b) Kjør en lineær regresjon av log-vannføring mot logvannstand. Fortolk resultatet. Er det en signifikant sammenheng? c) Plott regresjonslinjen på original-skala også. d) Sjekk om det er noe galt med residualene (trend eller ikke normalfordelt) e) Ekstra: Gjør lineærtilpasning på original-skala og se hvordan denne tilpasningen er også. (PS: R-kode ikke lagd).

Oppgave 12: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Grta (altså lineær regresjon på log-skala), men nå med ukjent bunnvannstand, h 0. Kode: http://folk.uio.no/trondr/statkurs/grta2.r a) Kjør en lineær regresjon for et sett av kandidatverdier for h 0. Se på likelihood som en funksjon av kandidatverdiene. Hva blir beste estimat for h 0?

Oppgave 13: Skal nå kjøre ARMA-tilpasning av døgndata fra Hølen. Kode: http://folk.uio.no/trondr/statkurs/hoelen_arima.r a) Plott data b) De-trend (fjern lineær tids-trend og sesonvariasjon). c) Se på autokorrelsjon (og partiell autokorrelasjon). d) Tilpass en AR(1)-modell. Se om estimert parameter er lik noe du så i 13c. e) Lag analtiske plott av residualene. Hva sier de? f) Forsøk så med en ARMA(1,1)-modell. Se igjen på residualene. Hva sier de nå?