Oppgave 1: Terningsutfall På en kubisk terning er det 1/6 sannsnlighet for hver tpe utfall fra 1 til 6. Ved to terninger, er utfallene antatt uavhengig. a) Hva er sannsnligheten for å få et spesifikt utfall på to terninger, f.eks. sannsnligheten for å få 5 på første terning og 2 på andre? b) Hva blir da sannsnligheten for å få sum=2 på de to terningene? Gjenta for sum=3, sum=4, sum=5, sum=6, sum=7, sum=8. c) Hva er sannsnligheten for å få sum<=4? d) Hva er sannsnligheten for to like? e) Hva er sannsnligheten for å få to like og sum<=4? f) Hva er sannsnligheten for enten å få sum<=4 eller to like terninger? Du kan bruke svaret fra c, d og e. g) Både fra regelen for betinget sannsnlighet og fra listen av utfall der sum<=4, hva blir sannsnligheten for to like gitt sum<=4? h) Regn ut sannsnligheten for sum<=4 gitt to like, både fra liste av mulige utfall og fra Baes formel.
Oppgave 2 betingete sannsnligheter Hobbitun-rådet har avgjort at man skal ekspandere hobbit-landen vestover. Dessverre viser det seg at landene vestover er infisert av drager! Av de 10kmx10km arealene som er studert så langt, var 70% av dem drage-infisert. En standard-protokoll for område-undersøkelse ble lagt. Et standardisert testområde av mindre størrelse, inne i området man undersøker, blir finkjemmet av feltbiologer. Hobbitun biologiske avdeling har funnet at sannsnligheten for å finne drager i et testområde hvis området det er i er infisert av drager, er 50% Hvis det ikke er noen drage i området, blir det selvfølgelig ingen deteksjon i testområdet. Dragon Here be dragons?? Hobbit No dragons
Oppgave 2 forts. Modell: Områdets drage-status (L) Sanns. for drage detektert i testområde (D) Hva er (marginal) sannsnlighet for å finne en drage, hvis du ikke vet om området er infisert eller ikke? eller Vis med Baes formel at sannsnligheten for å at et område er infisert av drager, gitt at du fant en drage i testområdet, er 100%. Drager Drager funnet Ingen drager Drager Finn sannsnligheten for at det er drager i området gitt at du ikke fant noen. Kunne du forvente at sannsnligheten minsket fra originalsannsnligheten (70%) selv uten å vite deteksjonssannsnligheten? Drager Drager funnet Ingen drager Drager Ingen drager
Oppgave 3: På Blindern er det slik at det er 33.9% sjanse for at det regner en dag, hvis det regnet gårsdagen, og 12.9% sjanse for at det regner en dag hvis det ikke regnet gårsdagen. PS: Antar stasjonaritet, altså at alle sannsnligheter er de samme fra dag til dag, under de samme forutsetningene. a) Hva er sannsnligheten for at det regner en tilfeldig dag? (I.e. hva er marginalsannsnligheten for regn?) Tips: P(regn i dag)=p(regn i dag og regn i går)+p(regn i dag men ikke i går). b) Hvorfor er sjansen for at det regnet i går gitt at det regner i dag også 33.9%? (Tips: Baes formel)
Oppgave 4: Utfør R-koden på http://folk.uio.no/trondr/nvekurs/hoelen1.r Denne koden skal gi svar på følgende: a) Ta en titt på årsvannføringer (snitt) fra Hølen. b) Se på histogram sammen med en normalfordeling med samme snitt (forventing) og varians som data. Se om dataene ser noenlunde normalfordelt ut. c) Gjør et QQ-plott for også å sjekke data mot normalfordelingen. d) Gjør det samme som i b og d, men bruk lognormalfordelingen i stedet, der log-snitt og logvarians er den samme fordelingen som i data. e) Gjenta b-d for døgnvannføring også (finnes på http://folk.uio.no/trondr/nvekurs/trenddognhoelen.txt). Hvis konklusjonene blir litt ulike, hva er grunnen?
Oppgave 5: Forventingsverdien til årsvannføringer fra Hølen. http://folk.uio.no/trondr/nvekurs/hoelen2.r a) Estimer forventningsverdien. b) Sjekk om forventingen er 10m 3 /s ved en t-test. Bruk gjerne 5% signifikansnivå (konfidens 95%). c) Vis data sammen med konfidensintervallet. Er det en bekmring at såpass masse års-snitt ligger utenfor konfidensintervallet? Er det 95% sannsnlighet for at egentlig forventingsverdi ligger innefor det spesifikke konfidensintervallet? d) Kunne vi gjort a-c for døgndata også? e) Skal nå foreta samme analse der vi bruker lognormalfordelingen hellers enn normalfordelingen. Kjør en bootstrap-analse som angir 95% konfidensintervall. Hva sier dette om antagelsen forventing=10m 3 /s?
Oppgave 6: Forveningsverdien til årsvannføringer fra Hølen Baesiansk analse http://folk.uio.no/trondr/nvekurs/hoelen3.r Antar at data er normalfordelt. Har en vag men informativ prior for vannførings-forventningen, 0 ==10, se slide 17-18. Antar vi kjenner =2.83. a) Hvordan blir a posteriorifordelingen i dette tilfelle? Estimer vannføringsforventningen fra dette. Er dette veldig forskjellig fra det du fikk i oppgave 5a? b) Lag et 95% troverdighetsintervall for vannførings-forventningen (Tips: 95% av sannsnlighetsmassen befinner seg innenfor +/-1.96 standardavvik fra forventningsverdien i en normalfordeling). Ble dette me forskjellig fra 5b? Kan du fra dette konkludere noe angående antagelsen vannføringsforventning=10m 3 /s? c) Skal nå teste antagelsen vannførings-forventning=10m 3 /s Baesiansk. Sammenlign marginalsannsnlighetstettheten for de data vi fikk vs sannsnlighetstettheten når =10. Hva antder dette? d) Skal nå bruke resultatet fra c til å regne på modellsannsnligheter. Modell 0 har =10 mens modell 1 er slik som spesifisert ovenfor. Bruk f ( D M ) Pr( M ) Pr( M D) f ( D M ') Pr( M ') og anta at a priori-sannsnligheten for hver modell er 50%. Hva blir konklusjonen?
Oppgave 7: Baesiansk gjentaksanalse for bestemt nivå i kontinuerlig tid. Skal se på faren for å overgå en spesifikk vannførings-verdi. Antar slike hendelser foregår uavhengig i tid. Altså at antall hendelser innefor en tidsperiode er Poissonfordelt. Bruker gjentaks-intervall, T, som parameter i denne fordelingen. Da får vi Antar invers-gamma-fordeling (siden det er matematisk behagelig å gjøre det) for gjentaksintervallet Får da at marginalfordelingen blir: (dette er den såkalte negativ binomiske fordelingen). T t e T t T t P /! ) / ( ) tid løpet av hendelser i ( T e T T f / 1 ) ( ) ( t t p p p t P der ) (1 1 ) tid løpet av hendelser i (
Oppgave 7 (forts.): Kode finnes på http://folk.uio.no/trondr/nvekurs/grta_ekstrem.r ( t / T) P( hendelser i løpet av tid t T) e! 1 P( hendelser i løpet av tid t ) p a) Stasjonen Grta har hatt vannføring>1.5m 3 /s =27 ganger i løpet av t=44 år. Plott a priori-fordeling og marginalfordeling hvis du bruker ==1 som førkunnskap. b) Hva blir det generelle uttrkket for a posteriori-fordelingen til T? Plott den for Grta for ==1 sammen med a priori-fordelingen. Forsøk også ==0.5 og til og med ==0 (ikke-informativt). Ble det noen stor forskjell i a posteriori-fordelingen? Sammenlign med klassisk estimat: T ML =t/=1.63 år. c) Kan du finne prediksjons-fordelingen til antall ne flommer på Grta de neste hundre år? Plott i så tilfelle denne. Sammenlign med Poisson-fordeling hvis man tar ML-parameteren for gitt. Hvorfor er sistnevnte fordeling skarpere enn den Baesianske prediksjonsfordelingen? d) Kjør en enkel MCMC-algoritme fra a posteriori-fordelingen. Se etter når trekningen stabiliserer seg (burn-in) og hvor mange trekninger som trenges før du få en trekning som er ca. uavhengig (spacing). e) Hent 1000 uavhengige trekninger etter burn-in. Sammenlign med teoretisk a posteriori-fordeling (histogram og qq-plott). f) Foreta n MCMC-trekning men bruk nå a priori som er f(t)=lognormal(=0,=2). (Dette kan ikke løses analtisk). Sammenlign med de trekningene du fikk i d. t / T (1 1 f ( T) T e ( ) t p) der p t / T
Oppgave 8: Ekstremverdi-analse på Bulken (rundt 120 år med data). Kode: http://folk.uio.no/trondr/nvekurs/bulken_ekstrem.r Data: : http://folk.uio.no/trondr/nvekurs/bulken_max.txt Skal bruke Gumbel-fordelingen som fordelings-kandidat her: f ( x, ) 1 e ( x)/ e ( x ) / a) Foreta et ekstremplott, det vil si sorter vannføringene og plott dem mot estimert gjentakintervall n 0.12 t i der n er antall år og i er en løpe-indeks fra n til 1. i 0.44 b) Foreta en ekstremverditilpasning via første to l-momenter, 1 og 2. Sammenlign med det du får fra DAGUT. Parameterne forholder seg til l- momentene som = 2 /log(29, = 1-0.57721. Estimater for 1 og 2 fås som ˆ 1 n n 1 ˆ x j x, 2 (( j 1) ( n j) ) n j1 n( n 1) j1 1 c) Plott flomstørrelse som funksjon av gjentaksintervall gitt l-momentestimatene sammen med data (a). d) Foreta ML-estimering av parameterne. e) Plott flomstørrelse som funksjon av gjentaksintervall gitt ML-estimatene. f) (Obs: hvis dette blir for mstisk, slutt her.) Foreta Baesiansk analse med flat prior. Foreta 1000 MCMC-trekninger (burnin=1000, spacing=1000). Sammenlign. g) Bruk også prediksjonsfordelingen (altså der du tar parameterusikkerheten med i betraktningen) til å foreta samme plott som i a, c og e. x ( j) Sorterte data
Oppgave 9: Sjekk om årsmiddel-data for stasjon Hølen har en lineær tidstrend. Kode: http://folk.uio.no/trondr/statkurs/hoelen_detrend.r a) Tilpass en lineær regresjon til årsmiddel-dataene og tolk resultatet. b) Plott data og tilpasning. Ser det rimelig ut? c) De-trend data ene, d.v.s. fjern den lineære trenden. d) Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte.
Oppgave 10: Sjekk om døgnmiddel-data for stasjon Hølen har en sesong-trend. Kode: http://folk.uio.no/trondr/statkurs/hoelen_sesong.r a) Tilpass en multilineær regresjon av døgnmiddeldataene mot tid pluss 4 sett trigonometriske funksjoner (sinus og cosinus) og tolk resultatet. b) Plott data og tilpasning. Ser det rimelig ut? c) De-trend data ene, d.v.s. fjern den lineære trenden. d) Se på residualene, og vurder om forutsetningene for regresjonen var tilfredstilte. e) Gjenta etter log-transform av vannføringene. Ble det bedre?
Oppgave 11: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Grta (altså lineær regresjon på log-skala). Kode: http://folk.uio.no/trondr/statkurs/grta.r a) Plott data, både på original-skala og log-skala b) Kjør en lineær regresjon av log-vannføring mot logvannstand. Fortolk resultatet. Er det en signifikant sammenheng? c) Plott regresjonslinjen på original-skala også. d) Sjekk om det er noe galt med residualene (trend eller ikke normalfordelt) e) Ekstra: Gjør lineærtilpasning på original-skala og se hvordan denne tilpasningen er også. (PS: R-kode ikke lagd).
Oppgave 12: Skal kjøre power-law-regresjon av vannstand mot vannføring for vannføringsmålinger på Grta (altså lineær regresjon på log-skala), men nå med ukjent bunnvannstand, h 0. Kode: http://folk.uio.no/trondr/statkurs/grta2.r a) Kjør en lineær regresjon for et sett av kandidatverdier for h 0. Se på likelihood som en funksjon av kandidatverdiene. Hva blir beste estimat for h 0?
Oppgave 13: Skal nå kjøre ARMA-tilpasning av døgndata fra Hølen. Kode: http://folk.uio.no/trondr/statkurs/hoelen_arima.r a) Plott data b) De-trend (fjern lineær tids-trend og sesonvariasjon). c) Se på autokorrelsjon (og partiell autokorrelasjon). d) Tilpass en AR(1)-modell. Se om estimert parameter er lik noe du så i 13c. e) Lag analtiske plott av residualene. Hva sier de? f) Forsøk så med en ARMA(1,1)-modell. Se igjen på residualene. Hva sier de nå?