Hvordan får man data og modell tl å passe sammen?
Ekstremverd-analyse Målet er å estmere T-års-ekstremen (flommen). T-års-ekstremen er slk at etter T år vl det forventnng være én overskrdelse av T-års-ekstremen. For årlge ekstremer blr dette 1/T-kvantlen tl fordelngen dsse verdene. Data: Enten maksma/mnma fra blokker eller fra maksma/mnma over/under terksel. For maksma/mnma fra årsblokker blr dette klasssk gjort ved å estmere ekstremverd-fordelngs-parameterne, og hente 1/T-kvantlen derfra. Asymptotsk teor angr standardfordelnger hvs man har et sett maksma over gtte (store) blokker med uavhengge data (GEV) eller over en gtt stor verd (Pareto). Fordelng (svart), data (søyler), MLestmert fordelng (rød), Bayesansk predksjonsfordelng (blå).
Ekstremverd-analyse-problemer Merk at sannsynlgheten for å overstge en 100-års-flom på en 100- års-perode kke er 100%. Hvert år en sannsynlgheten for overstgnng 1/T, som over T uavhengge år blr ca. lk 1-e -1 63.2%. Merk at forutsetnngene for asymptotkken er brutt NVE-data (slettes ngen uavhengghet nnenfor år). Merk at estmert T-års-ekstrem vl være det v får fra å velge en fordelngsfamle, estmere parametre og beregne 1/T-kvantl fra dette. Dette er kke den egentlge T-års-ekstremen, ford v er uskre på korrekt fordelngsfamle og uskre på parameterverdene. Dette kan føre tl skjevheter estmert T-årsekstrem. Eks: Trekker man et datasett på 25 år trukket fra en Gumbel-fordelng med tlfeldge parametre, vl ML-estmert 100-års-flom overstges en av 65 ganger når man trekker en ny årsmaks fra Gumbel-fordelngen. I prakss oppfører derfor estmert 100-års-flom seg som en 65-års-flom. Det samme fås for L-momenter, men kke Bayesanske predksjonsfordelnger tatt fra vag pror.
Regresjon Regresjon er når en stokastsk varabel (respons) antas å avhenge av andre varable (forklarngsvarable, som denne sammenheng kke antas være stokastske). En del av varasjonen en ser respons-varabelen er altså forklart va varasjon andre varable. vekt Eksempel: Vekt (respons) versus høyde (forklarngsvarabel) høyde
Lneær regresjon En lneær regresjon, undersøker v en lneær sammenheng mellom respons og forklarngsvarable: Y=β 0 +β 1 x 1 +β 2 x 2 + +β p x p Merk at modellen er lneær koeffsentene, β 0,, β p, kke nødvendgvs forklarngsvarablene. Så modellen Y= β 0 +β 1 x+β 2 x 2 er en lneær modell. Den statstske modellen bak er som følger: Y = β0 + β1x1, + β2x2, +... + β px p, + ε der ε ~ N( µ, σ ) er uavhengg støy.
Lneær regresjon - eksempel Eksempel: vekt = a + b* høyde + ε Regresjonskoeffsentene, a og b, kan tlpasses va ML-estmerng. Grafen vser en slk tlpasnng. Regresjonen ser ut tl å beskrve det som er å skmte av systematkk dataene. Modellen selv er dog snål. Ifølge den skal det fnnes en høyde slk at du kan forvente null vekt samt at du va tlfeldgheter kan ha negatv vekt selv der en forventer postv vekt (dette pga normalfordelngs-antagelsen). Man kan redde denne stuasjonen ved å anta at det er log-transformert høyde og vekt som kan beskrves va lneær regresjon. Dette betyr en power-law for orgnaldata. vekt = b A* høyde * E der E ~ log N(0, σ ) vekt vekt høyde høyde
Lneære regresjon når man går amok forklarngsvarable Med de mulgheter som lgger regresjon, kan man falle for frstelsen tl å bare legge på flere og flere forklarngsvarable. Som et eksempel, kan v legge på høyere-ordens polynomledd høydemot-vekt-eksempelet: v 2 = β + β h + β h + β h + β h + ε 0 1 2 Det som skjer er at tlpasnngen tl data blr bedre (alltd!), men en kan forvente at evnen tl å forutse utkommet av nye data (predksjon) blr bare verre. Sammenhengen selv blr mer kaotsk og parameter-uskkerhetene blr større og større. Dermed blr predksjonsuskkerheten større. 2 3 4 4 vekt høyde
Hvordan unngå å gå amok? Det er bass to mulgheter for å unngå å gå amok forklarngsvarable. 1. Tenk gjennom dataenes natur (som betyr power-law heller enn lneærmodell for vår vekt-mot-høyde) og hva du ønsker å gjøre med dn regresjon. 2. Bruk hypotesetestng (modellvalg) tl å begrense deg. (PS: R rapporterer p-verder for alle forklarngsvarable). Det sste kan gjøres ved å: a) Starte med en enkel modell og legge tl varable så lenge du fnner noen som er statstsk sgnfkante b) Starte med en tlstrekkelg komplsert modell og ta vekk varable så lenge de kke er sgnfkante. c) Gå gjennom alle tenkelge modeller og velg den med best nformasjonskrtere. (Ikke anbefalt for store antall forklarngsvarable!) d) Bruke Bayesansk metodkk. Merk at høyde-vs-vekt-eksempelet er kke høyde sgnfkant utgangspunktet!
Uskkerhet Estmatorene regresjon kommer med en vss uskkerhet. Dsse blr rapportert R. Når konfdensntervallene omslutter 0, betyr det at en kke kan forkaste at en forklarngsvarabel har null effekt. M.a.o. at den er kke statstsk sgnfkant. vekt Predksjons-uskkerhet Estmasjonsuskkerhet Dette påvrker uskkerheten estmatet for den vrkelge sammenhengen mellom respons og forklarngsvarable, altså forskjellen mellom Y = β β x β x β x 0 + 1 1 + 2 2 +... + p p og = 0 + 1 1 + 2 2 + + samt uskkerheten tl predksjoner: ˆ β + ˆ β x + ˆ β x +... + ˆ β x + ε ˆ pred = 0 1 1 2 2 p p Y ˆ β x ˆ β x Predksjoner er mer uskre enn estmat, sden man tllegg får de ndvduelle varasjonene på toppen av estmasjons-uskkerhetene. Yˆ ˆ β... ˆ β x p p Smulert datasett høyde
Resdualer Resdualer er avvket mellom målng og modell på y-aksen (responsen). Dsse avvkene kan s noe om hvorvdt modellantagelsene er rktg. 1. En tydelg trend resdualene antyder at funksjonssammenhengen kan være gal. Er trenden td, tyder det på at gradvs forandrng umålte forklarngsvarable spller en rolle eller at man har å gjøre med korrelasjon td (tdssere). 2. Hvs resdualene kke later tl å normalfordelt, kan det tenkes en transformasjon trenges, eller at en annen type regresjon er nødvendg. 3. Også hvs varasjonen resdualene har en trend ( trumpetform ), er støyleddene modellert fel (heteroskedaststet). Remodellerng (mer avansert regresjon) eller datatransformasjon kan være nødvendg. Data+ regresjon Data+ regresjon Data+ regresjon resdualer resdualer qq-plott resdualer
Ikke-lneær regresjon Ikke all regresjon er lneær. Noen ganger trenger v å lete etter sammenhenger mellom respons og forklarngsvarable som har en annen form. Et eksempel er vannførngskurve-tlpasnng med ukjent bunnvannstand: Q=C(h-h 0 ) b Selve etter en log-transformasjon, ødelegger h 0 lnearteten: q=a+b*log(h-h 0 ) ML-optmerng er fremdeles mulg, men kun va numerske metoder. F.eks. vf-kurve-tlpasnng vl man kunne optmere parametrene a og b analytsk, men h 0 må optmeres numersk. For mer komplserte modeller, kan sofstske optmerngsmetoder bl nødvendg. (Evt. Bayesanske metoder.) En fare med komplserte kkelneær modeller er at lkelhood en kan ha flere topper (multmodaltet).
Vannførngskurvetlpasnng på Gryta Skal nå se på Gryta stasjon, uten å anta at h 0 =0. V vl bruke brute force ved å se på et ntervall av mulge h 0 -verder fra mnste målte vannstand, h m, tl h m -100m. Ser ut som v kan maksmere loglkelhood (og dermed også lkelhood) med en verd for h 0 nærme null. En nærmere ttt gr optmal h 0 =+8cm. Merk de tdlgere nevnte urmelge parameter-estmatene som av og tl kan oppstå.
Bayesansk regresjon Skal gjen se på Gryta stasjon. Under Bayesansk regresjon antas en førkunnskap. Denne kan trekkes fra samlngen av norske stasjoner, men for stasjonen Gryta vet v at nullvannstanden lgger rundt h 0 =0 og sden det er et V-overløp vet v også at b ca. lk 2.5 bør være en gre hydraulsk antagelse. I VFKURVE3 settes førkunnskapen et eget vndu. Merk at Bayesansk statstkk har mndre problemer med å håndtere multmodaltet. Smulerng fra a posteror-fordelngen blr dog vanskelgere, men det fnnes dog relatvt effektve metoder for å håndtere dette.
Bayesansk regresjon 2 Man foretar så analysen, som vl trekke masse parametre fra a posterorfordelngen. I tllegg tl å g estmater, gr dette også en pekepnn på parameteruskkerheten. For parametre der v satt en skarp førkunnskap, vl typsk a posterorrfordelngen være nnenfor det skarpe ntervallet. Sden v får overskt over parameteruskkerheten vl også kurve-uskkerheten være tlgjengelg på fordelngs-form. Med mye data og/eller bra førkunnskap, kan kurveuskkerheten bl svært lten.
Regresjon mellom tdsserer Hvs v ønsker å kjøre regresjon av en vannførngssere mot en annen, havner v på ltt dypt vann, sden modellantagelsene kke er tlstede (avhengghet støyleddene). Teoren ser dog at estmatene vl være forventnngsrette. Men uskkerhet og modelltestng vl bygge på antagelser som kan være radkalt fele. Typsk vl uskkerheten bl sterkt undervurdert. Her er to uavhengg smulerte tdsserer. Plotter v den ene mot den andre, kan det se ut som det er en hvs avhengghet, noe en lneær regresjon vl støtte. Men dette skyldes kun at begge serene har tdsavhengghet! Resultat fra R, summary(lm(x2~x1)): x1-0.47232 0.04747-9.95 < 2e-16 ***
Tdssere-analyse Statstske tdsserer er data td, der det en eller annen form for avhengghet mellom det som skjer på et tdspunkt og det som skjer neste. Eksempel: vannførngsserer, magasnerng, nedbør for fn tdsoppløsnng Hvs tdsavhenggheten kke tas hensyn tl, vl man svært ofte undervurdere uskkerhetene nvolvert og man kan kke stole på utfallet av modelltestng.
Når modell krasjer med vrkelghet 3 uavhengg støy vs tdssere Har smulert vanntemperatur med forventng µ=10. Antar kjent varans, σ=2. Ønsker å estmere µ og teste µ=10. Modell 1, avhengghet: T =µ+σε, ε ~N(0,1) u..f. - Grafen ser ut tl å fortelle en annen hstore... - Estmert: ˆ µ = x = 11.4, sd( ˆ) µ = s / n = 0.2-95% konf. nt. for µ: (11.02,11.80). µ=10 forkastet med 95% konfdens! Modell 2, auto-korrelert modell med forventnng µ, standardavvk σ og auto-korrelasjon a. Lneær avhengghet mellom temperaturen en dag og neste. Estmert: ˆ µ = x = 11.4, sd( ˆ) µ = 1.4 95% konf. nt. for µ: (8.7,14.10). µ=10 kke forkastet.
Tdsserer dagnostske plott Det er flere måter å få nnblkk en tdsseres natur. 1. Autokorrelasjon. Dette er et plott som vser korrelasjonen mellom verden på et tdspunkt og et gtt antall tdskrtt vdere, som funksjon av dsse tdssskrttene. Normalt vl dette avta etter hvert, men for serer med sesongavhengghet, kan det hende du får en negatv avhengghet etter et halvår og en ny postv avhengghet etter et helt år. 2. Fourer-analyse. Dette dekomponerer en tdssere nn snus/cosnusfunksjoner med ulk perodstet. Tdsserer med sesong-avhengghet vl da ha en sterk topp på ett år.
Dagnostkk og sesong-avhengghet For mange hydrologske tdsserer vl sesong-avhengghet være opplagt. Men hva er tdsserenes natur etter at man har tatt hensyn tl dette? I start-systemet er det en opsjon kalt konform transformasjon som trekker fra årsgjennomsnttet og deler på standardavvket. Dermed kan autokorrelasjon ses når sesongavhenggheten er (mer eller mndre) tatt vekk. Uten en slk operasjon, vl en analyse på temperaturdata typsk ang en korrelasjonstd (td før korrelasjonen går under en vss grense, som for eksempel 0.5) på opptl flere år. Etter operasjonen, vl en typsk korrelasjonstd være på rundt en uke. Altså, hvs man tar hensyn tl sesongenes svngnger, er dagens temperatur kun en pekepnn på fremtdens temperatur rundt en uke frem td.
Statstske tdsseremodeller Det fnnes et arsenal av statstske tdssere-modeller. En stor gruppe av dsse, kalles ARIMA modeller. Dette er sammensatt av kombnasjoner av modeller som har følgende elementer: AR (autoregressve) I (ntegrerte) og MA (movng average). AR-modeller: Dette er modeller der neste verd avhenger av en gtt mengde av de foregående verdene. F.eks. AR(1) avhenger kun av sste verd, som er det som er kjent som en Markov-kjede: X t α X + (1 α) µ + σε der = t 1 t ε t N ~ (0,1) er uavhengg støy MA-modeller: Modeller basert på gldende mdlng: X t = ε + β ε t +... der ε ~ N(0, 1 t 1 + β pε t p t σ ) er uavhengg støy Integrerte modeller: Dette er modeller der man transformerer data fra orgnaltdsseren tl dfferanser: Yt = X t X t 1 Dette gjøres for å modellere tdsserer som kke er stasjonære, dvs. som kke har noe fast fordelng eller forventnngsverd.
Mer dagnostkk En MA-modell vl g autokorrelasjonsplott (acf) som brått dør hen. Dør den hen etter k tdskrtt, har man å gjøre med en MA-k-modell. En AR-modeller kan undersøkes ved et tlsvarende plott kalt partal autocorrelaton functon (pacf). Data produsert av en AR-k-modell vl ha et pacf plott med bare k sgnfkante verder starten. Her et eksempel på et pacf-plott, tatt på data generert fra en AR(1)- modell:
Kalman-flter Et Kalman-flter er basert på en modell som har en skjult tdsserene styrt av en multdmensjonal AR(1)-prosess. På toppen av dsse har man observasjonene. Merk at dette rammeverket kan brukes tl å bnde sammen flere tdsserer en tdssere-regresjon. td Tlstand: X 1 X 2 X 3 X n Observasjoner: Y 1 Y 2 Y 3 Y n For lneære modeller er dette en metode som analytsk er stand tl å regne ut forventng og varans for de skjulte tdsserene betnget på observasjonene, samt for normalfordelte varable å regne ut lkelhood. En modell med skjulte tlstander som skal nfereres mhp observasjoner, er stand tl å håndtere manglende data. Dette kan dermed passe bra tl utfyllng av hull tdsserer.
Eksempel på bruk av Kalman-flter I dette eksemplet blr tre temperaturserer nær hverandre brukt. En del data ble fjernet og et Kalman-flter med korrelert støy-ledd mellom de tre serene, ble undersøkt. Plottene vser fyllngen av manglende data, samt uskkerhet og de dataene som ble tatt vekk. Sden modellen tllater korrelasjoner, vl data fra en stasjon nformere om hva som skjer en annen plass. Der det mangler data på flere stasjoner, vl uskkerheten boble ut.
Kontnuerlg-td stokastske prosesser Selv om målnger gjøres på dskrete tdspunkt, er det v henter data fra gjerne kontnuerlg td (vannførng, f.eks). Ofte kan tdsoppløsnngen forandre seg også, som gjør at modeller med dskret td feler. Kont. tdssere-modeller gr en sannsynlghet for fremtdge utfall på vlkårlge tdspunkt, gtt hstorkken. Kan også brukes tl nterpolasjon. Gr uskkerhet så vel som estmat. Eksempler: Posson-prosessen (dskrete hendelser kontnuerlg td) Brth-death-prosesser (antallsdata kontnuerlg td) Wener-prosessen (random walk) Ornsten-Uhlenbeck Lagdelte lneære modeller Stokastske dfflgnnger Levy-prosesser t µ+1.96 s µ-1.96 s Skjult OU Målt prosess påvrket av OU t µ t t
Romlge modeller og td-roms-felt Interpolasjon og ekstrapolasjon er noe som kan være aktuelt rom så vel som td. Har man et forhold tl romlge avhenggheter, kan man bruke statstkk tl å gjøre slk type estmerng og s noe om estmerngsfelen. Modellene kan være dskret eller kontnuerlg. Ofte brukt metodkk, krgng, som antar en funksjonsform på avhengghetsstrukturen (sem-varogram) og kjører en regresjon på denne funksjonen mot estmerte avhengghetsmål. Alternatv: ML eller Bayesansk analyse på avhengghetsstruktur. INLA. Utvdelse: Td-roms-felt, altså avhengghetsstrukturer både td og rom. For å fylle ut en funksjon både td og rom (som f.eks. nedbør eller temperatur).