Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Like dokumenter
Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2016

Eksamensoppgave i TMA4245 Statistikk

i x i

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk 2014

vekt. vol bruk

TMA4240 Statistikk Høst 2009

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kort overblikk over kurset sålangt

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Fasit for tilleggsoppgaver

TMA4240 Statistikk Høst 2016

Eksamensoppgåve i TMA4240 Statistikk

10.1 Enkel lineær regresjon Multippel regresjon

Inferens i regresjon

Løsningsforslag eksamen 27. februar 2004

Kap. 8: Utvalsfordelingar og databeskrivelse

ST0202 Statistikk for samfunnsvitere

Løsningsforslag eksamen 25. november 2003

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

TMA4240 Statistikk Høst 2018

Oppgave 1. Kilde SS df M S F Legering Feil Total

TMA4240 Statistikk Høst 2012

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Eksamensoppgave i ST0103 Brukerkurs i statistikk

α =P(type I feil) = P(forkast H 0 H 0 er sann) =1 P(220 < X < 260 p = 0.6)

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Oppgave N(0, 1) under H 0. S t n 3

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk Høst 2016

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

ECON2130 Kommentarer til oblig

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk

Et lite notat om og rundt normalfordelingen.

Forslag til endringar

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere

Despriptiv statistikk

TMA4240 Statistikk 2014

LØSNINGSFORSLAG ) = Dvs

TMA4240 Statistikk H2010 (20)

Kapittel 3: Studieopplegg

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

ST0202 Statistikk for samfunnsvitere

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Et lite notat om og rundt normalfordelingen.

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Om eksamen. Never, never, never give up!

TMA4245 Statistikk Eksamen august 2014

ST0202 Statistikk for samfunnsvitere

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Kapittel 4.4: Forventning og varians til stokastiske variable

Statistikk og dataanalyse

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Inferens i fordelinger

HØGSKOLEN I STAVANGER

Hypotesetest: generell fremgangsmåte

UNIVERSITETET I OSLO

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

i=1 x i = og 9 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x

EKSAMENSOPPGAVER STAT100 Vår 2011

TMA4240 Statistikk Høst 2007

Løsning eksamen desember 2017

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Øving 1 TMA Grunnleggende dataanalyse i Matlab

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

ECON240 VÅR / 2016 BOKMÅL

EKSAMEN I TMA4255 ANVENDT STATISTIKK

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

HØGSKOLEN I STAVANGER

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Løsning eksamen desember 2016

Transkript:

Snøtetthet Notat for TMA424/TMA4245 Statistikk Institutt for matematiske fag, NTNU 5. august 22 I forbindelse med varsling av om, klimaforskning og særlig kraftproduksjon er det viktig å kunne anslå hvor mye vann som er inneholdt i snøen i et gitt område, altså hvor stor mengde smeltevann en kan forvente. Dette avhenger av dybden til snøen, som er enkel å måle, og av tettheten til snøen i forhold til vann, som vanligvis er mellom. og.4, og er vanskeligere å måle. Målinger av snødybde og -tetthet mellom 976 og 26 ved en rekke målestasjoner i Sør- Trøndelag er tilgjengelige. Vi vil her konsentrere oss om målinger fra Rybekken og Sylsjødammen i Tydal kommune. Dataene er lagret i lene rybekken.txt og sylsjodammen.txt. De fem kolonnene er, fra venstre; årstall, snødybde i cm, snøtetthet i g/cm 3, SWE i cm og DOY (henholdsvis Snow Water Equivalent og Day Of Year.) De første fem datapunktene fra Rybekken er vist i tabell. For de dagene hvor det er gjort ere målinger ved samme stasjon vil en, siden målingene ikke er tatt akkurat samme sted, fortsatt kunne få forskjellige måleverdier. Tabell De første fem observasjonene i datasettet fra Rybekken. År Snødybde (cm) Snøtetthet (g/cm 3 ) DOY 976 5..298 3.3 63 976 78..342 6.9 63 976 2..42 46. 25 976 8..426 76.7 25 977 76..298 22.6 97 SWE er et mål på hvor mye vann snøen inneholder, og avhenger av tetthet, ρ, og dybde, h, via formelen ρ SWE = h hvor ρ w er tettheten til vann, altså g/cm 3. SWE har samme enheter som dybde. DOY er antall dager siden. januar, og antar i dette datasettet verdier mellom 38 og 32, som svarer til perioden 7. februar til 2. mai. ρ w Notatet er skrevet av Jacob Skauvold i samarbeid med Ingelin Steinsland, og er basert på fordypningsoppgaven Estimating Snow Water Equivalent av Åshild Færevåg. Oddbjørn Bruland og Knut Sand i Statkraft har gjort målinger tilgjengelige og bidratt med problemstillingen og bakgrunnsinformasjon. Dersom du nner feil eller har forslag til forbedringer, ta kontakt med Ingelin Steinsland, ingelins@math.ntnu.no.

2 Visualisering av data For å danne oss et bilde av hvordan dataene er fordelt kan vi plotte histogrammer av snødybde og snøtetthet for de to stasjonene. gur viser re slike plott. Matlabkoden for å generere plottene er lagret i len histogram.m. Figur Histogram av observasjonene av snødybde og -tetthet, samt SWE, ved Sylsjødammen og Rybekken. Figuren er laget med histogram.m. Sylsjødammen ser ut til å ha noe større variasjon enn Rybekken i både dybde og tetthet. Tyngden av observasjonene ligger også tilsynelatende litt høyere for Sylsjødammen, både for dybde og for tetthet. Vi vil sammenlikne sentralitet og spredning, og forsetter derfor ved å lage box plot av dataene. Disse er vist i gur 2. Matlabkoden brukt for å lage dem er lagret i la boxplots.m. En oversikt over empirisk standardavvik og forventingsverdi for snødybde, -tetthet og SWE er gitt i tabell 2. Vi kan også lage box plot med en egen boks for hvert år. Det viser på en tydelig måte at variasjonen er større enkelte år enn andre, og at antall observasjoner varierer fra år til år. Fire slike box plot er vist i gur 3. For å synliggjøre sammenhenger mellom de ulike variablene som er målt, lager vi i gur 4

3 Dybde Tetthet SWE 25 2 5 5.55.5.45.4.35.3.25.2 2 8 6 4 2 Rybekken Sylsjodammen Rybekken Sylsjodammen Rybekken Sylsjodammen Figur 2 Box plot av snødybde, snøtetthet og SWE ved Rybekken og Sylsjødammen. Figuren er laget med boxplots.m. Tabell 2 Empirisk forventningsverdi og standardavvik for snødybde, snøtetthet og SWE for Rybekken og Sylsjødammen Stasjon Størrelse Forventningsverdi Standardavvik Rybekken Snødybde 4.2 cm 25.77 cm Snøtetthet.363 g/cm 3.574 g/cm 3 SWE 32.35 cm 2.2 cm Sylsjødammen Snødybde 26.28 cm 43.98 cm Snøtetthet.3779 g/cm 3.564 g/cm 3 SWE 48.56 cm 2.88 cm en matrise av scatter plot, hvor alle de fem variablene plottes mot hverandre. På diagonalen er vist histogrammer av observasjonene av den aktuelle variabelen. Her er dataene fra Rybekken og Sylsjødammen kombinert til ett sett med 93 observasjoner. Sammenlikning av forventningsverdi (W.M.M.Y. Kap. 9.8 (sammenlikning av forventningsverdier), 9.9 (observasjoner i par) og.5 (toutvalgstest og partest)) Med utgangspunkt i gur og 2 og tabell 2 vil vi undersøke om det i gjennomsnitt var dypere snø ved Sylsjødammen enn ved Rybekken i perioden 976-26. Variansen er ukjent, og vi kan ikke anta at fordelingen av snødybde ved Sylsjødammen og Rybekken har samme varians (se gur 2). La X, X 2,..., X 3 være observasjonene av snødybde fra Sylsjødammen, og la X 2, X 22,..., X 29 være observasjonene fra Rybekken. Vi antar at observasjonene er realiseringer av to normalfordelte variable, X N(µ, σ 2), X 2 N(µ 2, σ2 2) (bruk histogrammene i gur og Q-Q plottene i gur 5 for å vurdere om dette er en rimelig antakelse). Da har, ifølge kap. 9.8 i W.M.M.Y., størrelsen T = ( X X 2 ) (µ µ 2 ) s 2 n + s2 2 n 2

4 976 977 978 979 98 98 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 26 Dybde, Rybekken 5 5 2 976 977 978 979 98 98 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 26 Tetthet, Rybekken..2.3.4.5 976 977 978 979 98 98 982 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 26 Dybde, Sylsjodammen 5 5 2 25 3 976 977 978 979 98 98 982 984 985 986 987 988 989 99 99 992 993 994 995 996 997 998 999 2 2 22 23 24 25 26 Tetthet, Sylsjodammen.25.3.35.4.45.5.55 Figur 3 Box plot av snødybde og snøtetthet ved Rybekken og Sylsjødammen, med én boks for hvert år. Plottet er tegnet horisontalt for å utnytte plassen bedre, og boksene er tegnet på en mer kompakt måte enn de i gur 2. Figuren er laget med boxplots.m. hvor X og X 2 er gjennomsnittsverdiene av X og X 2, s 2 og s2 2 er de forventningsrette estimatorene for σ 2 og σ2 2, n = 3 og n 2 = 9, tilnærmet en t-fordeling med v frihetsgrader, hvor v er gitt av Satterthwaites approksimasjon ( ) s 2 2 n + s2 2 n 2 v = ( ) s 2 2 ( ) n n + s 2 2 2 n 2 n 2 som typisk rundes ned til nærmeste heltall. Setter opp nullhypotese og alternativ hypotese:

5 Ã r 25 2 95 4 2.5 2 2 DOY 95 2 25 Ã r 2 4.5 2 2 DOY Figur 4 Scatter plot-matrise for kombinerte data fra Rybekken og Sylsjødammen. De tydeligste sammenhengene er mellom SWE og dybde, og mellom SWE og tetthet. Figuren er laget med scatterplotmatrise.m. 8 Q Q plott, snã dybde, Rybekken 3 Q Q plott, snã dybde, Sylsjodammen 6 25 4 2 8 2 5 6 5 4 3 2 2 3 3 2 2 3 Figur 5 Q-Q plott av snødybdedata fra Rybekken (venstre) og Syldsjødammen (høyre). ˆ H : µ µ 2 = ˆ H a : µ µ 2 > Vi utfører altså en ensidig test, hvor vi ser på den høyre halen til fordelingen til T, og bruker følgende kriterium: Forkast H på signikansnivå α dersom den observerte verdien av T er større enn den kritiske verdien t α,v. Et script som utfører testen er lagret i Matlablen mutest.m. Vi nner at antall frihetsgrader er v = 68, som på signikansnivå α =.5

6 gir den kritiske verdien t α,v =.654. Den observerte verdien er imidlertid T = 4.3522, så vi forkaster H på signikansnivå.5. Forøvrig nner vi P -verdien.2 5, og kan slå fast med ganske stor sikkerhet at det i gjennomsnitt var dypere snø ved Sylsjødammen enn ved Rybekken i perioden 976-26. Her er det, på grunn av det forholdsvis store antallet observasjoner, liten forskjell på å utføre testen med en t-fordelt variabel, og å bruke en normalfordelt variabel. Kondensintervall for forskjellen i forventningsverdi av snødybde Vi vil se på to ulike metoder for å nne et ( α)% kondensintervall for µ µ 2. De este av observasjonene ved Rybekken og Sylsjødammen er tatt samme dag. Hvis vi fjerner alle observasjonene fra dager hvor det ikke ble foretatt målinger ved begge stasjonene, gjenstår 82 observasjoner i hvert datasett. Vi kan se på disse som 82 par av observasjoner, hvor hvert par består av en måling fra hver stasjon, tatt på samme dag. Disse forkortede datasettene er lagret i lene rybekken_kort.txt og sylsjodammen_kort.txt. Dataene er plottet i gur 6. 25 2 Par av korresponderende observasjoner Rybekken Sylsjodammen 5 5 2 3 4 5 6 7 8 Observasjon nr. Figur 6 82 par av korresponderende observasjoner av snødybde fra Rybekken og Sylsjødammen. Observasjonene i hvert par er målt samme dag. Figuren er laget med parplott.m. Vi kan enten gjøre som for hypotesetesten over, og anta to uavhengige normalfordelte tilfeldige variable X og X 2, eller vi kan se på den tilfeldige variabelen D = X X 2, (se kap. 9.9 i W.M.M.Y.). Dette innebærer antakelsen at realisasjonene d, d 2,..., d 82 av D kommer fra en normalfordeling. Vi lager et Q-Q plott (gur 7) for å kontrollere dette. Dersom det er avhengighet mellom X og X 2, vil sammenslåing av observasjoner i par gi mindre varians, men samtidig redusere antall frihetsgrader, slik at det ikke alltid er en fordel. I dette tilfellet får vi, ved å bruke Matlabkoden i la muci.m, resultatene gitt i tabell 3. Her gir altså tilnærmingen med observasjoner i par et litt smalere kondensintervall. Tabell 3 95% kondensintervall og antall frihetsgrader for forskjellen mellom µ og µ 2 utledet på to forskjellige måter. For metoden med separate populasjoner er antall frihetsgrader regnet ut med Satterthwaites approksimasjon, på samme måte som for hypotesetesten over. Samme datasett er brukt for begge metodene, dvs. det forkortede datasettet er brukt, også for separate populasjoner. Metode 95% kondensintervall Antall frihetsgrader Separate populasjoner (2.3447, 3.8992) 35 Observasjoner i par (3.8, 3.639) 8 Konklusjonen blir den samme som for hypotesetesten. Siden 95%-kondensintervallet

7 5 Q Q plott av d = x x 2 5 5 3 2 2 3 Figur 7 Q-Q plott av dieransene d i = x i x 2i, i =,..., 82. ikke inneholder null, så er forskjellen mellom forventningsverdiene signikant forskjellig fra null på signikansnivå 5%, dvs. det er en signikant forskjell mellom forventningsverdiene. Sammenlikning av varians (W.M.M.Y. Kap. 8.7 (F-fordeling) og 9.3 (sammenlikning av varians), NB: Ikke pensum i TMA424/4245) Figur 2 (venstre) indikerer at snødybdedataene fra Sylsjødammen har større varians enn de fra Rybekken. Vi vil utlede et kondensintervall for forholdet σ 2/σ2 2 mellom disse. Ifølge teorem 8.8 i W.M.M.Y. følger den tilfeldige variabelen F = s2 /σ2 s 2 2 /σ2 2 en F -fordeling med v = n og v 2 = n 2 frihetsgrader. Finner et ( β)% kondensintervall for forholdet mellom variansene. ( ) P f β s2 /σ2 s 2 f 2 /σ2 β 2 2,v,v 2 = β ( ) s 2 P /s2 2 σ 2 f β σ2 2 s2 /s2 2 = β f β Kondensintervallet blir ( s 2 /s2 2, f β s 2 /s2 2 f β Ved å bruke Matlabkoden i la varci.m nner vi estimatet s 2 /s2 2 = 2.923, og 95% kondensintervallet (.938, 4.359). Hvis de to populasjonene hadde samme varians σ 2 = σ2 2, ville forholdet mellom dem vært lik. Siden kondensintervallet for σ 2/σ2 2 ikke inneholder kan vi si, med 95% kondens, at σ 2 er større enn σ2 2, dvs. Sylsjødammen-dataene har større varians enn Rybekken-dataene. ).

8 Enkel lineær regresjon (W.M.M.Y. Kap. ) Utfra gur 4 ser en tydelig korrelasjon mellom SWE og dybde, og mellom SWE og tetthet. Dette er å vente, siden SWE er proporsjonal med produktet av dybde og tetthet. Vi vil nne ut hvor mye av variasjonen i SWE som kan forklares ved regresjon på kun én av disse variablene. Enkel lineær regresjon av SWE på snødybde og snøtetthet gir resultatene vist i gur 8. I tillegg ses resultatene av regresjon av snøtetthet på snødybde og DOY. Regresjon 4 2 SWE dybde, R 2 =.85864 Data Regresjonslinje 4 2 SWE tetthet, R 2 =.5877 Data Regresjonslinje 8 6 8 6 4 4 2 2 5 5 2 25 3..2.3.4.5.6.65.6 tetthet dybde, R 2 =.7523 Data Regresjonslinje.65.6 tetthet DOY, R 2 =.74 Data Regresjonslinje.55.55.5.5.45.4.35.45.4.35.3.3.25.25.2.2 5 5 2 25 3 2 4 6 8 2 4 DOY Figur 8 Datapunkter og regresjonslinjer funnet med minste kvadraters metode for kombinerte data fra Rybekken og Sylsjødammen. Øverst, venstre: Regresjon av SWE på snødybde. Øverst, høyre: Regresjon av SWE på snøtetthet. Nederst, venstre: Regresjon av snøtetthet på snødybde. Nederst, høyre: Regresjon av snøtetthet på snøalder (DOY ). Figuren er laget med regresjon.m av SWE på snødybde gir R 2 =.8586, mens regresjon på snøtetthet gir R 2 =.588. Vi kan altså forklare mer av variasjonen i SWE utfra avhengighet av dybde alene, enn utfra avhengighet av kun tetthet. For å kontrollere antakelsen om normalfordelte residualer, er Q-Q plott av de re settene med residualer plottet i gur 9. Antakelsene ser her ut til å holde bra, eventuelt med unntak av regresjon av SWE på tetthet, dvs. øverst til høyre på gur 9. Videre er residualplott i de re tilfellene vist i gur. Disse kan brukes for å vurdere om antakelsen om konstant varians er oppfylt.

9 25 Residualer, SWE dybde 8 Residualer, SWE tetthet 2 5 6 5 5 4 2 5 2 2 3 2 2 3 4 3 2 2 3.25 Residualer, tetthet dybde.25 Residualer, tetthet DOY.2.2.5.5..5.5..5.5...5.5.2 3 2 2 3.2 3 2 2 3 Figur 9 Q-Q plott av residualer etter regresjon, jf. gur 8. 25 2 5 Residualer, SWE dybde Residualer 8 6 Residualer, SWE tetthet Residualer 4 5 2 5 5 2 2 5 5 Obs. nr. 4 5 5 Obs. nr..25.2 Residualer, tetthet dybde Residualer.25.2 Residualer, tetthet DOY Residualer.5.5..5..5.5.5...5 5 5 Obs. nr..5 5 5 Obs. nr. Figur Plott av residualer etter regresjon, jf. gur 8.