STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon

Størrelse: px
Begynne med side:

Download "STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon"

Transkript

1 STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Oppsummering av kurset 17. april 2018

2 Hovedproblem Input x R p. Output y Numerisk: regresjon Kategorisk: Klassifikasjon Gitt data {(x i, y i ), i = 1,..., N}, vil bygge opp en sammenheng mellom x og y Læring Prediksjon

3 Statistisk læring Fokus: Prediksjon av responsvariabel basert på forklaringsvariable Maskinlæring: Fokus på algoritmer for prediksjon Brukes ofte som en black box Evaluering ofte basert på et test sett Statistisk læring: Fokus på metoder for prediksjon Mer "åpen boks" Fokus på inferens kvantifisering av usikkerhet Evaluering av metode hypotesetesting Ikke noe klart skille, begge fokus på prediksjon

4 Tapsfunksjoner Spesifiserer hvor mye feil koster Kvadratisk feil for regresjon L(Y, Ŷ ) = (Y Ŷ )2 Optimal prediktor Ŷ = E[Y X = x] f (x) Klassfikasjonsfeil for klassifikasjon L(Y, Ŷ ) = I(Y = Ŷ ) Optimal prediktor Ŷ = arg max k Pr(Y = k x), Pr(Y = k x) = E[I(Y = k) x] = f k (x) Andre muligheter Regresjon: L 1 tap: L(Y, Ŷ ) = Y Ŷ Mer robust mot ekstreme observasjoner Klassifikasjon: Vektlegge ulike typer feil ulikt L(k, a) = l k,a

5 Regresjon Anta y = f (x) + ε, ε (0, σ 2 ) f (x) = E[y x] Vil finne f Minste kvadrater: n i=1 (y i f (x i )) 2 Noen ganger trenger vi likelihood (AIC/BIC) Gaussisk støy: Minste kvadrater optimalt log L = 1 2σ 2 N (y i f (x i )) 2 i=1

6 Regresjonsproblem Vil estimere f (x) = E[y x]. f : R p R MANGE mulige f Ikke nok data til å vurdere alle muligheter (curse of dimensjonality) Generell ide: Fleksibel f men med restriksjoner/straff Parametriske/ikke-parametriske Lineær Basis ekspansjoner Additive Tre struktur Glatt Nærmeste nabo metoder Restriksjoner: Dimensjon reduksjon (Variabel seleksjon/pca/pls) Straffeledd på parametre (Ridge/Lasso) Seleksjon: AIC, BIC, Kryss-validering

7 Oversikt over ulike metoder Interpretability Low High Subset Selection Lasso Least Squares Generalized Additive Models Trees Bagging, Boosting Support Vector Machines Low High Flexibility

8 Klassifikasjon Modell basert: p k (x) = Pr(y = k x) Data {(x i, y i ), i = 1,..., n} Likelihood L = N p yi (x i ) = i=1 N K p k (x i ) I(y i =k) i=1 k=1 Kan bruke likelihood baserte metoder også for klassfikasjon Ridge/lasso type AIC/BIC

9 Klassifikasjon som regresjon Anta y i {1,..., K } Definer y i,k = { 1 hvis y i = k 0 ellers Merk: y i = arg max k y ik Kan utføre regresjon for hver k, gir Ŷk(x). Klassifiser Ŷ (x) = arg max k Ŷk(x)

10 Skjevhet versus varians Oppsplitting av forventet kvadratisk feil: Err(x) = E[(Y Ŷ )2 x] = E[f (x) f (x)] 2 + }{{} V(ε) }{{} Reduserbar Ikke reduserbar Reduserbar del: E[f (x) f (x)] 2 =E[f (x) E[ f (x)] + E[ f (x)] f (x)] 2 =[f (x) E[ f (x)]] 2 + E[(E[ f (x)] f (x)]) 2 = [f (x) E[ f (x)]] 2 }{{} Forventningsskjevhet + Var[ f (x)] }{{} Varians Err(x) = Bias 2 + varians + σ 2 For enkel model: Varians liten, skjevhet stor For kompleks model: Skjevhet liten, varians stor Trade-off skjevhet varians Samme data for tilpasning (læring) og evaluering gir for optimistisk verdi på feil (overtilpasning)

11 Modell evaluering og valg av model Hvordan velge mellom modeller/metoder? Vil ha lav prediksjonsfeil på nye data. Bruk av samme data for tilpasning og evaluering gir for optimistisk prediksjonsfeil Trenger to evalueringer En for valg av model/metode glatthet/kompleksitet/turing parameter En for evaluering av endelig modell/metode

12 Trening/validering/test sett Vanlig å dele data inn i Treningsset: Velge/tilpasse modell/metode Test sett: Evaluering av endelig modell Noen ganger deles treningssett i to: Treningssett: Tilpasning av modell/metode Valideringssett: Valg av modell/metode Har da test sett for å estimere prediksjonsfeil på nye data

13 Kryss-validering og bootstrapping Trening/test sett kan hver for seg bli for små Kryss-validering: Del data i K groups Tilpass model på K 1 grupper, valider på siste gruppe Sirkulering gir tilpasning på (K 1)/K av data, validering på K /K. Bootstrapping: Simuler nye datasett ved trekking med repetisjon fra opprinnelig datasett (ikke-parametrisk) trekking fra modell med parameterverdier=estimater (parametrisk) Bruk simulerte data til å estimere usikkerhet (++)

14 Informasjonskriterier Informasjonskriterier: AIC = 2 N loglik + 2 d N BIC = 2 d loglik + log(n) N N I noen lærebøker/software tas ikke faktoren 1 N med Brukes for å sammenlikne modeller Fordel: Ikke behov for å dele data i trening/test Ulempe: Baserer seg mer på modell antagelser Merk: d bør være effektivt antall parametre Eksempel: GAM/splines Relatert: C p, justert R 2

15 Lineær regresjon Modell Y = β 0 + β 1 x β p x p + ε, (*) Data (x 1, y 1 ),..., (x n, y n ) Minste kvadraters estimater (også ML hvis ε iid N(0, σ 2 )) ˆβ =(X T X) 1 X T Y ŷ = ˆβ 0 + ˆβ 1 x ˆβ p x p Hvis (*) er riktig, E[ ˆβ] = β, V[ ˆβ] = σ 2 (X T X) 1 Test H 0 : β j = 0: T = ˆβ SE( ˆβ j ) Test H 0 : β 1 = β 2 = = β p = 0 F = (TSS RSS)/p RSS/(n p 1) n RSS = i=1 H 0 tn p 1 under H 0 H 0 Fp,n p 1 under H 0 n (y i ŷ i ) 2 < TSS = i=1 (y i ȳ) 2

16 Lineære modeller - regresjon f (x) = β 0 + p j=1 β jx j Problemer hvis p stor Restriksjon på parametre Ridge: h(β) = n i=1 Lasso: h(β) = n i=1 Dimensjon reduksjon ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β2 j ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β j Model seleksjon: Setter β j = 0 for noen j PCR/PLS: z m = p j=1 φ jmx j, m = 1,..., M ˆf (x) = ˆβ0 + p j=1 ˆβ j x j

17 Lineære modeller - klassifikasjon lineær hvis grense mellom klasser er lineær Kan behandles som regresjon problem lineær regresjon Logistic regresjon Modellering av p(x y), LDA/QDA Direkte bestemmelse av grenser mellom klasser Separererende hyperplan

18 LDA og QDA De fleste metoder: Direkte modellering av Y X LDA/QDA: Modellering av X Y og Y, p(y x) = p(y)p(x y p(x) LDA: p(x y = k) = N(µ k, Σ); gir lineære grenser QDA: p(x y = k) = N(µ k, Σ k ); gir kvadratiske grenser Kan være enklere/bedre i noen sammenhenger Nyttig i situasjoner der y 1,..., y n ikke representerer p(y)

19 ROC kurver Eksempel: x y = 1 N(0, 1) x y = 2 N(2, 1) Pr(y = 1) = 0.5 Regel som minimerer feilrate { 1 hvis x 1 Ŷ = 2 hvis x > 1 Vil gi like mange feil 1 2 som 2 1 Alternative regler: { 1 hvis x c Ŷ = 2 hvis x > c Definer p 1 (c) = Pr(Ŷ = 2 Y = 1), p 2 (c) = Pr(Ŷ = 1 Y = 2) For c < 1: p 1 (c) øker, p 2 (c) minker For c > 1: p 2 (c) øker, p 1 (c) minker ROC kurve: Plot av 1 p 2 (c) som funksjon av p 1 (c) 1 p p1

20 y x 2 y x 2 Utover lineære modeller K -nærmeste nabo regresjon Ikke-parametriske metoder Antar ingen eksplisitt form K -nærmeste nabo metode: ˆf (x0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. x 1 x 1 Valg av K : Trade-off mellom forventningsskjevhet og varians

21 Kjerne metoder Nærmeste nabo: ˆf (x) = Ave(y i x i N k (x)) Local polynomial min α,β j n K λ (x 0, x i ) y i α i=1 d j=1 β j x j i 2 Vanligvis: d = 0, 1, 2 Hovedproblem: Velge glattingsparameter k/λ, typisk ved kryss-validering

22 Basis ekspansjoner Anta f (x) = M m=1 β mh m (x) h m glatte funksjoner Stykkevise polynomer Splines (GAM) Sigmaoider (Nevrale network) Stykkevis konstante (trær) Restriksjoner på β m s Effektivt antall parametre (splines, GAM) Ridge-type (Nevrale network) Lineære i parametre, kan bruke resultater for minste kvadraters metode

23 GAM Modell: f (x) = β 0 + p j=1 f j(x j ) Glattings straff på f j ( ). Som regel smoothing splines som fører til kubisk splines som igjen fører til eksempel på basisfunksjoner Basisfunksjonene ikke forhåndsbestemt, antall knuter og glattingsstraff bestemt av data Glattingsparameter gjennom CV eller effektivt antall parametre Kan inkludere interaksjoner Klassifikasjon: Logistisk type modellering

24 Trær R p = R 1 R 2 R M Modell: f (x) = M m=1 c mi(x R m ) For fleksible modeller, restriksjoner gjennom sekvensiell definisjon av R m -ene Oppsplitting bare gjennom en variabel om gangen Beskjæring av tre Klassifikasjon: Pr(y = k x) = p m,k for x R m. Estimat ˆp m,k = 1 N m x i R m I(y i = k)

25 Bagging og Random Forrest Anta ˆf 1 (x),ˆf 2 (x),...,ˆf B (x) er B ulike prediktorer Kan konstruere en ny prediktor ved ˆfavg (x) = 1 B B ˆf b (x) b=1 Bagging: Lag B bootstrap utvalg ˆf b (x) = prediktor basert på bootstrap utvalg b. Random forrest ( Ønsker mindre korrelerte Trær) Kun et tilfeldig utvalg av m < p forklaringsvariable vurderes ved splitting Typisk: m p De fleste variable blir ikke vurdert i hver oppsplitting!

26 Boosting - idé Ett stort tre kan lett gi overtilpasning Boosting lærer sakte: ˆf (x) ˆf (x) + λˆf b (x) r i r i λˆf b (x) vekter ned (med λ) tilpasningen tilpasser residualer i hvert trinn Avhenger sterkt av tidligere tilpassninger

27 Separerende hyperplan Idé: Finne et hyperplan som skiller (de to) klassene Hyperplan i p dimensjoner, et flatt (affint) underrom av orden p 1. Bestemt av β 0 + β 1 x β p x p = β 0 + β T x = 0 der β = (β 1,..., β p ) T. Punkter som ikke ligger på hyperplan har egenskapene eller β 0 + β T x > 0, x R 1 β 0 + β T x < 0, x R 1 Data {(x 1, y 1 ),..., (x n, y n )} der y i { 1, 1} Ønsker å finne hyperplan slik at x i R 1 for y i = 1 og x i R 1 for y i = 1. Hvis ikke mulig å finne separerende hyperplan: Legge inn straffeledd for punkter på gal side. Kan legge inn ikke-lineære funksjoner av data. Kan generaliseres til flere klasser.

28 Nevrale Nett Modell: f (x) = β 0 + M m=1 β kσ(α T mx) Tillater store M, Ridge-type straff på α, β. Definerer z m = σ(α T mx) gir gjemte lag z 1,..., z M Kan generaliseres til flere lag (dyp læring). Klassifikasjon: Logistisk type modellering

29 Læring versus prediksjon Kurs: Fokus på prediksjon Lærning: Hvilke kovariater er viktige? Mye mer vanskelig spørsmål Ofte: Prediksjonsfeil brukt som kriterie for evaluering av viktighet av kovariat Problemer: Mangel på prediktiv styrke kan være pga lite data Prediktiv styrke kan være pga indirekte innflytelse gjennom andre variable

30 Ikke-styrt læring Mange situasjoner: Ingen responsvariabel Kan være at den mangler, finnes egentlig en respons Eller, kun struktur i x i -ene av interesse Av interesse Visualisering av x i R p Undergrupper av x i -ene? Fokus på to metoder Prinsipale komponenter Klustring Transformasjon til lavere dimensjon visualisering Gruppere data slik at observasjoner innen gruppe er like mens observasjoner fra forskjellige grupper er mer ulike Hierarkisk klustring: Sekvensiell metode der to grupper blir slått sammen på hvert trinn K-means klustring: der (f.eks) minimer{ C 1,...,C K K W (C k )} k=1 W (C k ) = 1 C k i,i C k p (x i,j x i,j ) 2 j=1

31 Store datamengder Predikere framtidige observasjoner Få innsikt i relasjon mellom input variable og respons Forstå hetereogenitet i og fellesfaktorer over ulike subpopulasjoner Utforske gjemte strukturer i subpopulasjoner Fellesfaktorer selv når det er store individuelle varasjoner Utfordringer Falske sammenhenger Tilfeldige likheter Store beregningskostnader og numeriske ustabilitieter Statistiske skjevheter Representativt utvalg? Aggregering over ulike tidspunkter Data samlet inn med ulike teknologier Tre ulike tilnærminger (fokus på beregninger) Parallellprosessering Split og hersk metoder (divide and conquer) Dynamisk oppdatering Subsampling baserte metoder

32 Statistical learning på Youtube Søk på Statistical learning

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 - FASIT Eksamensdag: Torsdag 15. juni 2017. Tid for eksamen: 09.00 13.00. Oppgavesettet er på 5 sider. Vedlegg: Tillatte

Detaljer

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2018) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

Kapittel 6 - modell seleksjon og regularisering

Kapittel 6 - modell seleksjon og regularisering Kapittel 6 - modell seleksjon og regularisering Geir Storvik 21. februar 2017 1/22 Lineær regresjon med mange forklaringsvariable Lineær modell: Y = β 0 + β 1 x 1 + + β p x p + ε Data: {(x 1, y 1 ),...,

Detaljer

Prøveeksamen STK2100 (fasit) - vår 2018

Prøveeksamen STK2100 (fasit) - vår 2018 Prøveeksamen STK2100 (fasit) - vår 2018 Geir Storvik Vår 2018 Oppgave 1 (a) Vi har at E = Y Ŷ =Xβ + ε X(XT X) 1 X T (Xβ + ε) =[I X(X T X) 1 X T ]ε Dette gir direkte at E[E] = 0. Vi får at kovariansmatrisen

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2 Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Eksamensdag: Torsdag 4. juni 28. Tid for eksamen: 4.3

Detaljer

Prøveeksamen STK vår 2017

Prøveeksamen STK vår 2017 Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form:

Detaljer

STK Oppsummering

STK Oppsummering STK1110 - Oppsummering Geir Storvik 11. November 2015 STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer

Detaljer

Forelesning 8 STK3100/4100

Forelesning 8 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering -

Detaljer

Ridge regresjon og lasso notat til STK2120

Ridge regresjon og lasso notat til STK2120 Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle

Detaljer

Oppsummering av STK2120. Geir Storvik

Oppsummering av STK2120. Geir Storvik Oppsummering av STK2120 Geir Storvik Vår 2011 Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter Generelle

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 p. 1/3 Forelesning 9 STK3100/4100 Plan for forelesning: 18. oktober 2012 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 2/3 Modell med

Detaljer

STK2100. Obligatorisk oppgave 1 av 2

STK2100. Obligatorisk oppgave 1 av 2 14. februar 2018 Innleveringsfrist STK2100 Obligatorisk oppgave 1 av 2 Torsdag 1. mars 2018, klokken 14:30 gjennom Devilry (https:devilry.ifi.uio.no). Praktiske instruksjoner Første side av din innlevering

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 Maskinlæring g statistiske metder fr prediksjn g klassifikasjn Eksamensdag: Trsdag 15. juni 2017. Tid fr eksamen: 09.00

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 Forelesning 9 STK3100/4100 Plan for forelesning: 17. oktober 2011 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 1 Modell med alle antagelser

Detaljer

Ekstraoppgaver for STK2120

Ekstraoppgaver for STK2120 Ekstraoppgaver for STK2120 Geir Storvik Vår 2011 Ekstraoppgave 1 Anta X 1 og X 2 er uavhengige med X 1 N(1.0, 1.0) og X 2 N(2.0, 1.5). La X = (X 1, X 2 ) T. Definer c = ( ) 2.0 3.0, A = ( ) 1.0 0.5 0.0

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - Fornuftig verdi Inferens STK1110 - Repetisjon av relevant stoff fra STK1100 Geir Storvik 12. august 2015 Data x 1,..., x n evt også y 1,..., y n Ukjente parametre θ kan være flere Vi ønsker å si noe om θ basert på data.

Detaljer

Tilleggsoppgaver for STK1110 Høst 2015

Tilleggsoppgaver for STK1110 Høst 2015 Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0

Detaljer

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2. Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1100 Statistiske metoder og dataanalyse 1 - Løsningsforslag Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST 202 Statistiske slutninger for den eksponentielle fordelingsklasse. Eksamensdag: Fredag 15. desember 1995. Tid for eksamen:

Detaljer

Prøveeksamen i STK3100/4100 høsten 2011.

Prøveeksamen i STK3100/4100 høsten 2011. Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan

Detaljer

Fasit og løsningsforslag STK 1110

Fasit og løsningsforslag STK 1110 Fasit og løsningsforslag STK 1110 Uke 36: Eercise 8.4: a) (57.1, 59.5), b) (57.7, 58, 9), c) (57.5, 59.1), d) (57.9, 58.7) og e) n 239. (Hint: l(n) = 1 = 2z 1 α/2 σ/n 1/2 ). Eercise 8.10: a) (2.7, 7.5),

Detaljer

STK Oppsummering

STK Oppsummering STK1100 - Oppsummering Geir Storvik 6. Mai 2014 STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter

Detaljer

Kort overblikk over kurset sålangt

Kort overblikk over kurset sålangt Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente

Detaljer

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ: Punktestimator STK00 - Bootstrapping og simulering - Kap 7 og eget notat Geir Storvik 8. april 206 Trekke ut informasjon om parametre fra data x,..., x n Parameter av interesse: θ Punktestimator: Observator,

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y Statistiske metoder 1 høsten 004. Løsningsforslag Oppgave 1: a) Begge normalplottene gir punkter som ligger omtrent på ei rett linje så antagelsen om normalfordeling ser ut til å holde. Konfidensintervall

Detaljer

Oppgave N(0, 1) under H 0. S t n 3

Oppgave N(0, 1) under H 0. S t n 3 MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr 9 (s 1) Oppgave 1 Modell: Y i β 0 + β 1 x i + β 2 x 2 i + ε i der ε 1,, ε n uif N(0, σ 2 ) e) Y Xβ + ε der Y Y 1 Y n, X 1 x 1 x 2 1

Detaljer

Bootstrapping og simulering Tilleggslitteratur for STK1100

Bootstrapping og simulering Tilleggslitteratur for STK1100 Bootstrapping og simulering Tilleggslitteratur for STK1100 Geir Storvik April 2014 (oppdatert April 2016) 1 Introduksjon Simulering av tilfeldige variable (stokastisk simulering) er et nyttig verktøy innenfor

Detaljer

Inferens i regresjon

Inferens i regresjon Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2120 Statistiske metoder og dataanalyse 2. Eksamensdag: Fredag 7. juni 2013. Tid for eksamen: 14.30 18.30. Oppgavesettet er

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1 Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30 18.00. Oppgavesettet

Detaljer

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) Introduksjon til Generaliserte Lineære Modeller (GLM) p. 1/25 Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-23. august 2010 Sven Ove Samuelsen/Anders Rygh Swensen Plan for første forelesning:

Detaljer

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R Blanda modellar i R Jorunn Slagstad Universitetet i Bergen 20. desember 2006 1 Introduksjon 2 Lineære blanda modellar 3 Generaliserte lineære blanda modellar 4 Analyser av modellar 5 Eit randproblem 6

Detaljer

Modellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist

Modellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist Modellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist Customer Lifetime Value (CLV) Diskontert nåverdi av hele det fremtidige kundeforholdet CLV for alle kunder gir

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 4. juni 2007. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

Generalisering til mange klasser - feilrettingsmetodene

Generalisering til mange klasser - feilrettingsmetodene Mange klasser Generalisering til mange klasser - feilrettingsmetodene Kesslers konstruksjon - omskriving av c-klasseproblemet til et toklasseproblem. Her innføres en sammensatt vektvektor a og et sett

Detaljer

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk Gruvedrift Notat for TMA/TMA Statistikk Institutt for matematiske fag, NTNU I forbindelse med planlegging av gruvedrift i et område er det mange hensyn som må tas når en skal vurdere om prosjektet er lønnsomt.

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte

Detaljer

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom

Detaljer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

7. november 2011 Geir Storvik

7. november 2011 Geir Storvik Forelesning 13 STK3100/4100 Plan for forelesning: 7. november 2011 Geir Storvik Generaliserte lineære blandede modeller 1. Sammenlikning ulike estimeringsmetoder 2. Tolkning parametre 3. Inferens Konfidensintervaller

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 22. mai 2014 Eksamenstid (fra til): 09.00-13.00

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1110 FASIT. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider. Vedlegg: Tillatte

Detaljer

Generelle lineære modeller i praksis

Generelle lineære modeller i praksis Generelle lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y en eller flere uavhengige

Detaljer

Løsningsforslag eksamen 25. november 2003

Løsningsforslag eksamen 25. november 2003 MOT310 Statistiske metoder 1 Løsningsforslag eksamen 25. november 2003 Oppgave 1 a) Vi har µ D = µ X µ Y. Sangere bruker generelt trapesius-muskelen mindre etter biofeedback dersom forventet bruk av trapesius

Detaljer

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2 MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: Oppgave 11.27 (11.6:13) Modell: Y i = α + βx i + ε i der ε 1,..., ε n u.i.f. N(0, σ 2 ). Skal finne konfidensintervall

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) Literatur / program Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-20. august 2007 Sven Ove Samuelsen Plan for første forelesning: 1. Introduksjon, Literatur, Program 2. ksempler 3. Uformell

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 Ei bedrift produserer elektriske komponentar. Komponentane kan ha to typar

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST110 Statistiske metoder og dataanalyse Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 20.30. Oppgavesettet er på

Detaljer

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk

Klassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk Klassisering Notat for TMA4240/TMA4245 Statistikk Insitutt for matematiske fag, NTNU 21. august 2012 Innen maskinlæring studerer man algoritmer som tillater datamaskiner å utvikle atferd på grunnlag av

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller p. 1/34 Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller STK3100/4100-23. august 2011 Geir Storvik (Oppdatert

Detaljer

Ekstraoppgaver STK3100 h10

Ekstraoppgaver STK3100 h10 Ekstraoppgaver STK3100 h10 Oppgave 1 En-veis variansanalyse modellen kan formuleres som Y ij = µ + α i + ɛ ij (1) der α i = 0 og ɛ ij er i.i.d N(0, σ 2 ). Her representerer er Y ij j te observasjon fra

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Oppgave 1 Oppgave 11.5 fra læreboka. Oppgave 2 Oppgave 11.21 fra læreboka. Oppgave

Detaljer

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Anvendt medisinsk statistikk, vår Repeterte målinger, del II Anvendt medisinsk statistikk, vår 009 Repeterte målinger, del II Eirik Skogvoll Overlege, Klinikk for anestesi og akuttmedisin 1. amanuensis, Enhet for anvendt klinisk forskning (med bidrag fra Harald

Detaljer

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader. FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da

Detaljer

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2. Kapittel 2 Utforske og beskrive data Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.4 denne uken To kryssplott av samme datasett, men med forskjellig skala

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i STK2120 Statistiske metoder og dataaalyse 2 Eksamesdag: Madag 6. jui 2011. Tid for eksame: 09.00 13.00. Oppgavesettet er på 5 sider.

Detaljer

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka: MOT30 Statistiske metoder, høsten 2006 Løsninger til regneøving nr. 8 (s. ) Oppgaver fra boka: Oppgave.5 (.3:5) ) Først om tolking av datautskriften. Sammendrag gir følgende informasjon: Multippel R =R,

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK2120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 6. juni 2011. Tid for eksamen: 14.30 18.30. Oppgavesettet er

Detaljer

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08 Erling Berge Institutt for sosiologi og statsvitenskap NTNU Erling Berge 2004 1 Manglande data Forelesing VIII Allison, Paul

Detaljer

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Multippel regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Det er fortsatt en responsvariabel y. Måten dette gjøre på er nokså

Detaljer

Løsningsforslag eksamen 27. februar 2004

Løsningsforslag eksamen 27. februar 2004 MOT30 Statistiske metoder Løsningsforslag eksamen 7 februar 004 Oppgave a) Y ij = µ i + ε ij, der ε ij uavh N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig variasjon)

Detaljer

Modellvalg ved multippel regresjon notat til STK2120

Modellvalg ved multippel regresjon notat til STK2120 Modellvalg ved multippel regresjon notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på hvordan vi kan velge ut hvilke forklaringsvariabler vi skal ha med i en regresjonsmodell.

Detaljer

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9

år i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9 TMA424 Statistikk Vår 214 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Oppgave 1 Matlabkoden linearreg.m, tilgjengelig fra emnets hjemmeside, utfører

Detaljer

Dimensjonalitetsproblemer (3)

Dimensjonalitetsproblemer (3) Dimensjonalitetsproblemer Dimensjonalitetsproblemer (3) Ved å inkludere flere uavhengige egenskaper der µ i1 6= µ i2 i egenskapsvektoren vil r 2 øke og P(e) avta, slik at: P d+1 (e) apple P d (e). Dette

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start 2 Kap. 13: Lineær korrelasjons-

Detaljer

KUNSTIG INTELLIGENS I PRAKSIS NOKIOS 2018 KURS 1.

KUNSTIG INTELLIGENS I PRAKSIS NOKIOS 2018 KURS 1. KUNSTIG INTELLIGENS I PRAKSIS NOKIOS 2018 KURS 1. HVEM ER VI Fabian Sødal Dietrichson Accenture Technology Martin Kowalik Gran Accenture Technology Runar Gunnerud Accenture Consulting XKCD.COM AGENDA 1.

Detaljer

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0 Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir

Detaljer

Eksamen - INF 283 Maskinlæring

Eksamen - INF 283 Maskinlæring Eksamen - INF 283 Maskinlæring 23 feb. 2016 Tid: 3 timer Eksamen inneholder 15 oppgaver, som vil bli vektet likt ved evaluering. 1 Table 1 attributt antall personer forsørget av låntaker månedlig inntekt

Detaljer

Notat 3 - ST februar 2005

Notat 3 - ST februar 2005 Notat 3 - ST1301 1. februar 2005 1 Simulering fra modell Når vi skal analysere et gitt konkret innsamlet datasett vil vi gjøre dette med utgangspunkt i en statistisk modell. Vi kan si at en slik statistisk

Detaljer

Oppgave 1. Kilde SS df M S F Legering Feil Total

Oppgave 1. Kilde SS df M S F Legering Feil Total MOT30 Statistiske metoder, høste0 Løsninger til regneøving nr. 0 (s. ) Oppgave Y ij = µ i + ε ij, der ε ij uavh. N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig

Detaljer

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt Bjørn H. Auestad Kp. 11: Regresjonsanalyse 1 / 57 Kp. 11 Regresjonsanalyse; oversikt 11.1 Introduction to Linear Regression 11.2 Simple Linear Regression 11.3 Least Squares and the Fitted Model 11.4 Properties

Detaljer

Maskinlæring og nevrale nettverk

Maskinlæring og nevrale nettverk Maskinlæring og nevrale nettverk En innføring Sven Haadem 15.02.2017 Unify AI, phd matematikk/statistikk UiO 1 Kan vi si noe om fremtiden og i så fall hva? A priori og a posteriori viten Emperi - problemet

Detaljer

Modellering og prediksjon av kundeavgang

Modellering og prediksjon av kundeavgang www.nr.no Modellering og prediksjon av kundeavgang Clara-Cecilie Günther, Ingunn Fride Tvete, Geir Inge Sandnes, Ørnulf Borgan, Kjersti Aas Statistics for Innovation (SFI) 2 Årsmøte Norsk ASTIN-gruppe,

Detaljer

Statistikk og havressurser

Statistikk og havressurser Statistikk og havressurser STK2120-16. april 2012 Geir Storvik April 16, 2012 Fiskeri i Norge Norges havområder er mer enn seks ganger større enn våre landområder, og har noen av verdens rikeste fiskebanker.

Detaljer

Statistikk og havressurser

Statistikk og havressurser Statistikk og havressurser STK2120-16. april 2012 Geir Storvik April 16, 2012 Fiskeri i Norge Norges havområder er mer enn seks ganger større enn våre landområder, og har noen av verdens rikeste fiskebanker.

Detaljer

Kapittel 3: Studieopplegg

Kapittel 3: Studieopplegg Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet. Eksamen i STK3100 Innføring i generaliserte lineære modeller Eksamensdag: Mandag 6. desember 2010 Tid for eksamen: 14.30 18.30 Oppgavesettet

Detaljer

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter Observatorer STK00 - Observatorer - Kap 6 Geir Storvik 4. april 206 Så langt: Sannsynlighetsteori Stokastiske modeller Nå: Data Knytte data til stokastiske modeller Utgangspunkt Eksempel høyde Oxford studenter

Detaljer

Eksamensoppgåve i TMA4240 Statistikk

Eksamensoppgåve i TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgåve i TMA4240 Statistikk Fagleg kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806

Detaljer

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1 Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s AR2-modell: Oppgave X t φ X t φ 2 X t 2 Z t Antas å være kausal slik at X t ψ j Z t j er ukorrelert med Z t+,

Detaljer

Statistisk analyse av data fra planlagte forsøk

Statistisk analyse av data fra planlagte forsøk Statistisk analyse av data fra planlagte forsøk 19. mars 2019 9.00 10.30 Skypemøte 2 i NLR s kurs i forsøksarbeid 2019 Torfinn Torp Temaer Noen sentrale begreper, framgangsmåte etc., via et eksempel. Noen

Detaljer

Generell informasjon om faget er tilgjengelig fra It s learning. 1 En kort oppsummering Adaptiv filtrering 2. 3 Prediksjon 4

Generell informasjon om faget er tilgjengelig fra It s learning. 1 En kort oppsummering Adaptiv filtrering 2. 3 Prediksjon 4 Stavanger, 13. august 2013 Det teknisknaturvitenskapelige fakultet ELE500 Signalbehandling, 2013. Generell informasjon om faget er tilgjengelig fra It s learning. Innhold 1 En kort oppsummering. 1 2 Adaptiv

Detaljer

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100 Forelesning 7 STK3100/4100 p. 1/2 Forelesning 7 STK3100/4100 8. november 2012 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Forelesning

Detaljer

TMA4240 Statistikk Høst 2016

TMA4240 Statistikk Høst 2016 TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 12 Denne øvingen består av oppgaver om enkel lineær regresjon. De handler blant

Detaljer

Lineære modeller i praksis

Lineære modeller i praksis Lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y én eller flere uavhengige variabler:

Detaljer

Statistikk og dataanalyse

Statistikk og dataanalyse Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel

Detaljer

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1 MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1 Oppgave 1 a) Normalantakelse: Målingene x 1,..., x 21 og y 1,..., y 8 betraktes som utfall av tilfeldige variable X 1,..., X 21

Detaljer

Oppgave 14.1 (14.4:1)

Oppgave 14.1 (14.4:1) MOT30 Statistiske metoder, høste006 Løsninger til regneøving nr. 0 (s. ) Modell: Oppgave 4. (4.4:) Y ijk = µ + α i + β j + (αβ) ij + ε ijk, der ε ijk uavh. N(0, σ ) der µ er gjennomsnittseffekten, α i

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

Oppgave 14 til 9. desember: I polynomiringen K[x, y] i de to variable x og y over kroppen K definerer vi undermengdene:

Oppgave 14 til 9. desember: I polynomiringen K[x, y] i de to variable x og y over kroppen K definerer vi undermengdene: HJEMMEOPPGAVER utgave av 8-12-2002): Oppgave 15 til 16 desember: La H være mengden av alle matriser på formen A = a 1 a 12 a 13 a 1n 0 a 2 0 0 0 0 a 3 0 0 0 a n der a 1 a 2 a n 0 Videre la SH være matrisene

Detaljer

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014

Ekstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014 Ekstreme bølger Geir Storvik Matematisk institutt, Universitetet i Oslo 5. mars 2014 Bølger Timesvise max-bølger ved bøye utenfor østkyst av USA (17/12/1991-23/2-1992) Størrelse på bølger varierer sterkt

Detaljer

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005 SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000

Detaljer