STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon
|
|
- Sara Johannessen
- 5 år siden
- Visninger:
Transkript
1 STK Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Oppsummering av kurset 17. april 2018
2 Hovedproblem Input x R p. Output y Numerisk: regresjon Kategorisk: Klassifikasjon Gitt data {(x i, y i ), i = 1,..., N}, vil bygge opp en sammenheng mellom x og y Læring Prediksjon
3 Statistisk læring Fokus: Prediksjon av responsvariabel basert på forklaringsvariable Maskinlæring: Fokus på algoritmer for prediksjon Brukes ofte som en black box Evaluering ofte basert på et test sett Statistisk læring: Fokus på metoder for prediksjon Mer "åpen boks" Fokus på inferens kvantifisering av usikkerhet Evaluering av metode hypotesetesting Ikke noe klart skille, begge fokus på prediksjon
4 Tapsfunksjoner Spesifiserer hvor mye feil koster Kvadratisk feil for regresjon L(Y, Ŷ ) = (Y Ŷ )2 Optimal prediktor Ŷ = E[Y X = x] f (x) Klassfikasjonsfeil for klassifikasjon L(Y, Ŷ ) = I(Y = Ŷ ) Optimal prediktor Ŷ = arg max k Pr(Y = k x), Pr(Y = k x) = E[I(Y = k) x] = f k (x) Andre muligheter Regresjon: L 1 tap: L(Y, Ŷ ) = Y Ŷ Mer robust mot ekstreme observasjoner Klassifikasjon: Vektlegge ulike typer feil ulikt L(k, a) = l k,a
5 Regresjon Anta y = f (x) + ε, ε (0, σ 2 ) f (x) = E[y x] Vil finne f Minste kvadrater: n i=1 (y i f (x i )) 2 Noen ganger trenger vi likelihood (AIC/BIC) Gaussisk støy: Minste kvadrater optimalt log L = 1 2σ 2 N (y i f (x i )) 2 i=1
6 Regresjonsproblem Vil estimere f (x) = E[y x]. f : R p R MANGE mulige f Ikke nok data til å vurdere alle muligheter (curse of dimensjonality) Generell ide: Fleksibel f men med restriksjoner/straff Parametriske/ikke-parametriske Lineær Basis ekspansjoner Additive Tre struktur Glatt Nærmeste nabo metoder Restriksjoner: Dimensjon reduksjon (Variabel seleksjon/pca/pls) Straffeledd på parametre (Ridge/Lasso) Seleksjon: AIC, BIC, Kryss-validering
7 Oversikt over ulike metoder Interpretability Low High Subset Selection Lasso Least Squares Generalized Additive Models Trees Bagging, Boosting Support Vector Machines Low High Flexibility
8 Klassifikasjon Modell basert: p k (x) = Pr(y = k x) Data {(x i, y i ), i = 1,..., n} Likelihood L = N p yi (x i ) = i=1 N K p k (x i ) I(y i =k) i=1 k=1 Kan bruke likelihood baserte metoder også for klassfikasjon Ridge/lasso type AIC/BIC
9 Klassifikasjon som regresjon Anta y i {1,..., K } Definer y i,k = { 1 hvis y i = k 0 ellers Merk: y i = arg max k y ik Kan utføre regresjon for hver k, gir Ŷk(x). Klassifiser Ŷ (x) = arg max k Ŷk(x)
10 Skjevhet versus varians Oppsplitting av forventet kvadratisk feil: Err(x) = E[(Y Ŷ )2 x] = E[f (x) f (x)] 2 + }{{} V(ε) }{{} Reduserbar Ikke reduserbar Reduserbar del: E[f (x) f (x)] 2 =E[f (x) E[ f (x)] + E[ f (x)] f (x)] 2 =[f (x) E[ f (x)]] 2 + E[(E[ f (x)] f (x)]) 2 = [f (x) E[ f (x)]] 2 }{{} Forventningsskjevhet + Var[ f (x)] }{{} Varians Err(x) = Bias 2 + varians + σ 2 For enkel model: Varians liten, skjevhet stor For kompleks model: Skjevhet liten, varians stor Trade-off skjevhet varians Samme data for tilpasning (læring) og evaluering gir for optimistisk verdi på feil (overtilpasning)
11 Modell evaluering og valg av model Hvordan velge mellom modeller/metoder? Vil ha lav prediksjonsfeil på nye data. Bruk av samme data for tilpasning og evaluering gir for optimistisk prediksjonsfeil Trenger to evalueringer En for valg av model/metode glatthet/kompleksitet/turing parameter En for evaluering av endelig modell/metode
12 Trening/validering/test sett Vanlig å dele data inn i Treningsset: Velge/tilpasse modell/metode Test sett: Evaluering av endelig modell Noen ganger deles treningssett i to: Treningssett: Tilpasning av modell/metode Valideringssett: Valg av modell/metode Har da test sett for å estimere prediksjonsfeil på nye data
13 Kryss-validering og bootstrapping Trening/test sett kan hver for seg bli for små Kryss-validering: Del data i K groups Tilpass model på K 1 grupper, valider på siste gruppe Sirkulering gir tilpasning på (K 1)/K av data, validering på K /K. Bootstrapping: Simuler nye datasett ved trekking med repetisjon fra opprinnelig datasett (ikke-parametrisk) trekking fra modell med parameterverdier=estimater (parametrisk) Bruk simulerte data til å estimere usikkerhet (++)
14 Informasjonskriterier Informasjonskriterier: AIC = 2 N loglik + 2 d N BIC = 2 d loglik + log(n) N N I noen lærebøker/software tas ikke faktoren 1 N med Brukes for å sammenlikne modeller Fordel: Ikke behov for å dele data i trening/test Ulempe: Baserer seg mer på modell antagelser Merk: d bør være effektivt antall parametre Eksempel: GAM/splines Relatert: C p, justert R 2
15 Lineær regresjon Modell Y = β 0 + β 1 x β p x p + ε, (*) Data (x 1, y 1 ),..., (x n, y n ) Minste kvadraters estimater (også ML hvis ε iid N(0, σ 2 )) ˆβ =(X T X) 1 X T Y ŷ = ˆβ 0 + ˆβ 1 x ˆβ p x p Hvis (*) er riktig, E[ ˆβ] = β, V[ ˆβ] = σ 2 (X T X) 1 Test H 0 : β j = 0: T = ˆβ SE( ˆβ j ) Test H 0 : β 1 = β 2 = = β p = 0 F = (TSS RSS)/p RSS/(n p 1) n RSS = i=1 H 0 tn p 1 under H 0 H 0 Fp,n p 1 under H 0 n (y i ŷ i ) 2 < TSS = i=1 (y i ȳ) 2
16 Lineære modeller - regresjon f (x) = β 0 + p j=1 β jx j Problemer hvis p stor Restriksjon på parametre Ridge: h(β) = n i=1 Lasso: h(β) = n i=1 Dimensjon reduksjon ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β2 j ( y i β 0 ) p 2 j=1 β p j x ij + λ j=1 β j Model seleksjon: Setter β j = 0 for noen j PCR/PLS: z m = p j=1 φ jmx j, m = 1,..., M ˆf (x) = ˆβ0 + p j=1 ˆβ j x j
17 Lineære modeller - klassifikasjon lineær hvis grense mellom klasser er lineær Kan behandles som regresjon problem lineær regresjon Logistic regresjon Modellering av p(x y), LDA/QDA Direkte bestemmelse av grenser mellom klasser Separererende hyperplan
18 LDA og QDA De fleste metoder: Direkte modellering av Y X LDA/QDA: Modellering av X Y og Y, p(y x) = p(y)p(x y p(x) LDA: p(x y = k) = N(µ k, Σ); gir lineære grenser QDA: p(x y = k) = N(µ k, Σ k ); gir kvadratiske grenser Kan være enklere/bedre i noen sammenhenger Nyttig i situasjoner der y 1,..., y n ikke representerer p(y)
19 ROC kurver Eksempel: x y = 1 N(0, 1) x y = 2 N(2, 1) Pr(y = 1) = 0.5 Regel som minimerer feilrate { 1 hvis x 1 Ŷ = 2 hvis x > 1 Vil gi like mange feil 1 2 som 2 1 Alternative regler: { 1 hvis x c Ŷ = 2 hvis x > c Definer p 1 (c) = Pr(Ŷ = 2 Y = 1), p 2 (c) = Pr(Ŷ = 1 Y = 2) For c < 1: p 1 (c) øker, p 2 (c) minker For c > 1: p 2 (c) øker, p 1 (c) minker ROC kurve: Plot av 1 p 2 (c) som funksjon av p 1 (c) 1 p p1
20 y x 2 y x 2 Utover lineære modeller K -nærmeste nabo regresjon Ikke-parametriske metoder Antar ingen eksplisitt form K -nærmeste nabo metode: ˆf (x0 ) = 1 K x i N 0 y i der N 0 {x 1,..., x n } som inneholder de K nærmeste punkter til x 0. x 1 x 1 Valg av K : Trade-off mellom forventningsskjevhet og varians
21 Kjerne metoder Nærmeste nabo: ˆf (x) = Ave(y i x i N k (x)) Local polynomial min α,β j n K λ (x 0, x i ) y i α i=1 d j=1 β j x j i 2 Vanligvis: d = 0, 1, 2 Hovedproblem: Velge glattingsparameter k/λ, typisk ved kryss-validering
22 Basis ekspansjoner Anta f (x) = M m=1 β mh m (x) h m glatte funksjoner Stykkevise polynomer Splines (GAM) Sigmaoider (Nevrale network) Stykkevis konstante (trær) Restriksjoner på β m s Effektivt antall parametre (splines, GAM) Ridge-type (Nevrale network) Lineære i parametre, kan bruke resultater for minste kvadraters metode
23 GAM Modell: f (x) = β 0 + p j=1 f j(x j ) Glattings straff på f j ( ). Som regel smoothing splines som fører til kubisk splines som igjen fører til eksempel på basisfunksjoner Basisfunksjonene ikke forhåndsbestemt, antall knuter og glattingsstraff bestemt av data Glattingsparameter gjennom CV eller effektivt antall parametre Kan inkludere interaksjoner Klassifikasjon: Logistisk type modellering
24 Trær R p = R 1 R 2 R M Modell: f (x) = M m=1 c mi(x R m ) For fleksible modeller, restriksjoner gjennom sekvensiell definisjon av R m -ene Oppsplitting bare gjennom en variabel om gangen Beskjæring av tre Klassifikasjon: Pr(y = k x) = p m,k for x R m. Estimat ˆp m,k = 1 N m x i R m I(y i = k)
25 Bagging og Random Forrest Anta ˆf 1 (x),ˆf 2 (x),...,ˆf B (x) er B ulike prediktorer Kan konstruere en ny prediktor ved ˆfavg (x) = 1 B B ˆf b (x) b=1 Bagging: Lag B bootstrap utvalg ˆf b (x) = prediktor basert på bootstrap utvalg b. Random forrest ( Ønsker mindre korrelerte Trær) Kun et tilfeldig utvalg av m < p forklaringsvariable vurderes ved splitting Typisk: m p De fleste variable blir ikke vurdert i hver oppsplitting!
26 Boosting - idé Ett stort tre kan lett gi overtilpasning Boosting lærer sakte: ˆf (x) ˆf (x) + λˆf b (x) r i r i λˆf b (x) vekter ned (med λ) tilpasningen tilpasser residualer i hvert trinn Avhenger sterkt av tidligere tilpassninger
27 Separerende hyperplan Idé: Finne et hyperplan som skiller (de to) klassene Hyperplan i p dimensjoner, et flatt (affint) underrom av orden p 1. Bestemt av β 0 + β 1 x β p x p = β 0 + β T x = 0 der β = (β 1,..., β p ) T. Punkter som ikke ligger på hyperplan har egenskapene eller β 0 + β T x > 0, x R 1 β 0 + β T x < 0, x R 1 Data {(x 1, y 1 ),..., (x n, y n )} der y i { 1, 1} Ønsker å finne hyperplan slik at x i R 1 for y i = 1 og x i R 1 for y i = 1. Hvis ikke mulig å finne separerende hyperplan: Legge inn straffeledd for punkter på gal side. Kan legge inn ikke-lineære funksjoner av data. Kan generaliseres til flere klasser.
28 Nevrale Nett Modell: f (x) = β 0 + M m=1 β kσ(α T mx) Tillater store M, Ridge-type straff på α, β. Definerer z m = σ(α T mx) gir gjemte lag z 1,..., z M Kan generaliseres til flere lag (dyp læring). Klassifikasjon: Logistisk type modellering
29 Læring versus prediksjon Kurs: Fokus på prediksjon Lærning: Hvilke kovariater er viktige? Mye mer vanskelig spørsmål Ofte: Prediksjonsfeil brukt som kriterie for evaluering av viktighet av kovariat Problemer: Mangel på prediktiv styrke kan være pga lite data Prediktiv styrke kan være pga indirekte innflytelse gjennom andre variable
30 Ikke-styrt læring Mange situasjoner: Ingen responsvariabel Kan være at den mangler, finnes egentlig en respons Eller, kun struktur i x i -ene av interesse Av interesse Visualisering av x i R p Undergrupper av x i -ene? Fokus på to metoder Prinsipale komponenter Klustring Transformasjon til lavere dimensjon visualisering Gruppere data slik at observasjoner innen gruppe er like mens observasjoner fra forskjellige grupper er mer ulike Hierarkisk klustring: Sekvensiell metode der to grupper blir slått sammen på hvert trinn K-means klustring: der (f.eks) minimer{ C 1,...,C K K W (C k )} k=1 W (C k ) = 1 C k i,i C k p (x i,j x i,j ) 2 j=1
31 Store datamengder Predikere framtidige observasjoner Få innsikt i relasjon mellom input variable og respons Forstå hetereogenitet i og fellesfaktorer over ulike subpopulasjoner Utforske gjemte strukturer i subpopulasjoner Fellesfaktorer selv når det er store individuelle varasjoner Utfordringer Falske sammenhenger Tilfeldige likheter Store beregningskostnader og numeriske ustabilitieter Statistiske skjevheter Representativt utvalg? Aggregering over ulike tidspunkter Data samlet inn med ulike teknologier Tre ulike tilnærminger (fokus på beregninger) Parallellprosessering Split og hersk metoder (divide and conquer) Dynamisk oppdatering Subsampling baserte metoder
32 Statistical learning på Youtube Søk på Statistical learning
(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].
FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 - FASIT Eksamensdag: Torsdag 15. juni 2017. Tid for eksamen: 09.00 13.00. Oppgavesettet er på 5 sider. Vedlegg: Tillatte
Detaljer(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].
FORMELSAMLING TIL STK2100 (Versjon Mai 2018) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)
DetaljerKapittel 6 - modell seleksjon og regularisering
Kapittel 6 - modell seleksjon og regularisering Geir Storvik 21. februar 2017 1/22 Lineær regresjon med mange forklaringsvariable Lineær modell: Y = β 0 + β 1 x 1 + + β p x p + ε Data: {(x 1, y 1 ),...,
DetaljerPrøveeksamen STK2100 (fasit) - vår 2018
Prøveeksamen STK2100 (fasit) - vår 2018 Geir Storvik Vår 2018 Oppgave 1 (a) Vi har at E = Y Ŷ =Xβ + ε X(XT X) 1 X T (Xβ + ε) =[I X(X T X) 1 X T ]ε Dette gir direkte at E[E] = 0. Vi får at kovariansmatrisen
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2 Maskinlæring og statistiske metoder for prediksjon og klassifikasjon Eksamensdag: Torsdag 4. juni 28. Tid for eksamen: 4.3
DetaljerPrøveeksamen STK vår 2017
Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form:
DetaljerSTK Oppsummering
STK1110 - Oppsummering Geir Storvik 11. November 2015 STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer
DetaljerForelesning 8 STK3100/4100
Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering -
DetaljerRidge regresjon og lasso notat til STK2120
Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle
DetaljerOppsummering av STK2120. Geir Storvik
Oppsummering av STK2120 Geir Storvik Vår 2011 Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter Generelle
DetaljerForelesning 9 STK3100/4100
p. 1/3 Forelesning 9 STK3100/4100 Plan for forelesning: 18. oktober 2012 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 2/3 Modell med
DetaljerSTK2100. Obligatorisk oppgave 1 av 2
14. februar 2018 Innleveringsfrist STK2100 Obligatorisk oppgave 1 av 2 Torsdag 1. mars 2018, klokken 14:30 gjennom Devilry (https:devilry.ifi.uio.no). Praktiske instruksjoner Første side av din innlevering
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2100 Maskinlæring g statistiske metder fr prediksjn g klassifikasjn Eksamensdag: Trsdag 15. juni 2017. Tid fr eksamen: 09.00
DetaljerForelesning 9 STK3100/4100
Forelesning 9 STK3100/4100 Plan for forelesning: 17. oktober 2011 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 1 Modell med alle antagelser
DetaljerEkstraoppgaver for STK2120
Ekstraoppgaver for STK2120 Geir Storvik Vår 2011 Ekstraoppgave 1 Anta X 1 og X 2 er uavhengige med X 1 N(1.0, 1.0) og X 2 N(2.0, 1.5). La X = (X 1, X 2 ) T. Definer c = ( ) 2.0 3.0, A = ( ) 1.0 0.5 0.0
Detaljer10.1 Enkel lineær regresjon Multippel regresjon
Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel
DetaljerInferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"
Inferens STK1110 - Repetisjon av relevant stoff fra STK1100 Geir Storvik 12. august 2015 Data x 1,..., x n evt også y 1,..., y n Ukjente parametre θ kan være flere Vi ønsker å si noe om θ basert på data.
DetaljerTilleggsoppgaver for STK1110 Høst 2015
Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0
DetaljerOppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.
Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 17 november 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk Tapir
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1100 Statistiske metoder og dataanalyse 1 - Løsningsforslag Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST 202 Statistiske slutninger for den eksponentielle fordelingsklasse. Eksamensdag: Fredag 15. desember 1995. Tid for eksamen:
DetaljerPrøveeksamen i STK3100/4100 høsten 2011.
Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan
DetaljerFasit og løsningsforslag STK 1110
Fasit og løsningsforslag STK 1110 Uke 36: Eercise 8.4: a) (57.1, 59.5), b) (57.7, 58, 9), c) (57.5, 59.1), d) (57.9, 58.7) og e) n 239. (Hint: l(n) = 1 = 2z 1 α/2 σ/n 1/2 ). Eercise 8.10: a) (2.7, 7.5),
DetaljerSTK Oppsummering
STK1100 - Oppsummering Geir Storvik 6. Mai 2014 STK1100 Tre temaer Deskriptiv/beskrivende statistikk Sannsynlighetsteori Statistisk inferens Sannsynlighetsregning Hva Matematisk verktøy for å studere tilfeldigheter
DetaljerKort overblikk over kurset sålangt
Kort overblikk over kurset sålangt Kapittel 1: Deskriptiv statististikk for en variabel Kapittel 2: Deskriptiv statistikk for samvariasjon mellom to variable (regresjon) Kapittel 3: Metoder for å innhente
DetaljerPunktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:
Punktestimator STK00 - Bootstrapping og simulering - Kap 7 og eget notat Geir Storvik 8. april 206 Trekke ut informasjon om parametre fra data x,..., x n Parameter av interesse: θ Punktestimator: Observator,
DetaljerTMA4245 Statistikk Eksamen desember 2016
Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer
DetaljerLøsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y
Statistiske metoder 1 høsten 004. Løsningsforslag Oppgave 1: a) Begge normalplottene gir punkter som ligger omtrent på ei rett linje så antagelsen om normalfordeling ser ut til å holde. Konfidensintervall
DetaljerOppgave N(0, 1) under H 0. S t n 3
MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr 9 (s 1) Oppgave 1 Modell: Y i β 0 + β 1 x i + β 2 x 2 i + ε i der ε 1,, ε n uif N(0, σ 2 ) e) Y Xβ + ε der Y Y 1 Y n, X 1 x 1 x 2 1
DetaljerBootstrapping og simulering Tilleggslitteratur for STK1100
Bootstrapping og simulering Tilleggslitteratur for STK1100 Geir Storvik April 2014 (oppdatert April 2016) 1 Introduksjon Simulering av tilfeldige variable (stokastisk simulering) er et nyttig verktøy innenfor
DetaljerInferens i regresjon
Strategi som er fulgt hittil: Inferens i regresjon Deskriptiv analyse og dataanalyse først. Analyse av en variabel før studie av samvariasjon. Emne for dette kapittel er inferens når det er en respons
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2120 Statistiske metoder og dataanalyse 2. Eksamensdag: Fredag 7. juni 2013. Tid for eksamen: 14.30 18.30. Oppgavesettet er
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1 Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30 18.00. Oppgavesettet
DetaljerI enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x
Multiple regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable.det er fortsatt en responsvariabel. Måten dette gjøre på er nokså naturlig. Prediktoren
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30
DetaljerIntroduksjon til Generaliserte Lineære Modeller (GLM)
Introduksjon til Generaliserte Lineære Modeller (GLM) p. 1/25 Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-23. august 2010 Sven Ove Samuelsen/Anders Rygh Swensen Plan for første forelesning:
DetaljerIntroduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R
Blanda modellar i R Jorunn Slagstad Universitetet i Bergen 20. desember 2006 1 Introduksjon 2 Lineære blanda modellar 3 Generaliserte lineære blanda modellar 4 Analyser av modellar 5 Eit randproblem 6
DetaljerModellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist
Modellering av Customer Lifetime Value og hvordan bruke det Øystein Sørensen Data Scientist Customer Lifetime Value (CLV) Diskontert nåverdi av hele det fremtidige kundeforholdet CLV for alle kunder gir
DetaljerUNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 4. juni 2007. Tid for eksamen: 14.30 17.30. Oppgavesettet er
DetaljerGeneralisering til mange klasser - feilrettingsmetodene
Mange klasser Generalisering til mange klasser - feilrettingsmetodene Kesslers konstruksjon - omskriving av c-klasseproblemet til et toklasseproblem. Her innføres en sammensatt vektvektor a og et sett
DetaljerGruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk
Gruvedrift Notat for TMA/TMA Statistikk Institutt for matematiske fag, NTNU I forbindelse med planlegging av gruvedrift i et område er det mange hensyn som må tas når en skal vurdere om prosjektet er lønnsomt.
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i: STK2100 Løsigsforslag Eksamesdag: Torsdag 14. jui 2018. Tid for eksame: 14.30 18.30. Oppgavesettet er på 6 sider. Vedlegg: Tillatte
DetaljerST0202 Statistikk for samfunnsvitere
ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Kap. 13: Lineær korrelasjons- og regresjonsanalyse Kap. 13.1-13.3: Lineær korrelasjonsanalyse. Disse avsnitt er ikke pensum,
DetaljerForelesning 11 STK3100/4100
Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom
DetaljerEksamensoppgave i TMA4240 Statistikk
Institutt for matematiske fag Eksamensoppgave i TMA4240 Statistikk Faglig kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806
Detaljer7. november 2011 Geir Storvik
Forelesning 13 STK3100/4100 Plan for forelesning: 7. november 2011 Geir Storvik Generaliserte lineære blandede modeller 1. Sammenlikning ulike estimeringsmetoder 2. Tolkning parametre 3. Inferens Konfidensintervaller
DetaljerEksamensoppgave i TMA4267 Lineære statistiske modeller
Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 22. mai 2014 Eksamenstid (fra til): 09.00-13.00
DetaljerUNIVERSITETET I OSLO
Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1110 FASIT. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider. Vedlegg: Tillatte
DetaljerGenerelle lineære modeller i praksis
Generelle lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y en eller flere uavhengige
DetaljerLøsningsforslag eksamen 25. november 2003
MOT310 Statistiske metoder 1 Løsningsforslag eksamen 25. november 2003 Oppgave 1 a) Vi har µ D = µ X µ Y. Sangere bruker generelt trapesius-muskelen mindre etter biofeedback dersom forventet bruk av trapesius
DetaljerMOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2
MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: Oppgave 11.27 (11.6:13) Modell: Y i = α + βx i + ε i der ε 1,..., ε n u.i.f. N(0, σ 2 ). Skal finne konfidensintervall
DetaljerIntroduksjon til Generaliserte Lineære Modeller (GLM)
Literatur / program Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-20. august 2007 Sven Ove Samuelsen Plan for første forelesning: 1. Introduksjon, Literatur, Program 2. ksempler 3. Uformell
DetaljerTMA4245 Statistikk Eksamen desember 2016
Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 Ei bedrift produserer elektriske komponentar. Komponentane kan ha to typar
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST110 Statistiske metoder og dataanalyse Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 20.30. Oppgavesettet er på
DetaljerKlassisering. Insitutt for matematiske fag, NTNU 21. august Klassiseringsproblemet. Notat for TMA4240/TMA4245 Statistikk
Klassisering Notat for TMA4240/TMA4245 Statistikk Insitutt for matematiske fag, NTNU 21. august 2012 Innen maskinlæring studerer man algoritmer som tillater datamaskiner å utvikle atferd på grunnlag av
DetaljerIntroduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller
Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller p. 1/34 Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller STK3100/4100-23. august 2011 Geir Storvik (Oppdatert
DetaljerEkstraoppgaver STK3100 h10
Ekstraoppgaver STK3100 h10 Oppgave 1 En-veis variansanalyse modellen kan formuleres som Y ij = µ + α i + ɛ ij (1) der α i = 0 og ɛ ij er i.i.d N(0, σ 2 ). Her representerer er Y ij j te observasjon fra
DetaljerTMA4240 Statistikk Høst 2009
TMA4240 Statistikk Høst 2009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Oppgave 1 Oppgave 11.5 fra læreboka. Oppgave 2 Oppgave 11.21 fra læreboka. Oppgave
DetaljerAnvendt medisinsk statistikk, vår Repeterte målinger, del II
Anvendt medisinsk statistikk, vår 009 Repeterte målinger, del II Eirik Skogvoll Overlege, Klinikk for anestesi og akuttmedisin 1. amanuensis, Enhet for anvendt klinisk forskning (med bidrag fra Harald
Detaljerj=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.
FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da
DetaljerKapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.
Kapittel 2 Utforske og beskrive data Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.4 denne uken To kryssplott av samme datasett, men med forskjellig skala
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-aturviteskapelige fakultet Eksame i STK2120 Statistiske metoder og dataaalyse 2 Eksamesdag: Madag 6. jui 2011. Tid for eksame: 09.00 13.00. Oppgavesettet er på 5 sider.
DetaljerMOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:
MOT30 Statistiske metoder, høsten 2006 Løsninger til regneøving nr. 8 (s. ) Oppgaver fra boka: Oppgave.5 (.3:5) ) Først om tolking av datautskriften. Sammendrag gir følgende informasjon: Multippel R =R,
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK2120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 6. juni 2011. Tid for eksamen: 14.30 18.30. Oppgavesettet er
DetaljerSOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU
SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08 Erling Berge Institutt for sosiologi og statsvitenskap NTNU Erling Berge 2004 1 Manglande data Forelesing VIII Allison, Paul
DetaljerMultippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.
Multippel regresjon Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p. Det er fortsatt en responsvariabel y. Måten dette gjøre på er nokså
DetaljerLøsningsforslag eksamen 27. februar 2004
MOT30 Statistiske metoder Løsningsforslag eksamen 7 februar 004 Oppgave a) Y ij = µ i + ε ij, der ε ij uavh N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig variasjon)
DetaljerModellvalg ved multippel regresjon notat til STK2120
Modellvalg ved multippel regresjon notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på hvordan vi kan velge ut hvilke forklaringsvariabler vi skal ha med i en regresjonsmodell.
Detaljerår i 1 2 3 4 5 6 7 8 9 alder x i 37 38 39 40 41 42 43 44 45 tid y i 45.54 41.38 42.50 38.80 41.26 37.20 38.19 38.05 37.45 i=1 (x i x) 2 = 60, 9
TMA424 Statistikk Vår 214 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 11, blokk II Oppgave 1 Matlabkoden linearreg.m, tilgjengelig fra emnets hjemmeside, utfører
DetaljerDimensjonalitetsproblemer (3)
Dimensjonalitetsproblemer Dimensjonalitetsproblemer (3) Ved å inkludere flere uavhengige egenskaper der µ i1 6= µ i2 i egenskapsvektoren vil r 2 øke og P(e) avta, slik at: P d+1 (e) apple P d (e). Dette
DetaljerST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon
ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start 2 Kap. 13: Lineær korrelasjons-
DetaljerKUNSTIG INTELLIGENS I PRAKSIS NOKIOS 2018 KURS 1.
KUNSTIG INTELLIGENS I PRAKSIS NOKIOS 2018 KURS 1. HVEM ER VI Fabian Sødal Dietrichson Accenture Technology Martin Kowalik Gran Accenture Technology Runar Gunnerud Accenture Consulting XKCD.COM AGENDA 1.
DetaljerOppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert = 2.16 0
Løsningsforslag til eksamen i MOT310 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 08. mai 2008 TILLATTE HJELPEMIDLER: Kalkulator: HP30S, Casio FX82 eller TI-30 Tabeller og formler i statistikk (Tapir
DetaljerEksamen - INF 283 Maskinlæring
Eksamen - INF 283 Maskinlæring 23 feb. 2016 Tid: 3 timer Eksamen inneholder 15 oppgaver, som vil bli vektet likt ved evaluering. 1 Table 1 attributt antall personer forsørget av låntaker månedlig inntekt
DetaljerNotat 3 - ST februar 2005
Notat 3 - ST1301 1. februar 2005 1 Simulering fra modell Når vi skal analysere et gitt konkret innsamlet datasett vil vi gjøre dette med utgangspunkt i en statistisk modell. Vi kan si at en slik statistisk
DetaljerOppgave 1. Kilde SS df M S F Legering Feil Total
MOT30 Statistiske metoder, høste0 Løsninger til regneøving nr. 0 (s. ) Oppgave Y ij = µ i + ε ij, der ε ij uavh. N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig
DetaljerKp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt
Bjørn H. Auestad Kp. 11: Regresjonsanalyse 1 / 57 Kp. 11 Regresjonsanalyse; oversikt 11.1 Introduction to Linear Regression 11.2 Simple Linear Regression 11.3 Least Squares and the Fitted Model 11.4 Properties
DetaljerMaskinlæring og nevrale nettverk
Maskinlæring og nevrale nettverk En innføring Sven Haadem 15.02.2017 Unify AI, phd matematikk/statistikk UiO 1 Kan vi si noe om fremtiden og i så fall hva? A priori og a posteriori viten Emperi - problemet
DetaljerModellering og prediksjon av kundeavgang
www.nr.no Modellering og prediksjon av kundeavgang Clara-Cecilie Günther, Ingunn Fride Tvete, Geir Inge Sandnes, Ørnulf Borgan, Kjersti Aas Statistics for Innovation (SFI) 2 Årsmøte Norsk ASTIN-gruppe,
DetaljerStatistikk og havressurser
Statistikk og havressurser STK2120-16. april 2012 Geir Storvik April 16, 2012 Fiskeri i Norge Norges havområder er mer enn seks ganger større enn våre landområder, og har noen av verdens rikeste fiskebanker.
DetaljerStatistikk og havressurser
Statistikk og havressurser STK2120-16. april 2012 Geir Storvik April 16, 2012 Fiskeri i Norge Norges havområder er mer enn seks ganger større enn våre landområder, og har noen av verdens rikeste fiskebanker.
DetaljerKapittel 3: Studieopplegg
Oversikt over pensum Kapittel 1: Empirisk fordeling for en variabel o Begrepet fordeling o Mål for senter (gj.snitt, median) + persentiler/kvartiler o Mål for spredning (Standardavvik s, IQR) o Outliere
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet. Eksamen i STK3100 Innføring i generaliserte lineære modeller Eksamensdag: Mandag 6. desember 2010 Tid for eksamen: 14.30 18.30 Oppgavesettet
DetaljerObservatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter
Observatorer STK00 - Observatorer - Kap 6 Geir Storvik 4. april 206 Så langt: Sannsynlighetsteori Stokastiske modeller Nå: Data Knytte data til stokastiske modeller Utgangspunkt Eksempel høyde Oxford studenter
DetaljerEksamensoppgåve i TMA4240 Statistikk
Institutt for matematiske fag Eksamensoppgåve i TMA4240 Statistikk Fagleg kontakt under eksamen: Mette Langaas a, Ingelin Steinsland b, Geir-Arne Fuglstad c Tlf: a 988 47 649, b 926 63 096, c 452 70 806
DetaljerMatematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1
Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s AR2-modell: Oppgave X t φ X t φ 2 X t 2 Z t Antas å være kausal slik at X t ψ j Z t j er ukorrelert med Z t+,
DetaljerStatistisk analyse av data fra planlagte forsøk
Statistisk analyse av data fra planlagte forsøk 19. mars 2019 9.00 10.30 Skypemøte 2 i NLR s kurs i forsøksarbeid 2019 Torfinn Torp Temaer Noen sentrale begreper, framgangsmåte etc., via et eksempel. Noen
DetaljerGenerell informasjon om faget er tilgjengelig fra It s learning. 1 En kort oppsummering Adaptiv filtrering 2. 3 Prediksjon 4
Stavanger, 13. august 2013 Det teknisknaturvitenskapelige fakultet ELE500 Signalbehandling, 2013. Generell informasjon om faget er tilgjengelig fra It s learning. Innhold 1 En kort oppsummering. 1 2 Adaptiv
DetaljerForelesning 7 STK3100/4100
Forelesning 7 STK3100/4100 p. 1/2 Forelesning 7 STK3100/4100 8. november 2012 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Forelesning
DetaljerTMA4240 Statistikk Høst 2016
TMA4240 Statistikk Høst 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving 12 Denne øvingen består av oppgaver om enkel lineær regresjon. De handler blant
DetaljerLineære modeller i praksis
Lineære modeller Regresjonsmodeller med Forskjellige spesialtilfeller Uavhengige variabler Én binær variabel Analysen omtales som Toutvalgs t-test én responsvariabel: Y én eller flere uavhengige variabler:
DetaljerStatistikk og dataanalyse
Njål Foldnes, Steffen Grønneberg og Gudmund Horn Hermansen Statistikk og dataanalyse En moderne innføring Kapitteloversikt del 1 INTRODUKSJON TIL STATISTIKK Kapittel 1 Populasjon og utvalg 19 Kapittel
DetaljerMOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1
MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1 Oppgave 1 a) Normalantakelse: Målingene x 1,..., x 21 og y 1,..., y 8 betraktes som utfall av tilfeldige variable X 1,..., X 21
DetaljerOppgave 14.1 (14.4:1)
MOT30 Statistiske metoder, høste006 Løsninger til regneøving nr. 0 (s. ) Modell: Oppgave 4. (4.4:) Y ijk = µ + α i + β j + (αβ) ij + ε ijk, der ε ijk uavh. N(0, σ ) der µ er gjennomsnittseffekten, α i
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 17.30. Oppgavesettet er
DetaljerOppgave 14 til 9. desember: I polynomiringen K[x, y] i de to variable x og y over kroppen K definerer vi undermengdene:
HJEMMEOPPGAVER utgave av 8-12-2002): Oppgave 15 til 16 desember: La H være mengden av alle matriser på formen A = a 1 a 12 a 13 a 1n 0 a 2 0 0 0 0 a 3 0 0 0 a n der a 1 a 2 a n 0 Videre la SH være matrisene
DetaljerEkstreme bølger. Geir Storvik Matematisk institutt, Universitetet i Oslo. 5. mars 2014
Ekstreme bølger Geir Storvik Matematisk institutt, Universitetet i Oslo 5. mars 2014 Bølger Timesvise max-bølger ved bøye utenfor østkyst av USA (17/12/1991-23/2-1992) Størrelse på bølger varierer sterkt
DetaljerSOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005
SOS1120 Kvantitativ metode Regresjonsanalyse Forelesningsnotater 11. forelesning høsten 2005 Per Arne Tufte Lineær sammenheng I Lineær sammenheng II Ukelønn i kroner 4000 3500 3000 2500 2000 1500 1000
Detaljer