Generaliserte Lineære Modeller

Størrelse: px
Begynne med side:

Download "Generaliserte Lineære Modeller"

Transkript

1 Lineær regresjon er en GLM Generaliserte Lineære Modeller Responser (Y i -er) fra normalfordelinger Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ] = µ i = η i, dvs. linkfunksjonen g(µ i ) = µ i er STK september 2008 Sven Ove Samuelsen Plan for 4. forelesning: 1. Definisjoner av GLM 2. Linkfunskjoner, Kanonisk Link 3. Estimering GLM - Maximum Likelihood 4. Large sample resultater 5. Tester GLM - Likelihood Ratio - Devians identitetsfunksjonen Spesielt gjør R-kommandoene lm for lineær regresjon og glm essensielt det samme bare med litt forskjellig utskrift. Lineær regresjon er spesielt default-spesifikasjonen av for glm Generaliserte Lineære Modeller p. 1/47 Generaliserte Lineære Modeller p. 3/47 Definisjon av GLM En GLM = Generalisert Lineær Modell kan defineres ved Uavhengige Y 1,Y 2,...,Y n fra samme eksponensiell klasse med tetthet f(y;θ i ) = c(y;φ) exp((θ i y i a(θ i ))/φ) og forventninger µ i = a (θ i ) Lineære komponenter (prediktorer) η i = β 0 + β 1 x i1 + + β p x ip = β x i Linkfunksjon g(): Med µ i = E[Y i ] kobles forventningen til lineær komponent ved at g(µ i ) = η i Merk at µ i avhenger av β gjennom g(µ i ) = η i. Dermed avhenger også θ i av β via sammenhengen µ i = a (θ i ). Generaliserte Lineære Modeller p. 2/47 Eks. 1: Fødselsvekter > lm(vekt sex+svlengde) Call: lm(formula = vekt sex + svlengde) (Intercept) sex svlengde > glm(vekt sex+svlengde) Call: glm(formula = vekt sex + svlengde) (Intercept) sex svlengde Degrees of Freedom: 23 Total (i.e. Null); 21 Residual Null Deviance: Residual Deviance: AIC: Generaliserte Lineære Modeller p. 4/47

2 Logistisk regresjon er en GLM Responser (Y i -er) fra binomiske fordelinger bin(n i,π i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ]/n i = π i = exp(η i) 1+exp(η i ). Dermed fås linkfunksjon g(π i ) = log( π i 1 π i ) Kaller g(π) = log( π ) = logit(π) for logit-funksjonen. 1 π > glm(cbind(dode,ant-dode) Dose,family=binomial) Call: glm(formula = cbind(dode, Ant - Dode) Dose, family = binomial) (Intercept) Dose Andre linkfunksjoner Binomiske data Spesielt benyttes ofte probit-link, der Φ(η) = η g 2 (µ) = Φ 1 (µ) exp( x 2 /2) 2π dx = kumulativ for N(0,1). En annet alternativ er Komplementær log-log-link g 3 (π) = log( log(1 π)) som er invers av F(η) = 1 exp( exp(η)) hvilket er kumulativ for "Gumbel-fordelingen" Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: Residual Deviance: AIC: Generaliserte Lineære Modeller p. 5/47 Generaliserte Lineære Modeller p. 7/47 Linkfunksjoner Binomiske data Invers av linkfunksjon for logistisk regresjon g(π) = log( π 1 π ) er g 1 (η) = exp(η) 1 + exp(η), dvs. g 1 (η) er en kumulativ fordelingsfunksjon for en kontinuerlig fordeling Kontinuerlig og strengt voksende g 1 ( ) = 0 og g 1 ( ) = 1 Kan generelt definere linkfunksjoner ved g(µ) = F 1 (µ) der F() er en kontinuerlig kum.fu. Eks. Linkfunksjoner > glm(cbind(dode,ant-dode) dose,family=binomial(link=probit)) (Intercept) dose Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: Residual Deviance: AIC: > glm(cbind(dode,ant-dode) dose,family=binomial(link=cloglog)) (Intercept) dose Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: Residual Deviance: AIC: Generaliserte Lineære Modeller p. 6/47 Generaliserte Lineære Modeller p. 8/47

3 Eks GLM: Poisson-regresjon Responser Y i Po(µ i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip Vanlige linkfunksjoner η i = g 0 (µ i ) = log(µ i ) eller µ i = exp(η i ), log-lineær modell η i = g 1/2 (µ i ) = µ i η i = g p (µ i ) = µ p i Kanonisk link Merk at µ i avhenger av β gjennom g(µ i ) = η i. Dermed avhenger også θ i av β via sammenhengen µ i = a (θ i ). Matematisk sett forenkles en GLM ved å anta θ i = η i, dvs. kanonisk (naturlig) parameter = lineær prediktor. Isåfall kalles linkfunksjonen g(µ i ) for kanonisk. Generaliserte Lineære Modeller p. 9/47 Generaliserte Lineære Modeller p. 11/47 Eks. Antall tidligere barn av gravide > glm(children age,family=poisson) (Intercept) age Degrees of Freedom: 140 Total (i.e. Null); Null Deviance: Residual Deviance: 165 AIC: Residual > glm(children age,data=births,family=poisson(link=sqrt)) (Intercept) age Eksempler på kanonisk link Da blir µ i = g 1 (η i ) = g 1 (θ i ). Siden vi generelt også har µ i = a (θ i ) finner vi den kanoniske linken fra g 1 (θ i ) = a (θ i ) Normalfordeling: Vanlig lineær-normal modell a (θ) = θ = g 1 (θ) som medfører g(µ) = µ. Poissonfordeling: Log-lineær modell a (θ) = exp(θ) = g 1 (θ i ) som medfører g(µ) = log(µ). Degrees of Freedom: 140 Total (i.e. Null); Null Deviance: Residual Deviance: AIC: Residual Binomisk fordeling: Logistisk regresjon a (θ) = exp(θ) 1+exp(θ) = g 1 (θ i ) som gir g(π) = log(π/(1 π)) = logit(π). Generaliserte Lineære Modeller p. 10/47 Generaliserte Lineære Modeller p. 12/47

4 Likelihood for GLM (uten spredningsledd) Siden Y i -ene er uavhengige med tetthet f(y i ;θ i ) blir likelihooden L(β) = n f(y i ;θ i ) Merk at dette er en funksjon av regresjonskoeffisientene β siden θ i er en funksjon av µ i som igjen er en funksjon av β. Med log-likelihood-bidrag l i (β) = log(f(y i ;θ i ) blir log-likelihood l(β) = l i (β) = [θ i Y i a(θ i ) + log(c(y i ))] når det ikke er spredningsledd i modellen (φ = 1). Scorefunksjon og estimeringsligninger for GLM Komponent j i scorefunksjonen U(β) = (U 1 (β),...,u p (β)) uttrykkes dermed U j (β) = l(β) = U ij (β) = Merk at E[U j (β)] = 0 siden E[Y i µ i ] = 0 x ij Y i µ i g (µ i )V (µ i ) Vi finner altså MLE ˆβ ved å løse ligningene, j = 1,...,p, U j (ˆβ) = x ij Y i ˆµ i g (ˆµ i )V (ˆµ i ) = 0 der ˆµ i er estimert forventning med β = ˆβ. Generaliserte Lineære Modeller p. 13/47 Generaliserte Lineære Modeller p. 15/47 Scorebidrag for GLM Score-bidrag utledes ved utstrakt bruk av kjerneregelen og regelen om derivert av invers funksjon der Altså blir η i = x ij U ij (β) = l i(β) = η i η i θ i l i θ i η i = 1 η i = 1 g(µ i ) = 1 g (µ i ) θ i = 1 = 1 a (θ i ) = 1 = 1 a (θ i ) V (µ i ) θ i θ i l i θ i = [θ iy i a(θ i )+log(c(y i ))] θ i = Y i a (θ i ) = Y i µ i Y i µ i U ij (β) = x ij g (µ i )V (µ i ) Estimeringsligninger GLM med spredningsledd Sålangt har vi antatt observasjoner fra eksponensiell klasse uten spredningsledd. Utledningen modifiseres lett til fordelinger med tetthet f(y;θ i,φ) = c(y;φ) exp( θ iy a(θ i ) ) siden φ l i = [ θ i Y i a(θ i ) + log(c(y φ i,φ))] = 1 θ i θ i φ [Y i a (θ i ] = 1 φ [Y i µ i ]. Altså blir komponent j i score-funksjonen U j (β) = l(β) = 1 φ x ij Y i µ i g (µ i )V (µ i ) der φ inngår proporsjonalt og ikke betyr noe for estimeringen. Generaliserte Lineære Modeller p. 14/47 Generaliserte Lineære Modeller p. 16/47

5 Estimeringsligninger med kanonisk link Matematisk sett forenkles en GLM ved å anta θ i = η i, dvs. kanonisk (naturlig) parameter = lineær prediktor. Isåfall kalles linkfunksjonen g(µ i ) for kanonisk. Vi får da at score-funksjonen gis ved siden l i (β) U j (β) = 1 φ x ij [Y i µ i ] = θ i l i θ i = x ij 1 φ [Y i µ i ] Generaliserte Lineære Modeller p. 17/47 Forventet informasjonsmatrise (generell link) Siden [ ] E (Y i µ i ) [1/(g (µ i )V (µ i ))] = 0 blir dermed forventet informasjon [ J (β) = E[ J(β)] = 1 1 x ij x ik φ g (µ i ) 2 V (µ i ) som vi også finner ved siden J jk = Cov(U j,u k ) = 1 φ 2 n = 1 φ n x ij x ik g (µ i ) 2 V (µ i ) U j (β) = 1 φ x ij ] p j,k=1 x ij x ik g (µ i ) 2 V (µ i ) 2 Var(Y i µ i ) Y i µ i g (µ i )V (µ i ) Generaliserte Lineære Modeller p. 19/47 Observert informasjonsmatrise (generell link) der og J(β) = 2 l β 2 = [ 2 l β k ] p j,k=1 = [ U j β k ] p j,k=1 U j β k = 1 n φ x ij [(Y i µ i )/(g (µ i )V (µ i ))] β k = 1 n φ x ij η i [(Y i µ i )/(g (µ i )V (µ i ))] β k η i = 1 φ n x ijx ik 1 g (µ i ) [(Y i µ i )/(g (µ i )V (µ i ))] [(Y i µ i )/(g (µ i )V (µ i ))] 1 (Y = i µ i ) g (µ i )V (µ i ) +(Y i µ i ) [1/(g (µ i )V (µ i ))] 1 = + (Y g (µ i )V (µ i ) i µ i ) [1/(g (µ i )V (µ i ))] Kanonisk link: Observert info = Forventet info Observert informasjon J(β) = [ J kj (β)] p j,k=1 der J kj (β) = U j β k = 1 n φ x ij η i (Y i µ i ) β k η i = 1 n φ x 1 ijx ik = J g (µ i ) jk(β) siden J kj (β) ikke avhenger av noe stokastisk. Vi finner dessuten at J kj (β) = J jk (β) = 1 φ x ij x ik V (µ i ) siden θ i = η i g 1 (θ i ) = µ i = a (θ i ) V (µ i ) = a (θ i ) = 1 g (µ i ). Generaliserte Lineære Modeller p. 18/47 Generaliserte Lineære Modeller p. 20/47

6 Large sample resultat for MLE (spesielt ved GLM) Under regularitetsantagelser vil n(ˆβ β) Np (0, J 1 0 ) der N p (0, J 0 ) angir multivariat normalfordeling med forventningsvektor 0 = (0,...,0) og kovariansmatrise J0 1. Dessuten er J 0 grensen til 1 J når n. n Noe heuristisk skrives dette resultatet av og til evt, ˆβ N p (β, J 1 ) ˆβ N p (β, J 1 ) (ikke så vanlig ved GLM siden uttrykket for J er enklere). Multivariat normalfordeling Vi definerer at en p-dimensjonal vektor Y = (Y 1,...,Y p ) er multivariat normalfordelt dersom vi kan skrive Y = AZ + µ der Z = (Z 1,...,Z p ) er en vektor av p uavhengige N(0,1) variable Z i, µ = (µ 1,...,µ p ) en vilkårlig p-dimensjonal vektor av tall og a 11 a 12 a 1p a 21 a 22 a 2p A = = [a.... ij ] p i,j=1 a p1 x p2 a pp Generaliserte Lineære Modeller p. 21/47 er en ikke-singulær matrise. Generaliserte Lineære Modeller p. 23/47 Large sample resultat scorefu. (spesielt ved GLM) Under regularitetsantagelser vil 1 n U(β) N p (0, J 0 ) Dette følger av det fler-dimensjonale sentralgrenseteoremet for ikke-identisk fordelte stokastiske variable via n l i (β) β l i (β) U(β) = β = 1. n l i (β) β p samt E[U(β)] = 0 og at kovariansmatrisen til U(β) er lik J. Kortform: U(β) N p (0, J ) Generaliserte Lineære Modeller p. 22/47 Momenter i multivariat normalfordeling Spesielt blir p Y j = a ji Z i + µ j som har E[Y j ] = µ j. Dermed blir forventningen i den p-dimensjonal normalfordelingen Dessuten blir variansen til Y j E[Y] = AE[Z] + µ = µ σ 2 j = Var[Y j ] = og kovariansen mellom Y j og Y k p ρ jk σ j σ k = Cov[Y j,y k ] = a 2 ji p a ji a ki Generaliserte Lineære Modeller p. 24/47

7 Kovariansmatrise til stokastisk vektor Y med Var(Y j ) = σj 2 og Cov(Y j,y k ) = ρ jk σ j σ k defineres ved σ1 2 ρ 12 σ 1 σ 2 ρ 1p σ 1 σ p ρ 12 σ 1 σ 2 σ2 2 ρ 2p σ 2 σ p V = = [Cov(Y.... j,y k )] p j,k=1 ρ 1p σ 1 σ p ρ 2p σ 2 σ p σp 2 Spesielt for multivariat normalfordelt Y = AZ + µ skriver vi Y N p (µ,v) Vi kan dessuten uttrykke V fra A ved V = AA (verifiser!) Generaliserte Lineære Modeller p. 25/47 Tetthet for multivariat normalfordeling gis da ved f Y (y) = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) Bevis: Den inverse transformasjonen h() blir gitt fra og h() har Jacobi-matrise A 1. Z = h(y) = A 1 (Y µ) Her vet vi dessuten at Z = (Z 1,...,Z p ) har uavhengige og N(0,1) fordelte komponenter, altså har Z tetthet f Z (z) = (2π) p/2 exp( 1 2 p z2 i ) = (2π) p/2 exp( 1 2 z z) Generaliserte Lineære Modeller p. 27/47 Multivariat transformasjonssetning Fra Rice (STK1100, s ) has at hvis Z har multivariat tetthet f Z (z) Y = g(z) Z = h(y) (invers funksjon) med Jacobi-matrise Jac(h(Y)) = h y = [ h i yj ]p i.j=1 så har Y tetthet f Y (y) = f Z (h(y)) Jac(h(y)) der Jac(h(y)) er determinanten til Jac(h(y)). Tetthet for multivariat normalfordeling, forts. Videre er kovariansmatrisen til Y gitt ved V = AA og har determinant V = A 2 samt invers V 1 = (A ) 1 A 1 = (A 1 ) A 1. (Siste likhet følger av generelle matriseregel (CD) = D C brukt ved at identitetsmatrisen I = (AA 1 ) = (A 1 ) A ) Innsatt i f Z (h(y)) Jac(h(y)) gir dette f Y (y) = (2π) p/2 exp( 1 2 (y µ) (A 1 ) A 1 (y µ)) A 1 = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) siden A 1 = 1 A = V 1/2 Generaliserte Lineære Modeller p. 26/47 Generaliserte Lineære Modeller p. 28/47

8 Spesialtilfeller 1. Univariat normaltetthet 1 formen med V = [σ 2 ]. 2. Bivariat normaltetthet f(y 1,y 2 ) = exp( med µ = (µ 1,µ 2 ) og 2πσ exp( (y µ)2 2σ 2 ) er på denne 1 2(1 ρ 2 ) [(y 1 µ 1 )2 σ (y 2 µ 2 )2 σ 2 2 2ρ(y 1 µ 1 )(y 2 µ 2 ) ]) σ 1 σ 2 2πσ 1 σ 2 1 ρ 2 = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) V = σ2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ2 2 Generaliserte Lineære Modeller p. 29/47 Flerparameter Score- og Wald-tester Sist så vi at hvis S N p (E[S],V) så er "eksponenten" i tettheten (S E[S]) V 1 (S E[S]) χ 2 p Under "helspesifiserte" nullhypoteser H 0 : β = β 0, eller H 0 : β 1 = β 01,...,β p = β 0p er dermed Wald-testobservatoren, med ˆ J lik J innsatt ˆβ, (ˆβ β 0 ) ˆ J (ˆβ β0 ) χ 2 p (tilnærmet). Tilsvarende gjelder for Score-test observatoren: U(β 0 ) J 1 U(β 0 ) χ 2 p der altså U(β 0 ) er scorefunksjonen evaluert i θ 0. Generaliserte Lineære Modeller p. 31/47 Eksponentens fordeling For multivariate normalfordelinger er "eksponenten" (y µ) V 1 (y µ) et 2. gradspolynom i y og f Y (y) konstant på ellipsoider i det p-dimensjonale rom. Dessuten får vi at eksponenten innsatt stokastisk Y blir (Y µ) V 1 (Y µ) = Z Z = p Zi 2 χ 2 p altså kjikvadratfordelt med p frihetsgrader siden Z i N(0,1) og uavhengige. Generaliserte Lineære Modeller p. 30/47 Flerparameter Likelihood-ratio tester Ved 2. ordens Taylorutvikling kan det vises at G(β 0 ) = 2[l(ˆβ) l(β 0 )] (ˆβ β 0 ) J (ˆβ β 0 ), der l(β) er log-likelihood. Dermed får vi også tilnærmet G(β 0 ) χ 2 p under den helspesifiserte nullhypotesen H 0 : β = β 0. Wald-, Score- og Likelihood ratio (LR) testene asymptotisk ekvivalente, men kan avvike betydelig med "lite" data. Wald-testene har generelt noe dårligere small-sample egenskaper enn Score og LR. Siden LRT kan beregnes direkte fra log-likelihood l(β) er den enkel å bruke. Generaliserte Lineære Modeller p. 32/47

9 Det er sjelden vi tester helspesifiserte hypoteser Eks. 1: Med Y i = antall biller av n i som dør med giftdose x i er Y i Bin(n i,π i ) og vi antok π i = exp(β 0 + β 1 x i ) 1 + exp(β 0 + β 1 x i ) og testet H 0 : β 1 = 0 uten å ta hensyn til konstantledd β 0. Eks. 2: Med fødselsvekt Y i = β 1 x i1 + β 2 x i2 + β 3 x i3 + β 4 x i4 + ε i x i1 = indikatorvariabel for gutt, x i2 = indikatorvariabel for jente, x i3 = produkt av varighet og indikator gutt, x i4 = produkt av varighet og indikator jente testet vi om vesthastigheten er den samme for gutter og jenter: H 0 : β 3 = β 4 uten å være opptatt av β 1 og β 2. Generaliserte Lineære Modeller p. 33/47 Delspesifisert Wald-test MLE ˆβ = (ˆβ 1,..., ˆβ p ) har (estimert) kovariansmatrise som kan blokkdeles ˆ J 1 = ˆΣ 11 ˆΣ 12 der ˆΣ 22 er kovariansmatrise for (ˆβ p q+1,..., ˆβ p ) Men marginalfordelinger i den multivariate normalfordelingen er også normalfordelt, altså ˆΣ12 ˆΣ 22 (ˆβ p q+1,..., ˆβ p ) N q (0, ˆΣ 22 ) q dimensjonalt normalfordelt med forventning 0 under H 0 og kovariansmatrise ˆΣ 22. Generaliserte Lineære Modeller p. 35/47 Delspesifiserte hypoteser Apriorispesifikasjon: g(µ i ) = β 1 x i1 + + β p x ip Helspesifisert hypotese: Spesifiserer verdiene for alle parametre Delspesifisert hypotese: Spesifiserer kun verdiene for noen parametre Typisk delspesifisert nullhypotese H 0 : β p q+1 = β p q+2 = = β p = 0 der q < p, slik at under H 0 blir g(µ i ) = β 1 x i1 + + β p q x i,p q Delspesifiserte hypoteser kan også testes med Wald, LR og Score-tester (men Score-tester er ikke så vanlige). For alle testene ender vi opp med χ 2 q fordelte test-observatorer. Delspesifisert Wald-test, forts. Dermed blir Wald-testen gitt ved at tilnærmet under H 0. (ˆβ p q+1,..., ˆβ p )ˆΣ 1 22 (ˆβ p q+1,..., ˆβ p ) χ 2 q Vi brukte implisitt dette resultatet når vi testet om giftdose har effekt på billedødelighet. ˆβ1 = se 1 = z = ˆβ 1 /se 1 = z 2 = Generaliserte Lineære Modeller p. 34/47 Generaliserte Lineære Modeller p. 36/47

10 R-utskrift Biller > glmfit0biller<-glm(cbind(dode,ant-dode) Dose,family=binomial) > summary(glmfit0biller) Call: glm(formula = cbind(dode, Ant - Dode) Dose, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** Dose <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 7 degrees of freedom Residual deviance: on 6 degrees of freedom AIC: Generaliserte Lineære Modeller p. 37/47 Likelihood Ratio Test - Biller Definerer binomisk likelihood som funksjon og beregner G: > logl<-function(p){ + li<-y*log(p)+(n-y)*log(1-p) + l<-sum(li) + l} > n<-ant > y<-dode > p0<-glm(cbind(dode,ant-dode) 1,family=binomial)$fit > p1<-glm(cbind(dode,ant-dode) Dose,family=binomial)$fit > 2*(logl(p1)-logl(p0)) [1] NB. G = finnes også som differans mellom "Null Devians" og "Residual Devians" på side 37. Generaliserte Lineære Modeller p. 39/47 LRT med delspesifisert hypotese Som før: Apriori MLE ˆβ = (ˆβ 1,..., ˆβ p ) Under nullhypotesen er β p q+1 = = β p = 0. Da fås MLE β = (β1,...,β p q, 0,...,0) Likelihood ratio testen gis nå ved at G = 2[l(ˆβ) l(β )] χ 2 q er tilnærmet kjikvadratfordelt. Nøstede modeller Eksempel: Biller, π i = P( Død Dose x i ) Modell M0: logit(π i ) = β 0 uavhengig av dose Modell M1: logit(π i ) = β 0 + β 1 x i lineært avhengig av dose Modell M2: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i kvadratisk avhengig av dose Her er M0 nøstet i M1 som igjen er nøstet i M2. Dette fordi M0 er et spesialtilfelle av M1 som igjen er et spesialtilfelle av M2. Vi kan benytte M0 som nullhypotese for M1 og M2. Vi kan også benytte M1 som nullhypotese for M2. Generelt er en Modell A nøstet i en Modell B dersom A er et spesialtilfelle av B. Generaliserte Lineære Modeller p. 38/47 Generaliserte Lineære Modeller p. 40/47

11 Mettet (saturated) modell er en modell som har en parameter per observasjon. Spesielt er alle andre modeller nøstet i den mettede modellen. Eks: Biller Den mettede modellen har ulike sannsynligheter π i for hver giftdose og tilpassede sannsynligheter blir π i = Y i /n i. For GLM får vi en perfekt tilpasning til data Y i slik at predikerte forventninger blir µ i = Y i. Den mettede modellen får også maksimal oppnåelig likelihood l over alle tenkelige modeller. Generaliserte Lineære Modeller p. 41/47 Devians = 2( l l) Merk: Minimering av er ekvivalent med maksimering av likelihooden. Eksempler på Devianser: Poisson: = 2 n [Y i log(y i /λ i ) (Y i λ i )] Binomisk, π i = Y i /n i : = 2 n [Y i log( π i π i ) + (n i Y i ) log( 1 π i 1 π i )] Et par andre begreper: Nulldevians = Devians med Modell: µ i = µ eller g(µ i ) = β 0, dvs. kun konstantledd i modellen Residual devians = Devians i aktuell modell g(µ i ) = β 0 + β 1 x i β p x ip, dvs. deviansen innsatt MLE ˆβ Generaliserte Lineære Modeller p. 43/47 Devians Eks: Y i N(µ i,σ 2 ): Den mettede modellen har µ i = Y i l = n 2 log(2πσ2 ) 1 2σ 2 (Y i µ i ) 2 l = n 2 log(2πσ2 ) Dermed finner vi at likelihood ratio mellom mettet modell og en vilkårlig modell blir 2( l l) = 1 (Y σ 2 i µ i ) 2 og foreslår en generalisering av kvadratsum til GLM. Vi definerer generelt Deviansen ved = 2( l l) der altså l er log-likelihood for den mettede modellen. Generaliserte Lineære Modeller p. 42/47 LRT og Devians Apriori MLE ˆβ = (ˆβ 1,..., ˆβ p ) gir Devians ˆ = 2[ l ˆl] = 2[ l l(ˆβ)] Under nullhypotesen er β p q+1 = = β p = 0. Da fås MLE β = (β 1,...,β p q, 0,..., 0) som gir devians = 2[ l l ] = 2[ l l(β )]. Likelihood ratio testen gis nå ved at under H 0 G = 2[l(ˆβ) l(β )] = ˆ χ 2 q. Vi gjør altså LRT ved å beregne devianser for modellene som sammenlignes! Generaliserte Lineære Modeller p. 44/47

12 Eksempel: Biller Apriori modell: logit(π i ) = β 0 + β 1 x i Nullhypotese: β 1 = 0 Nulldevians: = Residual devians: ˆ = LRT: G = ˆ = , dvs. soleklar forkastning sml. χ 2 1 Apriori modell: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i Nullhypotese: β 2 = 0 Devians under H 0 : D = Residual devians: ˆ = LRT: G = ˆ = 8.03, p-verdi P(χ 2 1 > 8.03) = , dvs. signifikant avvik R-utskrift II > M0<-glm(cbind(Dode,Ant-Dode) 1,family=binomial) > M1<-glm(cbind(Dode,Ant-Dode) Dose,family=binomial) > M2<-glm(cbind(Dode,Ant-Dode) Dose+I(Doseˆ2),family=binomial) > anova(m0,m1,m2,test="chisq") Analysis of Deviance Table Model 1: cbind(dode, Ant - Dode) 1 Model 2: cbind(dode, Ant - Dode) Dose Model 3: cbind(dode, Ant - Dode) Dose + I(Doseˆ2) Resid. Df Resid. Dev Df Deviance P(> Chi ) e > anova(m0,m2,test="chisq") Analysis of Deviance Table Resid. Df Resid. Dev Df Deviance P(> Chi ) e-62 Generaliserte Lineære Modeller p. 45/47 Generaliserte Lineære Modeller p. 47/47 R-utskrift > glm(cbind(dode,ant-dode) Dose+I(Doseˆ2),family=binomial) Call: glm(formula = cbind(dode, Ant - Dode) Dose + I(Doseˆ2), family = (Intercept) Dose I(Doseˆ2) Degrees of Freedom: 7 Total (i.e. Null); 5 Residual Null Deviance: Residual Deviance: AIC: > summary(glm(cbind(dode,ant-dode) Dose+I(Doseˆ2),family=binomial))$coef Estimate Std. Error z value Pr(> z ) (Intercept) Dose I(Doseˆ2) > 1-pchisq(8.03,1) [1] Generaliserte Lineære Modeller p. 46/47

Generaliserte Lineære Modeller

Generaliserte Lineære Modeller Eksponensiell klasse Generaliserte Lineære Modeller Y i f(y i ;θ i ) = c(y i ;φ) exp((θ i y i a(θ i ))/φ) µ i = E[Y i ] = a (θ i ) σ 2 i = Var[Y i ] = φa (θ i ) = φv (µ i ) STK3100-4. september 2011 Geir

Detaljer

Forelesning 6 STK3100

Forelesning 6 STK3100 Scorefunksjon og estimeringsligninger for GLM Forelesning 6 STK3100 29. september 2008 S. O. Samuelsen Plan for forelesning: 1. Observert og forventet informasjon 2. Optimeringsrutiner 3. Iterative revektede

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) Introduksjon til Generaliserte Lineære Modeller (GLM) p. 1/25 Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-23. august 2010 Sven Ove Samuelsen/Anders Rygh Swensen Plan for første forelesning:

Detaljer

Forelesning 6 STK3100/4100

Forelesning 6 STK3100/4100 Forelesning 6 STK3100/4100 p. 1/4 Forelesning 6 STK3100/4100 4. oktober 2012 Presentasjon av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. GLM Binære data 2. Link-funksjoner 3. Parameterfortolkning

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) Literatur / program Introduksjon til Generaliserte Lineære Modeller (GLM) STK3100-20. august 2007 Sven Ove Samuelsen Plan for første forelesning: 1. Introduksjon, Literatur, Program 2. ksempler 3. Uformell

Detaljer

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller p. 1/34 Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller STK3100/4100-23. august 2011 Geir Storvik (Oppdatert

Detaljer

Forelesning 4 STK3100

Forelesning 4 STK3100 ! * 2 2 2 Bevis : Anta Forelesning 4 STK3 september 27 S O Samuelsen Plan for annen forelesning: Likelihood-egenskaper 2 Konsistens for ML 3 Tilnærmet fordeling for ML 4 Likelihoodbaserte tester 5 Multivariat

Detaljer

Forelesning STK september 2011

Forelesning STK september 2011 Forelesning STK3100 12. setember 2011 Geir Storvik (S. O. Samuelsen) Plan for forelesning: 1. Mer om evians 2. Devians og Gooness-of-fit tester 3. GLM og resiualer En Mettet (saturate) moell er en moell

Detaljer

Forelesning 6 STK3100

Forelesning 6 STK3100 Forelesning STK3 september 7 S O Samuelsen Plan for forelesning: Mer om evians GLM resiualer 3 Test for H : Offset Observert forventet informasjon Optimeringsrutiner Iterative revektee minste kvarater

Detaljer

Eksponensielle klasser

Eksponensielle klasser Eksponensielle klasser, de Jong & Heller, Kap. 3 Eksponensielle klasser STK3100-1. september 2008 Sven Ove Samuelsen En stokastisk variabel Y sies å ha fordeling i den eksponensielle fordelingsklasse dersom

Detaljer

Forelesning 6 STK3100/4100

Forelesning 6 STK3100/4100 Binomiske eller binære responser Forelesning 6 STK3100/4100 26. september 2008 Geir Storvik (S. O. Samuelsen) Plan for forelesning: 1. GLM Binære data 2. Link-funksjoner 3. Parameterfortolkning logistisk

Detaljer

Eksponensielle klasser og GLM

Eksponensielle klasser og GLM !! 3 ksponensielle klasser, Dobson, Kap 3 ksponensielle klasser GLM n stokastisk variabel sies å ha fordeling i den eksponensielle fordelingsklasse som tettheten pktsannsh til kan skrives på formen STK3-3

Detaljer

Forelesning 8 STK3100

Forelesning 8 STK3100 $ $ $ # Fortolkning av Dermed blir -ene Vi får variasjonen i '& '& $ Dermed har fortolkning som andel av variasjonen forklart av regresjonen Alternativt: pga identiteten Forelesning 8 STK3100 p3/3 Multippel

Detaljer

Forelesning 3 STK3100

Forelesning 3 STK3100 Eks. Fødselsvekt mot svangerskapslengde og kjønn Forelesning 3 STK3100 8. september 2008 S. O. Samuelsen Plan for forelesning: 1. Generelt om lineære modeller 2. Variansanalyse - Kategoriske kovariater

Detaljer

Forelesning 5 STK3100/4100

Forelesning 5 STK3100/4100 Forelesning 5 STK3100/4100 p. 1/4 Forelesning 5 STK3100/4100 27. september 2012 Presentasjon laget av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. Poissonfordeling 2. Overspredning

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet. Eksamen i STK3100 Innføring i generaliserte lineære modeller Eksamensdag: Mandag 6. desember 2010 Tid for eksamen: 14.30 18.30 Oppgavesettet

Detaljer

Forelesning 5 STK3100

Forelesning 5 STK3100 Devians Forelesning 5 STK3100 22. setember 2008 S. O. Samuelsen Plan for forelesning: 1. Mer om evians 2. Devians og Gooness-of-fit tester 3. GLM og resiualer 4. Observert og forventet informasjon 5. Otimeringsrutiner

Detaljer

Forelesning 10 STK3100

Forelesning 10 STK3100 Momenter i multinomisk fordeling Forelesning 0 STK300 3. november 2008 S. O. Samuelsen Plan for forelesning:. Multinomisk fordeling 2. Multinomisk regresjon - ikke-ordnede kategorier 3. Multinomisk regresjon

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom

Detaljer

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100 Forelesning 7 STK3100/4100 p. 1/2 Forelesning 7 STK3100/4100 8. november 2012 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Forelesning

Detaljer

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100 Gamma regresjon Forelesning 7 STK3100/4100 26. september 2008 Geir Storvik Plan for forelesning: 1. Kontinuerlige positive responser 2. Gamma regresjon 3. Invers Gaussisk regresjon Modell: Har y Gamma(µ,ν),

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST 202 Statistiske slutninger for den eksponentielle fordelingsklasse. Eksamensdag: Fredag 15. desember 1995. Tid for eksamen:

Detaljer

Prøveeksamen i STK3100/4100 høsten 2011.

Prøveeksamen i STK3100/4100 høsten 2011. Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan

Detaljer

Tilleggsoppgaver for STK1110 Høst 2015

Tilleggsoppgaver for STK1110 Høst 2015 Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0

Detaljer

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00 Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Faglig kontakt under eksamen: Bo Lindqvist, tlf. 975 89 418 EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER

Detaljer

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 5 Bokmål Faglig kontakt under eksamen: Håkon Tjelmeland 73 59 35 38 EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Detaljer

Forelesning 7 STK3100

Forelesning 7 STK3100 ( % - -! " stimering: MK = ML Forelesning 7 STK3100 1 oktober 2007 S O Samuelsen Plan for forelesning: 1 Generelt om lineære modeller 2 Variansanalyse - Kategoriske kovariater 3 Koding av kategoriske kovariater

Detaljer

Forelesning 11 STK3100/4100

Forelesning 11 STK3100/4100 Forelesning 11 STK3100/4100 Plan for forelesning: 1. november 2012 Geir Storvik 1. Generaliserte lineære blandede modeller Eksempler R-kode GLMM - generell formulering av modell Likelihood og estimering

Detaljer

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2018) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 6 Kontakt under eksamen: Ingelin Steinsland (92 66 30 96) EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER Tirsdag

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK2120 Statistiske metoder og dataanalyse 2. Eksamensdag: Fredag 7. juni 2013. Tid for eksamen: 14.30 18.30. Oppgavesettet er

Detaljer

STK juni 2016

STK juni 2016 Løsningsforslag til eksamen i STK220 3 juni 206 Oppgave a N i er binomisk fordelt og EN i np i, der n 204 Hvis H 0 er sann, er forventningen lik E i n 204/6 34 for i, 2,, 6 6 Hvis H 0 er sann er χ 2 6

Detaljer

Forelesning 9 STK3100

Forelesning 9 STK3100 Poissonfordelingen: Forelesning 9 STK3100 20. oktober 2007 S. O. Samuelsen Plan for forelesning: 1. Poissonregresjon 2. Overspredning 3. Quasi-likelihood 4. Andre GLM-er Poissonfordelingen kan oppstå ved

Detaljer

Ekstraoppgaver for STK2120

Ekstraoppgaver for STK2120 Ekstraoppgaver for STK2120 Geir Storvik Vår 2011 Ekstraoppgave 1 Anta X 1 og X 2 er uavhengige med X 1 N(1.0, 1.0) og X 2 N(2.0, 1.5). La X = (X 1, X 2 ) T. Definer c = ( ) 2.0 3.0, A = ( ) 1.0 0.5 0.0

Detaljer

Forelesning 7 STK3100

Forelesning 7 STK3100 Parameterfortolkning logistisk regresjon Forelesning 7 STK3100 6. oktober 2008 S. O. Samuelsen Plan for forelesning: 1. Parameterfortolkning logistisk regresjon 2. Parameterfortolkning andre linkfunksjoner

Detaljer

Forelesning 8 STK3100/4100

Forelesning 8 STK3100/4100 Forelesning STK300/400 Plan for forelesning: 0. oktober 0 Geir Storvik. Lineære blandede modeller. Eksempler - data og modeller 3. lme 4. Indusert korrelasjonsstruktur. Marginale modeller. Estimering -

Detaljer

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. FORMELSAMLING TIL STK2100 (Versjon Mai 2017) 1 Tapsfunksjoner (a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x]. (b)

Detaljer

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Eksamen desember 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4240 Statistikk Eksamen desember 15 Oppgave 1 La den kontinuerlige stokastiske variabelen X ha fordelingsfunksjon (sannsynlighetstetthet

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 p. 1/3 Forelesning 9 STK3100/4100 Plan for forelesning: 18. oktober 2012 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 2/3 Modell med

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1110 FASIT. Eksamensdag: Tirsdag 11. desember 2012. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider. Vedlegg: Tillatte

Detaljer

FORMELSAMLING TIL STK1100 OG STK1110

FORMELSAMLING TIL STK1100 OG STK1110 FORMELSAMLING TIL STK1100 OG STK1110 (Versjon av 11. november 2017) 1. Sannsynlighet La A, B, A 1, A 2,..., B 1, B 2,... være begivenheter, dvs. delmengder av et utfallsrom Ω. a) Aksiomene: Et sannsynlighetsmål

Detaljer

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R Blanda modellar i R Jorunn Slagstad Universitetet i Bergen 20. desember 2006 1 Introduksjon 2 Lineære blanda modellar 3 Generaliserte lineære blanda modellar 4 Analyser av modellar 5 Eit randproblem 6

Detaljer

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010 Oppgave 1 a Forventet antall dødsulykker i år i er E(X i λ i. Dermed er θ i λ i E(X i forventet antall dødsulykker per 100

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 22. mai 2014 Eksamenstid (fra til): 09.00-13.00

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1. Eksamensdag: Mandag 1. desember 2014. Tid for eksamen: 14.30 18.30. Oppgavesettet

Detaljer

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100 Forelesning 9 STK3100/4100 Plan for forelesning: 17. oktober 2011 Geir Storvik 1. Lineære blandede modeller 2. Marginale modeller 3. Estimering - ML og REML 4. Modell seleksjon p. 1 Modell med alle antagelser

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Tlf: Eksamensdato: August 2014 Eksamenstid (fra til): Hjelpemiddelkode/Tillatte hjelpemidler:

Detaljer

7. november 2011 Geir Storvik

7. november 2011 Geir Storvik Forelesning 13 STK3100/4100 Plan for forelesning: 7. november 2011 Geir Storvik Generaliserte lineære blandede modeller 1. Sammenlikning ulike estimeringsmetoder 2. Tolkning parametre 3. Inferens Konfidensintervaller

Detaljer

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side 1 av?? Bokmål Kontakt under eksamen: Thiago G. Martins 46 93 74 29 EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag

Detaljer

STK Oppsummering

STK Oppsummering STK1110 - Oppsummering Geir Storvik 11. November 2015 STK1110 To hovedtemaer Introduksjon til inferensmetoder Punktestimering Konfidensintervall Hypotesetesting Inferens innen spesifikke modeller/problemer

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK2120 Skisse til løsning/fasit. Eksamensdag: Torsdag 5. juni 2014. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider.

Detaljer

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader. FORMELSAMLING TIL STK2120 (Versjon av 30. mai 2012) 1 Enveis variansanalyse Anta at Y ij = µ + α i + ɛ ij ; j = 1, 2,..., J i ; i = 1, 2,..., I ; der ɛ ij -ene er uavhengige og N(0, σ 2 )-fordelte. Da

Detaljer

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Eksamen desember 2015 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4240 Statistikk Eksamen desember 15 Oppgave 1 La den kontinuerlege stokastiske variabelen X ha fordelingsfunksjon (sannsynstettleik

Detaljer

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR Noregs teknisk naturvitskaplege universitet Institutt for matematiske fag Side 1 av 5 Nynorsk Kontakt under eksamen: Thiago G. Martins 46 93 74 29 EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR Torsdag

Detaljer

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator. Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004 Dato: 29.september 2016 Klokkeslett: 09 13 Sted: Tillatte hjelpemidler: B154 «Tabeller og formler i statistikk» av Kvaløy og

Detaljer

La U og V være uavhengige standard normalfordelte variable og definer

La U og V være uavhengige standard normalfordelte variable og definer Binormalfordelingen Definisjon Noe av hensikten med å innføre begrepet betinget sannsynlighet er at kompliserte modeller ofte kan bygges ut fra enkle betingede modeller. Når man spesifiserer betingelser

Detaljer

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3 Notater i ST2304 H. T. L Innhold 1 Fordelingsfunksjonene i R 2 1.1 α-kvantilen....................................... 3 2 Fisher test for ubalanserte modeller 4 2.1 Test mellom alternative modeller...........................

Detaljer

Løsningsforslag: STK2120-v15.

Løsningsforslag: STK2120-v15. Løsningsforslag: STK2120-v15 Oppgave 1 a) Den statistiske modellen er: X ij = µ i + ϵ ij, j = 1,, J, i = 1,, I Her indekserer i = 1,, I gruppene og j = 1,, J observasjone innen hver gruppe Feilleddene

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Løsningsforslag: Statistiske metoder og dataanalys Eksamensdag: Fredag 9. desember 2011 Tid for eksamen: 14.30 18.30

Detaljer

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute. Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004. Dato: Mandag 24. september 2018. Klokkeslett: 09-13. Sted: Administrasjonsbygget K1.04 Tillatte hjelpemidler: «Tabeller og

Detaljer

EKSTRAOPPGAVER I STK1110 H2017

EKSTRAOPPGAVER I STK1110 H2017 EKSTRAOPPGAVER I STK0 H207. Simuleringer for å illustrere store talls lov og sentralgrenseteoremet Oppgave.. I denne oppgaven skal vi bruke kommandoen rbinom(n,size,prob). Kommandoen trekker n tilfeldige

Detaljer

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i TMA4267 Lineære statistiske modellar Institutt for matematiske fag Eksamensoppgåve i TMA4267 Lineære statistiske modellar Fagleg kontakt under eksamen: Øyvind Bakke Tlf: 73 59 81 26, 990 41 673 Eksamensdato: 22. mai 2015 Eksamenstid (frå

Detaljer

Oppsummering av STK2120. Geir Storvik

Oppsummering av STK2120. Geir Storvik Oppsummering av STK2120 Geir Storvik Vår 2011 Hovedtemaer Generelle inferensmetoder Spesielle modeller/metoder Bruk av R Vil ikke bli testet på kommandoer, men må forstå generelle utskrifter Generelle

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 4. juni 2016 Eksamenstid (fra til): 09.00

Detaljer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 4. juni 2007. Tid for eksamen: 14.30 17.30. Oppgavesettet er

Detaljer

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave. Løsningsforslag STK1110-h11: Andre obligatoriske oppgave. Oppgave 1 a) Legg merke til at X er gamma-fordelt med formparameter 1 og skalaparameter λ. Da er E[X] = 1/λ. Små verdier av X tyder derfor på at

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1110 Statistiske metoder og dataanalyse 1 Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30 18.00. Oppgavesettet

Detaljer

Medisinsk statistikk Del I høsten 2009:

Medisinsk statistikk Del I høsten 2009: Medisinsk statistikk Del I høsten 2009: Kontinuerlige sannsynlighetsfordelinger Pål Romundstad Beregning av sannsynlighet i en binomisk forsøksrekke generelt Sannsynligheten for at suksess intreffer X

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Eksamen i: UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet STK1000 Innføring i anvendt statistikk Eksamensdag: Mandag 3. desember 2018. Tid for eksamen: 14.30 18.30. Oppgavesettet er på

Detaljer

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden. Estimeringsmetoder Momentmetoden La X, X 2,..., X n være uavhengige variable som er rektangulært fordelte på intervallet [0, θ]. Vi vet da at forventningsverdiene til hver observasjon og forventningen

Detaljer

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2007 TMA4240 Statistikk Høst 2007 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b4 Løsningsskisse Oppgave 1 Eksamen juni 1999, oppgave 3 av 3 a) µ populasjonsgjennomsnitt,

Detaljer

TMA4240 Statistikk H2015

TMA4240 Statistikk H2015 TMA4240 Statistikk H2015 Funksjoner av stokastiske variabler (kapittel 7+notat) Fokus på start med kumulativ fordeling 7.2 Funksjon av en SV (inkludert en-entydighet). Fordeling til max/min (fra notat).

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1100 Statistiske metoder og dataanalyse 1 - Løsningsforslag Eksamensdag: Mandag 30. november 2015. Tid for eksamen: 14.30

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: ST110 Statistiske metoder og dataanalyse Eksamensdag: Mandag 30. mai 2005. Tid for eksamen: 14.30 20.30. Oppgavesettet er på

Detaljer

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget FA K U L T E T FO R NA T U R V I T E N S K A P O G TE K N O L O G I EKSAMENSOPPGAVE Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Detaljer

Kapittel 6 - modell seleksjon og regularisering

Kapittel 6 - modell seleksjon og regularisering Kapittel 6 - modell seleksjon og regularisering Geir Storvik 21. februar 2017 1/22 Lineær regresjon med mange forklaringsvariable Lineær modell: Y = β 0 + β 1 x 1 + + β p x p + ε Data: {(x 1, y 1 ),...,

Detaljer

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007 Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007 Oppgave 1: Pengespill a) For hver deltaker har vi følgende situasjon: Deltakeren får en serie oppgaver. Hver runde har to mulige utfall: Deltakeren

Detaljer

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - Fornuftig verdi Inferens STK1110 - Repetisjon av relevant stoff fra STK1100 Geir Storvik 12. august 2015 Data x 1,..., x n evt også y 1,..., y n Ukjente parametre θ kan være flere Vi ønsker å si noe om θ basert på data.

Detaljer

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Høst 2009 TMA440 Statistikk Høst 009 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer b6 Løsningsskisse Oppgave a) n 8, i x i 675, x 37.5, i y i 488, i x i 375, i x iy i

Detaljer

Ekstraoppgaver STK3100 h10

Ekstraoppgaver STK3100 h10 Ekstraoppgaver STK3100 h10 Oppgave 1 En-veis variansanalyse modellen kan formuleres som Y ij = µ + α i + ɛ ij (1) der α i = 0 og ɛ ij er i.i.d N(0, σ 2 ). Her representerer er Y ij j te observasjon fra

Detaljer

Kapittel 2: Hendelser

Kapittel 2: Hendelser Kapittel 2: Hendelser FENOMEN Eksperiment Utfall Utfallsrom Eksperiment. Utfall. Eksperiment Utfall Hendelse Sannsynlighet: egenskaper, gunstige vs. mulige, relativ frekvens Sannsynlighet for mer enn en

Detaljer

Ridge regresjon og lasso notat til STK2120

Ridge regresjon og lasso notat til STK2120 Ridge regresjon og lasso notat til STK2120 Ørulf Borgan februar 2016 I dette notatet vil vi se litt nærmere på noen alternativer til minste kvadraters metode ved lineær regresjon. Metodene er særlig aktuelle

Detaljer

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder Institutt for matematiske fag Eksamensoppgave i ST1201/ST6201 Statistiske metoder Faglig kontakt under eksamen: Nikolai Ushakov Tlf: 45128897 Eksamensdato: 20. desember 2016 Eksamenstid (fra til): 09:00

Detaljer

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk Institutt for matematiske fag Eksamensoppgave i Løsningsskisse TMA440 Statistikk Faglig kontakt under eksamen: Håkon Tjelmeland a, Sara Martino b Tlf: a 48 18 96, b 99 40 33 30 Eksamensdato: 30. november

Detaljer

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1 Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s AR2-modell: Oppgave X t φ X t φ 2 X t 2 Z t Antas å være kausal slik at X t ψ j Z t j er ukorrelert med Z t+,

Detaljer

TMA4245 Statistikk Eksamen desember 2016

TMA4245 Statistikk Eksamen desember 2016 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag TMA4245 Statistikk Eksamen desember 2016 Oppgave 1 En bedrift produserer elektriske komponenter. Komponentene kan ha to typer

Detaljer

Prøveeksamen STK vår 2017

Prøveeksamen STK vår 2017 Prøveeksamen STK2100 - vår 2017 Geir Storvik Vår 2017 Oppgave 1 Anta en lineær regresjonsmodell p Y i = β 0 + β j x ij + ε i, j=1 ε i uif N(0, σ 2 ) Vi kan skrive denne modellen på vektor/matrise-form:

Detaljer

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon Bo Lindqvist Institutt for matematiske fag http://wiki.math.ntnu.no/st0202/2012h/start 2 Kap. 13: Lineær korrelasjons-

Detaljer

Prøveeksamen STK2100 (fasit) - vår 2018

Prøveeksamen STK2100 (fasit) - vår 2018 Prøveeksamen STK2100 (fasit) - vår 2018 Geir Storvik Vår 2018 Oppgave 1 (a) Vi har at E = Y Ŷ =Xβ + ε X(XT X) 1 X T (Xβ + ε) =[I X(X T X) 1 X T ]ε Dette gir direkte at E[E] = 0. Vi får at kovariansmatrisen

Detaljer

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015 R-kode for alle oppgaver er gitt bakerst. Oppgave 1 (a) Boksplottet antyder at verdiene er høyere for kvinner enn for menn.

Detaljer

FORMELSAMLING TIL STK1100 OG STK1110

FORMELSAMLING TIL STK1100 OG STK1110 FORMELSAMLING TIL STK1100 OG STK1110 (Versjon av 16. november 2009) 1. Sannsynlighet La A, B, A 1, A 2,...,B 1, B 2,... være begivenheter, dvs. delmengder av et utfallsrom Ω. a) Aksiomene: Et sannsynlighetsmål

Detaljer

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up! Plan vidare Onsdag Gjere ferdig kap 11 + repetisjon Fredag Rekning av eksamensoppgåver Eksamen Mai 2014, oppgåve 2 (inkl normal fordeling, lin.reg. og deskriptiv statistikk) Eksamen August 2012, oppgåve

Detaljer

10.1 Enkel lineær regresjon Multippel regresjon

10.1 Enkel lineær regresjon Multippel regresjon Inferens for regresjon 10.1 Enkel lineær regresjon 11.1-11.2 Multippel regresjon 2012 W.H. Freeman and Company Denne uken: Enkel lineær regresjon Litt repetisjon fra kapittel 2 Statistisk modell for enkel

Detaljer

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller Institutt for matematiske fag Eksamensoppgave i TMA4267 Lineære statistiske modeller Faglig kontakt under eksamen: Mette Langaas Tlf: 988 47 649 Eksamensdato: 19. mai 2017 Eksamenstid (fra til): 09.00

Detaljer

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute. Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-1001. Dato: Tirsdag 26. september 2017. Klokkeslett: 09 13. Sted: Åsgårdvegen 9. Tillatte hjelpemidler: «Tabeller og formler i statistikk»

Detaljer

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering TMA4245 Statistikk Kapittel 8.1-8.5. Kapittel 9.1-9.3+9.15 Turid.Follestad@math.ntnu.no p.1/21 Har sett

Detaljer

Formelsamling i medisinsk statistikk

Formelsamling i medisinsk statistikk Formelsamling i medisinsk statistikk Versjon av 6. mai 208 Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 208. Gjennomsnitt x = n (x + x 2 + x 3

Detaljer

Transformasjoner av stokastiske variabler

Transformasjoner av stokastiske variabler Transformasjoner av stokastiske variabler Notasjon merkelapper på fordelingene Sannsynlighetstettheten og den kumulative fordelingen til en stokastisk variabel X betegnes hhv. f X og F X. Indeksen er altså

Detaljer

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling Kapittel 8 Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling TMA4240 H2006: Eirik Mo 2 Til nå... Definert sannsynlighet og stokastiske variabler (kap. 2 & 3).

Detaljer