Multiblokkseminaret: LS-PLS. Bjørn-Helge Mevik

Like dokumenter
Repeterte målinger. Repeterte målinger. Eirik Skogvoll. Gjentatte observasjoner på samme individ:

Kapittel 6 - modell seleksjon og regularisering

10.1 Enkel lineær regresjon Multippel regresjon

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Repeterte målinger. Repeterte målinger. Eirik Skogvoll

UNIVERSITETET I OSLO

Forelesning 8 STK3100/4100

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Produkter og tjenester innen:

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Prøveeksamen STK2100 (fasit) - vår 2018

Ulempen er selvsagt at man må ha adgang til programmet, og lisenser er ganske kostbare.

Forelesning 9 STK3100/4100

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

Velkommen til plenumsregning for MAT1030. MAT1030 Diskret matematikk. Repetisjon: Algoritmer og pseudokode. Eksempel fra boka. Eksempel

Obligatorisk oppgave MAT-INF1100. Lars Kristian Henriksen UiO

Oppgave N(0, 1) under H 0. S t n 3

Analysis of ordinal data via heteroscedastic threshold models

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Forelesning 9 STK3100/4100

STK juni 2016

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Hvilken BitBot går raskest gjennom labyrinten?

Ridge regresjon og lasso notat til STK2120

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Plenumsregning 1. MAT1030 Diskret Matematikk. Repetisjon: Algoritmer og pseudokode. Velkommen til plenumsregning for MAT1030

MAT1030 Diskret Matematikk

UNIVERSITETET I OSLO

Kp. 12 Multippel regresjon

UNIVERSITETET I OSLO

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Plenumsregning 1. Kapittel 1. Roger Antonsen januar Velkommen til plenumsregning for MAT1030. Repetisjon: Algoritmer og pseudokode

Sammenlikningav simuleringsverktøyfor reguleringsteknikk

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Kapittel 3: Studieopplegg

HØGSKOLEN I STAVANGER

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Presentasjon av doktorgradsprosjekt

Kp. 14 Flerfaktoreksperiment. Kp. 14: Flerfaktor-eksperiment; oversikt

Fasit og løsningsforslag STK 1110

Halvledere. Vg1 Vg3 Antall elever: Maksimum 15 Varighet: 90 minutter. Passer for:

Logistisk regresjon 1

Weibullfordelingen. Kjetil L. Nielsen. Innhold. 1 Teori. 1.1 Tetthetsfunksjon og fordelingsfunksjon

Forelesning 10 STK3100

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk Høst 2016

Bioberegninger - notat 4: Mer om sannsynlighetsmaksimering

MAT1030 Plenumsregning 1

Ordinær lineær regresjon (OLR) Deming, uvektet og vektet

Eksamensoppgave i TMA4255 Anvendt statistikk

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

STK Oppsummering

Eksamensoppgave i TMA4267 Lineære statistiske modeller

vekt. vol bruk

INF Algoritmer og datastrukturer

Kombinatorikk. MAT1030 Diskret Matematikk. Oppsummering av regneprinsipper

MAT1030 Diskret Matematikk

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

UNIVERSITETET I OSLO

INF2810: Funksjonell Programmering. En metasirkulær evaluator, del 2

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

INF2810: Funksjonell Programmering. En metasirkulær evaluator, del 2

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Logistisk regresjon 2

Høye skårer indikerer høye nivåer av selvkontroll.

Universitetet i Agder Fakultet for økonomi og samfunnsfag E K S A M E N

Prosjektbeskrivelsen består av

Om Kurset og Analyse av Algoritmer

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

SFI-Norman presents Lean Product Development (LPD) adapted to Norwegian companies in a model consisting of six main components.

Repetisjon og mer motivasjon. MAT1030 Diskret matematikk. Repetisjon og mer motivasjon

UNIVERSITETET I OSLO

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

MOT310 Statistiske metoder 1, høsten 2011

UNIVERSITETET I OSLO

Bygge en kube. Steg 1: Lage en ny mod. Sjekkliste. Introduksjon

Fra krysstabell til regresjon

UNIVERSITETET I OSLO

Den norske mor og barn undersøkelsen Versjon 2

Anvendt Robotteknikk Konte Sommer FASIT EKSAMEN HARIS JASAREVIC

STK2100. Obligatorisk oppgave 1 av 2

INF2810: Funksjonell Programmering. En Scheme-evaluator i Scheme, del 2

Transkript:

Multiblokkseminaret: LS-PLS Bjørn-Helge Mevik

Oversikt Introduksjonseksempel Motivasjon og prinsipp Algoritmer og implementasjon Et levende eksempel Egenskaper Varianter og generaliseringer Credits og litteratur

Introduksjonseksempel Du har en prosess hvor du lager f.eks. ost. Du kan variere en del prosessfaktorer, A, B, C og D. Du har kjørt et designet eksperiment (X) hvor du har variert faktorene over (A-C: 2 nivåer, D: 3 nivåer). I tillegg har du målt NIR (Z) på en av råvarene. Du er interessert i å vite hvordan prosessfaktorene påvirker en kvalitetsparameter (Y) på de ferdige ostene, og du er også interessert i å finne ut om råstoffvariasjon kan forklare noe av variasjonen i Y i tillegg til det X kan forklare. Modell: Y = X + Z + e, hvor Z bare får lov til å forklare det X ikke allerede forklarer.

Introduksjonseksempel, forts. Så du kjører en LS-PLS og får koeffisienter for prosessfaktorene: A: 0.68, B: 0.39, C: 0.54, D1: 0.48, D2: -0.61 RMSEP-verdier for antall komponenter (0: 1.84, 1: 1.55, 2: 1.18) koeffisienter, ladninger og skårer for NIR (Z): komp1: 4.53, komp2: 2.40 1 loading value -0.10 0.00 0.10 0 100 200 300 400 500 600 700 variable

Motivasjon Et designet forsøk (X), med en eller flere blokker av spektrale målinger (Z i ) samt en eller flere responser (Y). De spektrale målingene ses på som tilleggsinformasjon, og har en prioriteringsrekkefølge (seriell rekkefølge). Hva kan Z 1 forklare i tillegg til X? Hva kan Z 2 forklare i tillegg til X og Z 1? Noen blokker kan være uprioriterte (parallelle blokker) Hva kan Z 2 og Z 3 forklare i tillegg til X og Z 1? Prioriteringen følger ofte, men ikke nødvendigvis, rekkefølgen til prosessen.

Hovedprinsipp 1. Tilpass Y til X med LS, og beregn Y-residualene 2. Tilpass residualene til Z 1 med PLS, og beregn nye Y-residualer 3. Tilpass residualene til Z 2 med PLS, og beregn nye Y-residualer 4. Etc. X Z 1 Z 2

Parallelle blokker: 1. Tilpass Y til X med LS, og beregn Y-residualene 2. Tilpass residualene til Z 1 og Z 2 med to uavhengige PLSer. Bruk skårene fra begge, sammen med X til å beregne nye Y- residualer 3. Etc. Z 1 X Z 2

Avhengighet mellom Z i og X Gå i løkke og oppdatere X-koeffisientene, eller Ortogonalisere Z i mot X UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP

Algoritme 1: 2 serielle blokker: Z og V 1. Fit Y = Xβ + ε with LS, and compute the residuals E. 2o. Orthogonalise Z against X, giving Z orth. 3. Fit the residuals E by PLS to Z (or Z orth ). Compute the A Z first components, giving scores T Z. 4. Fit Y = Xβ + T Z γ + ε with LS, and compute the residuals F. 5o. Orthogonalise V against (X, T Z ), giving V orth. 6. Fit the residuals F by PLS to V (or V orth ). Compute the A V first scores T V. 7. Fit Y = Xβ + T Z γ +T V θ + ε with LS. 8n. Let b be the estimate of β in step 7. Predict Y, and compute new residuals E. Repeat from step 3 until convergence.

Algoritme 2: 2 parallelle blokker: Z og V 1. Fit Y = Xβ + ε with LS, and compute the residuals E. 2o. Orthogonalise Z against X, giving Z orth. 3. Fit the residuals E by PLS to Z (or Z orth ). Compute the A Z first components, giving scores T Z. 4o. Orthogonalise V against X, giving V orth. 5. Fit the residuals E by PLS to V (or V orth ). Compute the A V first scores T V. 6. Fit Y = Xβ + T Z γ +T V θ + ε with LS. 7n. Let b be the estimate of β in step 6. Predict Y, and compute new residuals E. Repeat from step 3 until convergence.

Egenskaper Håndterer `vanlige variabler på `LS-måten, og spektroskopiske blokker på `PLS-måten Relativ vekting mellom blokker av variabler har ingen effekt Enkelt prinsipp Kan ha ulikt antall komponenter fra hver blokk Fleksibelt rammeverk: kombinasjoner av serielle og parallelle blokker Andre kombinasjoner av regresjoner Lett å skille mellom effekter fra ulike kilder

Implementasjon: R-pakken lspls Vilkårlig kombinasjon av serielle og parallelle matriser Ortogonalisert versjon Bruker formelnotasjon; f.eks. Y ~ X + Z1 + Z2:Z3 Fleksibel kryssvalidering, enkle funksjoner for ladningsplott osv. (Er litt stolt av implementasjonen; spesielt kryssvalideringsalgoritmen er litt kløktig ) Gratis tilgjengelig fra samme sted som de fleste andre R- pakker: www.r-project.org

Eksempel Utvidet versjon av introduksjonseksemplet: A-C: 2 nivåer, D: 3 nivåer Spektroskopiske data-blokker Z og V Vi kjører seriell LS-PLS y ~ X + Z + V i R

Fasit Y = 5 + 1 A + 0.5 B + 0.5 C + 5 s 2 + 3 s 3 + 2 t 2 + ε UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP

Fasit II 'Sanne' Z-ladninger 0 100 200 300 400 500 600 700 variable 'Sanne' V-ladninger 0 50 100 150 200 250 300 350 variable loading value loading value -0.10 0.00 0.05-0.10 0.00 UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP

Ortogonalisere eller ei? + uortogonalisert Ved `skjeve effekter av spektrale matriser, kan designkoeffisientene `rettes opp i iterasjonen Noe enklere prediksjonsligninger + ortogonalisert? Kjapp Mer stabile estimater ved stor korrelasjon mellom design og spektra Enklere å håndtere teoretisk Uortogonalisert: beholder spektrene i sitt originaldomene, så potensielt lettere å tolke, men det ser ikke ut til å gi store forskjeller

Varianter og generaliseringer Parallelle blokker: separasjon i felles og unike komponenter REML-PLS: split-plot-design o.l. X trenger ikke være et design, men målte data, eller en spektralmatrise Prosessovervåking

Credits LS-PLS-metodikken har vokst fram gjennom et samarbeid (idedugnad) mellom Kjetil Jørgensen (opprinnerlig ide) Tormod Næs (styrmann) Ingrid Måge (parallelle metoder, REML) Bjørn-Helge Mevik (ortogonalisering)

Litteratur, publisert Jørgensen, K., and Næs, T. A design and analysis stragegy for situations with uncontrolled raw material variation. J. Chem. 18, 2 (2004), 45 52. (LS-PCA) Jørgensen, K., Segtnan, V. H., Thyholt, K., and Næs, T. A comparison of methods for analysing regression models with both spectral and design variables. J. Chem. 18, 10 (2004), 451 464. (LS-PLS, 1 blokk) Måge, I., and Næs, T. Split-plot regression models with both design and spectroscopic variables. J. Chem. 19 (2005), 521 531. (REML-PLS)

Litteratur, upublisert Jørgensen, K., Mevik, B.-H., and Næs, T. Combining designed experiments with several blocks of spectroscopic data. (Submitted). (seriell LS-PLS, flere blokker) Måge, I., and Næs, T. Regression models with categorical design variables and parallel blocks of spectroscopic measurements. (Submitted). Henriksen, H. C., Næs, T., Mevik, B.-H., and Aastveit, A. Comparing visual tewchniques for process monitoring. (Submitted(?)). (prosess-overvåking) Mevik, B.-H., Jørgensen, K., Måge, I., and Næs, T. LS-PLS regression: Combining categorical design variables with blocks of spectroscopic measurements. (In prep). (generell LS-PLS) Måge, I., Mevik, B.-H., and Næs, T. Regression models with process variables and parallel blocks of raw material measurements (In prep). (parallelle blokker, felles/unike komponenter)