Multiblokkseminaret: LS-PLS Bjørn-Helge Mevik
Oversikt Introduksjonseksempel Motivasjon og prinsipp Algoritmer og implementasjon Et levende eksempel Egenskaper Varianter og generaliseringer Credits og litteratur
Introduksjonseksempel Du har en prosess hvor du lager f.eks. ost. Du kan variere en del prosessfaktorer, A, B, C og D. Du har kjørt et designet eksperiment (X) hvor du har variert faktorene over (A-C: 2 nivåer, D: 3 nivåer). I tillegg har du målt NIR (Z) på en av råvarene. Du er interessert i å vite hvordan prosessfaktorene påvirker en kvalitetsparameter (Y) på de ferdige ostene, og du er også interessert i å finne ut om råstoffvariasjon kan forklare noe av variasjonen i Y i tillegg til det X kan forklare. Modell: Y = X + Z + e, hvor Z bare får lov til å forklare det X ikke allerede forklarer.
Introduksjonseksempel, forts. Så du kjører en LS-PLS og får koeffisienter for prosessfaktorene: A: 0.68, B: 0.39, C: 0.54, D1: 0.48, D2: -0.61 RMSEP-verdier for antall komponenter (0: 1.84, 1: 1.55, 2: 1.18) koeffisienter, ladninger og skårer for NIR (Z): komp1: 4.53, komp2: 2.40 1 loading value -0.10 0.00 0.10 0 100 200 300 400 500 600 700 variable
Motivasjon Et designet forsøk (X), med en eller flere blokker av spektrale målinger (Z i ) samt en eller flere responser (Y). De spektrale målingene ses på som tilleggsinformasjon, og har en prioriteringsrekkefølge (seriell rekkefølge). Hva kan Z 1 forklare i tillegg til X? Hva kan Z 2 forklare i tillegg til X og Z 1? Noen blokker kan være uprioriterte (parallelle blokker) Hva kan Z 2 og Z 3 forklare i tillegg til X og Z 1? Prioriteringen følger ofte, men ikke nødvendigvis, rekkefølgen til prosessen.
Hovedprinsipp 1. Tilpass Y til X med LS, og beregn Y-residualene 2. Tilpass residualene til Z 1 med PLS, og beregn nye Y-residualer 3. Tilpass residualene til Z 2 med PLS, og beregn nye Y-residualer 4. Etc. X Z 1 Z 2
Parallelle blokker: 1. Tilpass Y til X med LS, og beregn Y-residualene 2. Tilpass residualene til Z 1 og Z 2 med to uavhengige PLSer. Bruk skårene fra begge, sammen med X til å beregne nye Y- residualer 3. Etc. Z 1 X Z 2
Avhengighet mellom Z i og X Gå i løkke og oppdatere X-koeffisientene, eller Ortogonalisere Z i mot X UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP
Algoritme 1: 2 serielle blokker: Z og V 1. Fit Y = Xβ + ε with LS, and compute the residuals E. 2o. Orthogonalise Z against X, giving Z orth. 3. Fit the residuals E by PLS to Z (or Z orth ). Compute the A Z first components, giving scores T Z. 4. Fit Y = Xβ + T Z γ + ε with LS, and compute the residuals F. 5o. Orthogonalise V against (X, T Z ), giving V orth. 6. Fit the residuals F by PLS to V (or V orth ). Compute the A V first scores T V. 7. Fit Y = Xβ + T Z γ +T V θ + ε with LS. 8n. Let b be the estimate of β in step 7. Predict Y, and compute new residuals E. Repeat from step 3 until convergence.
Algoritme 2: 2 parallelle blokker: Z og V 1. Fit Y = Xβ + ε with LS, and compute the residuals E. 2o. Orthogonalise Z against X, giving Z orth. 3. Fit the residuals E by PLS to Z (or Z orth ). Compute the A Z first components, giving scores T Z. 4o. Orthogonalise V against X, giving V orth. 5. Fit the residuals E by PLS to V (or V orth ). Compute the A V first scores T V. 6. Fit Y = Xβ + T Z γ +T V θ + ε with LS. 7n. Let b be the estimate of β in step 6. Predict Y, and compute new residuals E. Repeat from step 3 until convergence.
Egenskaper Håndterer `vanlige variabler på `LS-måten, og spektroskopiske blokker på `PLS-måten Relativ vekting mellom blokker av variabler har ingen effekt Enkelt prinsipp Kan ha ulikt antall komponenter fra hver blokk Fleksibelt rammeverk: kombinasjoner av serielle og parallelle blokker Andre kombinasjoner av regresjoner Lett å skille mellom effekter fra ulike kilder
Implementasjon: R-pakken lspls Vilkårlig kombinasjon av serielle og parallelle matriser Ortogonalisert versjon Bruker formelnotasjon; f.eks. Y ~ X + Z1 + Z2:Z3 Fleksibel kryssvalidering, enkle funksjoner for ladningsplott osv. (Er litt stolt av implementasjonen; spesielt kryssvalideringsalgoritmen er litt kløktig ) Gratis tilgjengelig fra samme sted som de fleste andre R- pakker: www.r-project.org
Eksempel Utvidet versjon av introduksjonseksemplet: A-C: 2 nivåer, D: 3 nivåer Spektroskopiske data-blokker Z og V Vi kjører seriell LS-PLS y ~ X + Z + V i R
Fasit Y = 5 + 1 A + 0.5 B + 0.5 C + 5 s 2 + 3 s 3 + 2 t 2 + ε UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP
Fasit II 'Sanne' Z-ladninger 0 100 200 300 400 500 600 700 variable 'Sanne' V-ladninger 0 50 100 150 200 250 300 350 variable loading value loading value -0.10 0.00 0.05-0.10 0.00 UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP
Ortogonalisere eller ei? + uortogonalisert Ved `skjeve effekter av spektrale matriser, kan designkoeffisientene `rettes opp i iterasjonen Noe enklere prediksjonsligninger + ortogonalisert? Kjapp Mer stabile estimater ved stor korrelasjon mellom design og spektra Enklere å håndtere teoretisk Uortogonalisert: beholder spektrene i sitt originaldomene, så potensielt lettere å tolke, men det ser ikke ut til å gi store forskjeller
Varianter og generaliseringer Parallelle blokker: separasjon i felles og unike komponenter REML-PLS: split-plot-design o.l. X trenger ikke være et design, men målte data, eller en spektralmatrise Prosessovervåking
Credits LS-PLS-metodikken har vokst fram gjennom et samarbeid (idedugnad) mellom Kjetil Jørgensen (opprinnerlig ide) Tormod Næs (styrmann) Ingrid Måge (parallelle metoder, REML) Bjørn-Helge Mevik (ortogonalisering)
Litteratur, publisert Jørgensen, K., and Næs, T. A design and analysis stragegy for situations with uncontrolled raw material variation. J. Chem. 18, 2 (2004), 45 52. (LS-PCA) Jørgensen, K., Segtnan, V. H., Thyholt, K., and Næs, T. A comparison of methods for analysing regression models with both spectral and design variables. J. Chem. 18, 10 (2004), 451 464. (LS-PLS, 1 blokk) Måge, I., and Næs, T. Split-plot regression models with both design and spectroscopic variables. J. Chem. 19 (2005), 521 531. (REML-PLS)
Litteratur, upublisert Jørgensen, K., Mevik, B.-H., and Næs, T. Combining designed experiments with several blocks of spectroscopic data. (Submitted). (seriell LS-PLS, flere blokker) Måge, I., and Næs, T. Regression models with categorical design variables and parallel blocks of spectroscopic measurements. (Submitted). Henriksen, H. C., Næs, T., Mevik, B.-H., and Aastveit, A. Comparing visual tewchniques for process monitoring. (Submitted(?)). (prosess-overvåking) Mevik, B.-H., Jørgensen, K., Måge, I., and Næs, T. LS-PLS regression: Combining categorical design variables with blocks of spectroscopic measurements. (In prep). (generell LS-PLS) Måge, I., Mevik, B.-H., and Næs, T. Regression models with process variables and parallel blocks of raw material measurements (In prep). (parallelle blokker, felles/unike komponenter)