Eksamen i TMA48 Optimeringsteori Løsningsforslag. Oppgave :. ordens betingelse for minima gir oss f(x) = [ 2x 2x 2 + 2 2x 2 2x 2 ] [ = som er oppfylt for når x 2 = x +. I dette punktet er [ ] 2 2 2 f(x) = 2 2 ], dvs. 2 f(x) er positiv semi-definit (egenverdiene er 4 og ). Dermed er f(x) en konveks funksjon, og linjen x 2 = x + utgjør alle minima til funksjonen. Oppgave 2. En mengde Ω er konveks dersom: for alle x, y Ω så er θx + ( θ)y Ω for alle θ (, ). En funksjon er konveks på et konvekst sett Ω dersom følgende egenskap er oppfylt: for alle x, y Ω så gjelder f(θx + ( θ)y) θf(x) + ( θ)f(y), for alle θ (, ). Oppgave 3 Hvis x = [x,, x 2,..., x n ] T så er ϕ(α) = f(x + αp) = f(x + αp,, x n + αp n ), og ϕ (α) = f(x + αp) x p + f(x + αp) x 2 De to Wolfe-betingelsene for skrittlengden α er gitt ved:. f(x + α p) f(x ) + c α f(x ) T p. 2. f(x + α p) T p c 2 f(x ) T p. hvor c c 2 er gitte konstanter. p 2 + + f(x + αp) x n p n = f(x + αp) T p. Den første betingelsen sikrer at et skritt med lengde α og i retning p reduserer målfunksjonen f tilstrekkelig. Den andre betingelsen sikrer at vi ikke velger α for liten. Dessuten, hvis ϕ (α) er svært negativ, er det et tegn på at vi kan redusere f(x + αp) vesentlig ved å øke α. Denne situasjonen unngås ved betingelse 2. For figurer, se Nocedal & Wright, s. 38-4. Oppgave 4. a) Et lineært problem på standard for er gitt ved minc T x, slik at Ax = b, x.
Vi endrer max til min og innfører slakk-variable y, y 2 og y 3, slik at problemet på standard form blir min { 2x x 2 x 3 } slik at x + x 3 + y = x 2 + x 3 + y 2 = 2 x + x 2 + y 3 = 3 x, x 2, x 3, y, y 2, y 3. b) Ta utgangspunkt i et generelt lineært problem, der det tillatte området er gitt på formen Ax = b x. der A er en m n matrise, med m n. Et tillatt punkt x er en vektor som oppfyller betingelsene over (selvfølgelig), og som i tillegg har maksimalt m elementer forskjellig fra. (Hvis det har færre enn m elementer forskjellig fra sier vi at x er et degenerert basispunkt). For et tillatt basispunkt x skal følgende gjelde: Det skal være mulig å finne et index-sett B(x) {, 2,, n} slik at B(x) inneholder nøyaktig m elementer. Hvis i B(x) så er x i =. m m matrisa definert ved B = [A i ] i B(x) er inverterbar. A i er kolonne nr. i i A. For problemet i oppgave b) kan et passende basispunkt være x = [,,,, 2, 3] T. Oppgave 5. a) Lagrange-funksjonen er gitt ved L(x, λ) = q(x) m λ i (a T i x b i ) i= og for et tillatt punkt x er KKT-betingelsene er gitt ved Gx + d = m a i λ i () i= λ i (a T i x b i ) =, i =, 2,, m λ i, i =, 2,, m. Et punkt x som tilfredsstiller disse betingelsene kalles et KKT-punkt. Siden G er symmetrisk positiv definitt er q(x) strengt konveks. Området Ω = { x : a T i x b i, i =, 2,, m } er konvekst siden alle føringene er lineære. Dermed vil et KKT-punkt x være et globalt minimum. b) Problemet er gitt ved min (x ) 2 + (x 2 ) 2 2
med føringene En skisse av problemet er gitt under. i) x 2x 2 2 ii) 2x 3 iii) x iv) x 2. (2) x 2..5 *.5..5 x Minimum av q(x) ligger utenfor det tillatte (skraverte) området. Det er klart at minimum må ligge på føringen gitt av x 2x 2 2. Føringene 2x 3 og x, x 2 er passive, slik at λ 2 = λ 3 = λ 4 =. KKT-betingelsene blir da 2x 2 = λ med løsningen 2x 2 2 = 2λ x x 2 = 2 x = 4 5, x 2 = 3 5, λ = 2 5, λ 2 = λ = λ 4. c) G er symmetrisk, slik at q(x + p) = 2 (x + p) T G(x + p) + (x + p) T d = 2 pt Gp + p T (Gx + d) + 2 x Gx + x T p = 2 pt Gp + p T d + q(x ). med d = Gx + d. q(x ) er konstant, og vil ikke påvirke løsningen p av optimeringsproblemet. Føringene er gitt av a T i (x + p) = b i, i W. Alle føringene i W er aktive i x, slik at a T i x = b i. Vårt reduserte problem kan dermed reduseres ytterligere til { } min p 2 pt Gp + p T d (3) når A W p = 3
der A W er en matrise med radene a T i, i W. Siden a i er lineært uavhengige vil A W ha full rang. Vi kan nå fortsette på en av to måter: Alternativ a). KKT-betingelsene for det reduserte problemet blir Gp + d = i W a i λ i = A T W λ W, (4) A W p =, hvor λ W = [λ i ] i W. G er symmetrisk positiv definitt og dermed inverterbar, slik at Setter vi dette inn i ligningen for føringene får vi p = G (A T Wλ W d). A W p = A W G (A T Wλ W d) = Matrisa A W har full rang, dermed er matrisa A W G A T W mhp. λ W. Settes dette igjen inn i uttrykket for p får vi: inverterbar og siste ligning kan løses λ W = (A W G A T W) A W G d, p = ( G A T W(A W G A T W) A W G G ) d. (5) Alternativ b). Søkeretningen p må ligge i nullrommet til A W. La Z være en basis for nullrommet til A W, slik at alle tillatte søkeretninger p skrives som p = Zu, hvor u R n mw og m W er antall føringer i W. Vi kan dermed definere en ny funksjon f(u) = 2 (Zu)T G(Zu) + (Zu) T d, og vi har fått et kvadratisk minimeringsproblem i u uten føringer, min u f(u), som har løsningen u = G Z T d. Matrisa G = Z T GZ er SPD siden Z har full rang og G er SPD. Søkeretningen er nå gitt av p = Z G Z T d. De tilhørende Lagrange-multiplikatorene kan vi finne ved å sette λ i = for alle i W, og løse de resterende fra (4). d) La E = {, 2,, m}, og sett x α = x +αp. Da vil a T i x α = b i for alle i W, dvs. at alle føringene i W er aktive, og dermed oppfylt, for alle α. For at x α skal være et tillatt punkt, alle føringene tatt i betraktning, må a T i (x + αp) b i, for alle i E\W. La α i = b i a T i x a T i p, ᾱ = min i E\W α i. (6) Så lenge α ᾱ, vil altså x + αp være et tillatt punkt. Dermed er to situasjoner mulige: Hvis ᾱ så ligger minimum av det reduserte problemet fra punkt b), x = x +p innenfor det tillatte området. Da bruker vi denne verdien. Hvis ᾱ < når vi randa av det tillatte området før vi når minimum av det reduserte området. I så fall velger vi x = x + ᾱp. 4
e) Skriv om den kvadratiske funksjonen (x ) 2 + (x 2 ) 2 = 2 xt [ 2 2 ] x + x T [ 2 2 der x = [x, x 2 ] T. Så G = 2I, og d = [ 2, 2] T. La x = [3/2, ] T, slik at [ ] d = 2x + d =. 2 ] +, I x er det 2 aktive føringer, ii) og vi) fra (2). Vi kan altså velge W til å omfatte en av disse, begge eller ingen. I det etterfølgende er alternativ b) valgt for å finne p. Velg f.eks. W = {iv)}, slik at A W = [, ]. Da er Z = [, ] T, og vi får G = Z T GZ = 2, G = 2. u = GZ T d = 2. [ ] p = Zu = 2. Punktet x + p = [, ] T ligger i det tillatte området (sjekk det), så vi setter x = [, ] T. Alternativt kunne vi velge W = {ii)}, slik at A W = [ 2, ] med nullrom spent ut av Z = [, ] T, og G = 2, u =, p = Z = [, ] T. Men x +p = [ 3 2, ] ligger utenfor det tillatte området, føring i) er ikke oppfyllt her. Skrittlengden ᾱ regner vi ut fra (6). Fra figuren ser vi at det bare er nødvendig å sjekke føring i), de andre vil alle være oppfyllt når vi beveger oss rett oppover fra x. Vi får dermed: og ᾱ = α = 2 [, 2][ 3 2, ] T [, 2][, ] T = 4, x = x + ᾱp = [ 3 2, ] 4 Hvis W = { }så vil p = [ 2, ] T, ᾱ = 3 og x = [ 4 3, 3]. Hvis W = {ii), iv)} så vil p = [, ] T. f) Anta først at x = x + p, dvs. at løsningen av det reduserte problemet er et tillatt punkt. Anta at de tilhørende Lagrange-mulitplikatorene er funnet. Dersom λ i for alle i W og λ i = for alle i W, så er KKT-betingelsene for det generelle problemet oppfyllt, og x er vårt globale minimum. Hvis λ i < for en eller flere i W, så fjerner vi den føringen som korresponderer til den 5
Oppgave 6. største negative verdien av λ. Dette danner da et nytt sett med aktive føringer som brukes til neste iterasjon. (Dette er ikke en del av en besvarelsen: Gå tilbake til punkt e), og la W = {iv)}, slik at x = [, ] T. La λ = λ 2 = λ 3 =, og finn λ 4fra (), dvs. λ 4 = 2. Vi kan dermed konkludere med at x ikke er et KKT-punkt, føringen iv) fjernes fra W. ) Hvis x = x + ᾱp, med ᾱ <, så betyr det at en ny føring blir aktiv. Denne inkluderer vi i W. Se for øvrig algoritme 6. i Nocedal & Wright. a) Vi undersøker om f(x, y, z) = 2e x y+z 2 er sterkt konveks i S R 3 etter definisjon (3.4) i Troutman, dvs. om: f(x, y + v, z + w) f(x, y, z) f y (x, y, z)v + f z (x, y, z)w, (x, y, z) and (x, y + v, z + w) S med = bare hvis v = eller w =. I vårt tilfelle er f y = 2e x og f z = 2z, og f(x, y + v, z + w) f(x, y, z) = 2e x (y + v) + (z + w) 2 2e x y z 2 = 2e x v + 2zw + w 2 2e x v + 2zw, for alle (x, y, z) R 3 med likhet hvis og bare hvis w =. Så f er sterkt konveks, og dermed er F(y) strengt konveks på D (Teorem 3.5). Alternativt kunne en skrive F(y) = 2e x y(x)dx + y (x) 2 dx. Det siste integralet er en strengt konvekst på D (hvorfor?), det første er lineært i y og dermed konvekst (men ikke strengt konvekst). Summen av en konveks og en strengt konveks funksjonal blir en strengt konveks funksjonal. Det er også mulig å bruke definisjon (3.) i Troutman direkte. (Før vi løser de siste oppgavene, la oss som neste skritt utlede Euler-Lagrange-ligningene: Gitt funksjonalen F(y) = R b a f(x,y, y )dx. Den Gateaux -deriverte av F(y) er gitt ved δf(y;v) = = (Delvis integrasjon) = Z b a Z b a Z b a ε f(x, y + εv, y + εv ) ε=dx `fy(x, y,y )v + f z(x,y, y )v dx f y(x, y, y ) d «dx fz(x,y, y ) vdx + b af z(x, y,y )v Dette forutsetter at f er tilstrekkelig glatt til at derivasjonen med hensyn på ε kan flyttes innenfor integrasjonen. I så fall er δf(y;v) = for alle y, v + y D hvis d dx fz(x,y, y ) = f y(x,y, y ), f z(a,y(a),y (a))v(a) = og f z(b, y(b),y (b))v(b) =. (7) Den første ligningen er Euler-Lagrange ligningen, de to andre er randbetingelser. ) 6
b) Euler-Lagrange ligningen blir d dx 2y = 2e x som blir y = e x, med løsning y(x) = e x + C x + C 2 (8) der C og C 2 er konstanter som må bestemmes fra randbetingelsene. I dette tilfellet ser vi at y, v + y D bare hvis y() =, y() = og v() = v() =. De to randbetingelsene i (7) automatisk er oppfyllt, C og C 2 bestemmes fra randbetingelsene for y. Resultatet blir: y(x) = e x + (2 e)x. c) Euler-Lagrange ligningen er som før, med løsning gitt i (8). De to konstantene blir nå bestemt av randbetingelsen y() = og f z (, y(), y ()) = 2y () =, den siste betingelsen kommer fra (7). Dette resulterer i løsningen y(x) = e x ex. d) Vi ser nå på den utvidede funksjonalen F(y) = ( 2e x y + y 2) dx + λ ydx. der λ er en (foreløbig) ukjent konstant. Siden det siste integralet er lineært i y, vil også F være strengt konveks på D. Euler-Lagrange ligningen blir: y = e x + 2 λ med løsning y(x) = ex + λ 4 x2 + C x + C 2. Med randbetingelsene y() = og y() = blir løsningen Konstanten λ bestemmes av tilleggsbetingelsen y(x) = e x + λ 4 x2 + (2 e λ)x. y(x)dx = (e x + λ4 x + (2 e λ)x ) dx = ex + λ 2 x + 2 (2 e λ 4 )x2 x = e + 3 λ + (2 e λ) = 2 2 som har løsningen λ = 2e 72. Løsningen y(x) er dermed gitt av y(x) = e x + (3e 8)x 2 + (2 4e)x. 7