LP. Kap. 17: indrepunktsmetoder simpleksalgoritmen går langs randen av polyedret P av tillatte løsninger et alternativ er indrepunktsmetoder de finner en vei i det indre av P fram til en optimal løsning for virkelig store problemer er ofte indrepunktsmetoder raskere vi ser på hovedtrekkene i disse metodene 1 / 16
1. Barriereproblemet Betrakt LP problemet og det duale max f.a. min f.a. c T x Ax b, x O b T y A T y c, y O Innfører slakkvariable w i det primale og (negativ) slakk z i det duale, som gir: 2 / 16
Primal (P): Dual: max f.a. min f.a. c T x Ax + w = b, x, w O b T y A T y z = c, y, z O Ønsker å skrive om problemene slik at vi blir kvitt begrensningene x, w O og y, z O, men likevel unngår negative verdier (eller 0) på variablene. Dette oppnås ved en logaritmisk barrierefunksjon, og vi får følgende modifiserte primale problem 3 / 16
Barriereproblemet: max (P µ ) : f.a. c T x + µ j log x j + µ i log w i Ax + w = b (P µ ) er ikke ekvivalent med det opprinnelige problemet (P), men det er en approksimasjon inneholder en parameter µ > 0. husk: x j 0 + medfører at log x j. (P µ ) er et ulineært optimeringsproblem tolkning/geometri: se Figur 17.1 i Vanderbei: nivåkurver for f µ, polyeder P, sentral vei når µ 0. Mål: skal se at (P µ ) har entydig optimal løsning x(µ) for hver µ > 0, og at x(µ) x når µ 0 +, der x er en optimal løsning av (P). (Obs: w entydig bestemt av x) 4 / 16
2. Lagrange multiplikator Fra f.eks. T. Lindstrøm, Optimering av funksjoner av flere variable, MAT1110) har vi følgende Lagrange multiplikatorregel: Teorem Anta at U IR n er åpen, og at f, g i : U IR er funksjoner med med kontinuerlige partiellderiverte (i m), og la b 1,..., b m IR. Anta at x er lokalt maksimum (eller minimum) for f på mengden S = {x IR n : g i (x) = b i (i m)}, og at g 1 (x ),..., g m (x ) er lineært uavhengige. Da finnes det konstanter λ 1,..., λ m slik at ( ) f (x ) = m λ i g i (x ). i=1 λ i -ene kalles Lagrange multiplikatorer Dette er en nødvendig optimalitetsbetingelse og leder til n + m likninger for å bestemme x og λ (n + m variable). 5 / 16
Dette kan også uttrykkes via Lagrange funksjonen (vi redef. funksjonen g i ved g i := g i b i, slik at vi ser på g i (x) = 0): Da sier ( ) at L(x, y) = f (x) m y i g i (x). i=1 x L(x, y) = O mens begrensningene g i (x ) = 0 (i m) blir (der y = λ) y L(x, y) = O. Disse likningene kalles første-ordens optimalitetsbetingelser og en løsning x kalles et kritisk punkt. Er disse også tiltrekkelige for optimalitet? Innfører Hesse-matrisen H f (x) = [ 2 f (x) x i x j ] IR n n Husk: f (x) = o(g(x) når x 0 betyr lim x 0 f (x)/g(x) = 0 6 / 16
Teorem 17.1 Hvis g i -ene er lineære, og anta at x er et kritisk punkt. Da er x et lokalt maksimum hvis z T H f (x )z < 0 for hver z O som oppfyller z T g i (x ) = 0 (i m). Bevis: Annen ordens Taylor utvikling gir f (x + z) = f (x ) + f (x ) T z + (1/2)z T H f (x )z + o( z 2 ) der z er endringsvektor fra punktet x. For å bevare tillatt løsning, må z velges slik at x + z stadig oppfyller begrensingene, d.v.s. z T g i (x ) = 0 (i m). Men, siden x er kritisk punkt, er m f (x ) T z = ( λ i g i (x )) T z = 0 i=1 så antagelsen (z T H f (x )z < 0 for...) og Taylor s formel gir at f (x + z) f (x ), så x et lokalt maksimum. 7 / 16
3. Lagrange anvendt på barriereproblemet Barriereproblemet (P µ ): max c T x + µ j log x j + µ i log w i f.a. Ax + w = b Innfører Lagrange funksjonen L(x, w, y) = c T x + µ j log x j + µ i log w i + y T (b Ax w) Første-ordens optimalitetsbetingelser blir: L x j = c j + µ 1 x j i y ia ij = 0 (j n) L w i = µ 1 w i y i = 0 (i m) L y i = b i j a ijx j w i = 0 (i m) 8 / 16
Notasjon: skriver X for diagonalmatrisen med vektoren x på diagonalen. e er vektoren med bare 1 ere. Da blir 1.ordens opt. betingelser (1.OPT) på matriseform: A T y µx 1 e y Ax + w = c = µw 1 e = b Innfører nå z = µx 1 e og får da (1.OPT) Ax + w A T y z z y = b = c = µx 1 e = µw 1 e 9 / 16
Hadde altså: Ax + w A T y z z y = b = c = µx 1 e = µw 1 e Multipliserer tredje likning med X og fjerde med W og får Ax + w = b ( ) A T y z = c XZe = µe YWe = µe De to siste likningene sier: x j z j = µ (j n) og y i z i = µ (i m) som er µ-komplementaritet (nesten-komplementær slakk). Disse er ulineære. Total har vi 2(n + m) likninger og variable. 10 / 16
Så enkelt er det: Indrepunktsmetoder (i alle fall denne typen) er å løse disse likningene ( ) tilnærmet med Newton s metode for en sekvens av µ-er. 11 / 16
4. Annen-ordens informasjon Viser nå: hvis det er løsning av opt.betingelsen ( ), så må den være unik! Bruker da Teorem 17.1 og ser på barrierefunksjonen: f (x, w) = c T x + µ j log x j + µ i log w i Første deriverte: f x j = c j + µ x j = 0 (j n) Andre deriverte: f w i = µ w i (i m) 2 f x 2 j = µ x 2 j (j n) 2 f w 2 i = µ w 2 i (i m) Så Hessematrisen er en diagonalmatrise med negative diagonalelementer: denne matrisen er negativt definitt. Entydighet følger da av Teorem 17.1. 12 / 16
5. Eksistens Teorem 17.2 Det finnes en løsning av barriere problemet hvis og bare hvis både det primalt tillatte området og det dualt tillatte området har ikketomt indre. Bevis: Skal vise hvis -delen. Anta eksisterer ( x, w) > O slik at A x + w = b (relativt indre punkt i (x, w)-rommet), og (ȳ, z) > O med A T ȳ z = c. La (x, w) være primalt tillatt. Da er så z T x + ȳ T w = (A T y c) T x + ȳ T (b Ax) = b T ȳ c T x. Barrierefunksjonen f blir da c T x = z T x ȳ T w + b T ȳ f (x, w) = c T x + µ j log x j + µ i log w i = j ( z jx j + µ log x j ) + i ( ȳ iw i + µ log w i ) + b T ȳ 13 / 16
Leddene i hver sum er på formen h(v) = av + µ log v der a > 0 og 0 < v < og denne funksjonen har unikt maksimum i µ/a og går mot når v. Dette medfører at mengden {(x, w) : f (x, w) δ} er begrenset for hver δ. La nå δ = f = f ( x, w) og definer mengden P = {(x, w) : Ax + w = b, x O, w O, } {(x, w) : x > O, w > O, f (x, w) f }. Da er P lukket. Fordi: P er snitt mellom to lukkede mengder; den siste mengden er lukket fordi f er kontinuerlig (at definisjonsområdet {(x, w) : x > O, w > O} ikke er lukket spiller ingen rolle her.) Derfor er P lukket og begrenset, dvs. kompakt. P er også ikketom (inneholder ( x, w)). Ved ekstremverdisetningen vil da f anta sitt maksimum på P, og derfor også på {(x, w) : Ax + w = b, x > O, w > O} som ønsket. 14 / 16
Man får dermed (også via en oppgave som sier at det duale har et indre punkt når det primale tilatte området er begrenset): Korollar 17.3 Hvis det primalt tillatte området har indre punkter og er begrenset, så vil det for hver µ > 0 eksistere en entydig løsning av ( ). (x(µ), w(µ), y(µ), z(µ)) Vi får da en kurve p(µ) := {(x(µ), w(µ), y(µ), z(µ)) : µ > 0} i IR 2(m+n) som kalles den primal-dual sentrale veien. I den primal-dual vei-følge metoden lager man en sekvens µ (1), µ (2),... som konvergerer mot 0, og for hver µ (k) løser man tilnærmet det ulineære likningssystemet ( ) med Newton s metode. Den tilhørende sekvensen p(µ (k) ) vil da konvergere mot optimal primal-dual løsning. Et mer presist resultat om konvergens, og flere detaljer, finnes i Kap. 18 og 19 (ikke pensum). 15 / 16
Eksempel: Et problem med m = 40 og n = 100. Viser l 2 -norm av residualer for hver iterasjon: (primal) ρ = b Ax w; (dual) σ = c A T y + z; (kompl.slakk.) γ = z T x + y T w. Finner optimal løsning. Iter. primal dual KS 2 189.61190 124.81236 103.89923 4 117.87500 77.59142 49.26126 6 81.95498 53.94701 30.11503 8 55.11458 36.27926 18.64561 10 30.92967 20.35951 9.75917 12 10.05169 6.61654 3.24588 14 4.37507 2.87990 1.52481 16 1.62442 1.06928 0.59844 18 0.64896 0.42718 0.25285 20 0.37908 0.24953 0.15657 22 0.14284 0.09402 0.06359 24 0.11378 0.07490 0.05191 26 0.00145 0.00095 0.00413 28 0.00000 0.00000 0.00005 30 0.00000 0.00000 0.00000 16 / 16