Kap. 7 Symmetriske matriser og kvadratiske former

Kap. 7 Symmetriske matriser og kvadratiske former Vi skal koble diagonalisering av matriser sammen med ortogonalitet. Skal bl.a. se på symmetriske matriser som har uvanlig pene egenskaper mht. diagonalisering. Knyttet til symmetriske matriser har vi kvadratiske former og vi skal studere visse optimeringsproblemer for disse. Til slutt ser vi på singulærverdi dekomposisjonen til en matrise. Den er nyttig i mange anvendelser. 7. Symmetriske matriser Vi skal se at alle symmetriske matriser er diagonaliserbare, og har spesielle spektrale egenskaper. Singulærverdi dekomposisjonen til en (rektangulær) matrise A (avsnitt 7.4), henger nøye sammen med diagonaliseringen av den symmetriske matrisen A T A. For komplekse matriser er det analoge til symmetrisk det som kalles selv-adjungerte (eller Hermitiske ) matriser. Disse spiller en fremtrende rolle i fysikk (spesielt i kvantemekanikk). / 23

Definisjon. En n n (reell) matrise A kalles symmetrisk dersom A T = A. Hvis A = [a ij ], så er A symmetrisk hvis og bare hvis a ij = a ji for alle i, j. a b c F.eks. er matrisen A = b d e er symmetrisk. c e f Alle diagonalmatriser er symmetriske. Hvis A M n (R), så er B = A + A T symmetrisk. Og hvis A M m n (R), så er C = A T A symmetrisk. Hva er spesielt med symmetriske matriser? [ ] 7 2 Eksempel. Betrakt den symmetriske matrisen A =. 2 4 Utregning gir at egenverdiene til A er 3 og 8, og at egenrommene til A er gitt ved 2 / 23

[ ] 4 2 { [ ] E3 A = Nul(A 3 I ) = Nul } = Span, 2 2 [ ] 2 { [ ] E8 A = Nul(A 8 I ) = Nul 2 } = Span. 2 4 Legg merke til at egenrommene til A er ortogonale på hverandre: La v = (, 2), v 2 = (2, ), som utspenner hvert sitt egenrom. Da er v v 2 = 0, så disse er ortogonale på hverandre. Ved å normalisere v og v 2 får vi vektorene u = [ 5 2 ], u 2 = 5 [ 2 ], som danner en ortonormal basis for R 2 med egenvektorer for A. Matrisen P = [u u 2 ] er dermed ortogonal (P = P T ), og slik at A = P [ 3 0 0 8 ] P = P [ 3 0 0 8 ] P T Vi skal se at dette er typisk for symmetriske matriser. 3 / 23

En viktig egenskap til en symmetrisk matrise er at dens egenrom er ortogonale på hverandre: Teorem. La A være en symmetrisk matrise, og la u, u 2 være egenvektorer for A som tilhører to forskjellige egenverdier. Da er u ortogonal på u 2. En annen viktig egenskap er: reelle egenverdier. En symmetrisk matrise har bare Definisjon. A M n (R) kalles ortogonalt diagonaliserbar dersom det fins en n n ortogonal matrise P (så P = P T ) og en n n diagonal matrise D slik at A = P D P T = P D P Merk at da er A diagonaliserbar i vanlig forstand. Videre er A T = (P D P T ) T = (P T ) T D T P T = P D P T = A. En ortogonalt diagonaliserbar matrise er altså symmetrisk. Den omvendte påstanden er også riktig. 4 / 23

Teorem 2. La A være en kvadratisk matrise. Da er A ortogonalt diagonaliserbar hvis og bare hvis A er symmetrisk. Ortogonal diagonalisering i praksis (når vi regner for hånd.): La A være en symmetrisk n n matrise. Vi skal konstruere P = [u... u n ] ortogonal og D = diag(λ,..., λ n ) slik at A = P D P T = P D P. Her må λ,..., λ n R være egenverdiene til A og P s kolonner må danne en ortonormal basis for R n bestående av de tilhørende egenvektorene. Metoden er: Bestem egenverdiene til A. For hver av egenverdiene: bestem en basis for det tilh. egenrommet og utfør Gram-Schmidt prosessen med normalisering. Dann mengden B som består av alle de ortonormale basisene konstruert ovenfor. Matrisen P har vektorene fra B som sine kolonner. Matrisen D er diagonalmatrisen med de tilhørende egenverdiene til A i tilsvarende rekkefølge. 5 / 23

Eksempel. La A = 2 2 2 2 2 2 Vi finner da at egenverdiene til A er ±3. Finner tilhørende egenvektorer (, 0, ) og (0,, ) for egenverdi 3, og bruker Gram-Schmidt prosessen på disse. For egenverdi 3 finner vi egenvektor (,, ) som vi normaliserer. { Resultatet er B = 2 0,. 6 2, 3 som er en o. n. b. for R 3 av egenvektorer for A. P = 2 6 2 0 6 3 3 2 6 3 er da ortogonal, og slik at A = P diag(3, 3, 3) P T. } 6 / 23

Mengden av alle egenverdier til en kvadratisk matrise A kalles ofte spektret til A. Neste teorem oppsummerer de spektrale egenskapene til symmetriske matriser. Teorem 3 Spektralteoremet for symmetriske matriser. La A være en n n symmetrisk matrise. Da gjelder følgende: a) A har n reelle egenverdier når vi teller med multiplisiteten. b) Dimensjonen til hvert av egenrommene til A er lik multiplisiteten til den tilhørende egenverdien, c) Egenrommene står ortogonalt på hverandre. d) A er ortogonalt diagonaliserbar. 7 / 23

Spektral dekomposisjonen til en symmetrisk matrise. Betrakt en n n symmetrisk matrise A. Velg P = [u... u n ] ortogonal og D = diag(λ,..., λ n ) slik at A = P D P T. Da er λ 0 0 0 λ 2 0 0 u T A = [u u 2... u n ].. 0...... u T........ 2. 0 u T n 0 0 0 λ n u T u T = [λ u λ 2 u 2... λ n u n ] 2. u T n = λ u u T + λ 2 u 2 u T 2 + + λ n u n u T n (bruker kolonne-rad formelen for matriseproduktet i siste likhet). 8 / 23

Dette kan skrives som A = λ P + λ 2 P 2 + + λ n P n der P j = u j u T j, j =,... n. Dette kalles kalles en spektral dekomposisjon av A. Sett W j = Span {u j }. Ved Teorem 0 i Kap. 6 er Proj Wj (x) = u j u T j x for alle x R n. Matrisen P j = u j u T j er altså standardmatrisen til Proj Wj. Hver P j har rang siden Col P j = W j er -dimensjonalt, og tilfredstiller at P 2 j = P j = P T j. 9 / 23

7. forts. Schur triangularisering og spektralteoremet Vi skal se på to svært sentrale resultat i lineær algebra. Spektralteoremet (Teorem 3 i Lay): dette sier bl.a. at reelle symmetriske matriser er ortogonalt diagonaliserbare, og Schur triangularisering: tilleggsstoff (noe kjennskap). Vi fokuserer på det reelle tilfellet (det finnes en kompleks variant) Minner om at to kvadratiske matriser A og B kalles similære dersom det finnes en invertibel matrise S slik at B = S AS. Da har A og B samme egenverdier. Spesielt enkelt er dette hvis S er en ortogonal matrise (dvs. S er n n og kolonnene er ortonormale); da er nemlig S = S T!! 0 / 23

Teorem ( Schur triangulering) Anta at A er en n n matrise med reelle egenverdier λ, λ 2,..., λ n (telles med multipl., i en viss rekkefølge). Da finnes en (reell) ortogonal matrise U slik at U T AU = T er øvre triangulær, og der diagonalelementene i T er egenverdiene til A, t ii = λ i (i n). Merk: U T er den transponerte av U. T er en matrise. Schur triangularisering har en rekke anvendelser. Vi skal her bruke dette resultatet til å vise spektralteoremet. / 23

Teorem ( Spektralteoremet) La A være en reell symmetrisk n n matrise. Da har A reelle egenverdier λ, λ 2,..., λ n (telles med multipl., i en viss rekkefølge) og det finnes en (reell) ortogonal matrise U slik at U T AU = D der D er diagonalmatrisen med diagonalelementer λ, λ 2,..., λ n. Kolonnene i U er n ortonormale egenvektorer som hører til de resp. egenverdiene. Bevis (skisse): Først kan man bruke at A er symmetrisk til å vise at A har relle egenverdier og dermed reelle egenvektorer. Ved Schur triangulering finnes da en ortogonal matrise U slik at U T AU = T der T er øvre triangulær. Men A symmetrisk som medfører at T er symmetrisk, og T er derfor en diagonalmatrise. 2 / 23

7.2 Kvadratiske former Funksjoner på R n som er lineærkombinasjoner av ledd av typen xi 2 eller x i x j (der i j) opptrer i mange anvendelser. Disse kalles kvadratiske former. Kvadratiske former på R n kan skrives på formen x T A x der A er en symmetrisk n n matrise. Ved teorien for symmetriske matriser kan vi alltid foreta et ortogonalt variabelskifte som forenkler en gitt kvadratisk form. Et variabelskifte svarer til et bytte av koordinatsystem. Nivåmengder for en kvadratisk form er enkle å beskrive når man velger riktig koordinatsystem. Når n = 2 er nivåkurvene man da får gjerne ellipser eller hyperbler. Skal se til slutt at kvadratiske former (og symmetriske matriser) kan klassifiseres i noen hovedtyper. Disse typene er viktige f.eks. når man studerer stasjonære punkter til reelle funksjoner på R n (ved å se på Hesse-matrisene, jf. MAT0). 3 / 23

Definition. En kvadratisk form på R n er en funksjon Q : R n R som kan skrives på formen Q(x) = x T A x der A er en symmetrisk n n matrise. [ ] 5 2 Eksempel. La A = og Q(x) = x 2 5 T A x. Da er Q(x) = [ ] [ ] [ ] 5 2 x x x 2 = [ ] [ 5x x 2 5 x x 2x 2 2 2 2x + 5x 2 = x (5x 2x 2 ) + x 2 ( 2x + 5x 2 ) = 5x 2 4x x 2 + 5x 2 2. Eksempel. La Q(x) = a x 2 +b x x 2 +c x 2 2 +d x 2 x 3 +e x 2 3 +f x x 3, x = (x, x 2, x 3 ) R 3. ] Da er Q(x) = [ x x 2 ] x 3 a b/2 f /2 b/2 c d/2 f /2 d/2 e x x 2 x 3. 4 / 23

Kvadratiske former tilordnet diagonalmatriser er enkle : La D= diag(d, d 2,..., d n ) og Q (y) = y T D y, y R n. Da er Q (y) = d y 2 + d 2 y 2 2 +... + d n y 2 n Med enkel menes altså at det finnes ingen kryssledd av typen y i y j med i j. Vi skal nå se at vi kan alltid gjøre om en kvadratisk form til en enkel kvadratisk form uten kryssledd ved et passende variabelskifte. Husk at et variabelskifte svarer til at vi skifter basis (og dermed koordinatsystem): hvis P = [u... u n ] er en n n invertibel matrise og vi foretar variabelskiftet y = P x, mao. x = Py så er y koordinatvektoren til x mhp. basisen B = {u... u n } (fordi P er koordinatskiftematrisen fra standard basisen til B, jf. avsn. 4.4 og 4.7). 5 / 23

Betrakt en kvadratisk form på R n Q(x) = x T A x der A er en symmetrisk n n matrise. Siden A er symmetrisk vet vi fra avsn. 7. at A er ortogonalt diagonaliserbar: det finnes da en ortogonal n n matrise P og en n n diagonalmatrise D = diag(d,..., d n ) slik at A = PDP = PDP T (siden P = P T ), og da er P T AP = D. Minner om at kolonnene i P er da en ortonormal basis B for R n bestående av egenvektorer for A tilhørende egenverdiene d,..., d n. Vi foretar nå variableskiftet y = P x, mao. x = Py. Vi får da at Q(x) = x T A x = (Py) T A(Py) = y T P T APy = y T Dy. Nå er Q (y) := y T D y en kvadratisk form uten kryssledd! 6 / 23

Vi har dermed vist følgende: Teorem 4. I koordinatsystemet for R n med akser bestemt av en ortonormal egenvektorbasis B for den symmetriske matrisen A, så blir den kvadratiske formen Q(x) = x T Ax gjort om til en kvadratisk form uten kryssledd. Aksene i koordinatsystemet ovenfor kalles ofte hovedaksene (eller prinsipalaksene). [ ] 5 2 Eksempel. La A = og Q(x) = x 2 5 T A x. Vi finner at egenverdiene til A er ] 3 og 7, med[ tilhørende ], u 2 = 2. [ enhetsegenvektorer u = 2 ] Sett P = [ 2 2 2 2 Variabelskiftet x = Py gir da at og D = diag(3, 7). Q(x) = x T A x = y T Dy = 3y 2 + 7y 2 2 (= Q (y)). 7 / 23

En geometrisk anvendelse For enkelhets skyld ser vi på når n = 2. Betrakt en kvadratisk form på R 2, Q(x) = a x 2 + b x x 2 + c x 2 2. Hvordan ser nivåkurvene til Q ut? Minner om at nivåkurven til Q svarende til en verdi d R består av alle x = (x, x 2 ) i R 2 som er slik at Q(x) = d, mao. som tilfredstiller likningen a x 2 + b x x 2 + c x 2 2 = d Vi kan da skifte variabel og gå over til koordinatsystemet angitt i Teorem 4. Likningen ovenfor forenkles da til likningen d y 2 + d 2 y 2 2 = d der d og d 2 er egenverdiene til den symmetriske matrisen A tilordnet Q. Kurvene bestemt av denne likningen, og dermed nivåkurvene til Q, lar seg lett beskrive. 8 / 23

Anta f.eks. at d, d 2 og d alle er forskjellig fra 0. Da har vi at hvis d, d 2 (og d) alle har samme fortegn så blir kurven en ellipse hvis d, d 2 har motsatt fortegn så blir kurven en hyperbel. Eksempel. Betrakt likningen 5 x 2 4 x x 2 + 5 x2 2 = 48, mao. [ ] Q(x) = 48 der Q(x) = x T 5 2 A x med A =. 2 5 I koordinatsystemet bestemt av egenvektorbasisen for A vi fant da, blir likningen omgjort til 3 y 2 + 7 y 2 2 = 48, altså til y 2 4 2 + y 2 2 ( 48/7 ) 2 = som er likningen for en ellipse (se fig. 3(a) s. 476). 9 / 23

Eksempel. Betrakt likningen 3 x 2 + 0 x x 2 + 3 x2 2 = 2, mao. [ ] 3 5 Q(x) = 2 der Q(x) = x T A x med A =, 5 3 Man regner lett ut at egenverdiene ] til A er 8 og [ -2, med ] tilhørende, u 2 = 2. [ enhetsegenvektorer u = 2 ] Sett P = [ 2 2 2 2. Variabelskiftet x = Py gjør da likningen Q(x) = 2 om til likningen 8 y 2 2 y 2 2 = 2, dvs. y 2 (/2) 2 y 2 2 =. Dette er likningen for en hyperbel. 20 / 23

Klassifikasjon av kvadratiske former Motivasjon. La Q(x) = x T Ax være en kvadratisk form på R 2. Det er enkelt å sjekke at O = (0, 0) er et stasjonært punkt for Q, dvs. Q x (0, 0) = Q x 2 (0, 0) = 0. Et naturlig spørsmål er derfor: hva slags stasjonært punkt er O? Merk at Q(O) = 0. Definition. En kvadratisk form Q på R n kalles positiv definit dersom Q(x) > 0 for alle x O. (Da er O et min. punkt for Q). negativ definit dersom Q(x) < 0 for alle x O. (Da er O et maks. punkt for Q). indefinit dersom Q(x) antar både positive og negative verdier. (Da vil O være et sadelpunkt for Q). 2 / 23

Merk : man sier også at Q er positiv semidefinit dersom Q(x) 0 for alle x, negativ semidefinit dersom Q(x) 0 for alle x. Teorem 5 Kvadratiske former og egenverdier. La A være en n n symmetrisk matrise. Den kvadratiske formen Q(x) = x T Ax på R n er positiv definit alle egenverdiene til A er positive, negativ definit alle egenverdiene til A er negative, indefinit A har både positive og negative egenverdier. Merk : tilsvarende gjelder det at Q er positiv semidefinit alle egenverdiene til A er ikkenegative, negativ semidefinit alle egenverdiene til A ikkepositive, 22 / 23

Bevis-skisse. Ved å benytte Teorem 4 kan vi betrakte istedet Q (y) = d y 2 + + d n y 2 n der d,..., d n er egenverdilisten til A. Ved å studere fortegnet til dette uttrykket er det rimelig opplagt at påstandene i teoremet er sanne. Eksempel. La Q(x) = 5 x 2 4 x x 2 + 5 x2 2 [ ]. 5 2 Siden A = har egenverdiene 3 og 7, som begge er 2 5 positive, så er Q positiv definit. (Dermed er (0, 0) et min. punkt for Q). Merk: Samme terminologi brukes til å klassifisere symmetriske matriser som kvadratiske former: en symmetrisk matrise A kalles positiv definit dersom den tilhørende kvadratiske formen er positiv definit, osv. Teorem 5 har da en tilsvarende formulering for symmetriske matriser. [ ] 5 2 F.eks. er A = positiv definit (jf. tidl. eksempel). 2 5 23 / 23