Kap. 6 Ortogonalitet og minste kvadrater IR n er mer enn bare et vektorrom: den har et naturlig indreprodukt, nemlig prikkproduktet av vektorer. Dette indreproduktet gjør det mulig å tenke geometrisk og snakke om lengde og ortogonalitet. I mange anvendelser møter vi inkonsistente lineære likningsystemer. Ved hjelp av indreprodukt kan vi finne en best mulig løsning av slike systemer. Mange vektorrom kan utstyres med et indreprodukt, og ulike typer indreprodukt finnes. Hvilket indreprodukt som det er naturlig å bruke avhenger av problemet som studeres. 1 / 16
6.1 Indreprodukt, lengde og ortogonalitet (i R n ) Definisjon. La u = (u 1, u 2,, u n ), v = (v 1, v 2,, v n ) IR n. Vi definerer da: (i) indreproduktet (eller prikkproduktet) av u og v ved u v = u T v = u 1 v 1 + u 2 v 2 + + u n v n (ii) lengden (eller normen) til u ved u = u T u = u u = u1 2 + u2 2 + + u2 n, og (iii) avstanden mellom u og v ved d(u, v) = u v = (u 1 v 1 ) 2 + (u 2 v 2 ) 2 + + (u n v n ) 2 Eksempel. La u = (2, 1, 0, 3), v = (3, 2, 5, 0), w = (0, 3, 0, 1) IR 4. Da er f.eks. u v = 4, u w = 0 u = 14, v = 38 d(u, v) = 44 = 2 11. 2 / 16
Teorem 1. [Hovedegenskapene til indreproduktet i IR n ] La u, v, w IR n, c IR. Da gjelder: a) b) u v = v u (u + v) w = u w + v w c) (c u) v = c (u v) = u (c v) d) u u 0, og u u = 0 u = 0. Kommentarer til Teorem 1 Dette gir at, for hver v, så er funksjonen u u v en lineær avbildning. Tilsvarende, for hver u, så er v u v en lineær avbildning. Videre, c) gir at c u = c u når c R, u R n. Definisjon. v IR n kalles en enhetsvektor dersom v = 1. 3 / 16
Merk: Hvis u IR n, u 0, så er v = 1 u u en enhetsvektor Vi sier at v er enhetsvektoren vi får fra u ved normalisering. Eksempel. La u = (2, 1, 0, 3). Da er u = 14. Normalisering av u gir oss enhetsvektoren ( ) v = 1 u u = 1 14 (2, 1, 0, 3) = 2 14, 1 3 14, 0, 14. Merk at v peker i samme retning som u. Vektoren v er også en enhetsvektor, men den peker i motsatt retning av u. Definisjon. To vektorer u og v i IR n kalles ortogonale dersom u v = 0 Motivasjon: Hvis u, v er to ikke-null vektorer i IR 2 (eller IR 3 ), følger det (av cosinussetningen) at u v = u v cos θ der θ [0, π] er vinkelen mellom u og v. Spesielt er u v = 0 cos θ = 0 θ = π/2. 4 / 16
Kommentar: Vi skal senere vise Cauchy-Schwarz ulikheten u v u v u v u, v IR n. Den gir at 1 u v 1 Så vinkelen θ [0, π] mellom to ikke-null vektorer u og v i R n kan derfor defineres ved cos θ = u v u v Teorem 2 [Pythagoras teorem]. La u, v IR n. Da gjelder: u, v er ortogonale u + v 2 = u 2 + v 2 Bevises ved å regne ut u + v 2 = (u + v) T (u + v). Eksempel. La u = (2, 1, 0, 2), v = (3, 2, 0, 2) IR 4. Da er u v = 6 2 + 0 4 = 0, så u og v er ortogonale. (Sjekk Pythagoras her.) 5 / 16
Ortogonal komplement Definisjon. La W være et underrom av IR n, og la v IR n. Vi sier at v er ortogonal på W dersom v er ortogonal på alle vektorene i W. Mengden av alle vektorene i IR n som er ortogonale på W kalles det ortogonale komplementet til W og betegnes med W. Eksempel. La W = Span {n} der n = (a, b, c) IR 3, n 0. Da er W planet som går gjennom origo og har n som normalvektor: W = {v IR 3 n v = 0 } = {v IR 3 a v 1 + b v 2 + c v 3 = 0 }. Setter vi M = W, er det geometriskt klart at M = W. Merk: 1) W er alltid et underrom av IR n. 2) Den eneste vektoren som ligger både i W og i W er nullvektoren. 3) Anta at W = Span {w 1,..., w p }. Da gjelder: v W v er ortogonal på alle w j -ene. 6 / 16
Teorem 3 [Om de fundamentale underrommene til en matrise]. La A være en m n matrise. Da har vi at (Row A) = Nul A og (Col A) = Nul A T Anvendelse: hvordan bestemme en basis for W : Skriv først W som Col A for en passende A. Bruk deretter at W = (Col A) = Nul A T. Eksempel. La W = Span {a 1, a 2 } der a 1 = (1, 0, 2, 3), a 2 = (0, 1, 1, 4) IR 4. Da er W = Col A, der A = [ ] a 1 a 2. [ ] 1 0 2 3 Så W = (Col A) = Nul A T = Nul. 0 1 1 4 Utregning gir W = Nul A T = Span { (2, 1, 1, 0), ( 3, 4, 0, 1) } og disse to vektorene er lineært uavhengige, så de danner en basis for W. 7 / 16
6.2 Ortogonale mengder Vi betrakter R n med sitt vanlige indreprodukt (altså prikkproduktet). Definition. En mengde S = {u 1,, u p } av vektorer i R n kalles ortogonal dersom enhver vektor i S er ortogonal på de andre vektorene i S; det vil si at u i u j = 0 for alle i j. Merk: Siden u i u j = u j u i for alle i, j er det nok å sjekke at u i u j = 0 når i < j. En nyttig observasjon : Anta S = {u 1,, u p } er ortogonal og ikke inneholder nullvektoren. Betrakt v = c 1 u 1 + + c p u p Span S. Da er c j = v u j u j u j for j = 1,..., p. 8 / 16
Det gir: Teorem 4. Anta at S = {u 1,, u p } er en ortogonal mengde i R n som ikke inneholder nullvektoren. Da er S lineært uavhengig. Dermed er S en basis for W := Span S. Definisjon. En ortogonal basis for et underrom W av R n er en basis for W som er ortogonal. Teorem 4 sier at dersom S = {u 1,, u p } er en ortogonal mengde i R n som ikke inneholder nullvektoren, så er S en ortogonal basis for W := Span S. Observasjonen på forrige side gir også neste teorem: 9 / 16
Teorem 5. Anta at B = {u 1,, u p } er en ortogonal basis for et underrom W av R n. La v W. Da er v = v u 1 u 1 u 1 u 1 + + v u j u j u j u j + + v u p u p u p u p Merk: Koordinatvektoren til v m.h.p. B er dermed gitt ved ( v u1 [v] B =,, v u j,, v u ) p u 1 u 1 u j u j u p u p Vektoren v u j u j u j u j kan tolkes som den ortogonale projeksjonen av v langs u j. 10 / 16
Betrakt nemlig u, v R n, u 0. Definer Da gjelder: v L = Span {u}. v = v u u og q = v v. u u q er ortogonal på u, m.a.o. q L. v = v + q. v kalles den ortogonale projeksjonen av v langs u. q kalles komponenten til v ortogonal på u. Vi skriver ofte Proj L (v) i stedet for v og kaller den også for den ortogonale projeksjonen av v på L. 11 / 16
Definisjon. En mengde S = {u 1,, u p } i R n kalles ortonormal dersom S er ortogonal og alle u j -ene er enhetsvektorer. Merk: Dersom en mengde S er ortogonal og ikke inneholder nullvektoren kan vi normalisere S til en ortonormal mengde S ved å normalisere alle vektorene i S til enhetsvektorer. Definisjon. Vi sier at B er en ortonormal basis for et underrom W av R n når B er en basis for W og B er ortonormal. Standardbasisen {e 1,, e n } er f.eks. en ortonormal basis for R n. Merk: Anta at B = {u 1,, u p } er en ortonormal basis for et underrom W i R n. Teorem 5 gir da at hvis v W, så er v = (v u 1 ) u 1 + + (v u p ) u p. 12 / 16
Teorem 6. La U være en m n matrise. Da har U ortonormale kolonner hvis og bare hvis U T U = I. Teorem 7. La U være en m n matrise med ortonormale kolonner, og la x, y R n. Da gjelder: a) U x = x ; b) (U x) (U y) = x y ; c) (U x) (U y) = 0 x y = 0. Definition. En kvadratisk matrise U kalles ortogonal når U er invertibel og U 1 = U T, dvs. når U T U = UU T = I. Merk: La U være en kvadratisk matrise. Da gjelder: U er ortogonal U T U = I U har ortonormale kolonner UU T = I U har ortonormale rader. 13 / 16
6.3 Ortogonale projeksjoner Teorem 8 (Ortogonal dekomposisjon) La W være et underrom av R n. Da har enhver v R n en entydig dekomposisjon på formen der ˆv W og q W. v = ˆv + q Hvis {u 1,..., u p } er en ortogonal basis for W, så er ˆv gitt ved og da er q = v ˆv. ˆv = v u 1 u 1 u 1 u 1 + + v u p u p u p u p Vektoren ˆv kalles den ortogonale projeksjonen av v på W og ˆv betegnes ofte med Proj W (v). Merk: Dersom v W, så er Proj W (v) = v (jf. Teorem 5). 14 / 16
Den ortogonale projeksjon av en vektor på et underrom W er enklest å angi når man har valgt en ortonormal basis for W: Teorem 10. La W være et underrom av R n. Anta at {u 1,..., u p } er en ortonormal basis for W. Dann matrisen U = [ u 1 u p ] og la v R n. Da er Merk: Proj W (v) = (v u 1 ) u 1 + + (v u p ) u p = (UU T ) v UU T er en n n matrise. U T U = I p (siden U har ortonormale kolonner). Teoremet viser at avbildningen v Proj W (v) fra R n inn i R n er lineær og at UU T er dens standardmatrise. 15 / 16
En viktig egenskap ved ortogonal projeksjon på et underrom er at det svarer til beste approksimasjon: Teorem 9 (Beste approksimasjon) La W være et underrom av R n, v R n og ˆv = Proj W (v). Da er ˆv den vektoren i W som er nærmest v, i den forstand at for alle w W med w ˆv. v ˆv < v w Vektoren ˆv kalles ofte den beste approksimasjonen til v blant vektorene i W. Teoremet sier at avstanden d(v, w) fra v til en vektor w W oppnår sitt minimum når w = ˆv, og bare da. Man definerer derfor avstanden fra v til W ved d(v, W ) = d(v, ˆv) = v ˆv. 16 / 16