Ortogonale polynom og Gauss kvadratur

Ortogonale polynom og Gauss kvadratur Hans Munthe-Kaas 1. jaunar 2002 Sammendrag Dette notatet tar for seg minste kvadrat approksimasjoner, ortogonale polynom og Gauss kvadratur. Notatet er ment som et tillegg til læreboken i I162, og forsøker å framstille dette stoffet klarere og tildels mer utfyllende enn i læreboken. 1 Lineære minste kvadrat problemer (LMK) LMK er behandlet i detalj i lærebokens kapittel 3. I dette kapittelet oppsummerer vi de viktigste egenskapene ved LMK, med vekt på hva vi senere har bruk for i forbinnelse med ortogonale polynom. Gitt et sett datapunkt {(t i, y i )} m i=1. Disse kan f.eks. være målepunkt i et eksperiment. Vi antar her at t i er kjent eksakt, mens ved abcisse verdiene y i hefter målefeil. La f(t, x) være en modell, en funksjon som skal approksimere y(t) i de gitte datapunktene. Her er x er en n-vektor som inneholder parametre for modellen. Minste kvadrat tilpasning er basert på at vi måler approksimasjonsfeilen som summen av kvadratiske avvik i målepunktene, E 2 = n (y i f(t i, x)) 2. (1) Vi søker parameterne x som minimaliserer feilen. I lineær MK teori antar at f avhenger lineært av parametrene x. Da kan vi alltid finne funksjoner φ 1 (t),..., φ n (t) slik at og (1) kan skrives som f(t, x) = φ 1 (t)x 1 + φ 2 (t)x 2 + + φ n (t)x n, (2) E 2 = b Ax 2 2, (3) der x 2 2 = x T x, A i,j = φ j (t i ) og b = (y 1,..., y m ) T. Algoritmer for løsning av (3) avhenger av egenskapene til matrisen A. Vi vil her anta at A er en m n matrise, der m > n og kolonnene i A er lineært uavhengige, dvs. Rank(A) = n. Dette kalles full rank minste kvadrat problemer. 1.1 Løsning via normallikningene La R(A) betegne rekkevidden til A, R(A) = { z R m z = Ax for en x R m }. Lemma 1.1 La x opt være vektoren som minimaliserer feilen i (3). Da står residualet r = b Ax opt (4) ortogonalt på R(A), dvs. r T Az = 0 for alle z. (5) 1

Proof.Anta at det optimale residualet ikke er ortogonalt på R(A). Da kan man finne en z slik at r T Az = α > 0. Lag så en ny parametervektor x = x opt + ɛz, der ɛ > 0. Vi finner nytt residual r = r ɛaz med feil E 2 = (r ɛaz) T (r ɛaz) = r T r 2ɛr T Az + ɛ 2 z T A T Az < r T r, for ɛ < 2α z T A T Az. Vi har vist at dersom residualet ikke er ortogonalt på R(A), så kan vi finne en bedre løsning. Fra dette følger normal likningene. Theorem 1.2 Vektoren x opt som minimaliserer feilen (3) i full rank LMK problemet er entydig bestemt fra normallikningene A T Ax opt = A T b. Proof. Fra Lemma 1.1 følger at 0 = (Az) T (b Ax opt ) = z T A T (b Ax opt ) for alle z. Dette gir A T b A T Ax opt = 0. Matrisen A T A er ikke-singulær dersom A har full kolonne rank. I så fall har likningssystemet entydig løsning. Vi kan altså løse full rank LMK problemet ved å løse normallikningene ved Gauss eliminasjon. Merk at A T A er en symmetrisk positiv definitt matrise, og vi kan derfor benytte den symmetriske varianten av Gauss eliminasjon som kalles Cholesky faktorisering. Den er basert på at vi faktoriserer A T A = LL T der L er nedre triangulær. Løsningen av LMK blir dermed: 1. Regn ut Cholesky faktoriseringen A T A = LL T. 2. Løs Ly = A T b ved forover substitusjon. 3. Løs L T x opt = y ved tilbake substitusjon. Denne metoden er ofte ikke anbefalt som numerisk løsningsteknikk for LMK problemet. Årsaken til dette er numerisk ustabilitet. Husk at kondisjonstallet er et mål for i hvilken grad unøyaktigheter i inngangsdata forplanter seg til løsningen av et problem. Det kan vises at cond(a T A) = cond(a) 2. Dette medfører at dersom A er dårlig kondisjonert, så vil man miste mye nøyaktighet i dannelsen av normallikningene. En ofte bedre teknikk for løsning av LMK problemet er basert på at man ortogonaliserer kolonnene i A før man forsøker å løse problemet. 1.2 Projeksjons matriser, Gram-Schmidt og QR faktorisering Forståelsen av LMK problemer henger nært sammen med ortogonale projeksjoner. Definition 1.3 En m m matrise P kalles en ortogonal projeksjon dersom P 2 = P P T = P. Matrisen sender vektorer fra R m ned på underrommet R(P ) R m. Den første betingelsen sier at om man først har projisert en vektor, så skjer det ikke noe mer om man projiserer svaret på nytt. Den andre betingelsen medfører at residualet av projeksjonen r = b P b står vinkelrett på R(P ). 2

Lemma 1.4 Dersom P er en ortogonal projeksjon, så er også I P en ortogonal projeksjon, og (I P )z P y for alle y og z. Proof. Hvis P er en projeksjonsmatrise har vi (I P ) T = I P T = I P (I P ) 2 = I 2P + P 2 = I P (I P ) T P = P P T P = P P 2 = P P = 0. Hvordan kan vi finne projeksjonen på et gitt n-dimensjonalt underrom W R m? Det enkleste tilfellet er om man kjenner en ortogonal basis for W. Gitt en m n matrise Q = (q 1, q 2,..., q n ) der m n og q i er kolonnene. Vi sier at matrisen er ortogonal om kolonnene har lengde 1 og står ortogonalt på hverandre, { q T 1 hvis i = j i q j = δ i,j = 0 ellers Lemma 1.5 Hvis Q er ortogonal m n matrise, så er projeksjon på R(Q) gitt ved P = QQ T, (6) eller n P b = q T j b. (7) Gram-Schmidt prosessen er en systematisk prosess som transformerer en vilkårlig basis {a 1,..., a n } for et underrom til en ortogonal basis {q 1,..., q n } for samme underrom. Prosessen er basert på at man suksessivt ortogonaliserer hver vektor a i med hensyn på de foregående: Algorithm 1.6 (Gram-Schmidt) Gitt en basis (a 1,..., a n ) for for et n-dimensjonalt underrom. Algoritmen finner en ortogonal basis (q 1,..., q n ) for det samme underrom. for i = 1,..., n q i := a i i 1 q j(q T j a i) q i := q i / q i 2 end Hvordan kan man rekonstruere den originale basisen {a 1,..., a n } fra {q 1,..., q n }? Vi ser fra formlene over at dersom vi setter r j,i = q T j a i r i,i = q i 2, så kan a i finnes ved dermed har vi vist: a i = q 1 r 1,i + q 2 r 2,i + + q i r i,i. Lemma 1.7 Gitt en m n matrise A = (a 1,..., a n ) med full kolonne rank. Gram-Schmidt prosessen produserer en ortogonal m n matrise Q = (q 1,..., q n ) og en n n matrise R = (r i,j ) som er øvre triangulær med positiv diagonal, slik at A = QR. (8) 3

Dette kalles QR-faktoriseringen av matrisen A. Numerisk finnes flere måter å finne denne faktoriseringen. Populære metoder involverer elementære ortogonale transformasjoner som heter Householder refleksjoner og Givens rotasjoner. Disse vil ikke bli diskutert her. Gram-Schmidt prosessen er idemessig den enkleste av disse metodene, men er ikke anbefalt som numerisk prosess, da den har en uheldig akumulasjon av avrundings feil. En enkel omorganisering av rekkefølgen på beregningene gir algoritmen Modifisert Gram-Schmidt, som har langt bedre stabilitets egenskaper. Algorithm 1.8 (Modifisert Gram-Schmidt (MGS)) Gitt en m n matrise A med full kolonne rank. Algoritmen beregner A = QR, der Q er ortogonal m n matrise og R er øvretriangulær n n matrise med positiv diagonal. for k = 1,..., n r k,k = a k ]] 2 q k = a k /r k,k for j = k + 1,..., n r k,j = q T k a j a j = a j r k,j q k end end Nå har vi alle byggeklossene vi behøver for å løse full rank LMK problemet på en numerisk god måte. Vi vet at løsningen er gitt ved Ax = P b = QQ T b, der Q kommer fra QR faktoriseringen av A. Dermed følger: Ax = QRx = QQ T b Rx = Q T b, og vi finner algoritmen for løsning av full rank LMK problem: 1. Regn ut A = QR f.eks. med MGS eller Householder algoritme. 2. Løs Rx = Q T b med bakover substitusjon. Denne algoritmen fungerer godt sålenge kondisjonstallet til A ikke er alt for stort. Hvis kolonnene i A er lineært avhengige eller nesten lineært avhengige, må man benytte andre metoder. En vanlig metode er i så fall QR faktorisering med kolonne ombytter, mens den numerisk sett mest stabile metoden er basert på singulærverdi dekomposisjonen og pseudo-invers. Dette vil ikke bli diskutert her. 1.3 Generelle vektorrom og indreprodukt Vi skal se at teorien og algoritmene fra de foregående avsnittene lett generaliserer til generelle vektorrom V utstyrt med et indreprodukt,. Definition 1.9 Gitt et R-vektorrom V. Et indreprodukt på V er en funksjon, : V, V R som tilfredstiller for alle x, y, z V, r R. x, y = y, x x, y + z = x, y + x, z x, ry = r x, y x, x 0 x, x = 0 x = 0 4

Ethvert indreprodukt induserer en norm 1 på følgende måte: x = x, x 1 2. (9) LMK teorien generaliserer til vilkårlige normer indusert fra et indreprodukt. Optimalisering i normer som ikke er indusert fra et indreprodukt, er en helt annen historie som krever helt andre metoder! Leseren kan selv verifisere at alle tidligere resultater holder dersom man gjør substitusjonene x T y x, y A T A der A betegner den adjungerte operatoren. La U og V være vektorrom med indreprodukt, U og, V. Hvis A : U V er en lineær avbildning, så er den adjugerte A en lineær avbildning A : V U definert ved y, Ax V = A y, x U for alle x U, y V. (10) På R m er indreprodukt ofte gitt som vektede summer, x, y w = m x j y j w j, der vektene w j er positive. I anvendelser kan vekter brukes til å angi at man ønsker å ha bedre approksimasjon i noen punkter enn i andre. Mer generelt kan alle indreprodukt på R n skrives på formen x, y W = x T W y, der W er en m m matrise som er symmetrisk og positiv definitt. For komplekse vektorrom som C m forlanger man at indreproduktet, : V, V C tilfredstiller x, y = y, x heller enn x, y = y, x. Her betegner x komplekskonjugering av hver vektorkomponent. Et veiet indreprodukt på C m framkommer ved x, y w = m x j y j w j., w j R +. Foruten de diskrete vektorrommene R m og det komplekse C m, så er funksjonsrom viktige i mange anvendelser. Et funksjonsrom består av vektorer som er funksjoner definert på et område, f.eks. et intervall [a, b] R, eller periodiske funksjoner på [0, 2π]. Hvis f og g er to funksjoner så er f + g funksjonen (f + g)(x) = f(x) + g(x) for alle x [a, b], mens skalarprodukt er definert på tilsvarende måte. Vi ser at funksjonsrom likner på R m ved at en diskret indeks j {1,... m} erstattes med en kontinuerlig indeks x [a, b] R. På funksjonsrom er indreprodukt ofte gitt ved integraler i stedet for summer. En vektfunksjon w(x) > 0 gir opphav til et vektet indreprodukt f, g w = b a f(x)g(x)w(x)dx. Dersom funksjonene er kompleks valuerte, definerer vi i stedet det komplekse indreproduktet f, g w = 1 Men ikke alle normer kommer fra indreprodukt! b a f(x)g(x)w(x)dx. 5

2 Ortogonale polynom Vi skal se spesielt på tilfellet der V er et vektorrom bestående av polynomer. La P n betegne vektorrommet bestående av n-te grads polynomer definert på intervallet [a, b] R. Vi lar indreproduktet være gitt som p, q = b a p(x)q(x)w(x)dx, hvor w(x) er en positiv vekt funksjon. Som eksempel kan vi la [a, b] = [ 1, 1] og w(x) = 1. Leseren inviteres til å finne de ortogonale polynomene ved å benytte Gram-Schmidt prosessen på basisen 1, x, x 2,..., x p. De første av disse polynomene er gitt som p 0 (x) = 1 p 1 (x) = x p 2 (x) = 1 2 (3x2 1) p 3 (x) = 1 2 (5x3 3x) p 4 (x) = 1 8 (35x4 30x 2 + 3 p 5 (x) = 1 8 (63x5 70x 3 + 15x) Disse kalles Legendre polynomene. Merk at de er normalisert slik at p k (1) = 1, og ikke slik at p k = 1. En viktig egenskap for ortogonale polynom er at de tilfredstiller en såkalt 3-ledds rekurrens formel, dvs. p k+1 kan alltid skrives som en lineærkombinasjon av xp k (x), p k (x) og p k 1 (x). Legendre polynomene tilfredstiller f.eks. (k + 1)p k+1 (x) = (2k + 1)xp k (x) kp k 1 (x). (11) La oss nå se på det generelle tilfellet med polynomer p k (x) ortogonale med hensyn på et vilkårlig indreprodukt. For å se hvorfor vi alltid har en 3-ledd rekurrens formel, gjør vi Gram-Schmidt prosessen, men i stedet for å danne p k+1 (x) ved å ortogonalisere x k+1 med hensyn på tidligere polynom, så tar vi utgangspunkt i xp k (x) og ortogonaliserer denne med hensyn på p k,..., p 1. Dette gir v k+1 = xp k p k p k, xp k p k 1 p k 1, xp k p k 2 p k 2, xp k... (12) β k = v k+1 (13) p k+1 = v k+1 /β k. (14) Følgende resultat viser at vi kun behøver å ta med de første tre leddene på høyre side av (12). Lemma 2.1 Dersom j < k 1 så er p j, xp k = 0. Proof. Alle polynomer av grad j + 1 kan skrives som en lineærkombinasjon av de ortogonale polynomene p 0,..., p j+1, spesielt kan vi skrive xp j = j+1 l=0 a j,lp l. Dermed siden polynomene er ortogonale. j+1 p j, xp k = xp j, p k = a j,l p l, p k = 0, l=0 En ytterligere forenkling av formlene oppnås ved utregningen β 2 k = v k+1, v k+1 = β k p k+1, xp k p k p k, xp k p k 1 p k 1, xp k = β k p k+1, xp k, 6

der vi har benyttet ortogonaliteten. Dette gir β k = p k+1, xp k. Dermed kan vi spare utregningen av p k 1, xp k i (12) ved å gjenbruke β k 1 fra forrige iterasjon. Dermed har vi vist følgende algoritme for å generere ortogonale polynom: Algorithm 2.2 Gitt et indreprodukt,. Følgende iterasjon genererer ortogonale polynom, normalisert til p i, p i = 1. β 1 = 0 p 0 (x) = 1, 1 1 2 for k = 0, 1,... α k = p k (x), xp k (x) v(x) = (x α k )p k (x) β k 1 p k 1 (x) β k = v(x) p k+1 = v(x)/β k end Både fra et praktisk og et teoretisk synspunkt er følgende sammenheng mellom ortogonale polynom og tridiagonale matriser svært viktig. Theorem 2.3 Nullpunktene til polynomet p k+1 (x) er egenverdiene til matrisen α 0 β 0 β 0 α 1 β 1 T k+1 =. β 1 α.. 2. (15)...... βk 1 β k 1 α k Proof.Betrakt det karakteristiske polynom q k+1 (x) = det(ix T k+1 ). Ved å utvikle determinanten q k+1 (x) = x α 0 β 0 β 0 x α 1 β 1 β 1 x α 2......... βk 1 β k 1 x α k i siste kolonne finner vi rekurrensen Startbetingelsene er gitt ved Se nå på iterasjonen i Algorithm 2.2, q k+1 (x) = (x α k )q k (x) β 2 k 1q k 1 (x). q 0 (x) = 1 q 1 (x) = x α 0. β k p k+1 (x) = (x α k )p k (x) β k 1 p k 1 (x). (16) Tilsynelatede er disse iterasjonene forskjellige. Vi skal imidlertid se at forskjellen kun består i at p k+1 (x) er normalisert til p k+1 (x), p k+1 (x) = 1, mens q k+1 (x) er monisk, dvs. konstanten foran høyeste potens x k+1 er 1. La oss skrive p k+1 (x) = c k+1 q k+1 (x) 7

der q k+1 (x) er monisk. Innsatt i (16) gir dette β k c k+1 q k+1 (x) = (x α k )c k q k (x) β k 1 c k 1 q k 1 (x). Ved å sammenlikne x k+1 på begge sider, finner vi β k c k+1 = c k. Dividerer vi med c k får vi q k+1 (x) = (x α k )cq k (x) βk 1q 2 k 1 (x), med startbetingelsene q 0 (x) = 1 og q 1 (x) = x α 0. Dette viser at q k (x) = q k (x). Det symmetriske tridiagonale egenverdi problemet er et svært godt studert problem i numerisk analyse, og gode raske algoritmer eksisterer. Det er faktisk anbefalt å finne nullpunktene til ortogonale polynom ved å regne ut egenverdiene til T k. Vi oppsummerer uten bevis noen viktige egenskaper om disse nullpunktene. p k (x) har k reelle og distinkte nullpunkt som ligger i intervallet (a, b). Polynomet p k (x) har nøyaktig ett nullpunkt mellom hvert par av nabo-nullpunkt for p k+1 (x). Dette kalles interlacing property for nullpunktene og er viktig for nyere raske algoritmer for utregning av nullpunktene. Antallet fortegnsskift i sekvensen {p 0 (x), p 1 (x),..., p n (x)} teller antallet nullpunkt i p n (x) som er større enn x. Dette kalles Sturm-sekvens egenskapen, og kan brukes til å søke etter et bestemt nullpunkt, f.eks. 3 dje største nullpunkt i p 6 (x). 2.1 Chebycheff polynom En familie ortogonale polynom som har en spesiell rolle i approksimasjonsteori er Chebycheff polynom, definert ved t k (x) = cos(k arccos(x)) for 1 x 1. (17) La θ = arccos(x). Ved cos setningen får vi som gir rekurrens formelen t k+1 (x) = cos(θ) cos(kθ) sin(θ) sin(kθ) t k 1 (x) = cos(θ) cos(kθ) + sin(θ) sin(kθ), t k+1 (x) = 2xt k (x) t k 1 (x). (18) Vi ser direkte at t 0 (x) = 1 og t 1 (x) = x. Ved rekursjonen finner vi lett videre t 2 (x) = 2x 2 1 t 3 (x) = 4x 3 3x t 4 (x) = 8x 4 8x 2 + 1 t 5 (x) = 16x 5 20x 3 + 5x. Vi har tidligere sett at ortogonale polynom alltid har en 3-ledd rekurrens formel. Det motsatte holder faktisk også, hvis vi har en slik rekursjonsformel for polynom, så må de også være ortogonale med hensyn på et indreprodukt. Det er ikke alltid så lett å finne en analytisk formel for dette indreproduktet, men vi skal senere se at Gauss kvadratur er en numerisk utregning av dette som er forholdsvis lett å finne fra rekursjonsformelen. For Chebycheff polynom er indreproduktet velkjent: Lemma 2.4 Chebycheff polynom tilfredstiller følgende ortogonalitetsrelasjon: 1 1 π for k = l = 0 t k (x), t l (x) = t k (x)t l (x) dx = π/2 for k = l 0 1 1 x 2 0 for k l. (19) 8

Nå skal vi se på nullpunkt og ekstremalvertier for t k (x). Siden cos(θ) oscillerer mellom -1 og 1, har vi det samme for t k (x). Spesielt har vi: ( ) 2l t k (x) = +1 for x = cos k π, l = 0, 1,..., k/2 (20) ( ) 2l + 1 t k (x) = 1 for x = cos π, l = 0, 1,..., (k 1)/2 (21) k ( l + 1 ) 2 t k (x) = 0 for x = cos k π, l = 0, 1,..., k 1. (22) Merk at t k (x) = 2 k 1 x k +, så t k (x)/2 k 1 er monisk (dvs. har koeffisienten 1 foran høyeste x-ledd). Theorem 2.5 Av alle moniske k-te grads polynom q(x) så er minimalisert for q(x) = t k (x)/2 k 1. q(x) = max q(x) x [ 1,1] Proof. Anta det finnes et monisk k-te grads polynom r(x) som er mindre enn q(x) på hele intervallet. Fra (20)- (21) ser vi at q(x) oscillerer mellom ±2 1 k, og ekstremverdiene nås nøyaktig k + 1 ganger på [ 1, 1]. Dermed må r(x) krysse q(x) minst k ganger om det skal være mindre på hele intervallet. Vi konkluderer at r(x) q(x) har minst k nullpunkt. Men siden både q(x) og r(x) er moniske, så er r(x) q(x) av grad høyst k 1, og kan derfor ikke ha k nullpunkt. Vi har vist at en slik r(x) ikke eksisterer. Dette resultatet viser at Chebycheff polynom har en sentral plass i -norm approksimasjoner, og dette er også grunnen til at disse f.eks. er viktige i iterative teknikker for løsning av lineære likninger. Vi nøyer oss her med å se på feilen i polynomisk interpolasjon. Anta at vi skal interpolere en funksjon f(x) i n punkter mellom -1 og 1, der n er stor, f.eks. 6, 7 eller mye høyere. Hvordan bør vi velge disse punktene? Vi vet at interpolasjonsfeilen kan skrives som e(x) = f(x) p(x) = (x x 1 )(x x 2 ) (x x n )f[x 1, x 2,..., x n, x], der f[x 1, x 2,..., x n, x] betegner dividerte differanser. Dersom f er n ganger deriverbar så finnes det alltid et punkt ξ (x 1,..., x n, x) slik at f[x 1,..., x n, x] = 1 d n f(ξ) n! dx n. (23) Interpolasjonsfeilen er dominert av det moniske polynomet q(x) = (x x 1 )(x x 2 ) (x x n ), som oscillerer med voldsomme utslag på endene dersom x i er fordelt med jevn avstand på intervallet. Theorem 2.5 viser at det beste vi kan gjøre med q(x) er å velge x i som nullpunktene til Chebycheff polynomet t n (x). Vi konkluderer med følgende resultat: Theorem 2.6 Gitt en funksjonen f(x) som er n ganger kontinuerlig deriverbar på [ 1, 1]. La p(x) være n 1 grads polynomet som interpolerer f(x) i interpolasjonspunktene valgt som nullpunkt til Chebycheff polynomet t n (x), ( l + 1 ) 2 x l = cos n π, l {0, 1,..., n 1}. Da blir -norm interpolasjonsfeilen f(x) p(x) = 21 n max f(x) p(x) x [ 1,1] n! f(ξ) max ξ [ 1,1] dn dx n = 21 n f (n). (24) n! 9

Teoremet generaliserer til vilkårlige intervall [a, b] ved å benytte et lineært skifte av variable, φ(x) = a(1 x) + b(1 + x), 2 som sender 1 a og 1 b. På [a, b] skal vi altså benytte interpolasjonspunktnene x l = φ(x l ). For funksjoner f(x) der alle deriverte er begrenset, ser vi at polynomisk interpolasjon konvergerer i -norm dersom interpolasjonspunktene kommer fra nullpunkt til Chebycheff polynomer. Dette er svært forskjellig fra ekvidistant interpolasjon, der interpolanten hurtig divergerer når antall punkter øker. Ikke bare konvergerer Chebycheff interpolasjon, men den konvergerer også svært fort, raskere enn (1/n) p for alle heltallige p. Denne flotte egenskapen kalles spektral konvergens. Spektralmetoder for løsning av differensiallikninger er et eksempel på et anvendelsesområde der Chebycheff interpolasjon er viktig. Man benytter høy ordens Chebycheff polynom til å representere den numeriske løsningen av likningen. Den nære sammenhengen mellom Chebycheff polynomer og Fourier cosinus rekker gir raske algoritmer, kompleksitet O(n log(n)), for denne typen interpolasjonsproblemer 2. 3 Gauss kvadratur I dette avsnittet skal vi se på numeriske integrasjonsregler med spesielt pene egenskaper. Som motiverende eksempel, se på problemet minste kvadrat approksimasjoner med polynomer: Gitt et indreprodukt f, g = b a f(x)g(x)w(x)dx, og la f = f, f 1 2. Gitt en funksjon f(x). Finn g(x) P n som minimaliserer feilen f(x) g(x). Fra den generelle teorien om minste kvadrat approksimasjoner vet vi at svaret er gitt ved at g(x) er den ortogonale projeksjonen av f(x) ned på P n. Dermed er algoritmen: 1. Finn de ortogonale polynomene p 0 (x), p 1 (x),..., p n (x) ved Algorithm 2.2. 2. Regn ut g(x) ved n g(x) = p j (x), f(x) p j (x). (25) j=0 I praksis står vi fortsatt overfor et problem, hvordan skal vi regne ut integralene? Når det gjelder integralene i Algorithm 2.2, så antar vi at disse kan regnes ut analytisk, dvs. vi har analytiske uttrykk for b a x k w(x)dw for alle k 0. Dette er vel kjent for mange familier av ortogonale polynomer. Verre er det med p j (x), f(x) = b a p j(x)f(x)w(x)dx. Her må vi i praksis som oftest ty til numeriske utregninger av integralet. Spørsmålet er da hvilken betydning har en numerisk approksimasjon for optimalitets egenskapene til polynomet g(x)? Vi skal se at Gauss kvadratur gir gode svar på disse spørsmålene. For en vilkårlig funksjon f(x), la oss definere det analytiske vektete integral I(f) og en s-punkt numerisk kvadraturformel Q s (f) som i I162 I(f) = Q s (f) = b a f(x)w(x)dx (26) s f(x j )w j, (27) 2 Hurtige Fourier transformasjoner (FFT) er et facinerende emne som vi dessverre ikke har hatt tid til å diskutere 10

der {x j } er distinkte nodepunkter og w j er tilsvarende vekter. Vi ønsker å bestemme {x j, w j } s slik at I(xk ) = Q s (x k ) for k = 0, 1,... så høyt opp som mulig. Siden vi har 2s parametre, kan vi håpe på å finne en formel eksakt opp til k = 2s 1. Dersom nodepunktene er kjente distinkte punkter, finner vi vektene w j ved å forlange at det numeriske integralet skal være eksakt for k = 0, 1,..., s 1. Dette gir et lineært likningssystem av Vandermonde type: 1 1 1 x 1 x 2 x s x 2 1 x 2 2 x 2 s... x s 1 1 x s 1 2 x s 1 s w 1 w 2.. w s = I 0 I 1.. I s 1, (28) der I k = I(x k ) = b a xk w(x)dx antas analytisk kjent. Bestemmelse av nodepunktene x j gir oss imidlertid et ikke-lineært likningssystem. Gauss fant løsningen på dette: Theorem 3.1 La p 0 (x),..., p s (x) være ortogonale polynom med hensyn på f, g = I(f(x)g(x)). La nodepunktene x j være nullpunktene til p s (x), og la vektene w j være bestemt fra (28). Da er I(x k ) = Q s (x k ) for k = 0, 1,..., 2s 1. Proof. La g(x) P 2s 1 være et vilkårlig polynom. Ved polynomisk divisjon av g(x) med p s (x) finner vi kvotienten q(x) og restleddet r(x) slik at Nå regner vi ut g(x) = p s (x)q(x) + r(x) der q(x), r(x) P s 1. I(g(x)) = I(p s (x)q(x)) + I(r(x)) = p s (x), q(x) + I(r(x)) = I(r(x)), der vi har benyttet at p s (x) er ortogonal på alle laveregrads polynomer. For det numeriske integralet har vi Q s (g(x)) = Q s (p s (x)q(x)) + Q s (r(x)) = s p s (x j )q(x j )w j + Q s (r(x)) = I(r(x)), der vi har benyttet at x j er nullpunkt for p s (x) og at kvadraturformelen i allefall er korrekt for polynomer av grad k s 1. Vi har vist at I(g(x)) = Q s (g(x)) for alle polynomer g(x) av grad 2s 1. Det kan vises at vi må velge nullpunktene til p s (x) som nodepunkt for å oppnå eksakthet til den maksimale grad k = 2s 1, så teoremet gir oss den eneste løsningen. Denne løsningen kalles for en Gauss kvadratur formel. Man henger ofte på navnet på de ortogonale polynomene som er involvert (avhenger av vekt funksjonen), dermed har vi f.eks. Gauss-Legendre kvadratur for tilfellet w(x) = 1 og Gauss-Chebycheff kvadratur for w(x) = (1 x 2 ) 1 2. La oss returnere til problemet med polynomiske minste kvadrat approksimasjoner. Fra en s- punkt Gauss formel Q s ( ) finner vi et diskret indreprodukt f, g s = Q s (f(x)g(x)) = s f(x j )g(x j )w j. (29) Merk at hvis p k (x) og p l (x) er to ortogonale polynom av grad høyst s 1, så er p k (x), p l (x) s = p k (x), p l (x), 11

så polynomene er også ortogonale med hensyn på det diskrete indreproduktet. I det polynomiske minste kvadrat problemet kan vi dermed erstatte det kontinuerlige indreproduktet med en diskret s-punkt Gauss formel for en s > n, og vi vet fra den generelle teorien at feilen blir minimal med hensyn på vårt diskrete indreprodukt. Algorithm 3.2 Gitt et indreprodukt f, h = b f(x)h(x)w(x)dx. Gitt en funksjon f(x). Vi ønsker å finne et n-te grads polynom g(x) som minimaliserer feilen f g, f a g. 1. Finn de ortogonale polynomene p 0 (x), p 1 (x),..., p s (x) ved Algorithm 2.2, der s > n. 2. Finn nullpunktene x j til p s (x) ved å regne ut egenverdiene til matrisen T s i (15). 3. Finn vektene w j ved å løse Vandermonde systemet (28). 4. Definer det diskrete indreprodukt f, h s = s f(x j )h(x j )w j. 5. Regn ut g(x) ved n g(x) = p j (x), f(x) s p j (x). (30) j=0 Algoritmen finner polynomet g(x) av grad n som minimaliserer feilen s f(x) g(x) s = f g, f g 1 2 s = f(x j )g(x j )w j målt i den diskrete normen indusert av Gauss kvadratur formelen. Alternativt til å løse et Vandermonde system for å finne vektene w j, så kan vi finne disse direkte fra egenvektorene til den tridiagonale matrisen T s. Vi refererer uten bevis: 1 2, Theorem 3.3 La den 3-diagonale matrisen T s i (15) ha egenverdier x j og egenvektorer y j der y j er normalisert til 2-norm lengde 1, dvs. T s y j = x j y j for j = 1, 2,..., s, y T j y j = s y j (k) 2 = 1. k=1 Da er Gauss nodene egenverdiene til T s og Gauss vektene finnes fra første komponent av egenvektorene som: w j = 2 (y j (1)) 2 for j = 1, 2,..., s. (31) 4 Konklusjoner Jeg håper du gjennom dette notatet har fått et innblikk i det vakre og nyttige i teorien for ortogonale polynom! Det er et facinerende emne som har forgreninger mot en rekke ulike emner i beregningsvitenskap, eksempler er: Minste kvadraters metode. Approksimasjons teori. 12

Digital filter teori. Spektralmetoder i løsning av differensiallikninger. Iterative teknikker for løsning av lineære likninger (eks. konjugerte gradienters metode). Iterative teknikker for løsning av store lineære egenverdiproblemer (Lanczos prosessen). Noen av disse temaene vil bli tatt opp i I260, Numerisk lineær algebra, og i andre videregående kurs. 13