Spørsmålskompilering del 1

Like dokumenter
Spørsmålskompilering del 1

Spørsmålskompilering

Spørsmålskompilering. Basert på foiler av Hector Garcia-Molina

Spørsmålskompilering. Basert på foiler av Hector Garcia-Molina

Spørsmålskompilering del 2

Spørsmålskompilering del 2

Effektiv eksekvering av spørsmål

Effektiv eksekvering av spørsmål

INF1300 Introduksjon til databaser

UNIVERSITETET I OSLO RELASJONSALGEBRA. Regning med relasjoner. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

Relasjonsalgebraen. Algebra

UNIVERSITETET I OSLO RELASJONSALGEBRA. Regning med relasjoner. Institutt for Informatikk. INF Ragnar Normann

UNIVERSITETET RELASJONSALGEBRA. Regning g med relasjoner. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

Effektiv eksekvering av spørsmål

UNIVERSITETET I OSLO RELASJONSALGEBRA. Regning med relasjoner. Institutt for Informatikk INF Ellen Munthe-Kaas

Effektiv eksekvering av spørsmål

Relasjonsalgebra Kopi av lysark om relasjonsalgebra. Vi går igjennom denne for å lage et matematisk fundament for forståelsen av hvordan

Andre sett obligatoriske oppgaver i INF3100 V2012

Andre sett obligatoriske oppgaver iinf3100v2011

UNIVERSITETET I OSLO RELASJONSALGEBRA. Regning med relasjoner. Institutt for Informatikk INF Ellen Munthe-Kaas

INF1300 Relasjonsalgebra og SQL, mengder og bager. Lysark for forelesning v. 2.1

UNIVERSITETET I OSLO RELASJONSALGEBRA. Regning med relasjoner. Institutt for Informatikk. INF Ellen Munthe-Kaas

UNIVERSITETET I OSLO. Oppskriftsbok. FDer og MVDer Relasjonsalgebra. Institutt for Informatikk. INF3100 Ellen Munthe-Kaas 1

Effektiv eksekvering av spørsmål

INF1300 Relasjonsalgebra. Et matematisk fundament for å forstå SQL-setninger

UNIVERSITETET. Relasjonsalgebra. INF Ragnhild Kobro Runde

Oppskriftsbok. FDer og MVDer - oversikt: se s. 3 Relasjonsalgebra - oversikt: se s. 45

UNIVERSITETET I OSLO SQL. Structured Query Language. (The intergalactic dataspeak) Institutt for Informatikk. INF Ragnar Normann 1

UNIVERSITETET I OSLO

Repetisjonsforelesning, SQL og utover

UNIVERSITETET I OSLO

Databaser. Relasjonsmodellen 2 Læreboka: Kap. 2 Relasjonsmodellen

DBS18 - Strategier for Query-prosessering

UNIVERSITETET I OSLO SQL. Structured Query Language. (forts.) Institutt for Informatikk. INF Ragnar Normann 1

UNIVERSITETET I OSLO SQL. Structured Query Language. (The intergalactic dataspeak) Institutt for Informatikk. INF Ellen Munthe-Kaas 1

Alle attributter har NULL som mulig verdi. mulige verdier for integer: NULL, 0, 1, 2, 3...

Andre sett obligatoriske oppgaver i INF3100 V2013

UNIVERSITETET I OSLO

Oppgave: Finn navn og tittel på alle som har arbeidet på prosjektet «Vintersalg»

Andre sett obligatoriske oppgaver i INF3100 V2009

UNIVERSITETET I OSLO SQL. Structured Query Language. (The intergalactic dataspeak) INF Ellen Munthe-Kaas 1. Institutt for Informatikk

UNIVERSITETET I OSLO SQL. Structured Query Language. (forts.) Institutt for Informatikk. INF Ellen Munthe-Kaas 1

Andre sett obligatoriske oppgaver i INF3100 V2008

UNIVERSITETET I OSLO SQL. Structured Query Language. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

UNIVERSITETET I OSLO SQL. Structured Query Language. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

UNIVERSITETET I OSLO SQL. Structured Query Language. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

UNIVERSITETET SQL. Structured Query Language. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

UNIVERSITETET SQL. Structured Query Language (forts.) Institutt for Informatikk. INF Ellen Munthe-Kaas 1

INF1300 Det meste av resten av SQL. Utleggsark v. 2.0

Relasjonsalgebra. Hva?

SQL Structured Query Language. Repetisjon av select spørringer Nestede select spørringer Mengdeoperasjoner Views Flere operatorer

INF1300 Det meste av resten av

Andre sett obligatoriske oppgaver i INF3100 V2010

En lett innføring i foreninger (JOINs) i SQL

UNIVERSITETET SQL-99. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

Databaser fra et logikkperspektiv

INF1300 Introduksjon til databaser

UNIVERSITETET I OSLO SQL. Structured Query Language. Institutt for Informatikk. INF Ellen Munthe-Kaas 1

SQL. SQL-standarder. Flere standarder: ANSI SQL SQL2 (SQL-92) SQL3 (SQL-99) = SQL2 + objekt-relasjonelle egenskaper mm

Relasjonsdatabasedesign

1. SQL spørringer mot flere tabeller

UNIVERSITETET I OSLO. Indeksering. Hvordan finne et element raskt? Institutt for Informatikk. INF Ellen Munthe-Kaas

Relasjonsdatabasedesign

Repetisjon: Normalformer og SQL

Integritetsregler i SQL. Primærnøkler

UNIVERSITETET. Indeksering. Hvordan finne et element raskt? Vera Goebel, Ellen Munthe-Kaas

INF3100 V2018 Obligatorisk oppgave nr. 2

SQL Structured Query Language

Integritetsregler i SQL

UNIVERSITETET. Indeksering. Konvensjonelle indekser B-trær og hashing Flerdimensjonale indekser Hashliknende strukturer.

SQL Structured Query Language

Relasjonsdatabasedesign

Indeksering. Konvensjonelle indekser B-trær og hashing Flerdimensjonale indekser Treliknende strukturer Hashliknende strukturer Bitmapindekser

Join. Intuitivt: Skjøte sammen to relasjoner. Intuitivt: 1. Beregn R S 2. Velg ut de tuplene som tilfredsstiller joinbetingelsen C

INF1300 Introduksjon til databaser

Relasjonsdatabasedesign

SQL: Integritetsregler, triggere og views

Indeksering. Konvensjonelle indekser B-trær og hashing Flerdimensjonale indekser Trestrukturer Hashliknende strukturer Bitmapindekser

Indeksering. Konvensjonelle indekser B-trær og hashing Flerdimensjonale indekser Trestrukturer Hashliknende strukturer Bitmapindekser

Relasjonsdatabasedesign

INF1300 Introduksjon til databaser

Løsningsskisse til Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Relasjoner terminologi

SELECT DISTINCT Fornavn, Etternavn, Programtittel FROM Program P, Medvirkende M, Deltagelse D. SELECT Tilgjengelighet FROM Program

Sensorveiledning for IN2090 og INF desember :30 18:30 (4 timer)

Integritetsregler i SQL

SQL Structured Query Language

UNIVERSITETET. Relasjonsdatabasedesign

Relasjonsdatabasedesign

INF1300 SQL Structured Query Language del 1. Stoff som blir/ble forelest i oktober 2013

Relasjonsdatabasedesign

Metaspråket for å beskrive grammatikk

Relasjonsdatabasedesign

Andre sett obligatoriske oppgaver i INF3100/INF4100 V2007

IN3020 V2019 Obligatorisk oppgave nr. 1

Relasjonsdatabasedesign

Relasjoner terminologi. Kopi av lysark fra forelesningen 13. oktober. Legges ut inntil notatet som samler alt om SQL kommer...

Relasjonsdatabasedesign

SQL: SELECT-spørringer

Normalformer utover 4NF (ikke pensum)

Transkript:

UNIVERSITETET I OSLO Spørsmålskompilering del 1 Parsering Logiske spørreplaner uttrykt i relasjonsalgebra Optimalisering ved hjelp av algebraiske lover Institutt for Informatikk INF3100 - V18 - Evgenij Thorstensen 1

Oversikt: Fra spørring til resultat SQL-spørring parsere parseringstre konvertere logiske spørreplaner (LSPer) anvende lover forbedrede LSPer estimere resultatstørrelser {(LSP 1, str 1 ), } vurdere fysiske planer resultat utføre FSP i velge beste {(FSP 1, kost 1 ), } estimere kostnader fysiske spørreplaner (FSPer) INF3100 - V18 - Evgenij Thorstensen 2

parsere Parsering konvertere anvende lover utføre estimere resultatstørrelser velge beste vurdere fysiske planer estimere kostnader INF3100 - V18 - Evgenij Thorstensen 3

Parsering Mål: konvertere en SQL-spørring til et parseringstre <Query> <SFW> <SelList> <Attribute> <FromList> <Relation> SELECT title FROM StarsIn WHERE... Hver node i et parseringstre er enten: et atom leksikalsk element som nøkkelord, navn, konstanter, parenteser og operatorer (løvnode) en syntaktisk kategori del av en spørring (indre node) INF3100 - V18 - Evgenij Thorstensen 4

Enkel grammatikk Query: <Query> ::= <SFW> <Query> ::= ( <Query> ) en komplett grammatikk vil også inneholde operatorer som UNION, JOIN, regel 2 brukes typisk i subspørringer Select-From-Where: <SFW> ::= SELECT <SelList> FROM <FromList> WHERE <Condition> en komplett grammatikk må inkludere GROUP BY, HAVING, ORDER BY, Select-list: <SelList> ::= <Attribute> <SelList> ::= <Attribute>, <SelList> en komplett grammatikk må inkludere uttrykk og aggregatfunksjoner From-list: <FromList> ::= <Relation> <FromList> ::= <Relation>, <FromList> en komplett grammatikk må inkludere aliasing og uttrykk som R JOIN S INF3100 - V18 - Evgenij Thorstensen 5

Enkel grammatikk (forts.) Condition: <Condition> ::= <Condition> AND <Condition> <Condition> ::= <Tuple> IN <Query> <Condition> ::= <Attribute> = <Attribute> <Condition> ::= <Attribute> LIKE <Pattern> en komplett grammatikk må inkludere operatorer som OR, NOT, osv. og alle andre sammenligningsoperatorer Tuple: <Tuple> ::= <Attribute> en komplett grammatikk må inkludere tupler med flere attributter, Grunnleggende syntaktiske kategorier som <Relation>, <Attribute>, <Pattern>, osv. har ikke egne regler, men erstattes av et navn eller en tekststreng INF3100 - V18 - Evgenij Thorstensen 6

Enkel grammatikk: eksempel Finn filmer med skuespillere født i 1960: SELECT title FROM StarsIn WHERE starname IN ( SELECT name FROM MovieStar WHERE birthdate LIKE %1960 ); INF3100 - V18 - Evgenij Thorstensen 7 INF3100-24.3.2015 - Ellen Munthe-Kaas

Enkel grammatikk: eksempel Finn filmer med skuespillere født i 1960: SELECT title FROM StarsIn WHERE starname IN ( SELECT name FROM MovieStar WHERE birthdate LIKE %1960 ); <Query> <SFW> SELECT <SelList> FROM <FromList> WHERE <Condition> <Attribute> <Relation> <Tuple> IN <Query> title StarsIn <Attribute> ( <Query> ) starname <SFW> SELECT <SelList> FROM <FromList> WHERE <Condition> <Attribute> <Relation> <Attribute> LIKE <Pattern> name MovieStar birthdate %1960 INF3100 - V18 - Evgenij Thorstensen 8

Preprosessor Sjekker at spørringen er semantisk korrekt: relasjoner hver relasjon i FROM må være en relasjon eller et view i skjemaet hvor spørringen utføres. Hvert view må erstattes av et parseringstre. attributter hvert attributt må finnes i en av relasjonene i det aktuelle skopet i spørringen. typer all bruk av attributter må være i henhold til angitte typer. INF3100 - V18 - Evgenij Thorstensen 9

parsere konvertere Generering av logisk spørreplan anvende lover utføre estimere resultatstørrelser velge beste vurdere fysiske planer estimere kostnader INF3100 - V18 - Evgenij Thorstensen 10

Logiske og fysiske planer I virkeligheten blandes disse to stegene. Logisk plan: Relasjonsalgebrauttrykk Fysisk plan: Faktiske algoritmer INF3100 - V18 - Evgenij Thorstensen 11

Eksempel SELECT B,C,Y FROM R,S WHERE W = X AND A = 3 AND Z = a ; Relasjon R A B C... W 1 z 1... 4 2 c 6... 2 3 r 8... 7 4 n 9... 4 2 j 0... 3 3 t 5... 9 7 e 3... 3 8 f 5... 8 1 h 7... 5 Relasjon S X Y Z 1 a a 2 f c 3 t b 4 b b 7 k a 6 e a 7 g c 8 i b 9 e c INF3100 - V18 - Evgenij Thorstensen 12

R SELECT B,C,Y Eksempel (forts.) FROM R,S WHERE W=X AND A=3 AND Z= a idé 1 ta kartesisk produkt, velg tupler, projiser attributter B,C,Y (s W=X A=3 Z= a (R S)) B,C,Y s... S Relasjon R A B C... W 1 z 1... 4 2 c 6... 2 3 r 8... 7 4 n 9... 4 2 j 0... 3 3 t 5... 9 7 e 3... 3 8 f 5... 8 1 h 7... 5 Resultat Relasjon S X Y Z 1 a a 2 f c 3 t b 4 b b 7 k a 6 e a 7 g c 8 i b 9 e c B C Y INF3100 r 8 - V18 k - Evgenij Thorstensen Merk: #attributter = #R-attributter + #S-attributter #tupler = #R-tupler * #S-tupler A B C... W X Y Z 1 z 1... 4 1 a a............... 2 f c........................ 2 c 6... 2 1 a a............... 2 f c........................ 3 r 8... 7 1 a a............... 2 f c........................ 3 r 8... 7 7 k a 4 n 9... 4 1 a a............... 2 f c..................... v 2 j 0... 3 1 a a............... 2 c c........................ 3 t 5... 9 1 a a............... 2 f c........................ 7 e 3... 3 1 a a............... 2 f c..................... v 13........................

SELECT B,C,Y Eksempel (forts.) FROM R,S WHERE W=X AND A=3 AND Z= a idé 2 velg tupler, gjør equijoin, projiser attributter B,C,Y ((s A=3 (R)) W=X (s Z= a (S))) A B C... W 3 r 8... 7 3 t 5... 9 X Y Z 1 a a 7 k a 6 e a B,C,Y Relasjon R Relasjon S W=X s A=3 s Z= a R S A B C... W 1 z 1... 4 2 c 6... 2 3 r 8... 7 4 n 9... 4 2 j 0... 3 3 t 5... 9 7 e 3... 3 8 f 5... 8 1 h 7... 5 A B C... W X Y Z 3 r 8... 7 7 k a B C Y r 8 k X Y Z 1 a a 2 f c 3 t b 4 b b 7 k a 6 e a 7 g c 8 i b 9 e c

Eksempel (forts.) idé 3 bruk indekser på R.A og S.X bruk indeksen på R.A for å velge tupler med R.A = 3 bruk indeksen på S.X for å finne tupler som matcher R.W plukk ut S-tupler hvor Z = a join tupler fra R og S som matcher projiser B,C,Y Relasjon R SELECT B,C,Y FROM R,S WHERE W=X AND A=3 AND Z= a A B C... W X Y Z 3 r 8... 7 7 k a B C Y r 8 k Relasjon S 3 I R.A A B C... W 1 z 1... 4 2 c 6... 2 3 r 8... 7 4 n 9... 4 2 j 0... 3 3 t 5... 9 7 e 3... 3 8 f 5... 8 1 h 7... 5 A B C... W 3 r 8... 7 3 t 5... 9 X Y Z 7 k a 7 g c 9 e c 7,9 I S.X X Y Z 1 a a 2 f c 3 t b 4 b b 7 k a 6 e a 7 g c 8 i b 9 e c

Konvertering av SFW SELECT <SelList> FROM <Fromlist> WHERE <Condition> erstatt relasjonene i <FromList> med produktet ( ) av alle relasjonene dette produktet er argumentet til en seleksjon s C hvor C tilsvarer <Condition> denne seleksjonen er argumentet til en projeksjon L hvor L er listen av attributter i <SelList> INF3100 - V18 - Evgenij Thorstensen 16

Konvertering av SFW eksempel SELECT name FROM MovieStar WHERE birthdate LIKE %1960 produktet av relasjonene i <FromList> gjør seleksjon basert på <Condition> projiser på attributtene i <SelList> <Query> <SFW> SELECT <SelList> FROM <FromList> WHERE <Condition> <Attribute> <Relation> <Attribute> LIKE <Pattern> name name MovieStar birthdate %1960 s birthdate LIKE %1960 MovieStar INF3100 - V18 - Evgenij Thorstensen 17

Konvertering av subspørringer For subspørringer bruker vi en hjelpeoperator to-arguments seleksjon s(r,t) der T representerer subspørringen (dvs. det som svarer til <Condition>). Videre behandling avhenger av type subspørring. Vi skal se på t IN S som et eksempel: 1. Erstatt <Condition> med treet for S. Hvis S kan inneholde duplikater, må vi legge til en operator på toppen. 2. Erstatt to-arguments seleksjon med ett-arguments seleksjon s C, hvor C sammenligner hver komponent i t med det tilsvarende attributtet i S. 3. La s C ha produktet av R og S som argument. R s <Condition> INF3100 - V18 - Evgenij Thorstensen 18 t R IN s C S S

Konvertering av subspørringer - eksempel SELECT title FROM StarsIn WHERE starname IN (SELECT name FROM MovieStar WHERE birtdate LIKE %1960 ) produktet av relasjonene i <FromList> gjør seleksjon basert på <Condition>, representert ved to-arguments seleksjon projiser på attributtene i <SelList> erstatt foreløpig subspørringen med dens parseringstre title <Query> <SFW> s SELECT <SelList> FROM <FromList> WHERE<Condition> StarsIn <Condition> <Attribute> title <Relation> StarsIn <Tuple> IN <Attribute> <Query> <Tuple> IN name starname s birthdate LIKE %1960 MovieStar INF3100 - V18 - Evgenij Thorstensen 19

Eksempel (forts.) SELECT title FROM StarsIn WHERE starname IN (...) erstatt <Condition> med treet for subspørringen erstatt to-arguments seleksjon med ett-arguments seleksjon s C, hvor C er starname = name la s C ha produktet av StarsIn og MovieStar som argument title s starname = name title s starname = name StarsIn <Condition> <Tuple> IN name StarsIn name <Attribute> s birthdate LIKE %1960 s birthdate LIKE %1960 starname MovieStar MovieStar INF3100 - V18 - Evgenij Thorstensen 20

Mer om konvertering Konvertering av subspørringer blir mer komplisert hvis subspørringen er relatert til verdier definert utenfor skopet til subspørringen vi må da lage en relasjon med ekstraattributter for sammenligning med de eksterne attributtene de ekstra attributtene fjernes senere ved hjelp av projeksjoner i tillegg må alle duplikattupler fjernes INF3100 - V18 - Evgenij Thorstensen 21

parsere konvertere Forbedring av logiske spørreplaner ved hjelp av algebraiske lover anvende lover utføre estimere resultatstørrelser velge beste vurdere fysiske planer estimere kostnader INF3100 - V18 - Evgenij Thorstensen 22

Kommutativitet og assosiativitet En operator er kommutativ hvis rekkefølgen til argumentene ikke har noen betydning: x y = y x En operator er assosiativ hvis grupperingen av argumentene ikke har noen betydning: x (y z) = (x y) z INF3100 - V18 - Evgenij Thorstensen 23

Algebraiske lover produkt og join Naturlig join og produkt er kommutative og assosiative: R S = S R; R (S T) = (R S) T R S = S R; Hva med thetajoin? Kommutativ: R c S = S c R R (S T) = (R S) T Ikke alltid assosiativ. Eksempel: Gitt relasjonene R(a,b), S(b,c), T(c,d). Da er (R R.b < S.b S) a < d T R R.b < S.b (S a < d T) INF3100 - V18 - Evgenij Thorstensen 24

Rekkefølgen på produkt og join Har rekkefølgen og grupperingen av et produkt eller en join noe å si i forhold til effektivitet? Hvis bare en av relasjonene får plass i minnet, bør denne være første argument en-passoperasjon som reduserer antall disk-io Hvis produkt eller join av to av relasjonene gir en temporær relasjon som får plass i minnet, bør disse joinene tas først for å spare både minneplass og disk-io Temporære relasjoner (mellomresultater) bør være så små som mulig for å spare minneplass Hvis vi kan estimere (ved hjelp av statistikk) antall tupler som skal joines, kan vi spare mange operasjoner ved å joine de relasjonene som gir færrest tupler først (gjelder ikke for produkt) INF3100 - V18 - Evgenij Thorstensen 25

Algebraiske lover union og snitt Union og snitt er kommutative og assosiative: R S = S R; R (S T) = (R S) T R S = S R; R (S T) = (R S) T Merk: Andre lover kan være ulike for set og bag, f.eks. distribusjon av snitt over union: R S (S S T) = (R S S) S (R S T) R B (S B T) (R B S) B (R B T) INF3100 - V18 - Evgenij Thorstensen 26

Algebraiske lover seleksjon Seleksjon er en svært viktig operator for optimalisering reduserer antall tupler (størrelsen på relasjonen) generell regel: dytt seleksjoner så langt ned i treet som mulig Betingelser med AND og OR kan splittes: s a AND b (R) = s a (s b (R)) s a OR b (R) = (s a (R)) S (s b (R)) der R er en mengde (Splitting av OR fungerer bare når R er en mengde: Hvis R er en bag og begge betingelsene er oppfylt, vil bagunion inkludere et tuppel to ganger - en gang i hver seleksjon.) Rekkefølgen av påfølgende seleksjoner har ingen betydning for resultatmengden: s a (s b (R)) = s b (s a (R)) INF3100 - V18 - Evgenij Thorstensen 27

Dytting av seleksjon Hvis seleksjon dyttes nedover i treet må den dyttes til begge argumentene for union: s a (R S) = s a (R) s a (S) kartesisk produkt: s a (R S) = s a (R) s a (S) må den dyttes til første argument, valgfritt til andre argument for differanse: s a (R - S) = s a (R) - S = s a (R) - s a (S) kan den dyttes til et eller begge argumentene for snitt: s a (R S) = s a (R) s a (S) = R s a (S) = s a (R) S join: s a (R S) = s a (R) s a (S) = R s a (S) = s a (R) S thetajoin: s a (R b S) = s a (R) b s a (S) = R b s a (S) = s a (R) b S INF3100 - V18 - Evgenij Thorstensen 28

Dytting av seleksjon eksempel Eksempel: hvert attributt er 1 byte s A=2 (R S) join: sammenlign 4 * 4 elementer = 16 operasjoner mellomlagre relasjon: R S gir 52 bytes seleksjon: sjekk hvert enkelt tuppel: 2 operasjoner s A=2 (R) S seleksjon: sjekk hvert enkelt tuppel i R: 4 operasjoner mellomlagre relasjon: s A=2 (R) gir 24 bytes join: sammenlign 1 * 4 elementer = 4 operasjoner Relasjon R A B C... X 1 z 1... 4 2 c 6... 2 3 r 8... 7 4 n 9... 4 Relasjon R S A B C... X Y Z 2 c 6... 2 f c 3 r 8... 7 g c Relasjon s A=2 (R) A B C... X 2 c 6... 2 Relasjon S X Y Z 2 f c 3 t b 7 g c 9 e c INF3100 - V18 - Evgenij Thorstensen 29

Dytting av seleksjon oppover i treet Noen ganger er det nyttig å dytte seleksjon den andre veien, dvs. oppover i treet, ved å bruke loven s a (R S) = R s a (S) bakvendt. Eksempel: StarsIn(title, year, starname); CREATE VIEW Movies96 AS SELECT * FROM Movies WHERE year = 1996; Movies(title, year, studio ) SELECT starname, studio FROM Movies96 NATURAL JOIN StarsIn; starname, studio starname, studio s year = 1996 starname, studio s year = 1996 StarsIn s year = 1996 s year = 1996 Movies Movies StarsIn INF3100 - V18 - Evgenij Thorstensen Movies StarsIn 30

Algebraiske lover projeksjon I Projeksjon kan dyttes gjennom join og produkt (dvs. nye projeksjoner kan introduseres) så lenge vi ikke fjerner attributter som brukes lenger oppe i treet: L (R S) = L ( M (R) N (S)) hvis M inneholder joinattributtene og det av L som er i R N inneholder joinattributtene og det av L som er i S L (R C S) = L ( M (R) C N (S)) hvis M inneholder de av attributtene i C og L som er i R N inneholder de av attributtene i C og L som er i S L (R S) = L ( M (R) N (S)) hvis M inneholder de av attributtene i L som er i R N inneholder de av attributtene i L som er i S INF3100 - V18 - Evgenij Thorstensen 31

Algebraiske lover projeksjon II Projeksjon kan dyttes gjennom bagunion: L (R B S) = L (R) B L (S) Merk: Tilsvarende regel gjelder ikke for mengdeunion, mengdesnitt, bagsnitt, mengdedifferanse eller bagdifferanse fordi projeksjon kan endre multiplisiteten til tuplene: Hvis R er en mengde, er ikke nødvendigvis L (R) en mengde Hvis R er en bag og et tuppel t forekommer k ganger i R, så kan projeksjonen av t på L forekomme mer enn k ganger i L (R). INF3100 - V18 - Evgenij Thorstensen 32

Algebraiske lover projeksjon III Projeksjon kan dyttes gjennom seleksjon (nye projeksjoner introduseres) så lenge vi ikke fjerner attributter som brukes lenger oppe i treet: L (s C (R)) = L (s C ( M (R))) hvis M inneholder attributtene i C og L Merk at hvis R har en indeks på noen av attributtene i seleksjonsbetingelsen C, så vil ikke denne indeksen kunne benyttes under seleksjonen hvis vi først gjør en projeksjon på M. INF3100 - V18 - Evgenij Thorstensen 33

Algebraiske lover join, produkt, seleksjon, projeksjon To viktige lover som følger fra definisjonen av join: s C (R S) = R C S L (s C (R S)) = R S hvis C sammenligner hvert par av tupler fra R og S med samme navn L = alle attributtene fra R og S (uten duplikater) INF3100 - V18 - Evgenij Thorstensen 34

Eksempel L (s R.a = S.a (R S)) vs. R S R(a,b,c,d,e,, k), T(R) = 10.000, S(a,l,m,n,o,,z), T(S) = 100 hvert attributt er 1 byte, a er kandidatnøkkel i både R og S antar at alle tupler i S finner en match i R, dvs. 100 tupler i resultatet L (s C (R S)): produkt: kombiner 10.000 * 100 elementer = 1.000.000 operasjoner mellomlagre relasjon R S = 1.000.000 * (11 + 16) = 27.000.000 bytes seleksjon: sjekk hvert enkelt tuppel: 1.000.000 operasjoner mellomlagre relasjon s R.a = S.a (R S) = 100 * 27 = 2700 bytes projeksjon: sjekk hvert enkelt tuppel: 100 operasjoner R S: join: sjekk 10.000 * 100 elementer = 1.000.000 operasjoner INF3100 - V18 - Evgenij Thorstensen 35

Algebraiske lover - duplikateliminasjon Duplikateliminasjon kan redusere størrelsen på temporære relasjoner ved å dyttes gjennom kartesisk produkt: (R S) = (R) (S) join: (R S) = (R) (S) thetajoin: (R C S) = (R) C (S) seleksjon: (s C (R)) = s C ( (R)) bag-snitt: (R B S) = (R) B (S) = (R) B S = R B (S) Merk: duplikateliminasjon kan ikke dyttes gjennom set-operasjoner bag-union og -differanse projeksjoner INF3100 - V18 - Evgenij Thorstensen 36

Algebraiske lover - grupperingsoperatoren Kan ikke gi generelle lover INF3100 - V18 - Evgenij Thorstensen 37

Forbedring av logiske spørreplaner De vanligste optimaliseringene er: Dytt seleksjoner så langt ned som mulig. Hvis seleksjonsbetingelsen består av flere deler, splitt i flere seleksjoner og dytt hver enkelt så langt ned i treet som mulig. Dytt projeksjoner så langt ned som mulig. Kombiner seleksjon og kartesisk produkt til en join av passende type Duplikateliminasjoner kan noen ganger fjernes Men ikke ødelegg utnyttelse av indekser: Dytting av projeksjon forbi en seleksjon kan ødelegge for bruk av indekser ved seleksjonen INF3100 - V18 - Evgenij Thorstensen 38