Semesteroppgave INFO221 Vår 2007

Størrelse: px
Begynne med side:

Download "Semesteroppgave INFO221 Vår 2007"

Transkript

1 Semesteroppgave INFO221 Vår 2007 Sondre Tjugen Rivedal - studentnr Øyvind Barra Kvinge - studentnr. Bård Aksnes - studentnr

2 Innledning... 3 Om SSM-modellen... 3 Objektrelasjonelle databaser vs. Relasjonelle databaser... 4 Egendefinerte datatyper... 5 Varrays... 7 Nøstede tabeller... 7 Relasjoner Oracle InterMedia Medlemsfunksjoner Indekser Prosedyrer INSERT_TECH_EMPLOYEE INSERT_ITEM_IMAGE COMPARE_IMAGES Intern feil i databasen Spørringer Oppsummering Kildehenvisninger Vedlegg Directory Sequences Object types and nested types Tables Procedures INSERT_MUSEUM INSERT_GENERAL_EMPLOYEE INSERT_TECH_EMPLOYEE INSERT_SECURITY INSERT_ITEM INSERT_ITEM_DOCUMENTATION INSERT_ITEM_IMAGE COMPARE_IMAGES Index/index preferences Lexer preference Wordlist preference Index Testdata Museums General employees Technincal & Specialist employees Security Items Images Documentations Insert into ITEM_SECURITY_TBL Insert into EMPLOYEE_ITEM_TBL Insert into ITEM_DOCUMENTTION_TBL SSM modell

3 Innledning Vi har våren 2007 lært om implementering av objektrelasjonelle databaser i Oracle. I denne semesteroppgaven vil vi vise hvordan vi har implementert vår database. Målet er å skape en database for å holde oversikt over museer med tilhørende gjenstander, bilder, ansatte med mer. De ansatte skal lett kunne hente ut relevant informasjon om disse objektene ved tekst- og bildesøk. Om SSM-modellen Vi begynte med å utarbeide en SSM-modell for å skape oss en oversikt over databasen sin struktur (vedlegg #). I modellen vår har vi tatt med alle entitetene vi trenger og relasjonene mellom disse. Vi har gjort en del antagelser for vår SSM-modell basert på oppgaveteksten. Vi har blant annet delt entiteten ansatte i to subklasser: en for generelle ansatte kalt Employee_general og en for teknisk/spesialist-ansatte kalt Employee_tech. Med generelle ansatte mener vi ansatte som f.eks. jobber som renholdsarbeider. Med teknisk/spesialist menes ansatte med en faglig bakgrunn/spesialitet innefor museumsfaget. Vi antar at det er bare de ansatte i Employee_tech-klassen som vil ha ansvar eller forbindelse med en museumsgjenstand. Dette går fram av mange-til-mangerelasjonen Employee_item mellom subklassen Employee_tech og entiteten Item. Disse ansatte kan være tilknyttet flere gjenstander og en gjenstand kan ha null til flere ansatte tilknyttet seg. Vi antar at en museumsgjenstand, entiteten item, kan ha flere tekstdokumenter som gjenstandsbeskrivelse. Det vil si at det kan stå informasjon om en gjenstand i ulike tekstdokumenter. Det kan tenkes at et tekstdokument omhandler en klasse av objekter, f.eks. redskaper. Innenfor klassen redskaper finner man informasjon om ulike enkeltobjekter som f.eks. en spesifikk hammer eller sag. Det kan også eksistere et annet dokument som kun omhandler denne spesifikke hammeren. Derfor kan en gjenstand være tilknyttet flere ulike tekstdokumenter. Dette viser vi gjennom relasjonen 3

4 item_documentation. Det kan lagres flere bilder per gjenstand i databasen. Et bilde kan bare være tilknyttet en gjenstand. Vi har løst dette ved å legge bildene i en egen entitet der hvert bilde har en referanse til gjenstanden den avbilder. Vi har valgt å modellere sikkerhetstiltak som en egen entitet kalt Security. Dersom vi hadde definert sikkerhetstiltak som en attributt i Item -entiteten ville det kunne oppstått mange null-verdier ved innsetting av gjenstander som ikke har sikkerhetstiltak. I Security legger man inn alle enkelte sikkerhetstiltak man har tilgjengelig, og med mange-til-mange-relasjonen Item_security lagrer man alle sammenhengene mellom museumsgjenstander og de sikkerhetstiltakene som gjelder for hver gjenstand. I implementeringen av databasen har vi brukt endelsen _TP i navnene til alle typene vi har opprettet, og _TBL i alle tabellnavn. Vi har også brukt NT_ i starten av alle nøstede tabeller sine navn, og VA_ for alle varrays. Objektrelasjonelle databaser vs. Relasjonelle databaser Oracle Database is an object relational database management system. This means that in addition to its traditional role in the safe and efficient management of relational data, it provides support for the definition of object types, including the data associated with objects and the operations (methods) that can be performed on them. Object relational technology includes integral support for BLOBs to provide the basis for adding complex objects, such as digitized audio, image, and video, to databases. (Pelski 2005: 19) Fordi det skal kunne legges inn bilder og større objekter i databasen må databasen implementeres som en objektrelasjonell database. Objektrelasjonelle databaser og databasehåndteringssystemer har blitt utviklet som følge av at etterspørselen etter systemer med god støtte for multimedia har økt. Man ønsker i større grad enn før å lagre store mengder binære data som dokumenter, lyd, bilde og video i databaser, ofte for presentasjon gjennom webgrensesnitt slik som for eksempel YouTube (www.youtube.com). Dette har nok sammenheng med en generell økning i både 4

5 overføringshastighet og maskinvareytelser som tillater høyere overføringshastigheter og mer effektiv behandling av tunge multimediefiler. Med objektrelasjonelle databaser og databasehåndteringssystemer har man støtte for BLOBs (Binary Large Objects), og man kan dermed lagre binære datatyper som lyd, bilde og video, i tillegg til at man kan definere egne datatyper (UDT), funksjoner (UDF) og objekter. Tradisjonelle relasjonelle databasehåndteringssystemer fungerer best til behandling av tekst og tall, lagret som atomiske datatyper (for eksempel varchar2 eller integer) i rader av attributter i tabeller. Slike databasehåndteringssystemer kommer til kort når det gjelder å behandle lyd- bilde- og video- datatyper. Egendefinerte datatyper Egendefinerte datatyper er objekter man oppretter selv i databasen, bestående av atomiske datatyper eller andre egendefinerte datatyper, samt metoder. Man kan lette forståeligheten av databasens struktur ved å benytte egendefinerte datatyper med navn og egenskaper som ligner de man finner i den virkelige verden. I vår database har vi for eksempel definert et EMPLOYEE_TP -objekt med et tilhørende attributt av typen NAME_TP. NAME_TP består igjen av to attributter first_name og last_name av typen varchar2. Andre fordeler med å benytte egendefinerte datatyper er at man kan bruke de samme typene om igjen, og på denne måten redusere mengden kode man trenger å skrive og lette databaseimplementeringen. Dette medvirker også til å standardisere innholdet i objektene. Egendefinerte typer kan også inneholde metoder. Disse er del av kroppen til objektet, og kun gjennom objektet kan man få tilgang til metodene. Med metoder kan man blant annet utlede data fra andre lagrede data i objektet. Dersom man for eksempel har lagret fødselsdato til et personobjekt gir det ingen mening å lagre alder, for dette er data man kan utlede med en enkel matematisk metode som trekker fødselsdato fra nåværende tid. 5

6 Det ville også ha vært frustrerende å måtte oppdatere alderattributtet for hvert år. Med metoder kan man flytte en god del av applikasjonskoden over i selve databasen som før måtte implementeres i nivået over databasen, for eksempel i PHP- eller JAVA- koden. Vi har flere egendefinerte typer i vår database, som NAME_TP, ADDRESS_TP og EMPLOYEE_TP for å nevne noen. Disse er like på mange måter, med unntak av antallet attributter og tilhørende datatyper og metoder. ADRESS_TP består av tre attributter kalt street (varchar2), postal_code (integer) og city (varchar2). Alle atomiske datatyper. Måten vi har opprettet ADRESS_TP på er som følger: create or replace type ADDRESS_TP as object ( street varchar2 (50), postal_code integer (4), city varchar2 (50) ); I EMPLOYEE_TP kan man se hvordan vi har brukt egendefinerte typer inni en annen egendefinert type: create or replace type EMPLOYEE_TP as object ( employee_id integer, employee_name NAME_TP, employee_address ADDRESS_TP, employee_phone NT_EMPLOYEE_PHONE_TP, employee_ NT_EMPLOYEE_ _TP, employee_job_title varchar2 (50), employed_since date, employer ref MUSEUM_TP )not final; 6

7 I eksempelet over ser man at vi har brukt de nevnte egendefinerte typene NAME_TP og ADDRESS_TP inni den egendefinerte typen EMPLOYEE_TP. Ellers har vi et attributt employee_id av typen integer som skal fungere som primærnøkkel i tabellen vi senere skal opprette basert på EMPLOYEE_TP, vi har employee_phone og employee_ som er nøstede tabeller av telefonnummer og epost-adresser, employee_job_title av typen varchar2, employed_since av typen date, og employer som er en referanse til det museum den ansatte jobber for. Varrays Vi har brukt en såkalt VARRAY en plass i databasen. Det er i typen EMPLOYEE_TECH_TP som er en subtype av EMPLOYEE_TP. VARRAYen har vi kalt expertise VA_EXPERTISE_TP og den er en datatype for attributten expertise i subklassen. You should limit varying arrays to one column. If you need to use multiple columns in an array, consider using nested tables (Loney 2004: 622). Som Loney her påpeker, er noe av det som kjennetegner VARRAYs er at de bare kan lagre et bestemt antall rader, og helst bør de ikke ha mer enn en kolonne. Nøstede tabeller En nøstet tabell kan forståes som en tabell inni en annen tabell, og har ingen begrensninger på hvor mange rader man kan lagre i den (Loney 2004: 628). Nøstede tabeller kan brukes i stedet for å opprette en egen tabell med fremmednøkler til en annen tabell. I eksempelet over ser man at EMPLOYEE_TP har et tilhørende attributt av typen NT_EMPLOYEE_PHONE_TP, som er en nøstet tabell av typen PHONE_TP. Dette betyr at hvert EMPLOYEE_TP -objekt vi legger inn i databasen har en nøstet tabell med PHONE_TP -objekter. Hvert PHONE_TP -objekt består av to attributter kalt phone_type og phone_number, henholdsvis av de atomiske datatypene integer og varchar2. Oppsummert betyr dette at hver ansatt vi legger inn i databasen kan ha en telefonliste med flere rader, og hver rad inneholder en beskrivelse av nummeret og selve nummeret. Man kan for eksempel tenke seg at en ansatt har to registrerte telefonnummer 7

8 av typene privat og jobb. Koden for å opprette den nøstede tabellen NT_EMPLOYEE_PHONE_TP er som følger: create or replace type PHONE_TP as object ( phone_type varchar2 (50), phone_number integer (8) ); create or replace type NT_EMPLOYEE_PHONE_TP as table of PHONE_TP; Tabeller For å kunne sette inn data i databasen, altså lagre dataene, må det opprettes tabeller. I et ORDBMS er det ikke mulig å lagre data i en objekttype. Dette er fordi det er en egendefinert datatype, og denne stiller på lik linje med andre datatyper som varchar2 og number. Det er ikke mulig å lagre noen data i en varchar2, men det er mulig å lagre verdier i varchar2-format i en tabell. Vi har laget totalt ni tabeller. Av disse er seks tabeller laget av objekttyper mens tre tabeller er laget som vanlige relasjonelle tabeller. For å opprette disse to ulike typene av tabeller, er det ulik syntaks. For å opprette en objekttype-tabell er syntaksen slik: CREATE TABLE <table_name> OF <object_type_tp> ([...]); For opprettelse av en vanlig relasjonell tabell er syntaksen: CREATE TABLE <table_name> ([list of attributes, constraints]); Den største forskjellen på disse er at i en tabell av objekttyper må det brukes primærnøkkelbegrensninger eller constraints, mens i en tradisjonell relasjonell tabell bruker vi primærnøkler og fremmednøkler. 8

9 Vi vil vise et eksempel på en tabell som er laget av objekttyper, siden dette er et ORDBMS. Som eksempel viser vi tabellen EMPLOYEE_TBL. Den inneholder også en nøstet tabell: create table EMPLOYEE_TBL of EMPLOYEE_TP( Her gir vi tabellen navnet EMPLOYEE_TBL og sier at vi skal lage en tabell av objekttypen EMPLOYEE_TP. EMPLOYEE_TP er en UDT, en egendefinert type. Denne typen har også to subklasser, spesialiseringer av hvilken type ansatt det er, EMPLOYEE_GENERAL_TP og EMPLOYEE_TECH_TP. CONSTRAINT PK_employee_id primary key (employee_id)) Her gir vi en begrensning (constraint) for tabellen. Vi sier at begrensningen heter PK_employee_id og er primærnøkkelen i tabellen. Det er den ansattes id, som automatisk genereres av en sekvens når man legger til en ny ansatt i databasen, som fungerer som primærnøkkel. nested table employee_phone store as EMPLOYEE_PHONE_NTAB( (primary key (nested_table_id, phone_type)) organization index compress) Vi har her opprettet en nøstet tabell i tabellen EMPLOYEE_TBL. Dette er en liste over de ansattes telefonnumre. Grunnen til at vi bruker en nøstet tabell her er at en ansatt kan ha flere enn ett telefonnummer, og et ukjent antall telefonnummer. De kan ha et hjemmenummer, et mobilnummer, et jobbnummer osv. Som tidligere nevnt er det også anbefalt å benytte nøstede tabeller i tilfeller der man trenger å lagre data i flere kolonner. Vi har først opprettet en type som heter PHONE_TP. Denne inneholder to attributter: phone_type og phone_number. Denne typen PHONE_TP kan så gjenbrukes alle 9

10 plasser det trengs å lagre telefonnummer. Ved å lage en ny type som er en nøstet tabell av PHONE_TP, kan man opprette en tabell som man kan sette inn i en overordnet tabell. Det er dette vi har gjort i EMPLOYEE_TBL. Vi har her brukt NT_EMPLOYEE_PHONE_TP som er en nøstet tabell av PHONE_TP. Ved å skrive store as har vi omnavnet den nøstede tabellen til EMPLOYEE_PHONE_NTAB. Dette navnet kan være hva som helst, men for å vite hva tabellen inneholder er det greit å gi den et relevant navn. Man kan enkelt se at dette er en nøstet tabell med ansattes telefonnumre ved å se på navnet. EMPLOYEE_PHONE_NTAB trenger også å ha en primærnøkkel, da det er en tabell. Ved å gi den nøstede tabellen en nested_table_id, vil hver rad i EMPLOYEE_TBL ha sin egen kolonne med unike nøstede tabeller for telefonnummer. Nested_table_id er en nøkkel som forbinder rader i den nøstede tabellen med rader i foreldretabellen (Oracle9i Application Developer's Guide, nettartikkel). Vi har definert at primærnøkkelen for EMPLOYEE_PHONE_NTAB er phone_type. Dette har vi gjort med hensyn til at en ansatt kanskje vil benytte det samme nummeret for flere ulike telefontyper. Man kan tenke seg at en ansatt i et slikt tilfelle ønsker å presisere at både jobb - og privat - telefontypene bruker det samme nummeret. Vi anser det også som lite sannsynlig at en ansatt vil lagre samme verdien i phone_type flere ganger (for eksempel legge inn privat to ganger), og phone_type vil da fint kunne fungere som primærnøkkel i dette tilfellet. Ved å tilføre klausulen organization_index_compress gjør man den nøstede tabellen til en IOT (index-organized table) (Oracle9i Application Developer's Guide, nettartikkel). Alt dette i kombinasjon med nested_table_id gjør at Oracle fysisk vil samle ( cluster ) de nøstede tabellene som hører til den samme foreldretabellen for mer effektiv tilgang (Oracle9i Application Developer's Guide, nettartikkel). nested table employee_ store as EMPLOYEE_ _NTAB( (primary key (nested_table_id, _type)) 10

11 organization index compress); Den siste delen av EMPLOYEE_TBL ser slik ut. Dette er en nøstet tabell for de ansattes -adresser. Det samme gjelder for denne nøstede tabellen som det som er beskrevet for EMPLOYEE_PHONE_NTAB. Vi har brukt _type som primærnøkkel av samme årsaker som for phone_type i EMPLOYEE_PHONE_NTAB, som beskrevet ovenfor. Tabellen EMPLOYEE_TBL vil lagre alle ansatte. Vi har modellert denne ansatt-entiteten som en superklasse med to subklasser: EMPLOYEE_GENERAL_TP og EMPLOYEE_TECH_TP. Disse subklassene arver attributtene fra superklassen, samtidig som de har attributter som er særegne for hver enkelt av dem. EMPLOYEE_TECH_TP har attributten expertise i tillegg til de arvede, og EMPLOYEE_GENERAL_TP har workarea. Når man skal sette inn ansatte som tilhører de to subklassene vil disse bli satt inn i EMPLOYEE_TBL. Dette gjøres ved hjelp av to prosedyrer: INSERT_GENERAL_EMPLOYEE og INSERT_TECH_EMPLOYEE. Disse blir nærmere beskrevet i egne avsnitt. Superklassen EMPLOYEE_TP er NOT FINAL, mens subklassene er UNDER EMPLOYEE_TP og FINAL. At typen EMPLOYEE_TP er NOT FINAL indikerer at man har en spesialisering, altså subklasser. Relasjoner De stedene i databasen vår vi har en-til-mange-relasjoner har vi benyttet datatypen REF. REF er en referanse til en annen rad i samme tabellen som den befinner seg i, eller til en rad i en annen tabell. Blant annet har vi brukt REF i EMPLOYEE_TP, som er beskrevet tidligere i denne teksten. EMPLOYEE_TP har et attributt som er kalt employer, som er en referanse til et objekt av typen MUSEUM_TP (museet den ansatte jobber for). Andre steder vi har brukt REF er i typene ITEM_TP (til MUSEUM_TP, museet en gjenstand er utstilt på) og IMAGE_TP (til ITEM_TP, gjenstanden den avbilder). 11

12 Vi har tre mange-til-mange-relasjoner implementert i vår database, ITEM_DOCUMENTATION, ITEM_SECURITY og EMPLOYEE_ITEM. Disse har vi implementert ved å opprette egne tabeller der primærnøkkelen er sammensatt av to fremmednøkler som peker til hver sin respektive tabell. Som et eksempel har ITEM_DOCUMENTATION to attributter kalt item_id og documentation_id, som er fremmednøkler som henholdsvis peker til tabellene ITEM_TBL og SECURITY_TBL. Disse to attributtene utgjør til sammen primærnøkkelen i ITEM_DOCUMENTATION ved at kombinasjonen av de to alltid vil være unik i denne tabellen. Oracle InterMedia Oracle intermedia is a feature that enables Oracle Database to store, manage, and retrieve images, audio, video, or other heterogeneous media data in an integrated fashion with other enterprise information. Oracle intermedia extends Oracle Database reliability, availability, and data management to multimedia content in traditional, Internet, electronic commerce, and media-rich applications (Pelski 2005: 1). Vi har benyttet oss av ORDImage klassen i Oracle InterMedia. InterMedia er en utvidelse av Oracle som tilbyr støtte for multimedia som lyd, bilde og video med mer. Ulike lagringsmetoder støttes, for eksempel kan man lagre multimedieobjekter i selve databasen, slik vi har gjort, eller man kan bare lagre pekere til eksterne objekter. InterMedia har også innebygde metoder for å hente ut og lagre metadata fra multimediefiler som filstørrelse, kompresjonsteknikk, filformat osv. samt støtte for indeksering av slike data for dermed å kunne søke i dem (se Pelski 2005: 24). I og med at vår database skal lagre bilder av museumsgjenstander trenger vi funksjonaliteten som InterMedia tilbyr, og bildeformatet JPG som vi benytter er et av de mange som her er støttet. Koden vår for opprettelse av en bildetype er som følger: create or replace type IMAGE_TP as object ( image_id integer, keywords varchar2 (100), 12

13 description varchar2 (300), item ref ITEM_TP, image ORDSYS.ORDImage, image_sign ORDSYS.ORDImageSignature ); I eksempelet over viser vi at typen vår kalt IMAGE_TP har attributtene image_id av typen integer som identifiserer bildet, keywords av typen varchar2 som er relevante nøkkelord for bildet, description av typen varchar2 som er en kort beskrivelse av bildet, item som er en referanse til den museumsgjenstanden av typen ITEM_TP som er avbildet, image som er et tomt bilde av typen ORDSYS.ORDImage, og image_sign som er en tom signatur av typen ORDSYS.ORDImageSignature. Medlemsfunksjoner En medlemsfunksjon (member function) er en funksjon som tilhører et objekt, og som er innebygd i objektet sin kropp (body). Funksjonen er kun tilgjengelige gjennom objektet det tilhører. I vår database har vi en medlemsfunksjon kalt calc_age, som er del av kroppen til objekttypen ITEM_TP. Denne tar ingen parametere, men returnerer en kalkulert verdi age, som er museumsgjenstanden sin alder, basert på en lagret verdi dated i ITEM_TP, som er årstallet gjenstanden er datert. Ved å trekke dated fra nåværende årstall får man alderen til museumsgjenstanden. Følgende er koden for denne metoden: create or replace type body ITEM_TP as member function calc_age return number is age number(4); today number(4); begin select extract(year from sysdate) into today from dual; age:=today-self.dated; 13

14 return(age); end; end; Her definerer vi først at funksjonen skal hete calc_age, og at den skal returnere en verdi av datatypen number. Vi oppretter så to variabler age og today, også av datatypen number at de skal stemme overens med datatypen til returverdien. Vi setter lengden av disse til 4 siffer ettersom de skal inneholde årstall. Vi henter så ut nåværende årstall fra sysdate, som er tidspunktet satt på tjenermaskinen databasen kjører på, og denne verdien blir så mellomlagret i dual (en innebygd tabell i Oracle som vanligvis benyttes til korte tester og kalkuleringer (Loney 2004: 210, fritt oversatt)). Verdien blir så overført til today variabelen. Utregningen av gjenstanden sin alder skjer så ved at verdien i dated -attributtet til objektet denne metoden tilhører (man refererer til eierobjektet ved å skrive self ) trekkes fra nåværende årstall, altså verdien som er lagret i today - variabelen, og svarverdien blir tilordnet age variabelen. Variabelen age blir så returnert og metoden avsluttet. Sekvenser Vi har opprettet seks sekvenser for databasen vår. Poenget med en sekvens er å kunne generere en id automatisk når man gjør en insert-operasjon på en tabell. Dersom man skal legge til en ny ansatt, vil den ansatte automatisk få tildelt en id, som er et tall. For eksempel dersom man legger inn en ny ansatt av typen EMPLOYEE_TECH_TP, er det en prosedyre som tar seg av insert-operasjonen. Prosedyren INSERT_TECH_EMPLOYEE kaller på sekvensen «seq_employee_id». Vi skriver seq_employee_id.nextval i prosedyren, som sier at sekvensen skal tilegne den asnatte den neste verdien ettter den forrige ansatte som ble registrert. Sekvensen er satt til å øke verdien med 1 for hver gang. Det vil si at den første ansatte får id nr 1, den neste nr 2 osv. En oversikt over sekvensene våre finnes i vedlegget. 14

15 Indekser Når man skal søke i en tekst/tekstdokument for å finne informasjon, har man ulike muligheter å gjøre dette på. Man kan søke gjennom teksten sekvensielt, altså lese ord for ord gjennom hele teksten. Det sier seg selv at dette er tungvint og tidkrevende. En annen mulighet man har er å konstruere datastrukturer eller indekser. Disse vil øke farten på søket siden man ikke trenger å søke gjennom hele teksten. «A database index is a data structure that improves the speed of operations in a table.» (Index (database)- Wikipedia nettartikkel). Indekser er et enkelt konsept som har blitt brukt i lang tid. Et eksempel er i bøker der man finner en indeks bakerst. Hvis man ønsker å finne ut hvilken side det står om «fugler» på f.eks., kan man slå opp ordet «fugler» i indeksen som også er ordnet i alfabetisk rekkefølge, bakerst i boken. Der finner man ut på hvilke sider i boken man finner ordet «fugler». Man kunne funnet den samme informasjonen om «fugler» ved å lese gjennom boken fra perm til perm. Men dette tar selvfølgelig mye lenger tid enn å finne de konkrete sidetallene hvor informasjon om «fugler» finnes. Det finnes ulike teknikker for indeksering. De vanligste er inverterte filer, suffix arrays og signatur-filer. I Oracle gjelder de samme prinsippene for indeksering som for en bok. Dersom man søker etter et søkeord, og dette ikke er indeksert, må Oracle lete gjennom alle tabeller for å oppfylle kondisjonen i spørringen. I spørringen: SELECT * FROM fugler WHERE art='måke' er WHERE-klausulen en kondisjon som må oppfylles for at man skal få ut de rette dataene. Her sier man at man skal skrive ut alle rader fra arten måke. Dersom fugler ikke 15

16 har en indeks på art-kolonnen, må Oracle søke gjennom alle radene i tabellene til den finner de radene som oppfyller WHERE-klausulen. Ved å indeksere vil Oracle søke mye fortere gjennom tabellene. En indeks vil gi en peker til hvor på disken den eksakte raden er lagret og hvor i tabellen den befinner seg. «The standard type of index in Oracle is called a B*-tree index, matching column values to their related rowids». (Loney 2004: 354) For at det skal være mulig å søke i innholdet i store tekstdokumenter som ligger lagret i en Oracle-database er det nødvendig å opprette såkalte tekst-indekser på kolonnen der teksten er lagret. En tekst-indeks kan være et forvirrende begrep: «[I]t is actually a collection of tables and indexes that store information about the text stored in the column». (Loney, 479:2004) Det finnes ulike måter å indeksere tekst på i Oracle. Det er f.eks. ctxcat-indeks, ctxruleindeks og context-indeks. I oppgaveteksten for denne oppgaven står det beskrevet at vi skal opprette såkalte CONTEXT-indekser. En slik indeks passer best for vår database fordi den kan brukes til å indeksere ustrukturert tekst og store mengder tekst. Eksempler på store tekstfiler er doc., pdf, rene tekstfiler, html og xml. En CONTEXT-indeks muliggjør stemming, thesaurus- og fuzzy-søk. Stemming er en prosess der man reduserer et ord til stammen av ordet: «Stemming is the process for reducing inflected (or sometimes derived) words to their stem, base or root form generally a written word form.» (Stemming Wikipedia, nettartikkel). Man kan altså søke etter ord og stemming-prosessen vil generere mulige former av ordet. Spørringen vil utføres på alle mulige former av ordet slik at når man søker etter et ord kan spørringen returnere treff på alle tekster der ulike ord med den samme stammen finnes. 16

17 Før man kan opprette en tekst-indeks må man opprette en lexer. En lexer bestemmer bl.a. hvordan tekst blir brutt opp for indeksering og man kan fastsette hvilket språk indeksen skal forholde seg til. I vår oppgave trenger vi bare en lexer for engelsk, siden alle tekstdokumentene er på engelsk og alt vi skriver inn i databasen gjøres på engelsk. Ved å bruke CREATE_PREFERENCE-prosedyren, oppretter vi en lexer: BEGIN ctx_ddl.create_preference('english_lexer','basic_lexer'); ctx_ddl.set_attribute('english_lexer','index_themes','yes'); ctx_ddl.set_attribute('english_lexer', 'theme_language', 'english'); END; Vi har gitt lexeren navnet «english_lexer». Dette er en basic_lexer som tilbys av Oracle og den støtter de fleste Vest-Europeiske språk. Vi har satt parameteret «index_themes» slik at vi kan gjøre søk innen et tema. Vi har opprettet en CONTEXT-indeks som heter «documentation_index på kolonnen «documentation» i tabellen «documentation_tbl». Det er i «documentation»-kolonnen vi lagrer tekstdokumentene som omhandler gjenstandene i museene. CREATE index documentation_index on documentation_tbl(documentation) indextype is ctxsys.context parameters ('datastore ctxsys.default_datastore filter ctxsys.inso_filter lexer english_lexer memory 1M'); 17

18 Ved å bruke parameter-klausulen sammen med CREATE index, kan man tilpasse context-indeksen. Her sier parameteret datastore at indeksen skal lagres ved preferansen ctxsys.default_datastore. Dette vil si at indeksen lagres i et objekt som heter direct_datastore. Det neste parameteret er filter. Her har vi satt preferansen ctxsys.inso_filter. Dette gjøres for at det skal være mulig å indeksere formaterte dokumenter. Inso_filter filtererer de fleste formattyper til tekst. Lexer-parameteret sier at vi ønsker å bruke lexeren vi har opprettet, english_lexer. Parameteret memory sier hvor mye plass som skal settes av til minne for en indeks. Vi har satt det til 1M. Dette er det minimum som kan spesifiseres/er tillatt. Vi mener dette er nok til en såpass liten database vi skal implementere. Dersom databasen skulle blitt brukt i en reel museums-drift, ville denne verdien ha måtte bli satt høyere. Prosedyrer Vi har til sammen åtte prosedyrer i vår database. Prosedyrer benyttes for eksempel til å lette innsettingen av data i tabeller, men også for å utføre beregninger, sammenligninger av bilder med mer. Med prosedyrer har man muligheten til å implementere mye av funksjonaliteten som før måtte ligge i applikasjonskoden direkte i databasen. Dette gjør at man kan levere en database mer som en full pakke, i stedet for å spre store deler av koden over flere lag i datasystemet. INSERT_TECH_EMPLOYEE Videre vil prosedyren INSERT_TECH_EMPLOYEE gjennomgåes i detalj. Dette er en prosedyre som vi har opprettet for å lette innsetting av data om ansatte i tabellen EMPLOYEE_TBL. Koden for prosedyren er som følger: create or replace procedure INSERT_TECH_EMPLOYEE( te_first_name varchar2, te_last_name varchar2, 18

19 te_street varchar2, te_postal_code integer, te_city varchar2, te_phone_type varchar2, te_phone_number integer, te_ _type varchar2, te_ _address varchar2, te_job_title varchar2, te_employed_since date, te_employer varchar2, te_expertise varchar2 ) as begin insert into EMPLOYEE_TBL values( EMPLOYEE_TECH_TP( seq_employee_id.nextval, NAME_TP(te_first_name,te_last_name), ADDRESS_TP(te_street,te_postal_code,te_city), NT_EMPLOYEE_PHONE_TP(PHONE_TP(te_phone_type,te_phone_number)), NT_EMPLOYEE_ _TP( _TP(te_ _type,te_ _address)), te_job_title, te_employed_since, (SELECT TREAT (REF(b) AS REF MUSEUM_TP) FROM MUSEUM_TBL b WHERE museum_name = te_employer), VA_EXPERTISE_TP(te_expertise) ) ) ; 19

20 commit; dbms_output.put_line('an employee is added'); end; Prosedyren INSERT_TECH_EMPLOYEE tar 13 innparametere. Dette er dataverdiene som skal settes inn i tabellen EMPLOYEE_TBL som en rad av objekttypen EMPLOYEE_TECH_TP, altså data om en ansatt med tekniske egenskaper eller spesialiseringer innenfor visse fagfelt. Disse er blant annet navn, adresse, telefonnummer, e-post, jobbtittel og så videre, og er av de samme datatypene (varchar2, integer osv.) som man finner igjen i EMPLOYEE_TECH_TP og EMPLOYEE_TP. Ved å skrive begin definerer man stedet prosedyren starter, og utsagnet insert into EMPLOYEE_TBL values betyr at det er i tabellen for ansatte, EMPLOYEE_TBL, man nå skal begynne å sette inn verdiene fra innparametrene. Deretter bestemmer man at det er et objekt av typen EMPLOYEE_TECH_TP som skal settes inn. Som tidligere nevnt i avsnittet om tabeller om er EMPLOYEE_TECH_TP en subtype av EMPLOYEE_TP, som tabellen EMPLOYEE_TBL er basert på, og det går dermed fint å sette inn objekter av typen EMPLOYEE_TECH_TP i EMPLOYEE_TBL tabellen. Videre må verdiene i innparametrene settes inn i rett rekkefølge i forhold til hvordan objektene som skal opprettes er definert. Et objekt av typen EMPLOYEE_TECH_TP arver alle attributtene til EMPLOYEE_TP, samt at det har et eget attributt av typen VARRAY kalt expertise. Prosedyren legger derfor først inn en identifikatorverdi ved å kalle sekvensen seq_employee_id og øke denne med 1 vha. tilhørende funksjon NEXTVAL. Så legges verdiene for navn inn, og ansattes navn skal være av den egendefinerte typen NAVN_TP. Denne har igjen en bestemt rekkefølge av sine to attributter der fornavn kommer før etternavn. Innparametrene må legges inn i denne rekkefølgen separert med komma og omsluttet av parenteser. Samme fremgangsmåte gjelder for ADDRESS_TP, som tar gatenavn, postkode og by. 20

Obligatorisk oppgave 1 i Databaseadministrasjon.

Obligatorisk oppgave 1 i Databaseadministrasjon. Obligatorisk oppgave 1 i Databaseadministrasjon. Gruppenummer 7 Av Kai Hagali Ole J. Schøn Thor Jarle Kinstad Cato Goffeng Høgskolen i Østfold 18 September 2012 1 Gruppen startet med å sette opp de tre

Detaljer

Evaluering Av Klienter For Semantisk Vokabular

Evaluering Av Klienter For Semantisk Vokabular Evaluering Av Klienter For Semantisk Vokabular SEMICOLON SAMHANDLING I OFFENTLIG SEKTOR Innholdsfortegnelse English summary... 5 Leserveiledning... 5 Evaluering Semantisk Vokabular klienter... 6 Evaluering

Detaljer

1. Prosessrapport. Experior - rich test editor for FitNesse -

1. Prosessrapport. Experior - rich test editor for FitNesse - 1. Experior - rich test editor for FitNesse - 1.1. Forord Denne rapporten inneholder dokumentasjon av prosessen og gruppens arbeid, i form av informasjon om blant annet bakgrunn for prosjektet, mål, rammebetingelser,

Detaljer

Modell for optimering av investeringsbeslutninger resultater og anvendelse

Modell for optimering av investeringsbeslutninger resultater og anvendelse FFI-rapport 2011/00940 Modell for optimering av investeringsbeslutninger resultater og anvendelse Maria Fleischer Fauske Forsvarets forskningsinstitutt (FFI) 10. mai 2011 FFI-rapport 2011/00940 1185 P:

Detaljer

Ontologikonstruksjon for Statoil

Ontologikonstruksjon for Statoil Ontologikonstruksjon for Statoil Evaluering av metoder for konstruksjon av søkeontologier Geir Øyvin Grimnes Master i datateknikk Oppgaven levert: Juni 2006 Hovedveileder: Jon Atle Gulla, IDI Biveileder(e):

Detaljer

Parallellpublisering av telefonkataloger

Parallellpublisering av telefonkataloger Hårvard Briskeby TRITA-NA-E04040 NADA Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science 100 44 Stockholm Royal Institute of Technology SE-100 44 Stockholm, Sweden Parallellpublisering

Detaljer

Manual. Del 1: Oversikt. QL Time brukerdokumentasjon: Oversikt Document: Norwegian Manual Part 1_version 2 Side: 1

Manual. Del 1: Oversikt. QL Time brukerdokumentasjon: Oversikt Document: Norwegian Manual Part 1_version 2 Side: 1 Manual Del 1: Oversikt QL Time brukerdokumentasjon: Oversikt Dato 18.08.2011 Side: 1 Om QL Time dokumentasjon Dokumentasjoner er delt inn i følgende deler: QL Time Oversikt (den del du nå har foran deg)

Detaljer

4. Produktrapport. Forord

4. Produktrapport. Forord 4. Produktrapport Forord Det er en forutsetning at leseren har gjennomgått presentasjonen av prosjektet før denne rapporten leses. Under denne forutsetningen, kan rapporten leses selvstendig og er da uavhengig

Detaljer

Kapittel 1. Introduksjon

Kapittel 1. Introduksjon Kapittel 1 Introduksjon Læringsmål for dette kapitlet Etter å ha lest dette kapitlet skal du forstå hva et program er kjenne til lagmodellen for programvare på datamaskinen ha tilrettelagt datamaskinen

Detaljer

INTERNETT som verktøy for formidling av overgrepsbilder

INTERNETT som verktøy for formidling av overgrepsbilder Høgskolen i Nesnas skriftserie Nr. 63 Høgskolen i Nesna 2005 INTERNETT som verktøy for formidling av overgrepsbilder Studentrapporter fra 1. år IT-Bachelor Per A. Godejord (Red.) Pris: Kr. 152 ISBN: 82-7569-119-2

Detaljer

>>12 Arbeide med MySQL

>>12 Arbeide med MySQL 106 Snarveien til MySQL og Dreamweaver CS5 >>12 Arbeide med MySQL I dette kapittelet vil du lære hvordan du installerer MySQL Workbench å opprette prosjekter å lage tabeller hvordan du ser på innholdet

Detaljer

Tom side til prosjekt beskrivelse.

Tom side til prosjekt beskrivelse. Tom side til prosjekt beskrivelse. 2 Hovedprosjekt datateknikk, Våren 2003. Tittel: Deltakere: Veileder: Ip-telefoni. Robert Rinnan, Morten Sundstrøm, Vegard Slettedahl. Hans Jørgen Alker. Sammendrag Som

Detaljer

Landsbytreff no. 9. Innføring i GSAK. GC38WM5 - Dokka, 13. MARS 2012

Landsbytreff no. 9. Innføring i GSAK. GC38WM5 - Dokka, 13. MARS 2012 Landsbytreff no. 9 Innføring i GSAK GC38WM5 - Dokka, 13. MARS 2012 2 Innhold INNHOLD... 2 1. FORORD... 4 2. GEOCACHING I NORGE... 6 3. HVA ER GSAK?... 8 3.1 OPPBYGGING AV SYSTEMET GSAK... 8 3.2 TRENGER

Detaljer

Implementasjonsmanual for eredaktør 1.x

Implementasjonsmanual for eredaktør 1.x Implementasjonsmanual for eredaktør 1.x Introduksjon Dette dokumentet er en innføring i hvordan man setter opp designfiler og maler i eredaktør 1.x. Som forkunnskap er det nyttig å ha litt erfaring med

Detaljer

Tore Søfting: Excel 2010 Avansert funksjonalitet

Tore Søfting: Excel 2010 Avansert funksjonalitet Tore Søfting: Excel 2010 Avansert funksjonalitet Mars 2012 Innholdsfortegnelse Introduksjon... 4 Litt om forskjellige språkversjoner... 5 Hva er nytt i Excel 2010?... 6 - sammenlignet med 2003-versjonen...

Detaljer

1. Objektorientert systemutvikling

1. Objektorientert systemutvikling Tore Berg Hansen 26.10.2004 Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO314D Prosjektrettet systemarbeid 1. Resymé: I denne leksjonen skal vi se på hvordan man kan arbeide

Detaljer

URI-er for begreper og data i norsk offentlig sektor

URI-er for begreper og data i norsk offentlig sektor URI-er for begreper og data i norsk offentlig sektor Semicolon rapport Status: under arbeid. Versjon 1.0 November 2011 Endringskontroll Versjon Dato Forfatter Kommentar 0.1 31.09.2011 Jens K. Mjelva (ed.)

Detaljer

MasterChess. av Trygve Pløhn Ståle André Nygård. Maiprosjekt (4 uker) cit269. Kandidatutdanning - SWU. Avdeling for samfunn, næring og natur

MasterChess. av Trygve Pløhn Ståle André Nygård. Maiprosjekt (4 uker) cit269. Kandidatutdanning - SWU. Avdeling for samfunn, næring og natur MasterChess av Trygve Pløhn Ståle André Nygård Maiprosjekt (4 uker) cit269 Kandidatutdanning - SWU Avdeling for samfunn, næring og natur Prosjektoppgave vår 2003 Prosjektrapport 1. Forord Denne rapporten

Detaljer

Emneoppgave INFO161 Evalueringsdel

Emneoppgave INFO161 Evalueringsdel Emneoppgave INFO161 Evalueringsdel Av: Jarle Johnsen (jarle.johnsen@student.uib.no) Øyvind B. Kvinge (okv066@student.uib.no) Bjørn Arild Mæland (bma025@student.uib.no) Del 1...3 Briefing... 3 Heuristikker:...

Detaljer

Intuisjon er bra viten er bedre. Enalyzer Survey Solution PROSESSGUIDE

Intuisjon er bra viten er bedre. Enalyzer Survey Solution PROSESSGUIDE Enalyzer Survey Solution PROSESSGUIDE 1 1 Introduksjon...............3 2 Før du går i gang............4 2.1 Hvem skal undersøkelsen sendes til og hva vet du om dem på forhånd?...4 2.2 Hvilke spørsmål vil

Detaljer

Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker

Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker Konfidensielt Sammendrag og Forord Lenkeanalysemetoder og Rangering av Dokumenter i Domener med få Lenker Sammendrag For å rangere dokumenter ved søking har det blitt investert store ressurser i å finne

Detaljer

FFI RAPPORT. LINEÆRPROGRAMMERING OG MIXED INTEGER PROGRAMMERING I STRUKTURANALYSER Grunnlag og erfaringer. SUNDFØR Hans Olav FFI/RAPPORT-2006/00241

FFI RAPPORT. LINEÆRPROGRAMMERING OG MIXED INTEGER PROGRAMMERING I STRUKTURANALYSER Grunnlag og erfaringer. SUNDFØR Hans Olav FFI/RAPPORT-2006/00241 FFI RAPPORT LINEÆRPROGRAMMERING OG MIXED INTEGER PROGRAMMERING I STRUKTURANALYSER Grunnlag og erfaringer SUNDFØR Hans Olav FFI/RAPPORT-2006/00241 LINEÆRPROGRAMMERING OG MIXED INTEGER PROGRAMMERING I STRUKTURANALYSER

Detaljer

Tore Søfting: Løsning av enkle og innfløkte problemer med

Tore Søfting: Løsning av enkle og innfløkte problemer med Tore Søfting: Løsning av enkle og innfløkte problemer med Innholdsfortegnelse Innholdsfortegnelse... 3 Introduksjon... 5 Litt om forskjellige språkversjoner... 6 Grunnlaget... 7 Navigasjon... 7 Merking...

Detaljer

Tilgjengelige nettsteder

Tilgjengelige nettsteder Veileder Tilgjengelige nettsteder 1:3 Oversikt og innholdsproduksjon IS-1366 Tilgjengelige nettsteder 1:3 Oversikt og innholdsproduksjon HTML Hva er tilgjengelighet Fordommer og misforståelser Praktiske

Detaljer

Hovedprosjekt våren 2009

Hovedprosjekt våren 2009 Hovedprosjekt våren 2009 Prosjektrapport Timereg Gruppe 18 Mads E. Eide og Petter B. Falch Page 1 of 42 TILGJENGELIGHET Student.iu.hio.no/hovedprosjekt er/2009/data/18/ PROSJEKT NR. 18 Studieprogram: Anvendt

Detaljer

Prosjektrapport. Dat 219. BETA Webside av Torgeir Hansen Tor-Erik Hokstad Jon Vegard Jansen

Prosjektrapport. Dat 219. BETA Webside av Torgeir Hansen Tor-Erik Hokstad Jon Vegard Jansen Prosjektrapport Dat 219 BETA Webside av Torgeir Hansen Tor-Erik Hokstad Jon Vegard Jansen 30. juni 2011 Sammendrag Dette er en prosjektrapport for faget DAT219, Internettjenester på.net-plattform, ved

Detaljer

Furuset frivilligsentral

Furuset frivilligsentral Hovedprosjekt ved Høgskolen i Oslo og Akershus Furuset frivilligsentral En CRM-løsning Jan-Ole Bårdevik Kenneth Kjelsås Strand 22.05.2013 PROSJEKT NR. 7 Studieprogram: Informasjonsteknologi Postadresse:

Detaljer

Innledning. Brukerveiledningen finnes også i PDF-format og kan hentes fra http://www.road.no/doc/road.pdf

Innledning. Brukerveiledningen finnes også i PDF-format og kan hentes fra http://www.road.no/doc/road.pdf Innledning ROAD ble tidlig på 1990 tallet laget som en database over arrangementsteder med detaljer rundt det som er viktig for rigging av lyd, lys, scene, garderober, adkomst til lokalet osv. Seinere

Detaljer

OBLIG 1 WEBUTVIKLING. Oppgave 1 Gå gjennom nettsiden arngren.net og list opp alle problemene du ser. Både i funksjonalitet/bruk og i koden bak.

OBLIG 1 WEBUTVIKLING. Oppgave 1 Gå gjennom nettsiden arngren.net og list opp alle problemene du ser. Både i funksjonalitet/bruk og i koden bak. OBLIG 1 WEBUTVIKLING Oppgave 1 Gå gjennom nettsiden arngren.net og list opp alle problemene du ser. Både i funksjonalitet/bruk og i koden bak. Tar lang tid å laste inn siden: Mye bilder Mange animasjoner

Detaljer

ejournal User Manual Copyright 2008 ejournal AS

ejournal User Manual Copyright 2008 ejournal AS Copyright 2008 ejournal AS Innholdsfortegnelse 1. Saksbehandling...4 1.1. Ny sak...5 1.2. Finn dataposter...7 1.3. Siste søk...13 1.4. Siste saker...13 1.5. Egne aktive saker...13 1.6. Ufordelte saker...13

Detaljer