Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo. Informasjonsgjenfinning i XML Dokumenter

Størrelse: px
Begynne med side:

Download "Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo. Informasjonsgjenfinning i XML Dokumenter"

Transkript

1 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo Informasjonsgjenfinning i XML Dokumenter 1

2 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo Informasjonsvitenskap, Forord Dette hovedoppgaven Utgangspunket behov dokumentet, å se har i nærmere oppgaven sammen faget vært Norges Trond TDT4900 på med har design Aalberg teknisk-naturvitenskapelige vært programkode Datateknikk, fra oppgavetekst implementering faggruppen og dokumentasjon utført gitt Informasjonsforvaltning av informasjonsgjenfinningssystem ved universitet, overnevnte på Instituttet vedlagt veileder, våren CD, utgjør ved og Datateknikk baserer instituttet. resultatet Veileder for seg XML for og på av Arbeidet fokus Den dokumenter. opprinnelige på state Oppgaven of the intensjonen art innen har også med IR i bakgrunn XML. oppgaven i var fordypningsprosjekt å implementere et slikt utført system, høsten men 2004, da som det satte oppgaven hvert fra programmering se på tradisjonelle viste belyse har som seg kan bestått vanskelig og IR-systemer. viktige implementering trekkes aspekter av å frem gjennomføre litteraturundersøkelser, Oppgaven ved (med utviklingen omstrukturering kan mye dette, også prøving ble av sees oppgaven et testing og som slikt feiling). testsamlingen system, avgrenset. generell Et programvare, resultat introduksjon hva Den som av nye den skiller overordnet målsetningen praktiske til IR i slikt XML. delen design, system ble etter av å Kent som Rune benyttes Klungerbo, i INEX. Trondheim Juni,

3 Informasjonsgjenfinning Innholdsfortegnelse i XML dokumenter Kent Rune Klungerbo INFORMASJONSGJENFINNING OM DETTE FORORD GENERELT Å dekke OM XML INFORMASJONSGJENFINNING Teknikker XML DTD Homogene Lagring - EXTENSIBLE - Document av et og og MARKUP heterogene Type I STRUKTURERTE DOKUMENTET... 2 INFORMASJONSGJENFINNING... informasjonsbehov... metoder... 3 VALG DESIGNKRITERIER OG Bedømmelse FOR av ET IR-SYSTEM FOR XML LANGUAGE... struktur... Definitions... DOKUMENTER... dokumentsamlinger... dokumenter... OMSTRUKTURERING Berkeley INEX NY XML Tekstparsing og AV INEX relevans... DOKUMENTER... ERFARINGER... DB... parsing... analyse... FREMTIDIG 5.1 GENERELT 4 DOKUMENTSAMLING... DOKUMENTSAMLING... DOKUMENTSTRUKTUR... 3 SYSTEMET I INNHOLDSFORTEGNELSE... 3 SAMMENDRAG INTRODUKSJON... 6 OPPGAVEN... 6 Avgrensninger XML Indeksering Søking Brukerinteraksjon INEX Dokumentsamling Spørringer DATABASESYSTEM TEKSTANALYSE INDEKSERING SØKEMOTOR DESIGN PAKKEDIAGRAM KOMPONENTDIAGRAM KONKLUSJONER ERFARINGER ARBEID INDEKSERING SØKETEKNIKKER... 24

4 Informasjonsgjenfinning 8.3 i XML dokumenter Kent Rune Klungerbo BRUKERGRENSESNITT ONTOLOGI REFERANSER

5 interesse Informasjonsgjenfinning Sammendrag Den enorme for, økningen utvikling i XML av dokumenter av, digitale informasjonsgjenfinning. dokumenter de siste IR har 15 årene lenge forholdt har ført seg til til en dokumenter Kent eksplosjonsartet Rune Klungerbo bruk Informasjonsgjenfinning lite innholdet vektormodell etter strukturerte eller som hvert format ingen ført dokumentformater og til formell sannsynlighetsmodell. digital behov struktur, informasjon, som større og SGML har formalitet, Den noe blitt og som stadig XML. dominert fører noe voksende Spesielt til som nye av sistnevnte har utfordringer mengden ført tre til søkemodellene språk med utvikling og muligheter ser digital stadig og informasjon introduksjon boolsk innen mer utstrakt modell, IR. med seg disse også, i dokumentene, ikke helt uten i XML indeksering videre, dokumenter inngående og søking setter forskning etter nye krav informasjon. og til studier lagring Et kreves av mangfold dokumenter, for å av kunne muligheter prosessering få utbytte åpner har Endringene nivå modulene å forholder fremme mulighetene. av som systemet, utviklingen ikke kreves En IR-systemer viktig hvor for av å informasjonsgjenfinning framdriftskraft parsing, tilpasse seg til seg tekstbehandling, om dokumentene i denne nye dokumentformatene sammenhengen i XML indeksering er dokumenter. strukturerte og ligger søking INEX, eller i foregår, detaljene. ikke, initiativ at som På utfordringene i overordnet de eksisterer enkelte av systemer, søkeresultater IR informasjon, ligger i XML forskere gjennom og et på. vil forskningsområde fortsette og nye utviklere. måter å få mye å Samtidig formulere oppmerksomhet presenterer svært spørringer viktig i lang XML for på tid fremtiden nye og fremover. nye muligheter muligheter innen håndtering brukerne for å presentere av av digital slike 5

6 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo informasjonen Informasjonsgjenfinning starten formell mer Introduksjon som informasjonsmengden gjelder struktur, av 1990-tallet, på informasjon, hvilket web og IR bestått fikk har noe sitt siden tilpasset av store som tekst den setter seg. gjennombrudd tid uten Den vært nye noen senere i og drivende strengere med tid har utvikling. introduksjonen formell man krav dog til Inntil struktur, informasjonsgjenfinning, opplevd nylig av World eller økende har mesteparten med Wide interesse begrenset Web men for på Denne også monumentale strukturert åpner mange forandringen på weben, muligheter på web og innen ikke står for IR extensible minst har bedre vært informasjonsgjenfinning og Markup motivasjonen mer Language, presis håndtering denne bedre i denne. kjent oppgaven, Sentralt som den XML. som når enorme setter det av Den I fokus denne opprinnelige Oppgaven på IR-systemer oppgaven Systemet oppgaveteksten skal skal studentene XML, baseres hvordan var modellere på som de tradisjonelle følger: skal se og ut utvikle og IR-teknikker hva et de informasjonsgjenfinningssystem skal men inneholde. også kunne håndtere for og ta Som skal informasjonsgjenfinning). Oppgaven bruk Systemet dokumentenes skal være XML modulært struktur slik i gjenfinning det mulig og presentasjon å utvikle og av teste informasjon. innen XML-dokumenter. bakgrunn kunne er benyttes egnet Testsamlingen denne samarbeidende testresultater som ligger skal som studenter, også benyttes kan et fordypningsemne avgies men INEX-samlingen kan til også utføres (initiativ som av forskjellige la av IEEE fokus enkelt artikler, evaluering på IR-teknikkker state student. og of systemet av the XML art for denne komme Hovedfokuset sett implementering dokumenter. denne på IR fordypningen inn hva i på som Ekstra i i [IRX], denne man skiller stod fokus får og oppgaven. når et som INEX har slikt systemet så (Initiative man har system på resultater vært også skal fra for design håndtere satt tradisjonelle the og på Evaluation og alternativer dokumentsamlingen den utvikling strukturerte IR-systemer, of XML IR-systemer langt Retrieval), informasjonen innenfor hvilke til INEX nye og dette og XML. dette krav man håndteringen feltet. Spesielt til vil finner design man Sentralt i XML- også det av i I presiseringer forkant i Avgrensninger IR-systemer. Underveis av og underveis Under i følger arbeidet en med avgrenset hovedoppgaven presisering har av hovedoppgaven. var av sentrale redusert teoretiske utviklingen av for oppgaven, problemstillinger ned i omfattende arbeidet aspektene å produsere et her med slikt oppgave, presenteres ved og system, oppgaven utviklingen så valg mye og man slik disse: oppgaven ble at må systemet det man et gjøre. etter slikt ble kunne som Den system. hvert derfor gjøre tiden praktiske det klart redusert blitt tillot, seg at gjort utviklingen delen erfaringer og til et la av hovedfokuset mer del oppgaven og avgrensninger teoretisk sette helt ble fokus ligge studium system heller og på 6

7 dokumenter, Informasjonsgjenfinning 1.2 I neste Om kapittel dette samt startes iniativet i XML dokumentet dokumenter det INEX, med før kapittelet introduksjon avsluttes til med tradisjonell å liste IR, noen XML designkriterier og IR Kent i Rune strukturerte til Klungerbo utviklingen ble system erfaringer består frem gjort de av, for konklusjoner med og av XML denne hvilke slikt dokumenter, dokumenter. i grensesnitt hovedoppgaven. system, man klarte før der Kapittel de å fokuset dra benytter I gjennom 3 4 omhandler ligger setter for 5 arbeidet å presenteres på fokuset kommunisere hvilke valg med på som pakker testsamlingen oppgaven, enkelt ble med og gjort hverandre. og komponenter i overordnet og fra kapittel INEX ville I 7 kapittel blitt og sies et arbeidet slikt gjort 6 av system litt legges et under et som IR- mulighetene som for ble videre gjort, arbeid mens innenfor kapittel dette 8 feltet. til slutt retter blikket fremover og diskuterer litt rundt 7

8 Informasjonsgjenfinning i XML dokumenter i XML Kent Rune Klungerbo og I i man XML dette se inkluderer kapittelet på krav til dette vil design man også kort av INEX et presentere IR (Initiative system bakgrunnen XML the dokumenter. Evaluation hovedoppgaven, of XML Retrieval). i tillegg Til til slutt generell i kapittelet IR og IR vil systemarkitektur, sammen har snevert, 2.1 Informasjonsgjenfinning tilgang også Generelt med men omfanget til informasjonselementer det kraftig hele av om feltet økning eksploderte (information informasjonsgjenfinning økt i mengden til å [BAE]. med retrieval inkludere introduksjonen av I et digitale historisk modellering, IR) omfatter dokumenter perspektiv av dokumentklassifisering representasjon, World også ble Wide dette på andre Web feltet lagring, tidlig områder. sett og organisering på på klassifisering, 1990-tallet, Etter som svært hvert av Hovedutfordringen ikke strengt Å dekke et brukergrensesnitt, ved informasjonsbehov IR å finne datavisualisering, informasjonen filtrering som og bruker håndtering spesifikt av er språk. Denne metode), dokumentene som å forveksles formalisert teknikken som med ble spørring inneholder datagjenfinning tidlig med forsøkt alle innslag ordene i brukt i database, databasen, fra også spørringen, i hvor informasjonsgjenfinning og returnere gjenfinningen i IR-sammenheng tuplene består (ved blir som i ute å dette sammenligne å gir etter. returnere eksakt kalt Dette boolsk treff. må mange veie brukeren relevansen gir ute svært til etter. hvert dårlige For dokument informasjonsgjenfinning resultater i forhold med hensyn til spørringen, i på dokumentsamling å returnere og denne den veiningen egentlige blir det heller kan informasjonen utføres snakk om de Først måter Teknikker forskjellige fremst er måter. det og metoder sin plass å definere begrepet relevans i denne sammenhengen. Det flere på spørringen recall de forhold blir systemet. IR-system, returnerte og å måle precision. som dokumentene relevans faktisk Recall på, ble returnert men er som den faktisk mål av mest på IR-systemet, var hvor utbredte relevante. stor måten andel mens Sjeldent å precision gjøre klarer dokumentene det et på et IR er mål system å på bruke som hvor å være er de stor relevante optimalt skalaene vektingen det til nødvendig begge Om man disse med syns målene, det avveining er hvis tungt precision å i forholde er svært til seg hvilken til høy to parametere så av kan de recall som når bli man dårlig, viktigst måler og i vice kvaliteten bruken versa. andel av av Ofte IR- av et til Når teknikker det gjelder av så precision har veiing det også i forhold av blitt relevans til utviklet recall mellom ved måter å endre dokumenter å kombinere parameterverdi og disse spørring, verdiene i utregningsformelen. det på, der tradisjonelt man kan sett justere tre i vektormetoden å som har og også blitt sannsynlighetsmodell. brukt: Den allerede nevnte Boolske boolske metoder metoden, benytter i binær tillegg relevans, til enten har man mellom og inneholder både Vektormodellen ta bruker klart cosinus recall mest avstanden et og til dokument brukte vinkelen [GSA, precision, mellom IR-teknikken. SAL] ordene mellom og disse en fra vektorene; egentlig svært Den spørringen, modifisert bedre desto til vektor-representasjoner å eller måle egnet utgave så relevans, gjør for av den datagjenfinning den vanligvis det boolske ikke. av måles Dette spørringer modellen, og denne gir bibliografisk dårlige avstanden til dokumenter, dags utslag søking. dato ved for så ideelle Sannsynlighetsmodellen, gjennom søkeresultatet dokument iterativ og interaksjon til brukerens introdusert spørring. med spørring. Vektormodellen av brukeren, S. E. Robertson å 8 mindre finne benytter og den vinkel K. beste Sparck mellom sannsynlige spesiell Jones dem i invertert desto beskrivelsen [ROB], større indeks forsøker, relevans [ ]. det

9 mengdelæremodeller Informasjonsgjenfinning Andre En systemet av alternativer større utfordringene i XML samt til dokumenter de alternative/modifiserte med tre IR overnevnte, å formulere algebraiske klassiske gode spørringer, modeller modellene og det sannsynlighetsmodeller. er vil språkmodellering si spørringer Kent Rune Klungerbo Relevance søk slik man god til vet Feedback, å ikke returnere hvordan på første strategi man informasjonen forsøk skal som forklare går ofte ut man på vet dette at man man ute til et nøyaktig etter. justerer IR system. Det hva spørringen kan man I ofte denne er være over ute sammenhengen vanskelig etter flere av søk. informasjon, å Etter formulere har som hvert man får og å justere så velger spørringen brukeren før den gjør dokumentene nytt søk, som synes slik å stadig relevante, oppnå og basert bedre på søkeresultat. dette forsøker systemet 2.2 Et Initiativet sponset viktig av bidrag ble National startet til å Institute i drive 1992, frem og of dets utviklingen Standards mål var and av å fremme IR Technology har vært forskning Text (NIST) innen REtrieval og IR-miljøet U. S. Conference Department og legge (TREC) of til Defence. rette [TRE], Svært av dette dagens XML ved å kommersielle tilby - extensible den infrastrukturen søkemaskiner Markup som basert nødvendig Language på teknologi storskala først utviklet tekstgjenfinningsmetoder. i TREC. Mange for (XML) I Markup den dette som ble gjorde sentralt og Language innført dens det som i til forgjengere fremveksten (SGML) ISO tungvint standard [ABI]. GenCode, av SGML strukturert i å var General jobbe SGML den informasjon med, hadde første Markup både store en Language på svært standarden web applikasjoner stor står (GML) og extensible komplisert for strukturerte og Standard for utviklere, Markup spesifikasjon, dokumenter, Generalized Language SGML. XML kompleksitet. påfølgende 1996 vokste nedsatte år ble behovet kunne utstedt World denne Wide som ny gruppen Web standard W3C Consortium presentere Recommendation for strukturert (W3C) markupspråket en informasjon. arbeidsgruppe den 10. XML, februar som for å utgjorde på Det dette har en delmengde problemet, blitt sagt og ut noe om og at det støtter 90 % av SGML s funksjonalitet, men det kun innehar 10 % av forgjengerens av De dermed formål presiseres standard en fleste XML som graf. Et XML omskrivning Hvert å dokument også for presentere at strukturerte HTML et element bruker av forhold består HTML informasjon, en til består i dokumenter. kort applikasjon XML, den forklart og strukturen som har på således av web av Faktisk XML regel et SGML, har man sett heller fins applikasjon av elementer finner det forhold som det er en i formål ikke start-tag både versjon til av organisert Hyper sidestilt XML. HTML å formatere av Text og HTML, og med som en Markup XML. SGML en informasjon. XHTML, slutt-tag, hierarkisk Men Language og der XML som HTML rettet, for i som Det realiteten (HTML), eksempel må har en asyklisk egen også som er Denne <land>norge</land>, Hvert kan også element </land> inneholde kan <hovedstad>oslo</hovedstad> <valuta>krone</valuta> navn= Norge > inneholde attributter. vilkårlig kan Dette forenkles mengde vist i til eksempelet med kun tekst, en tag, under: og eksempelvis et vilkårlig antall <land subelementer. navn= Norge Start-tag />. svert dataformateringsspråk svakheter mangel datakulturen fleksibel enkle på (hvorav datatyper). de strukturen med siste de årene. tanke største i Denne databaser enkel på bakdelene fleksibiliteten å håndtere representere og datalagre, består for har både i informasjon utviklere og applikasjoner, data. XML blir samtidig også som brukt den som er 9 bidratt selv rekkefølge om til å det minske på på elementer dette gapet området mellom ikke er innehar IR-kulturen vilkårlig, samt del og

10 Dette Informasjonsgjenfinning Mye av DTD årsaken - Document til XML s i XML dokumenter fleksibilitet, Type Definitions er at språket har muligheten til definere sin egen Kent Rune grammatikk. Klungerbo dokumenter). innholdet referanse-attributter kan gjøres av som disse I det i DTD refereres skal som Document kan være. kan man brukes til Type Det (ofte definere til kan å å foretrekke representere også hvilke deklarasjon defineres elementer hvis koblinger man datatyper, som i selve ønsker mellom dokumentet XML å blant bruke dokumentet, elementer annet kan samme inneholde, i kan dokumentene. eller format man i et samt i definere eksternt mange hva Et En DTD ]> <!DOCTYPE for eksempelet <!ATTLIS <!ELEMENT land over land kan valuta hovedstad [ være navn (hovedstad, følgende: (#PCDATA)> #REQUIRED> valuta)> del muligheten DTD svært dokumentsamlinger, av XML grammatikken interessant godt ytterligere. egnet egenskap som som i hvor er dokumentene, grammatikkspråk i hele samsvar i sammenheng samlingen med er en har for med det DTD, XML en IR; lettere felles er som hvis gyldig DTD man informasjonsformateringsspråk, å foreta i (som (valid) søking beskrevet presise XML kan basere dokument, søk. tidligere), seg Ved på og men økes definisjoner dette homogene har denne er beskrevet få strukturert noen begrensninger del nærmere informasjon alternativer, XML, og som presentasjon inneholder definisjonsspråk generelt. hvorav XML i denne del Schema rekonstruksjoner for oppgaven, bruk [W3C] i XML stedet er og som en utvidelser skal av datalagring. fokuset mer i forhold velkjente settes Dette til over har DTD. løsningene. ført på Det IR til vil utviklingen i XML dog Det ikke og er i hindringer tilpasninger 2.3 Tradisjonell voksende nye dokumenthåndtering, øyne, Informasjonsgjenfinning mengden i alle som IR håndtering fall har må delvis med altså indeksering, til i strukturert nye. tilpasset forhold av Mens mer til søking, strukturert informasjon og mange de optimalisert nye samt egenskaper i dokumentformatene. strukturerte informasjon, på nye web seg muligheter ved har derimot ustrukturerte gamle det Man interaksjon også ført IR-systemene til opplever at dokumenter. man god mellom nye del må ikke se krav endringer brukeren legger Den på til IR stadig både noen med og samlinger IR-systemet Før man Homogene begynner Her vil og diskutere viktigste heterogene informasjonsgjenfinning forskjellene dokumentsamlinger presenteres. og man Homogen dokumentsamling organisasjonsinterne påpeke utnytte mye et med dokumentstruktur viktig enklere denne og skille uten å både som forholde innenfor felles i søkealgoritmen presenteres dokumentstruktur. finner seg dette til man i feltet: forhold senere og som homogene ved til regel Homogene IR. å i angi Når i oppgaven), i og artikkeldatabaser strukturerte presise man heterogene dokumentsamlinger kjenner strukturelle dokumenter, juridiske strukturen dokumentsamlinger, (som argumenter har for i så dokumentene eksempel der felles i det spørringer. det struktur, viktig INEX vil kan si å Å når det strukturen søkemengden, forholde det vil si samlinger i snakk seg dokumentene blir til om IR dokumenter av internett. verden fort dokumenter på litt forhånd, med mer Da og kun utfordrende. må lignende. hvor og man homogene heller strukturen gå over ikke Det 10 dokumentsamlinger er kan til kan allikevel å anta snakke variere. lik også struktur om Når heterogene her er man i mulig derimot alle ikke dokumentene å dokumentsamlinger, utnytte urealistisk, har kjennskap strukturen innenfor spesielt til i

11 enn Informasjonsgjenfinning dokumentene homogene mer samlinger. i XML presis dokumenter IR enn ustrukturert informasjon, men mulighetene er litt Kent mer Rune begrenset Klungerbo lagring Det Tradisjonell Lagring IR setter av dokumenter enn effektivt dokumentene, søk hente viktigste i strukturert og når representasjon her de slik handler informasjon skal man ikke presenteres om finner av andre å disse kan ivareta det krav det dokumentene. i i resultatet til strukturerte og ofte dokumentlagring representere være av interessant dokumenter, strukturen spørring. enn å at returnere får Med i dokumentene man mer mindre også kompleks kan litt på informasjonsenheter hentes strengere oppbygning god ut måte. raskt krav Ved og av En hele dokumenter, og således må dokumentene være lagret på måte som gjør det enkelt til for med utgjør annen muligheten tanke ut strukturelle problemstilling på dokumentlagring. å putte subelementer her veldig er De store mye fra fleste informasjon disse. dokumenter. databaser i Med ett liker og god dårlig samme formell å håndtere dokument, store i dokumenter, dette er åpner lite dermed ideelt det å som På strukturerte lik linje dette Indeksering med lille vanlig paradokset IR vil indekseringen av mange i utfordringene IR-system være ved IR svært i strukturerte avhengig av dokumenter. ofte søkeresultater for Denne hele hele noe brukes dokumentet. man dokumenter, dokumenter. i ønsker systemet, i av som implementere at men Den man for viktigste det eksempel kun fins returnerer i IR-systemer forskjellen generelt <paragraph>-elementer sett ligger delene for noen strukturert i muligheten av forskjeller informasjon, i et i XML-dokument. forhold å som indeksere da til hvilken det relevante, indekser mindre gir Dette mer søketeknikk for enheter er i presise stedet ikke- også muligheten Nivåbestemt informasjonsenheter indeksering Full Tillater samt indeksering. svært til siden å indeksering. stor variere detaljerte Alle mange indeks. som strukturelle granularitet elementer kan Man søk, returneres indekserer kun på indekseres indeksen strukturen for i på dokumentene åpner flere elementer spørring. i ganger for dokumentene flere Fører (som i indekseres, typer deler bestemt til løsninger: begrenser av del både større hierarkisk overhead store elementer), hvor og nivå under små. i Det dokumentene, hvor eksempel utgjør tidsskrifter. kan man velge Et alternativ å indeksere hvis på dokumentstrukturen <artikkel>-elementer i kjent samling muligheter Hierarkisk beregnes forhånd størrelses-intervall. kan indeksering. i fra være subelementene, å Elementer indeksere samt indekseres elementer eventuelt hierarkisk, over eget en innhold. viss slik at størrelse, et elements eventuelt innslag innenfor i indeksen på vektes er generelt etter hvor å svært utnytte langt ønskelig nede strukturen i dokumenthierarkiet å ha i dokumentene god representasjon de for befinner mer av presis seg. hierarki/sti søking. Det aller i Termer indeksen. viktigste kan for Dette for indeksen eksempel gir flere et Man Den dog at delen Søking den tilpasset IR-systemet og optimalisert som opplever søkealgoritmen(e) flest i systemet. argumenter dokumenter, har generelt i er søkingen, søkemodulen. sett i to INEX måter Det kalles å kanskje søke dette på for viktig i hhv. strukturert 11 nye å Content påpeke muligheter informasjon; at Only hovedvekten og Content utfordringer med her and og ligger Structure ved uten i mulighetene. strukturerte strukturelle søk (se

12 homogene strukturelle kjent å Informasjonsgjenfinning kapittel 2.4.2). eller Mulighetene heterogene i XML dokumenter som dokumentsamlinger de to søkemetodene det har er i snakk seg avhenger om. Spesielt veldig av har om Kent spørringer det Rune Klungerbo ute Uansett begrense etter. på betingelser forhånd, argumenter søket, blir så lik det fins hos bedre i det alle større forutsetninger dokumentene mangfold grad opp av til innenfor teknikker systemet å presisere søkemengden. og å finne strategier søket hvis som informasjonen Uten strukturen er strukturelle prøvde i som og dokumentene argumenter utprøvde, brukeren søking med her til i Strukturert til litt utviklingen Brukerinteraksjon informasjon i stadig fremdrift. strukturen må å ekstra systemet angi strukturelle i krav dokumentene, på til interaksjonen god argumenter presenterer og eventuelt intuitiv i mellom spørringer måte nye kunnskap muligheter gjøre bruker om det allerede og hvordan enkelt både system; nevnt. for for han input bruker enten Ved angir og bruk strukturelle må å output angi av brukeren CAS slike til brukeren. spørringer argumenter, ha kunnskap Muligheten settes eller i søket det så 2.4 sitt. INEX, returneres Strukturerte søkeresultatene, INEX av dokumenter søkemotorene. og således gir åpnes også det muligheten for at brukere til kan å gi få mer større strukturerte utbytte av de presentasjoner resultatene som av felles utviklere holdes resultatene sammenligne spørringer lenger arena eller det melder Initiative en sine. for resultater workshop utvikling seg Resultatene for på the for fra og hvor Evaluation å evaluering teste hvert deltakerne enkelte IR-systemene år of av XML publiseres bidragene kan retrieval i møtes XML. sine i hvert Siden [INE], for opp rapport å år, 2002 mot presentere, er stiller et hverandre. har initiativ [I03]. INEX dette sammenligne For som vært med På å har slutten på et dokumentsamling, for årlig best mål og av tiltak mulig å diskutere hvert tilby hvor vis INEX 2004 består ned. og også mål årlig for av relevans en del som deltakerne tester som setter systemene fokus på sine viktige opp mot. aspekter Disse ved er IR beskrevet i XML. år hadde Interactive Relevance disse de testene for eksempel Track: Feedback: ble samlet Tester 4 mindre Undersøkelser sammen for å initiativer: undersøke og distribuert for å brukeres utnytte til deltakerne. synspunkter karakteristikken på IR til i XML. Statistikk i relevance fra I Med disse Natural dokumenter. med for Heterogenous feedback. initiativene fremtidig query felles bruk DTD language: kan collection: i for INEX INEX. hele bidra Ser Ser Som samlingen. på på til beskrevet bruk mulighetene å styre av spørringer utviklingen lenger for ned å med opprette innen den naturlig feltet, nåværende språk heterogen rette over samlingen fokus samlinger dokumentsamling mot homogen, av temaer XML fra Testsamlingen Electrical som tidsskrifter kanskje Dokumentsamling and ikke Electronics utgitt som har av benyttes fått IEEE den Engineers i nødvendige perioden i INEX [IEE], er 1995 oppmerksomheten en bedre samling 2002, kjent så langt av forskningsmiljøene. 12 og vitenskapelige utgjør IEEE. til Samlingen sammen artikler 500 består donert mb. av Testsamlingen av Institute artikler of

13 Informasjonsgjenfinning homogen, fokusert det informasjonen på med søking i felles XML dokumentsamlinger dokumenter DTD for hele hvor samlingen, strukturen hvilket er kjent gjenspeiler på forhånd. hvordan Som INEX nevnt Kent så Rune over langt Klungerbo realiteten med å rette når man noe man søker av fokuset søker i, og denne over etter på kan informasjon: heterogene variere. Spesielt dokumenter man har er dette også, tilfelle kjennskap da det på internett. faktisk til strukturen er dette som jobbes i ofte den har Hvert opp søker, tradisjonelle med ønsker mangfoldige, i andre to år Spørringer som å har kategorier: søke ord navnet IR-systemer. man spesielt en i et navngitte mulighet tilsier, Content i homogene sett I kun spørringer som med Only elementer, på ikke innhold, spørringer dokumentsamlinger (CO) av fins og formatet eller ikke i Content tradisjonell som på i benyttes elementer CAS struktur. and angir hvor IR. Structure i strukturen man Dette Man testingen av strukturelle kan tilsvarer (CAS). viss for av i dokumentene systemene, eksempel Spørringer størrelse. søking argumenter, slik angi av Mulighetene og det er formatet disse og kjent, blir man utnytter gjort men delt kun CO i om også For å for Bedømmelse evaluere generell søking søkeresultatene i strukturert relevans til informasjon. man spørringene hvor søker grundig etter et følgende om, to til å skalaer: dekke deltakerne, alt exhaustivity omhandler det man ble ønsket og det dokumentene specificity. man å finne søker ut. Exhaustivity etter, Specificity vurdert alt i i (e-value) fra (s-value) forhold en liten forteller til sier del noe av gitte noe det om nærmere i alt foretatt representerte. For tradisjonelle skalaene hvilken fra å evaluere grad av er liten delt enhetene nedsatte informasjonselementet søkeresultater del i 4 av grader: informasjonselementet precision grupper not har og med (0), det recall, er marginally blitt folk konsentrert men benyttet med til også å (1), være ekspertise en rundt alternative fairly rekke det det (2) eneste måleenheter, man innen og evalueringsstrategier. highly søkte som de informasjon det (3). emnene noen omhandler. Disse av dem som vurderingene etter, Se basert Begge [I03] spørringene det for utgjør på disse ble de designkriterier 2.5 Med bakgrunn Designkriterier presentasjon i det som av har disse. blitt presentert et IR-system så langt for det nå XML mulig dokumenter å sette opp noen overordnede III. II. I. Systemet Viktigst Dokumenter for med må IR-system rask skal håndtere og lagres effektiv for vanlig i en XML uthenting database parsing dokumenter. av med både XML, Her god hele samt følger støtte dokumenter analyse for liste håndtering og over og parsing krav elementer. av til av XML vanlig slikt dokumenter. system: IV. Indeksering skal som også på støtte engelsk, skal stoppordfjerning foregå holder på det et nivå systemet og stemming. slik at støtter spørringer Siden tekstbehandling systemet returnerer skal innenfor informasjonselementer bruke dette INEX språket. testsamling, tekst. Det fornuftig termer søking returnere Søkemotoren Systemet i skal XML-strukturen størrelse. elementer representeres. skal ta Dette på utgangspunkt forskjellige og skal skal være utnytte nivåer i den invertert denne som klassiske til indeks å bedre vektormodellen, tilpasset presisjon vektorsøk, i søkingen. men skal og sti Den være til skal indekserte tilpasset kunne av Content and skal Structure. støtte spørringer med strukturelle 13 resultat argumenter, på spørringer. det vil si spørringer av typen

14 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo system. 3 Et videre og viktig programvarevalg Valg i utviklingen Hvilke fokus for konsekvenser erfaringer hovedoppgaven der systemet. dette var får I nødvendig. disse dette har skal valgene vært de å viktigste se for på sluttresultatet, valgene som diskuteres, samt gjøres for både når andre man (tekniske) valg utvikler som løsninger et gjøres slikt [XST] 3.1 Det første Databasesystem man dokumenter ytelse enkel Man indeks). kom og henting var Apache etter viktig. man og og hvert indeks. la Xindice Ingen oppdatering fokus fram Databasen store [XIN], på til ved krav samt løsninger utviklingen data. til måtte Berkeley funksjonalitet, Noen ha som av DB av exist grensesnitt systemet, og de da ekstensjonen og databaseløsningene bruk Xindice var som av valg databasen ble støttet Berkeley litt av svære programmering database som stort DB for XML. ble sett for dette vurdert innebar lagring mot systemet, var Java, lagring, exist XML Berkeley nevnt over kun var ute etter enkel funksjonalitet (siden søking skulle foregå i egen og si frem All DB funksjonaliteten mer og mer ut som i disse et mer systemene aktuelt alternativ. gav bare At uønsket Berkeley overhead DB såkalt på ytelsen, embedded, det som at eksisterer databasen som grunn (Apache opprettes til at Xindice den og kjøres ble valgt et i eksempel samme til dette navnerom på systemet dette). som fremfor resten av mange applikasjonen, klient-tjener må også databasene trekkes så vil Sleepycat XML, BDB trekker JE samt frem Enkel for [SLC] tilbyr DB administrere fullt Berkeley følgende bruk. gå og via helt Utviklere DB etter karakteristiske SQL tre bygd Java installasjon. utgaver og/eller opp Edition. har i muligheten Java, lignende trekk De databasen men to ved førstnevnte til spørrespråk. med databaseløsningen å sin: bruke samme Berkeley funksjonskall utviklet funksjonalitet Det DB er sin: i også (BDB), C++, direkte en som men ekstensjonen svært mot i har vanlig databasen, begge enkel BDB. Berkeley Java database Sleepycat i API'er. stedet DB å var dermed Se Indekseringen [BDB] planen Lite Open kvalitetsgaranti for å fotspor. en implementere som Source lengre BDB Hele liste Distribuering. ved benytter BDB-pakken over at i dette mange tekniske også systemet. tusen tar Enkelt meget momenter svært utviklere Systemet å lite godt tilpasse plass ved har egnet databaseløsningen. skulle gjennomgått (~375K) databasen, til å som håndtere på nevnt de og i vanligste vurdert en tillegg utvikles invertert koden. arkitekturene. til i Java, indeks, du og som har det ble en hadde håndtering bestemt Resultatet DBXMLTest.java til fungerer få naturlig å fordeler bruke arbeidet BDB å fremfor først dokumenter XML med se videre standardløsningen. på å implementere java-versjonen ble i utviklingen. unødvendig av En dokumentdatabase tungvint Berkeley rask sammenligning i DB. BDB Det JE. i viste Berkeley Som med seg resultat XB BDB derimot XML XML foreligger kjapt viste dette at også ble denne Berkeley INEX testsamling, ikke hundre på beskrevet prosent, vedlagt CD-ROM. men i kapittel gir et Her 4, lite legges inn innblikk i den enkel dokumentene XML-database. i den Løsningen nye dokumentstrukturen er uferdig i filen det og at utviklingen XML. systemet. I kapittel 7 foreligger noen 14 erfaringer i hvordan som man ble setter gjort opp med produktet XML database under i

15 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo hvilke 3.2 Tekstanalyse systemer. utfordringer. tekstanalyse- Tekstanalyse Hovedforskjellen og i All et behandling, tekst IR system vil normalt ligger hvilket for XML i inkluderer gå XML-taggene dokumenter gjennom stoppordfjerning skiller en som XML-parser må seg tas lite, og hensyn stemming. om før ingenting, de til, gjennomgår Figur men fra 1 dette lenger tradisjonelle byr ned på viser IR få og Parsing prosesser XML av XML parsing foregår XML enkelt fil går ved gjennom bruk før JDOM s den til slutt [JDO] lagres SAX-parser. i indeksen. Modell, parset er JDOM dokumenter, er et blitt av og hendelsesdrevet SAX benyttet slik representeres navnet elementer tilsier, grensesnitt og innholdet representerer attributter for i Java med parsing ved referanser hjelp av XML XML dokumenter av til data. JDOM. hverandre. Når JDOM som innholdet SAX På står objektmodeller, vedlagt står for i for Java dokumentene CD-ROM Simple Document der API har objektene for har SAX Object XML, XML fil konvertering av INEX testsamling SAX (se kapittel 4) i filen JDOMTest.java. blitt og Tekstparser Indeks Når dokumentinnholdet Tekstparsing og har vært gjennom SAX-parseren Figur Indekserer Stoppordfjerner JDOM, gjenstår kun standard analyse og tekstbehandling 1 Stemmer dette oppgavene, denne fra Stemming Scanner dokumentene systemet klassen, og det og ble før baserer viste det de planlagt indekseres. seg seg som på å bruke En god vedlagt del løsning den leting tekstfil nye under Scanner-klassen testing. og slik Stoppordfjerning som representert i tradisjonelle Java for som å ble gjennomføre IR-systemer. også dokumenttrær utført disse med For i Scantest.java Algorithm og Porter og Stemmer.java [POR] Stemming løste oppgaven Algorithm på vedlagt med til å CD-ROM. 15 på ordstemming prosessere web som og definerer enkel på dokumenttekst testing hvilke tilfredsstillende konkluderte stoppord presenteres som måte. med skal at Bruk i fjernes Porter filene av

16 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo designvalg Det utnytter for 3.3 Fokuset å Indeksering ustrukturerte gjennomgå var derfor i XML-strukturen denne som dokumenter: aldri er hovedoppgaven utvilkling viktige, et mål og og å legger lage hva har et har slags slikt til noen ikke rette optimal system konsekvenser viktige vært for indekseringsmodul, at å og søkemodulen momenter lage belyse slike et optimalt viktige valg i forhold skal får IR aspekter men kunne system resten til en en gjøre fungerende ved for av indeks XML det systemet. slikt samme. dokumenter, for indekserer system, tradisjonelle, En hvilke men som For være Representasjon nivå foregå Granularitet. lagre indekseres? avgjørende dokumentvis, informasjon På av hvilket for sti. om skal hvordan I sti nivå et hvert i XML indeksen. i ordet strukturen eneste dokument skal element vektes skal vil stien indekseres, dokumentene i et frem søkeresultat. til eller elementet indekseres? skal Det elementer der derfor et Skal ord svært ned indekseringen forekommer, til ønskelig et visst dokumentvis krav elementene. ikke til granulariteten, å komplisere Dette indeksering ble utviklingen dessverre men (fra man den aldri bestemte av nye systemet implementert, strukturen, seg utover heller se oppgavens for kapittel å prøve 4), 1.2 det omfang, seg vil frem. avgrensninger si å ble indeksere Man det valgte ikke av på satt oppgaven. <journal>- å starte så strenge med en 3.4 De samme Søkemotor Det utgangspunkt ustrukturert øke mange måte presisjonen skal alternative være kriteriene i søkingen. måter optimal gjelder å implementere løsning, her Om som man men for kikker indeksereren, som på slik er resultatene tilpasset søkemotor målet søking fra her på. INEX er I i denne XML [I03] enkel og oppgaven utnytter ser søkemotor man den ønsket fort som struktur at man på det ingen kruttet vektorbasert fins mange IR i til den søkemotor gode IR allerede i XML grunner tilpasset og ustrakte annen å søking se strukturert bruken på mulighetene i XML. av vektormodellen informasjon. å overføre Det i tradisjonell som vektormodellen kjent IR, liten ved vits fra implementere i tradisjonell, å finne å til opp fins ta eksisterende I ta dokumentene. man INEX i aldri beregning 2003 på så nytt, langt ble og Planen statistikk velbrukt og det i den hvis presentert var praktiske løsning, man for å implementere elementer med så delen løsning noen har av man i endringer denne hvor dokumentene, spart lignende vektormodellen oppgaven, seg og mye justeringer løsning og ekstraarbeid. jfr. rangere i hadde avgrensninger dette kan blitt disse systemet, fortsette tilpasset fremfor i kapittel å men bruke XML å dessverre 1.2. bare [MAS] en allerede rangere ved kom å 16

17 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo utviklingen fordypningsemnet systemet I oppgaveteksten Omstrukturering i Java, systemet. følgelig [REF] stod det foregående Dette måtte skrevet var man av også at semester. INEX-samlingen naturlig, nærmere Det dokumentsamling da ble på denne hvordan i [REF] tillegg samlingen av tidlig format IEEE bestemt artikler og hadde struktur at vært skulle man i skulle INEX-samlingen fokus benyttes utvikle allerede under IR-i fra man 4.1 INEX passet også INEX samlingen med inne programmering dokumentsamling i [IRX] allerede og i [WOR]. i beskrevet Java. I korte i et trekk tidligere består kapittel. Mer utfyllende av ca informasjon vitenskapelige om den artikler kan 4 organisert IEEE, formatert som på Figur i XML, 2 når med lagt inn felles i systemet. DTD Inex-1.4 for hele samlingen. I sitt originale oppsett er fliene DTD INEX filer samlingen dtd for hele an cg xml ts Filsystemet INEX dokumentdatabase. XML når dokumentsamlingen volume.xml-fil Volume.xml dokumentene dokumentsamling som med vist Det entitet-referanser ligger over slik A001.xml i organisert den skal førte strukturert det legges hele til til etter Absolutte og relative referanser. tatt artikkel-filene en årganger i dokumentdatabasen. del i A002.xml et problematisk å finne igjen dtd- og flere artikkel-filer. Når kompleksitet filsystem. Figur momenter a001.ml for hvert volume.xml-filene 2 DTD er a00x.xml, enkelt Store dokumenter filer. Når i Java, man så ble først disse fikk dokumentene parset som og for hele Ting taler utfordringer tidsskrift. samt samlingen A050.xml som i mot til DTD-filene. For skal kan å hver ligger parses beholde nevnes når årgang i det en egen i er: Java denne skulle er mappe. det så strukturen inn en ble i det med tanke på ytelse og minnebruk i Java. 17 og bygd på ~2 volume.xml-filene MB (noen større), hvilket til fullstendige var lite ideelt xml-

18 Informasjonsgjenfinning i dokumenter Kent Rune Klungerbo Den uviss. originale Den Brukere Berkeley yte bruker langt originale INEX foretrekker DB fra bli dokumentstrukturen optimalt XML, svært og store å hvis databaser forholde å INEX forholde er seg dokumentene er generelt, egentlig til seg dokumenter til lite er som lite heller hensiktsmessig lagres egnet enkelt på ikke med et særlig lavere informasjonsenhet. søking, den opprinnelige glad nivå. søking. og i dens store Volume.xml-filene egentlige strukturen. dokumenter, hensikt vil og for vil dokumentsamlingen. For å gjøre INEX-samlingen litt bedre jobbe med forsøkte man derfor å omstrukturere og grad <journal>-elementene. denne 4.2 I den Ny nye ROM). dokumenter, utgivelse <article>. av tidsskriftet), og dokumentstrukturen da Hver var årgang det og i realiteten hver består journal var av to målet 2 elementer består 12 å journaler dele det ~10 virket opp artikler. (en volume.xml-dokumentene fornuftig journal Da <article>-elementene utgjør å dele et opp hefte, etter: eller <journal> i mindre Figur 3. utgjør oppdelingen I den selvstendige nye oppdelingen ble det Denne dokumenter, laget ble oppdelingen DTD ene liten ble Java-applikasjon inkludert det førte til xml-filer slutt i dokumentene. avgjort (se på filen litt å under JDOMTest.java dele Ny dokumentstruktur 500 opp KB, dokumentene og på for vedlagt å er enkelt foreta i vist etter liten CD- INEX i an xml cg ts Denne enklere Ny eller An1995j1.xml nye å dokumentstruktur til håndtere dokumentstrukturen DTD-dokumenter. enn med An1995j2.xml den selvstendige 1996 opprinnelige ble benyttet og An1995j3.xml fullstendige 2002 strukturen. videre Figur journal-dokumenter, 18 i utviklingsdelen 3 An1995j12.xml uten av oppgaven, referanser til og andre viste entiteter seg langt

19 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo informasjonsgjenfinningssystem sekvensdiagrammer komponentdiagrammer avhengigheter I Design 5.1 dette kapittelet og grensesnitt som vil som beskriver dem det viser for i mellom. presenteres XML hvilke systemet dokumenter. moduler/komponenter i et detalj, Det enkelt vil men ikke og inneholde overordnede overfladisk systemet mangfoldige består pakkediagram design klasse- av, av samt og et Den system. overordnede Generelt Selv om det strukturen om forsøkt i et slikt gjort system mange trenger tilnærminger ikke skille til IR-systemer seg nevneverdig for XML, fra et har tradisjonelt svært få 5 enkelte Komponentdiagrammet tilbyr disse databasen dette hvor enkelte det for tilnærmingene designet. delene å kommunisere og modulene inkludert av I håndtering pakkediagrammet systemet. prøvd av pakker i systemet med kapittel å av gjøre hverandre. XML. Berkeley 5.3 hvor noe i Fokuset kapittel retter drastisk utfordringene Så DB lenge fokuset 5.2 XML i med pakkediagrammet ser disse og arkitekturen over man ligger, JDOM grensesnittene et på og som helt hvilke dette i systemene. er benyttes standard å grensesnitt har vise er man konsistente, til avhengigheter oppsett Det henholdsvis også som er forholdt heller komponentene kan et IR-system, oppsett mellom innholdet innholdet meg til de av hver indeksen, enkelt eller komponent ny søkealgoritme. endres etter behov. Man kan for eksempel implementere ny indeksstruktur i 19

20 Informasjonsgjenfinning 5.2 Pakkediagram i XML dokumenter Berkeley XML DB Tekstbehandler JDOM Indekserer Figur 4 Database UI Kent Rune Klungerbo Søkemotor 20

21 Informasjonsgjenfinning 5.3 Komponentdiagram i XML dokumenter :UI Presenter :Adm. modul Hent :Dokumentlager Lagre Hent Søk :Indeks Figur :Database Database API 5 Kent Rune Klungerbo Indekser 21

22 Informasjonsgjenfinning Hovedfokuset Konklusjoner i XML dokumenter Kent Rune Klungerbo og konklusive XML konklusjoner, dokumenter, ting i rundt denne men og noen heller hvilke oppgaven aspekter å følger belyse har og ved ikke muligheter konsekvenser prosjektet. vært å og gjøre Et valg slike av undersøkelser som målene valg gjøres har. i jo som Allikevel utviklingen skal eksempel er ende av det opp IR-systemer også mulig i slutninger vært å si å for litt bearbeider IR-systemer, avhengighetene implementeringen Overordnet på strukturert Når hva det som gjelder informasjon. man skiller sistnevnte og har i tradisjonelle et grensesnittene IR-system de samme mål, så IR-systemer for modulene kan XML mellom man dokumenter disse. fra og generelt systemer komponentene Forskjellen skiller si at tilpasset seg forskjellen lite ligger (se eller XML kapittel ingenting i er dokumenter detaljene, liten, 5), fra tradisjonelle det og vesentlig. samme annen kunne av de enkelte komponentene. Det er på dette nivået man faktisk håndterer vil og si 6 informasjon XML Denne situasjonen foreligger strukturen. lagre situasjonen i forhold strukturen XML foreligger på høyere dokumenter, til kan tradisjonell i i XML nivåer dag endre dokumentene, innenfor det (metadata, IR. seg må i håndtere IR fremtiden, i semantikk, dermed XML, parsing så kanskje er er det av ontologi) det XML, her vil på forandringene og forskning implementasjonsnivå føre indeksering til nye og må konklusjoner, studier og ligge. søking at av Systemet må forskjellene strukturert men tilpasses slik må 22

23 merke Informasjonsgjenfinning Under Erfaringer utviklingen av i XML systemet dokumenter ble det gjort noen erfaringer med Berkeley DB som Kent det Rune er Klungerbo seg: verdt å Når XmlDocument overføringen programmerte gyldige, man blir legger det til inn objekter kastet containeren XML Exception dokumenter som skjer, siden og blir i puttes dokumentet XML BDB dokumentene XML i containere, database, plasseres validert. gjøres ikke XmlContainer. i containeren, det Er i form ikke dokumentene av Når og å opprette Unhandled Den ikke bruk i utgaven databasen. denne exception oppgaven. BDB Dette mot from som var denne man C++ medvirkende i Java, til API. slutt fikk Etter valgte man årsak litt av å feilsøking til og bruke til INEX følgende på programmert samlingen google feilmelding fant ble man i omorganisert C++. under at Når en kjøring: dermed denne mulig man for 7 årsak seg feilmeldingen ved til dette å kalle var var delete() uansett mangel vanskelig på på sletting objekter å forholde av ubrukte man seg ikke til. objekter lenger i hadde C++, bruk en for. del Denne problemer upresise løste 23

24 Informasjonsgjenfinning i XML dokumenter Kent Rune Klungerbo system, dette produsere erfaringer Som Fremtidig nevnt flere ganger arbeid 8.1 aspektet. Indeksering komme og et ideelt rette seg fokus IR gjennom system mot hva for så dette som XML mye er dokumentet, dokumenter. som viktig mulig å se av har Målet på denne ikke videre. har hensikten utviklingsprosessen, vært I dette å se med kapittelet på hovedoppgaven utviklingen legges for å fokuset gjøre vært slikt seg på å 8 noen Indeksering Som nevnt tidligere absolutt i oppgaven område er indeksen som opplever nært knyttet nye muligheter opp mot gjennom søkemotoren strukturerte i IR-systemet, dokumenter. absolutt allikevel dokumentstrukturen XML ligger vanskelig dokumenter strategier det forsøke, utfordring på inneholder så indeksering i indeksen i å det finne mest en og ut av uten mengde utnytte hva interessant strukturerte å av samtidig denne dette større å innholdet dokumenter, for og ta se i mindre på betraktning få hvordan som mest elementer skal mulig søking man indekseres. mulighetene rask som best og søkealgoritmer. og kan mulig I effektiv er kapittel indekseres, flere, kan indeks representere og Skal dette og nevnes og man heri det 8.2 I tradisjonell Søketeknikker noe å se IR nærmere fins det på etter i fremtidig hvert arbeid et stort med mangfold å forbedre IR søkealgoritmer i XML. og teknikker, men gjenbruk: Noe denne. samme spekter IR-modeller og vektormodellen uprøvde av motivasjonen av måte. i metoder innfallsvinkler til XML Ved bruk har å hatt i og såpass for XML se teknikker å klart på (som prøve nytt IR-problemet resultatene størst for å som overføre man eksempel suksess, har fra har blitt som eksisterende til og modifiserte prøvd. gode enkelte få nye andre Både dokumentformatene se INEX-årgangene IR-teknikker utgaver modeller forsøk av på har nevnte til som å kunnet bruk overføre [INE] skiller åpner vektormodell), for måle kan IR vellykkede for. seg i man XML seg klart handler i se forhold ut samt klassiske et her stort nye om på til som teknikk løsninger ha tidligere, Det gjør nok vokser og at som mye av metoder blir tid frem også måte brukt som støtter penger å i teknikker utvide søkemotorer den søking kan mest vektormodellen bli å i spart se brukte, XML for nærmere hvis og XML eller annen man dokumenter. på på om til finner og strukturert å vi jobbe støtte får måter Uansett videre søking informasjon. kompromiss å utvide med, i hva XML. eksisterende utfallet og [MAS] med fremtiden blir mange er så IR-systemer allerede vil vil vise forskjellige nok om nevnt INEX en på noe muligheter 8.3 Informasjonsgjenfinning Brukergrensesnitt viktig finger med i spillet. opp søkeresultater, Når se i det som i gjelder INEX innen Begge [INE] spørringer, interaksjon interessante aspektene har valgt i så XML med ved er å rette det dokumenter brukerinteraksjonen, brukerne videre litt av på. formatet fokuset av og systemene i på strukturert både gjennom i spørringer forhold informasjon sitt Interactive til tradisjonell og presentasjon generelt Track IR. som Dette gir av ble tilhørende også startet også nye på, spørringen, videre man kan på. og I velge denne på det å formen kun viset søke avgrense for i spørringer navngitte og presisere har strukturelle brukeren 24 søket. Content elementer, muligheten Det and fins Structure flere eller til å måter man angi som kan å strukturelle angi er velge mest slike interessant å argumenter kun søke å i

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING Faglig kontakt under eksamen:

Detaljer

Informasjonsgjenfinning

Informasjonsgjenfinning INF5820 H2008 Institutt for Informatikk Universitetet i Oslo 18. september Outline 1 Hva er IR? Tradisjonell evaluering Invertert indeks 2 Rangering Evaluering av rangering 3 Grunnleggende egenskaper Vektorer

Detaljer

Oppsummering. Thomas Lohne Aanes Thomas Amble

Oppsummering. Thomas Lohne Aanes Thomas Amble Oppsummering Thomas Lohne Aanes Thomas Amble 14.11.04 Kapittel 2: Data Modell Mål: Data som skal brukes av applikasjonen blir spesifisert på en formell og likevel intuitiv måte. Resultat: Vi får et konseptuelt

Detaljer

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING)

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING) Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING) Faglig kontakt under eksamen:

Detaljer

ADDML. Archival Data Description Markup Language. Generell del. Versjon PA 0.07 Sist oppdatert: TPD. ADDML_8_2.doc 03/03/2011 1(12)

ADDML. Archival Data Description Markup Language. Generell del. Versjon PA 0.07 Sist oppdatert: TPD. ADDML_8_2.doc 03/03/2011 1(12) ADDML Archival Data Description Markup Language Generell del Versjon PA 0.07 Sist oppdatert: 2010-09-16 TPD ADDML_8_2.doc 03/03/2011 1(12) Innledning... 4 Mål... 4 Historie... 4 Hvordan benytte ADDML...

Detaljer

Parallelle og distribuerte databaser del III

Parallelle og distribuerte databaser del III UNIVERSITETET I OSLO Parallelle og distribuerte databaser del III NoSQL og alternative datamodeller Institutt for Informatikk INF3100 20.4.2015 Ellen Munthe-Kaas 1 NoSQL NoSQL er et paraplybegrep som omfatter

Detaljer

2. Beskrivelse av mulige prosjektoppgaver

2. Beskrivelse av mulige prosjektoppgaver Avanserte databaser (øving 9, 10, 11 & 12) Tore Mallaug 25.01.2008 Opphavsrett:Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO326D Avanserte Databaser INNLEVERINGSFRISTER (Obligatorisk

Detaljer

Web fundamentals. Web design. Frontend vs. Backend 17.01.2008. Webdesign 17. januar 2008 3. Monica Strand

Web fundamentals. Web design. Frontend vs. Backend 17.01.2008. Webdesign 17. januar 2008 3. Monica Strand Web fundamentals Webdesign 17. januar 2008 Monica Strand Webdesign 17. januar 2008 1 Web design Fagområdet Web design inneholder flere disipliner Grafisk design Informasjonsdesign Brukergrensesnittdesign

Detaljer

HVA ER XML? extensible Markup Language En standardisert måte å strukturere ulike typer data Åpent format Enkelt:

HVA ER XML? extensible Markup Language En standardisert måte å strukturere ulike typer data Åpent format Enkelt: HVA ER XML? extensible Markup Language En standardisert måte å strukturere ulike typer data Åpent format Enkelt: Tagger/Noder Attributter Mest kjente XML-versjon er XHTML En mengde datakilder er tilgjengelige

Detaljer

- analyse og implementasjon

- analyse og implementasjon - analyse og implementasjon Hvem er vi? Vi heter Anders S Finnerud Dennis JMJ Lundh studerer til bachelorgraden i ingeniørfag for data ved Høgskolen i Oslo. Oppgaven Lage et lett system som kan utføre

Detaljer

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING Faglig kontakt under eksamen: Heri Ramampiaro Tlf.:

Detaljer

Dokumentasjon av XML strukturer for ByggSøk

Dokumentasjon av XML strukturer for ByggSøk Dokumentasjon av XML strukturer for ByggSøk 28. februar 2003 Per Thomas Jahr Innhold 1 Oversikt over skjemaer...1 2 Valg mellom import og include...2 3 Enkoding...2 4 Navnerom...2 5 Regler for navngiving

Detaljer

TDT4102 Prosedyre og Objektorientert programmering Vår 2015

TDT4102 Prosedyre og Objektorientert programmering Vår 2015 Norges teknisk naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap TDT4102 Prosedyre og Objektorientert programmering Vår 2015 Øving 3 Frist: 2014-02-07 Mål for denne øvinga:

Detaljer

Dokumenter som skal inngå i en melding kan opprettes og signeres uavhengig av hverandre.

Dokumenter som skal inngå i en melding kan opprettes og signeres uavhengig av hverandre. Systembeskrivelse for eksterne aktører Med milepæl 3 gir Kartverket neste innblikk i den kommende løsningen for elektronisk tinglysing. Milepæl 3 gir eksterne aktører mulighet til å få innsikt i grensesnitt

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Side 1 Det matematisk-naturvitenskapelige fakultet Eksamen i: INF1010 Objektorientert programmering Eksamensdag: Tirsdag 12. juni 2012 Tid for eksamen: 9:00 15:00 Oppgavesettet er

Detaljer

AlgDat 12. Forelesning 2. Gunnar Misund

AlgDat 12. Forelesning 2. Gunnar Misund AlgDat 12 Forelesning 2 Forrige forelesning Følg med på hiof.no/algdat, ikke minst beskjedsida! Algdat: Fundamentalt, klassisk, morsomt,...krevende :) Pensum: Forelesningene, oppgavene (pluss deler av

Detaljer

GJENNOMGANG UKESOPPGAVER 9 TESTING

GJENNOMGANG UKESOPPGAVER 9 TESTING GJENNOMGANG UKESOPPGAVER 9 TESTING INF1050 V16 KRISTIN BRÆNDEN 1 A) Testing viser feil som du oppdager under kjøring av testen. Forklar hvorfor testing ikke kan vise at det ikke er flere gjenstående feil.

Detaljer

TDT4102 Prosedyre og Objektorientert programmering Vår 2014

TDT4102 Prosedyre og Objektorientert programmering Vår 2014 Norges teknisk naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap TDT4102 Prosedyre og Objektorientert programmering Vår 2014 Øving 10 Frist: 2014-04-11 Mål for denne øvinga:

Detaljer

Representasjon av tall på datamaskin Kort innføring for MAT-INF1100L

Representasjon av tall på datamaskin Kort innføring for MAT-INF1100L Representasjon av tall på datamaskin Kort innføring for MAT-INF00L Knut Mørken 3. desember 204 Det er noen få prinsipper fra den første delen av MAT-INF00 om tall som studentene i MAT-INF00L bør kjenne

Detaljer

SOSI standard - versjon 4.0 1 Del 1: Regler for navning av geografiske elementer. DEL 1: Regler for navning av geografiske elementer

SOSI standard - versjon 4.0 1 Del 1: Regler for navning av geografiske elementer. DEL 1: Regler for navning av geografiske elementer SOSI standard - versjon 4.0 1 DEL 1: Regler for navning av geografiske elementer SOSI standard - versjon 4.0 2 INNHOLDSFORTEGNELSE DEL 1: Regler for navning av geografiske elementer 1 0 Orientering og

Detaljer

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning Institutt for datateknikk og informasjonsvitenskap Side 1 av 5 Eksamensoppgave i TDT4117 Informasjonsgjenfinning LØSNINGFORSLAG/Sensurveiledning Faglig kontakt under eksamen: Heri Ramampiaro Tlf.: 73591459

Detaljer

1. Intro om SharePoint 2013

1. Intro om SharePoint 2013 Avdeling for informatikk og e-læring, Høgskolen i Sør-Trøndelag Intro om SharePoint 2013 Stein Meisingseth 09.08.2013 Lærestoffet er utviklet for faget LO205D Microsoft SharePoint 1. Intro om SharePoint

Detaljer

Introduksjon til fagfeltet

Introduksjon til fagfeltet LC238D http://www.aitel.hist.no/fag/_dmdb/ Introduksjon til fagfeltet Datafiler side 2 Databasesystemer side 3-5 Databasearkitektur ANSI/SPARC side 6-7 Datamodeller side 8 Flerbruker databasesystem side

Detaljer

Bruk av Elasticsearch til søk og klassifisering. Ove Haugland Jakobsen 26 november 2018

Bruk av Elasticsearch til søk og klassifisering. Ove Haugland Jakobsen 26 november 2018 Bruk av Elasticsearch til søk og klassifisering Ove Haugland Jakobsen 26 november 2018 Dokumenter fra helseforetakene Alle helsefortakene er pålagt å legge ut dokumenter fra styremøter på nett Styrepapirene

Detaljer

Kravspesifikasjon. Forord

Kravspesifikasjon. Forord Forord Kravspesifikasjonen skal gi en oversikt og forståelse over det planlagte systemets funksjonalitet. Dokumentet skal gi både utviklere og oppdragsgivere innblikk i hvordan og hva systemet skal levere.

Detaljer

Mangelen på Internett adresser.

Mangelen på Internett adresser. 1. Av 2 Introduksjon og forord Internett er som kjent bygd opp i adresser, akkurat som husstander, byer og land, dette er fordi Internett er bygd opp mye likt post systemet, du kan sammenligne en maskin

Detaljer

Fakultet for informasjonsteknologi,

Fakultet for informasjonsteknologi, NTNU Norges teknisk-naturvitenskapelige universitet Fakultet for informasjonsteknologi, matematikk og elektroteknikk Institutt for datateknikk og informasjonsvitenskap Faglig kontakt under eksamen: Institutt

Detaljer

UBIT Systemarkitektur. Dagens situasjon. Referansegruppa Forfatter(e) Sven K Strøm Sist oppdatert

UBIT Systemarkitektur. Dagens situasjon. Referansegruppa Forfatter(e) Sven K Strøm Sist oppdatert UBIT 2010 Systemarkitektur Dagens situasjon Til Referansegruppa Forfatter(e) Sven K Strøm Sist oppdatert 2008-05-15 UBiTs brukere har mange forskjellige typer utstyr og programvare. UBiT ønsker å være

Detaljer

Læreplan i informasjonsteknologi - programfag i studiespesialiserende utdanningsprogram

Læreplan i informasjonsteknologi - programfag i studiespesialiserende utdanningsprogram Læreplan i informasjonsteknologi - programfag i studiespesialiserende utdanningsprogram Fastsatt som forskrift av Utdanningsdirektoratet 3. april 2006 etter delegasjon i brev 26. september 2005 fra Utdannings-

Detaljer

Test of English as a Foreign Language (TOEFL)

Test of English as a Foreign Language (TOEFL) Test of English as a Foreign Language (TOEFL) TOEFL er en standardisert test som måler hvor godt du kan bruke og forstå engelsk på universitets- og høyskolenivå. Hvor godt må du snake engelsk? TOEFL-testen

Detaljer

Stikkord: Java EE, EJB, JSF, JPA, SWT, klient/tjener, Glassfish server, Application Client.

Stikkord: Java EE, EJB, JSF, JPA, SWT, klient/tjener, Glassfish server, Application Client. Stikkord: Java EE, EJB, JSF, JPA, SWT, klient/tjener, Glassfish server, Application Client. Studenter: Magnus Skomsøy Bae, Marius Eggen, Magnus Krane Klasse: 3ING, Systemutvikling Produserer redaksjonelle

Detaljer

Sharpdesk Solution Sharpdesk Document Management Solution

Sharpdesk Solution Sharpdesk Document Management Solution Sharpdesk Solution Sharpdesk Document Management Solution Effektiv forretningsinformasjon Administrer arbeidsflyten Slik registrerer, organiserer og deler du forretningsinformasjonen din Sharpdesk er en

Detaljer

HUMIT1731. Tekstkoding. Koding/merking av tekst Uke 35. Tekster som teknologiske produkter. Koding/merking på flere nivå. Utvikling av notesystemet

HUMIT1731. Tekstkoding. Koding/merking av tekst Uke 35. Tekster som teknologiske produkter. Koding/merking på flere nivå. Utvikling av notesystemet HUMIT1731 Koding/merking av tekst Uke 35 Tekstkoding Representasjon av info, om visse aspekter ved tekster, så som Typografi Innhold Struktur Annet på en eksplisitt, systematisk og formalisert måte HUMIT1731

Detaljer

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

Eksamensoppgave i TDT4117 Informasjonsgjenfinning Institutt for datateknikk og informasjonsvitenskap (IDI) Eksamensoppgave i TDT4117 Informasjonsgjenfinning Faglig kontakt under eksamen: Heri Ramampiaro Tlf.: 73591459 Eksamensdato: 07.12.2016 Eksamenstid

Detaljer

Bachelorprosjekt i informasjonsteknologi, vår 2017

Bachelorprosjekt i informasjonsteknologi, vår 2017 Bachelorprosjekt i informasjonsteknologi, vår 2017 Gruppe 29: Marthe Janson Skogen, s236357, Ingeniørfag - data Odd Einar Hoel, s236313, Ingeniørfag - data Forprosjektrapport Rapporten inneholder presentasjon,

Detaljer

Kravspesifikasjon. Leserveiledning Kravspesifikasjonen består av følgende deler: Presentasjon Om bedriften

Kravspesifikasjon. Leserveiledning Kravspesifikasjonen består av følgende deler: Presentasjon Om bedriften Kravspesifikasjon Presentasjon Hovedprosjektet gjennomføres ved Høgskolen i Oslo, avdelingen for ingeniørutdanning. Målet med oppgaven er å utvikle en online webshop for bestilling av postkasser. Dette

Detaljer

Test Beskrivelse Resultat Innhenting CBIS Programmet mottar data fra CBIS OK, men kun. Innhenting Tellus Programmet mottar data fra Tellus OK

Test Beskrivelse Resultat Innhenting CBIS Programmet mottar data fra CBIS OK, men kun. Innhenting Tellus Programmet mottar data fra Tellus OK Forord Denne testrapporten beskriver testingen som har blitt utført i løpet av prosjektet. Vi har gjennom hele utviklingsprosessen testet koden manuelt ved hjelp av debugging og ved kjøring med sammenligning

Detaljer

Akseptansetest av mottak Svarrapportering av medisinske tjenester Immunologi

Akseptansetest av mottak Svarrapportering av medisinske tjenester Immunologi Akseptansetest av mottak Svarrapportering av medisinske tjenester Meldingsversjon: 1.3 datert 01.12.2008 Akseptansetest av mottak Svarrapportering av medisinske tjenester 2 Innholdsfortegnelse 1. REVISJONSHISTORIKK...

Detaljer

Hovedprosjekt 2014, Høgskolen i Oslo og Akershus

Hovedprosjekt 2014, Høgskolen i Oslo og Akershus Forprosjektrapport Gruppe 2 Hovedprosjekt 2014, Høgskolen i Oslo og Akershus 1 INNHOLD 2 Presentasjon... 2 2.1 Gruppen medlemmer... 2 2.2 Oppgave... 2 2.3 Oppdragsgiver... 2 2.4 Veileder... 2 3 Sammendrag...

Detaljer

Brukbarhet ved benyttelse av fri programvare i systemutvikling - en praktisk studie

Brukbarhet ved benyttelse av fri programvare i systemutvikling - en praktisk studie Brukbarhet ved benyttelse av fri programvare i systemutvikling - en praktisk studie Tarjei Eriksen Ormestøyl Anders Kløvrud Rognstad Master i datateknikk Oppgaven levert: Juni 2010 Hovedveileder: Dag Svanæs,

Detaljer

Oblig 2, SLI250 Et kortfattet analyse og designdokument for skifteregister på nett

Oblig 2, SLI250 Et kortfattet analyse og designdokument for skifteregister på nett Oblig 2, SLI250 Et kortfattet analyse og designdokument for register på nett Harald Askestad haraldas@uio-pop.uio.no 2. oktober 2000 Innhold Innledning 2 2 Systemdefinisjon 2 3 Objektmodell 2 4 Funksjoner

Detaljer

Navngivning av XML elementer

Navngivning av XML elementer Navngivning av XML elementer Versjon 1.0 En anbefaling fra Norsk EDIPRO August 2002 Norsk EDIPRO Tel. 22 12 83 90 Postboks 2526 Soll Fax. 22 12 83 97 0202 Oslo Internet: www.edipro.no Forord Språket XML,

Detaljer

CORBA Component Model (CCM)

CORBA Component Model (CCM) CORBA Component Model (CCM) INF5040 Høst 2005 Erlend Birkedal Jan Erik Johnsen Tore Ottersen Løkkeberg Denne presentasjonen CORBA Svakheter ved CORBA Object Model Komponenter CORBA Component Model Hva

Detaljer

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak Sammendrag: Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak TØI-rapport 984/2008 Forfatter(e): Rune Elvik Oslo 2008, 140 sider Denne rapporten presenterer en undersøkelse

Detaljer

INF 329: Web-Teknologier. Dataimplementasjon. Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004

INF 329: Web-Teknologier. Dataimplementasjon. Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004 INF 329: Web-Teknologier Dataimplementasjon Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004 av: Dag Viggo Lokøen (dagvl@ii.uib.no) Kent Inge F. Simonsen (kentis@ii.uib.no)

Detaljer

Objektorientert programmering med Java ISBN 82-7674-748-5

Objektorientert programmering med Java ISBN 82-7674-748-5 Tema 8 Programdesign som isolerer godt mellom logikk og presentasjon passer godt for å lage ulike grensesnitt mot logikk-delen. Klassen ZipFile som ble brukt i et konsoll-basert grensesnitt på side 67,

Detaljer

Testsituasjon Resultat Kommentar. Fungerer som det skal!

Testsituasjon Resultat Kommentar. Fungerer som det skal! Test- rapport Testsituasjon Resultat Kommentar Test av PHP-variablene. Sjekke om de er riktig deklarert, og om de kommer med fra form til database Alle variablene som skal leses fra konfigurasjonssiden,

Detaljer

Akseptansetest av mottak Svarrapportering av medisinske tjenester Mikrobiologi

Akseptansetest av mottak Svarrapportering av medisinske tjenester Mikrobiologi Akseptansetest av mottak Svarrapportering av medisinske tjenester Meldingsversjon: 1.3 datert 01.12.2008 Akseptansetest av mottak Svarrapportering av medisinske tjenester 2 Innholdsfortegnelse 1. Revisjonshistorikk...

Detaljer

Veilederdokumentenes forankring <UTKAST>

Veilederdokumentenes forankring <UTKAST> Tittel: Utarbeidet av: Søkeord: Opplagstall: Versjon: 0.3 Dato: 29.04.2013 Veilederdokumentenes forankring Norge digitalt Veileder, Web Feature Service, WFS, NSDI, SDI, WMS, Web Map Service, GML,

Detaljer

Innholdsfortegnelse. 1. Testing Feiltesting av koden Funksjonstesting: Kilder.10

Innholdsfortegnelse. 1. Testing Feiltesting av koden Funksjonstesting: Kilder.10 1 Innholdsfortegnelse 1. Testing... 3 1.1 Feiltesting av koden... 3 1.2 Funksjonstesting:... 7 2. Kilder.10 2 1. Testing Testing av et system er nødvendig for å finne ut om systemet fungere slik det skal

Detaljer

Læringsplattform for IT-fag basert på HTML5 utviklet i CakePhp

Læringsplattform for IT-fag basert på HTML5 utviklet i CakePhp Læringsplattform for IT-fag basert på HTML5 utviklet i CakePhp { En selvstendig plattform som kan brukes til å formidle kurs på nett med dagsaktuell teknologi. Oppgave 5, av Fredrik Johnsen Oppgavestiller

Detaljer

Prosjektoppgave: Bildedatabase. TDT4145 Datamodellering og Databasesystemer. Våren 2007

Prosjektoppgave: Bildedatabase. TDT4145 Datamodellering og Databasesystemer. Våren 2007 Prosjektoppgave: Bildedatabase TDT4145 Datamodellering og Databasesystemer Våren 2007 NB! Kun for de som ikke tar fellesprosjektet. Innledning I løpet av de siste årene har det blitt stadig mer vanlig

Detaljer

Kunden er en av Norges ledende leverandører av digital-tv og bredbåndstjenester.

Kunden er en av Norges ledende leverandører av digital-tv og bredbåndstjenester. 1 Forord Hensikten med kravspesifikasjonen er å gi oppdragsgiver og utviklere en enighet og forståelse av funksjonaliteten til applikasjonen som skal produseres. en definerer i tillegg prosjektets rammer

Detaljer

nettbasert produksjon og distribusjon av lydbøker

nettbasert produksjon og distribusjon av lydbøker nettbasert produksjon og distribusjon av lydbøker Formater i PipeOnline DAISY (Digital Accessible Information System) er en veletablert internasjonal standard for strukturering av digitale lydbøker. Standarden

Detaljer

1. SQL server. Beskrivelse og forberedelse til installasjon

1. SQL server. Beskrivelse og forberedelse til installasjon Avdeling for informatikk og e-læring, Høgskolen i Sør-Trøndelag SQL server. Beskrivelse og forberedelse til installasjon Stein Meisingseth 15.10.2014 Lærestoffet er utviklet for faget IDRI2001 Drift av

Detaljer

Forprosjektrapport Bacheloroppgave 2017

Forprosjektrapport Bacheloroppgave 2017 Forprosjektrapport Bacheloroppgave 2017 Chat Modul for Webnodes Content Management System Gruppe 32 Adam Asskali, Anmer Seif, Sara Khan 20.01.2017 Veileder G. Anthony Giannoumis Innholdsfortegnelse 1.Presentasjon

Detaljer

Reelle tall på datamaskin

Reelle tall på datamaskin Reelle tall på datamaskin Knut Mørken 5. september 2007 1 Innledning Tirsdag 4/9 var tema for forelesningen hvordan reelle tall representeres på datamaskin og noen konsekvenser av dette, særlig med tanke

Detaljer

Obligatorisk oppgavesett 1 MAT1120 H16

Obligatorisk oppgavesett 1 MAT1120 H16 Obligatorisk oppgavesett MAT0 H6 Innleveringsfrist: torsdag /09 06, innen kl 4.30. Besvarelsen leveres på Matematisk institutt, 7. etasje i N.H. Abels hus. Husk å bruke forsiden som du finner via hjemmesiden.

Detaljer

Installere JBuilder Foundation i Mandrake Linux 10.0

Installere JBuilder Foundation i Mandrake Linux 10.0 Installere JBuilder Foundation i Mandrake Linux 10.0 Installasjon av JBuilder Foundation på Linux (dekker her spesifikt fremgangen ved bruk av Mandrake Linux 10.0, men distribusjon vil gjøre liten eller

Detaljer

Studentevaluering av undervisning. En håndbok for lærere og studenter ved Norges musikkhøgskole

Studentevaluering av undervisning. En håndbok for lærere og studenter ved Norges musikkhøgskole Studentevaluering av undervisning En håndbok for lærere og studenter ved Norges musikkhøgskole 1 Studentevaluering av undervisning Hva menes med studentevaluering av undervisning? Ofte forbindes begrepet

Detaljer

Testrapport Prosjekt nr. 2011-22 Det Norske Veritas

Testrapport Prosjekt nr. 2011-22 Det Norske Veritas Prosjekt nr. 2011 22 Testrapport Hovedprosjektets tittel Implementering av plugin og utvikling av wizard for Det Norske Veritas Prosjektdeltakere Magnus Strand Nekstad s156159 Jørgen Rønbeck s135779 Dato

Detaljer

ephorte Integration Services (eis) produktbeskrivelse

ephorte Integration Services (eis) produktbeskrivelse ephorte Integration Services (eis) produktbeskrivelse Versjon 2 31.10.2012 Gecko Informasjonssystemer AS Robert Vabo INNHOLDSFORTEGNELSE INNHOLDSFORTEGNELSE... 2 COPYRIGHT... 3 EPHORTE INTEGRATION SERVICES...

Detaljer

Akseptansetest av mottak Svarrapportering av medisinske tjenester Mikrobiologi

Akseptansetest av mottak Svarrapportering av medisinske tjenester Mikrobiologi Akseptansetest av mottak Svarrapportering av medisinske tjenester Meldingsversjon: 1.2 datert 14.03.2005 Akseptansetest av mottak Svarrapportering av medisinske tjenester 2 Innholdsfortegnelse 1. REVISJONSHISTORIKK...

Detaljer

Gruppe 43. Hoved-Prosjekt Forprosjekt

Gruppe 43. Hoved-Prosjekt Forprosjekt Gruppe 43 Hoved-Prosjekt Forprosjekt Mobil Applikasjon Utvikling HiOA Bacheloroppgave forprosjekt våren 2017 Presentasjon Gruppen består av: Gebi Beshir Ole-Kristian Steiro Tasmia Faruque s182414 s189141

Detaljer

Enkle generiske klasser i Java

Enkle generiske klasser i Java Enkle generiske klasser i Java Oslo, 7/1-13 Av Stein Gjessing, Institutt for informatikk, Universitetet i Oslo Del 1: Enkle pekere Før vi tar fatt på det som er nytt i dette notatet, skal vi repetere litt

Detaljer

STATUSRAPPORT 3: Produksjon av nettside for Skjerdingen Høyfjellshotell.

STATUSRAPPORT 3: Produksjon av nettside for Skjerdingen Høyfjellshotell. statusrapport 2 I produksjon av webside for skjerdingen høyfjellshotell STATUSRAPPORT 3: Produksjon av nettside for Skjerdingen Høyfjellshotell 1 29. APRIL 2010 http://hovedprosjekter.hig.no/v2010/imt/mp/skjerdingen

Detaljer

Studentdrevet innovasjon

Studentdrevet innovasjon Studentdrevet innovasjon Hovedprosjekt 2013 Høgskolen i Oslo og Akershus Forprosjektrapport av Gruppe 11 Karoline Sanderengen, Mona Isabelle Yari og Randi Ueland 25.01.2013 Studentdrevet innovasjon 9 Innhold

Detaljer

HTML5. Skjemaer på nettsider. Skjemaer med. Informasjonsteknologi 1 og 2. Gløer Olav Langslet Sandvika VGS

HTML5. Skjemaer på nettsider. Skjemaer med. Informasjonsteknologi 1 og 2. Gløer Olav Langslet Sandvika VGS Skjemaer med HTML5 Gløer Olav Langslet Sandvika VGS Leksjon 10 Informasjonsteknologi 1 og 2 Skjemaer på nettsider I denne leksjonen skal vi se litt nærmere på bruk av skjemaer på nettsider. Du har sett

Detaljer

Kompleksitet og Beregnbarhet

Kompleksitet og Beregnbarhet Kompleksitet og Beregnbarhet 16. September, 2019 Institutt for Informatikk 1 Dagens plan Avgjørelsesproblemer. P EXPTIME NP Reduksjoner NP-kompletthet Uavgjørbarhet UNDECIDABLE DECIDABLE PSPACE NPC NP

Detaljer

Holdninger til og bruk av avdelingsvise kliniske informasjonssystemer ved St. Olavs hospital

Holdninger til og bruk av avdelingsvise kliniske informasjonssystemer ved St. Olavs hospital 1 Holdninger til og bruk av avdelingsvise kliniske informasjonssystemer ved St. Olavs hospital Eivind Vedvik Medisinstudent, det medisinske fakultet, NTNU Norsk senter for elektronisk pasientjournal eivindve@stud.ntnu.no

Detaljer

Forelesning 20 Kvalitative intervjuer og analyse av beretninger

Forelesning 20 Kvalitative intervjuer og analyse av beretninger Forelesning 20 Kvalitative intervjuer og analyse av beretninger Det kvalitative intervjuet Analyse av beretninger 1 To ulike syn på hva slags informasjon som kommer fram i et intervju Positivistisk syn:

Detaljer

Akseptansetest av mottak Svarrapportering av medisinske tjenester Patologi

Akseptansetest av mottak Svarrapportering av medisinske tjenester Patologi Akseptansetest av mottak Svarrapportering av medisinske tjenester Meldingsversjon: 1.3 datert 01.12.2008 Akseptansetest av mottak Svarrapportering av medisinske tjenester 2 Innholdsfortegnelse 1. REVISJONSHISTORIKK...

Detaljer

Søkesystemer og thesauri

Søkesystemer og thesauri Søkesystemer og thesauri Information Architecture Peter Morville & Louise Rosenfeld. Kapittel 8 og 9 1 Innhold Når trenger vi søkemuligheter? Kvalitetskriterier Søkesystemers anatomi Algoritmer Presentasjon

Detaljer

Sensorveiledning for eksamen i TIK4001, høst 2018

Sensorveiledning for eksamen i TIK4001, høst 2018 Sensorveiledning for eksamen i TIK4001, høst 2018 TIK 4001 er en introduksjonsmodul til de tverrfaglige områdene innovasjonsstudier og vitenskaps- og teknologistudier. Formålet er å gi studentene et overblikk

Detaljer

Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS

Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS Følgende retningslinjer skal følges ved deponering og/eller avlevering av elektroniske arkiver

Detaljer

Funksjonalitet og oppbygning av et OS (og litt mer om Linux)

Funksjonalitet og oppbygning av et OS (og litt mer om Linux) Funksjonalitet og oppbygning av et OS (og litt mer om Linux) Hovedfunksjoner i et OS OS skal sørge for: Styring av maskinvaren Deling av maskinens ressurser Abstraksjon vekk fra detaljer om maskinvaren

Detaljer

Brukerdokumentasjon. Webservices og webklient for kodeverk/ kodeverdi verifisering

Brukerdokumentasjon. Webservices og webklient for kodeverk/ kodeverdi verifisering Brukerdokumentasjon Webservices og webklient for kodeverk/ kodeverdi verifisering Innholdsfortegnelse... 3... 3... 3... 3... 4... 4... 4... 4... 8... 9... 10!... 10 "... 11 # $... 11 1. Om systemet 1.1.

Detaljer

Forord Dette er testdokumentasjonen skrevet i forbindelse med hovedprosjekt ved Høgskolen i Oslo våren 2010.

Forord Dette er testdokumentasjonen skrevet i forbindelse med hovedprosjekt ved Høgskolen i Oslo våren 2010. TESTDOKUMENTASJON Forord Dette er testdokumentasjonen skrevet i forbindelse med hovedprosjekt ved Høgskolen i Oslo våren 2010. Dokumentet beskriver hvordan applikasjonen er testet. Dokumentet er beregnet

Detaljer

Forprosjektrapport. Presentasjon. Sammendrag. Tittel Informasjonsplatform for NorgesGruppen

Forprosjektrapport. Presentasjon. Sammendrag. Tittel Informasjonsplatform for NorgesGruppen Forprosjektrapport Presentasjon Tittel Informasjonsplatform for NorgesGruppen Oppgave Utvikle en informasjonsplatform for butikkene i NorgesGruppen Periode 3. Januar 14. Juni Gruppemedlemmer Joakim Sjögren

Detaljer

Orientering om E-ARK4ALL. Et pågående delprosjekt av CEF earchiving buildingblock

Orientering om E-ARK4ALL. Et pågående delprosjekt av CEF earchiving buildingblock Orientering om E-ARK4ALL Et pågående delprosjekt av CEF earchiving buildingblock Agenda Introduksjon og historie Hvorfor er dette viktig for oss? Hva består prosjektet av? SIARD Veien videre à EARK3? Introduksjon

Detaljer

TDT4102 Prosedyreog objektorientert programmering Vår 2016

TDT4102 Prosedyreog objektorientert programmering Vår 2016 Norges teknisk naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap TDT4102 Prosedyreog objektorientert programmering Vår 2016 Øving 4 Frist: 2016-02-12 Mål for denne øvingen:

Detaljer

Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Institutt for informatikk

Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Institutt for informatikk Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Institutt for informatikk BOKMÅL EKSAMEN I EMNET INF 112 Systemkonstruksjon Torsdag 7. juni 2007 Tid: 09:00 12:00 Tillatte hjelpemidler:

Detaljer

Akseptansetest for mottak av PLO-meldingen: Helseopplysninger til lege

Akseptansetest for mottak av PLO-meldingen: Helseopplysninger til lege Akseptansetest for mottak av PLO-meldingen: Helseopplysninger til lege Meldingsversjon: Standard for elektronisk kommunikasjon med pleie- og omsorgstjenesten, versjon 1.5, datert 30.06.2009 2 Akseptansetest

Detaljer

Systemutviklingen er ferdig når et system er operativt. Med operativt menes når systemet blir brukt av brukerne på et faktisk arbeidssted.

Systemutviklingen er ferdig når et system er operativt. Med operativt menes når systemet blir brukt av brukerne på et faktisk arbeidssted. Presentasjon nummer 5 The changing system and the nature of maintenance Silde 1 Gruppen introduseres Slide 2 The changing system and the nature of maintenance The Changing system Systemutviklingen er ferdig

Detaljer

fleksibilitet når det gjelder geografisk plassering og etablerte arbeidsrutiner. Qubic cms

fleksibilitet når det gjelder geografisk plassering og etablerte arbeidsrutiner. Qubic cms Qubic cms Qubic cms publiseringsverktøy tilbyr avanserte, men lettfattelige løsninger for å publisere innhold på internett. Ved å bestå av flere forskjellige moduler, som både kan legges til og skreddersys,

Detaljer

Akseptansetest av mottak Dialogmelding

Akseptansetest av mottak Dialogmelding Akseptansetest av mottak Dialogmelding Meldingsversjon: 1.0 datert 08.07.2005 Akseptansetest av mottak Dialogmelding 2 Innholdsfortegnelse 1. REVISJONSHISTORIKK... 3 2. AKSEPTANSETEST FOR MOTTAK AV DIALOGMELDINGEN...

Detaljer

En bedre måte å håndtere prosjekt, team, oppgaver og innhold

En bedre måte å håndtere prosjekt, team, oppgaver og innhold En bedre måte å håndtere prosjekt, team, oppgaver og innhold Bedre prosjekthå ndtering med metådåtå M-Files går langt utover bare enkel dokumenthåndtering. Den unike arkitekturen drevet av metadata lar

Detaljer

DIAGNOSERAPPORT. for. Dato:19122012 Utført av: Tommy Svendsen

DIAGNOSERAPPORT. for. Dato:19122012 Utført av: Tommy Svendsen DIAGNOSERAPPORT for Dato:19122012 Utført av: Tommy Svendsen Generell synlighet (pagerank) En god start er å sjekke den generelle synligheten på siden. Dette er en test som rangerer med utgangspunkt i hvor

Detaljer

Applikasjonsutvikling med databaser

Applikasjonsutvikling med databaser Applikasjonsutvikling med databaser Lars Vidar Magnusson October 12, 2011 Lars Vidar Magnusson () Forelesning i DAS 10.10.2011 October 12, 2011 1 / 24 Applikasjonsutvikling med databaser Databaser tilbyr

Detaljer

Akseptansetest for mottak av PLO-meldingen: Konsultasjon

Akseptansetest for mottak av PLO-meldingen: Konsultasjon Akseptansetest for mottak av PLO-meldingen: Konsultasjon Meldingsversjon: Standard for elektronisk kommunikasjon med pleie- og omsorgstjenesten, versjon 1.4, datert 20.02.2008 Akseptansetest mottak - PLO-melding

Detaljer

Akseptansetest for mottak av administrativ kommunikasjon mot kjernejournal

Akseptansetest for mottak av administrativ kommunikasjon mot kjernejournal Akseptansetest for mottak av administrativ kommunikasjon mot kjernejournal Meldingsversjon: Standard for administrativ kommunikasjon mot kjernejournal, versjon 1.0, datert 12.08.2008 Akseptansetest - Mottak

Detaljer

QPAWeb. Et webgrensesnitt for QPA

QPAWeb. Et webgrensesnitt for QPA QPAWeb Et webgrensesnitt for QPA Bachelorgruppe 34 Ole Gunnar Dybvik, student dataingeniør - systemutvikling Jon Severin Eivik Jakobsen, student dataingeniør - nettverksarkitektur og -design Eskild André

Detaljer

S y s t e m d o k u m e n t a s j o n

S y s t e m d o k u m e n t a s j o n S y s t e m d o k u m e n t a s j o n Monitorering av produksjonsløyper ved Nasjonalbiblioteket - Project BAKE Utarbeidet av: Einar Wågan Kristian Akerhei Studium: Informasjonssystemer Innlevert: 26.5.2015

Detaljer

1. Mer om oppbyning av XML-dokument

1. Mer om oppbyning av XML-dokument Avdeling for informatikk og e-læring, Høgskolen i Sør-Trøndelag Mer om oppbyning av XML-dokument Lene Hoff 2.9.2013 Lærestoffet er utviklet for faget XML Teknologi 1. Mer om oppbyning av XML-dokument Resymé:

Detaljer

Innledende Analyse Del 1: Prosjektbeskrivelse (versjon 2)

Innledende Analyse Del 1: Prosjektbeskrivelse (versjon 2) Innledende Analyse Del 1: Prosjektbeskrivelse (versjon 2) Iskra Fadzan og Arianna Kyriacou 25.mars 2004 Innhold 1 Hovedmål 2 2 Mål 2 3 Bakgrunn 3 4 Krav 4 1 1 Hovedmål I dette prosjektet skal vi se nærmere

Detaljer

Team2 Requirements & Design Document Værsystem

Team2 Requirements & Design Document Værsystem Requirements & Design Document Høgskolen i Sørøst-Norge Fakultet for teknologi, naturvitenskap og maritime fag Institutt for elektro, IT og kybernetikk SRD 22/01/2018 Systemutvikling og dokumentasjon/ia4412

Detaljer

MUS2830 - Interaktiv Musikk

MUS2830 - Interaktiv Musikk MUS2830 - Interaktiv Musikk Oppsummering 13 november 2014 Hvorfor studere interaktiv musikk? Oppdage nye musikalske uttrykk (F.eks. har flere laptop- og mobilorkestre oppstått de siste årene) Gjøre musisering

Detaljer

Akseptansetest av mottak Svarrapportering av medisinske tjenester Radiologi

Akseptansetest av mottak Svarrapportering av medisinske tjenester Radiologi Akseptansetest av mottak Svarrapportering av medisinske tjenester Meldingsversjon: 1.3 datert 01.12.2008 Akseptansetest av mottak Svarrapportering av medisinske tjenester 2 Innholdsfortegnelse 1. Revisjonshistorikk...

Detaljer

Prosjektoppgave: Bildedatabase. TDT4145 Datamodellering og Databasesystemer. Våren 2008

Prosjektoppgave: Bildedatabase. TDT4145 Datamodellering og Databasesystemer. Våren 2008 Prosjektoppgave: Bildedatabase TDT4145 Datamodellering og Databasesystemer Våren 2008 NB! Kun for de som ikke tar fellesprosjektet. Innledning I løpet av de siste årene har det blitt stadig mer vanlig

Detaljer

System Dokumentasjon. Team2. Høgskolen i Sørøst-Norge Fakultet for teknologi, naturvitenskap og maritime fag Institutt for elektro, IT og kybernetikk

System Dokumentasjon. Team2. Høgskolen i Sørøst-Norge Fakultet for teknologi, naturvitenskap og maritime fag Institutt for elektro, IT og kybernetikk System Dokumentasjon Høgskolen i Sørøst-Norge Fakultet for teknologi, naturvitenskap og maritime fag Institutt for elektro, IT og kybernetikk System Dokumentsjon 23/04/2018 Systemutvikling og dokumentasjon/ia4412

Detaljer