Hovedpunkter i forelesningen. Databaser og fritekstsystemer m.m., organisering og strukturering av informasjon.

Like dokumenter
Timeplan Arkivnøkler og arkiver Søk i strukturerte databaser med utgangspunkt en arkivnøkkel som klassifikasjonssystem

Del 3: Noark 5-basert databasestruktur

Arkivet som informasjonskilde. Arkivnøkler og arkiver. Theodore Schellenberg. Arkivnøkkelen. Ytterligere kommentar

To RDF or not to RDF Fagdag om Noark 5 og RDF

Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS

ITGK - H2010, Matlab. Dagens tema : Teori - Databaser

«Standard for begrepsbeskrivelser»

Parallelle og distribuerte databaser del III

Intro til WWW, HTML5 og CSS

Saksbehandling, arkivdanning og arkiv om arbeidsprosesser, dokumentasjonsforvaltning og langtidslagring

DRI1002 IKT og Informasjonssøking Våren forelesning 16. Januar Arild Jansen, Avd. for forvaltningsinformatikk, UiO

Registrering av e-post e-postrekker og dokumentbegrepet. Norsk arkivråds høstseminar Øivind Kruse Arkivar, Riksarkivet

Databaser fra et logikkperspektiv

Introduksjon til fagfeltet

Innføring i. Grunnkurs for saksbehandlere SENTRALE BEGREP. Elektronisk arkiv og saksbehandling ved Høgskolen i Telemark Jorunn Pedersen

Web fundamentals. Web design. Frontend vs. Backend Webdesign 17. januar Monica Strand

Informasjonsorganisering. Information Architecture Peter Morville & Jorge Arango Kapittel 4, 5 & 6

DRI2010 Databaser, arkiver og fritekst-systemer

Noark-5 hva blir det til? Ståle Prestøy IKA Trøndelag. 23. mai 2007 Noark-5 - hva blir det til? 1

DRI2001 : Informasjonsinfrastrukturer Forelesning Arild Jansen, AFIN

SOSI-forvaltning - logisk modell

Databaser. Relasjonsmodellen 2 Læreboka: Kap. 2 Relasjonsmodellen

SERES og Tjenesteutvikling i Altinn. Geir Jevne Semantiske dager 7.juni 2011

Dokumentasjon av XML strukturer for ByggSøk

Semantikk, pragmatikk og kontekst

Periodisering Petter Pedryc

En lett innføring i foreninger (JOINs) i SQL

En liten rekap. Spørrespråk. I dag SELECT

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

UNIVERSITETET I OSLO

Hvordan ivareta digital historikk/historie? Geir Harbak, Sjefskonsulent SAK- & PORTALDAGENE 2018

Rutiner for dokumentbehandling i ephorte ved NTNU

Et kort historisk overblikk

Kontekst. DRI3010 Emnekode 644 Kandidatnummer Dato SIDE 1 AV 6

NorStellas 3 strategiske prosjekter i 2007

Testing av Noark 5 uttrekk med kdrs-toolboxvalidator og innsyn med kdrs-toolbox-innsyn. Thomas Sødring HiOA

Periodisering av elektronisk arkiv. Arkivfaglig seminar Rica Dyreparken Hotell 29. mai 2013

Oppdatering 4 ESA Vedlagt følger Oppdatering 4 til ESA server/web versjon

Emneportalverktøy for bibliotek. Ellen Aabakken Deichmanske bibliotek, Bibliotekmøtet i Bergen 7. mars 2008

DRI1002 Våren 2007 Seminar 30.1 Databaser og søkeverktøy

Litt kontekst Topic maps er en måte å organisere informasjon på en ISO standard (ISO/IEC 13250:2000) en XML applikasjon et lag oppå XML (gjerne også o

Kunnskapsorganisasjon og gjenfinning 1.1. Introduksjon til databaseteori. Tine L. Frost, Jørn Helge B. Dahl og Kim Tallerås

Norsk Arkivråd - Høstseminar 2009 Erfaringer med bruk av NOARK 5

Oppsummering. Thomas Lohne Aanes Thomas Amble

Oppsummering DRI

Utvikling av nytt nettsted for Norsk Filminstitutt. Integrasjoner. Skrevet av: Geir Bruskeland,

Bevaring av dokumentasjon i læringssystemer Lars-Jørgen Sandberg, Riksarkivet

Åpne lenkede data og kulturarv-sektoren

I databasen ligger det over 100 tabeller. De henger sammen dels via synlige koder, dels via usynlige interne ID-er. De ser man normalt bare når det

Kravspesifikasjon. Leserveiledning Kravspesifikasjonen består av følgende deler: Presentasjon Om bedriften

Status for arbeidet med Referansemodell for elektronisk samhandling i og med offentlig forvaltning. Rammeverk for interoperabilitet

Semantikk og Informasjonsarkitektur. Geir Myrind, SITS Planlegging Arkitektur

N5WS. Jean-Philippe André Caquet Kontaktkonferansen

INF 329: Web-Teknologier. Dataimplementasjon. Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004

Dataforvaltning og digitalisering. Stein Ivar Rødland IT-sjef Stavanger kommune

PERIODISERING AV ELEKTRONISK JOURNAL OG ARKIV

Hva er en funksjon? Hvilke fordeler gir det?

regjeringen.no Mette Haga Nielsen og Per Biørn Amundsen Departementenes servicesenter

Tom Røise 2/28/2007. IMT2243 : Systemutvikling 1. Forelesning IMT mars Tema : Litteratur : Strukturert analyse. Strukturert analyse

Digitalisering to dager til ende 8-9. november Jean-Philippe Caquet Rådgiver Trondheim Kommune

Forelesning og de faglige «greiene»

Noark-4, del 1: Endringer i forhold til den trykte utgaven (Kommuneforlaget, 1999)

Periodisering og avlevering av elektronisk arkiv hvem, hva, når? Rådgiver Ole-Bjørn Fossbakk og rådgiver Solveig Heløe Olsen, IKA Troms

Nye arkivforskifter. Monika Kurszus Håland Fagdag onsdag 30.mai 2018

Implementasjonsguide. for. elektronisk. melding av svangerskapsavbrudd til. Medisinsk fødselsregister

Scanning - I Kap. 2. Hva scanneren gjør

Oppdatering av person/studentforekomster i FS mot folkeregisteret

SVAR - TILBAKEMELDING AV FORELØPIG RAPPORT ETTER TILSYN ARKIV - HEMNE KOMMUNE

Kontaktkonferansen Jean-Philippe André Caquet

Rutine for journalføring av dokumenter i personalmappe

INF2820 Datalingvistikk V2016. Jan Tore Lønning

HVORDAN FÅ EFFEKTIVISERING UT AV DIGITALISERINGEN?

Pensum og undervisningens form

Kursrekker informasjonskompetanse fordelt på trinn Ekholt 1-10 skole

BAAN IVc. BAAN Data Navigator - Brukerhåndbok

ADDML. Archival Data Description Markup Language. Generell del. Versjon PA 0.07 Sist oppdatert: TPD. ADDML_8_2.doc 03/03/2011 1(12)

Kunnskapsorganisasjon og gjenfinning 1. Relasjonsmodellen og -databaser

ARKIV I SAMTID OG FRAMTID Utfordringer med portaler og integrering av fagsystemer og sak-/ arkivsystemer. Astrid Øksenvåg Daglig leder ekor as

Dialogens helbredende krefter

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Skanning del I. Kapittel 2 INF 3110/ INF

KRAVSPESIFIKASJON. Tittel: Pris++ Oppgave: Utvikle en Android applikasjon med tilhørende databasesystem. Periode: 1. Januar til 11. Juni.

Gjennomgang og bortsetting av avsluttet materiale. Av Frøydis Antonsen Interkommunalt arkiv Troms (IKAT) 2007

SEO. Erlend Nilsen Senior rådgiver Seo og Content Marketing

Arkivmessige forhold og elektroniske skjemaer Gjennomgang for Oslo kommune v/ Byarkivet

KulturNAV. Riksarkivet. Bård Bie-Larsen Seniorrådgiver Seksjon for museumsutvikling 20. Januar 2015

Velkommen til Arkivverkets undersøkelse av arkivholdet i statlige virksomheter 2019

Samle inn eller samhandle om statistiske data?

Del 2: Uttrekk fra udokumentert database

Det semantiske internett - Et meningsfylt internett. Gruppe 3 - Roger H. Farstad - Pål Humborstad Ole Humborstad - Inge Rønstad

Maps og Hashing. INF Algoritmer og datastrukturer. Map - ADT. Map vs Array

SENTRALISERT POST- / ARKIVTJENESTE.

Velkommen til Arkivverkets undersøkelse av arkivholdet i kommuner og fylkeskommuner 2019 (Oslo-undersøkelsen)

Læringsmål i digitale ferdigheter

Introduksjon til SOSI_db SOSI-standarden på database-format

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Elektronisk arkiv - hva er det? Karin Amalie Holmelid kaho@hib.no Arkivleder/leder for Dokumentsenteret ved Høgskolen i Bergen

Velkommen til Arkivverkets undersøkelse av arkivholdet i kommuner og fylkeskommuner 2019 (Oslo-undersøkelsen)

Innhold uke 9. Objektorientert programmering i Python. Om ukens pensum. Referanser og objekter Tema: Mer komplekse strukturer

Transkript:

Hovedpunkter i forelesningen Databaser og fritekstsystemer m.m., organisering og strukturering av informasjon Forelesning, DRI2010, 1. september 2010 Herbjørn Andresen, Afin Fritekstsystemer Databaser Strukturerte/ustrukturerte data, og noen mellomformer Registerbegrepet Arkiver og offentlige journaler Markup Languages, HTML og XML etc. Metadata, maskinlesbar semantikkinformasjon Fritekst minimal strukturering Sekvens av tegn, som har en begynnelse og en slutt En fritekst identifiseres som en helhet Normalt identifisert ved verktittel, navn, utgivelseskontekst etc. Filnavn er ofte en grei identifikator i IKT-sammenheng Strukturer beror på konvensjoner i språkfellesskapet Eller, mer avgrenset: Innen et fagmiljø eller en sub-kultur Kan også være noe mer stilisert, kapitler og delkapitler etc. Visse tegn kan gis enkle formateringsfunksjoner For eksempel tabulator, linjeskift, avsnittsslutt Slike spesialtegn, som kan tolkes og tillegges en funksjon, er likevel innordnet i den enkle sekvensielle strukturen Friteksteksempel GREGERS. Se så! Er Hjalmar Ekdal også syg? RELLING. Folk er syge omtrent alle i hob, desværre. GREGERS. Og hvad kur bruger De så for Hjalmar? RELLING. Min sædvanlige. Jeg sørger for at holde livsløgnen oppe i ham. GREGERS. Livs-løgnen? Jeg hørte ikke rigtig --? RELLING. Jo, jeg sa' livsløgnen. For livsløgnen er det stimulerende princip, det, ser De. Fritekst minimal strukturering Søking I utgangspunktet: Gjenfinne regulære uttrykk (sekvenser og mønstre av tegn) Dernest mulig å kombinere med boolske operatorer (og, eller ) Fritekstsøkingens begrensninger: Meningsproblemet (syntaktisk og semantisk flertydighet etc.) Relasjonsproblemet (likhet, forskjell, eierskap, slektskap, fiendskap etc.) Ofte er relasjoner ikke uttalte, og kanskje heller ikke stabile Fritekstsøkingens styrker Ofte ønsker vi å finne frem på tvers av et mangfold av kilder Setter små krav til å kjenne kontekst og struktur på forhånd Strukturerte databaser I denne sammenhengen tar vi utgangspunkt i såkalte relasjonsdatabaser (flere andre varianter finnes også) Sterk formalisering Rigid struktur Effektivt Svært mye brukt En klar og lettfattelig motpol til fritekst I relasjonsdatabasen er alle data representert [slik at de kan betraktes] som en samling tabeller Tabelldata kobles ved hjelp av entydige nøkkelverdier Presist, matematisk fundament (mengdelære) 1

Film, en enkel relasjonsdatabase Navn Fødselsår Tom Cruise 1962 Sjanger Clint Eastwood 1930 Sci-fi Stanley Kubrick 1928 Drama Malcolm McDowell 1943 Thriller Richard Tuggle 1948 Western Forest Whitaker 1961 Filmtittel Regissør Hovedrolle Sjanger A Clockwork Orange Stanley Kubrick Malcolm McDowell Sci-fi Bird Clint Eastwood Forest Whitaker Drama Eyes Wide Shut Stanley Kubrick Tom Cruise Drama On a Tight Rope Richard Tuggle Clint Eastwood Thriller Unforgiven Clint Eastwood Clint Eastwood Western Spørring mot relasjonsdatabasen Eksemplene er skrevet i SQL Finn alle filmene filmene der Clint ern medvirker : SELECT Filmtittel, Regissør, Hovedrolle FROM Film WHERE Regissør = Clint Eastwood OR Hovedrolle = Clint Eastwood Resultatet av spørringen kan representeres som en ny tabell: Filmtittel Regissør Hovedrolle Bird Clint Eastwood Forest Whitaker On a Tight Rope Richard Tuggle Clint Eastwood Unforgiven Clint Eastwood Clint Eastwood Spørring som kobler tabeller Finn filmtittel, hovedrolle og fødselsår for de filmene der hovedrolleinnehaveren er under 50 år gammel SELECT F.Filmtittel, P.Navn, P.Fødselsår FROM Film F, Person P WHERE F.Hovedrolle = P.Navn AND P.Fødselsår > (DetteÅr() 50) Resultat ser slik ut: F.Filmtittel P.Navn P.Fødselsår Bird Forest Whitaker 1961 Eyes Wide Shut Tom Cruise 1962 Relasjonsdatabasens fortreffelighet Entydighet, normaliserte data Tekniske verktøy som sikrer at koblingsnøkler har unik verdi Unødvendig å gjenta personenes fødselsår under hver av filmene de har medvirket i, det er nok å angi det én gang, i persontabellen Bidrar også til å sikre datakvaliteten, unngår faren for at samme person blir registrert med flere forskjellige fødselsår ( konsistens ) Negativ troverdighet Spørringen gir svar, og man kan også ha tillit til et tomt svar Hvis vi ikke finner Clint erns filmer, er det fordi de ikke finnes i databasen Hvis du angir et fødselsnummer som ikke finnes i Folkeregisteret, vil ikke Vegvesenet utstede førerkort for det nummeret du angir Ulike mellomformer for strukturering av opplysninger Leksikon, ordbøker Systematiserte oppslagsord, fritekstforklaring Blanketter ( skjemaer ) Kataloger Systematiserte oppslagsord, også et visst minimum av systematisk enhet som preger de egenskaper eller gjenstander som oppslagsordet forklarer eller peker på Eks. Bibsys, telefonkataloger, museumsinventar Begge deler egner seg for paralellpublisering, samme datakilde kan både trykkes som bok og brukes til online-oppslag 2

Kirkebok/protokollregister som mellomform Registre Regler, gjerne rettsregler, om hvilke data som omfattes Folkeregisteret Enhetsregisteret Strafferegisteret Helseregistre, produktregistre, + mange flere Plikter til å rapportere (hvem, når, hvordan osv.) Regler om hva registeret skal brukes til, og av hvem Oftest sterkt formalisering Databasesystemer er vanligst Mange registre har begynt som kartoteker, og er senere konvertert Journal- og saksarkiver Arkivlova med forskrift: Pålegger offentlige organer plikt til å journalføre og arkivere korrespondanse Journalen består av fortegnelse over hvilke dokumenter som er sendt fra virksomheten, og mottatt i virksomheten Arkivet består av unike eksemplarer av dokumenter som blir til under utøvelsen av en virksomhet Ikke bare ferdige versjoner, ofte også utkast/foreløpige versjoner Arkivmaterialet kan også være eksemplarer med påførte kommentarer og tilleggsopplysninger Innholdet i en journal Saksnummer + tittel Eventuell tilhørighet til en arkivdel (hovedgrupper av sakstyper) Journalposter (identifiserer hvert dokument i saken) Relevante datoer Klassifisering, arkivnøkkel Fininndeling av saksområder (kan sammenlignes med bibliotekers emneinndeling) Den opprinnelige klassifiseringsmåten, for å oppnå en fysisk organisering av arkivet som er hensiktsmessig for gjenfinning Elektronisk journal: Flere alternative klassifiseringer Arkiv 030.6 Sak 98/1 Saksdeling Ordningsprinsipp C Gnr.1, bnr. 10 Arkivdel 1 Ordningsprinsipp A Arkivkode 030.6: Vedlikehold Ordningsprinsipp: Objektordnet etter gnr og bnr. Andersen, A. Gnr. 2, bnr. 20 Ordningsprinsipp: Emneordnet etter Statens fellesnøkkel Primærkode 221 Arkivdel 2 Ordningsprinsipp B Arkivkode 221: Personalmapper Bjørnsen, B Sak 98/2 Sak 98/3 Ordningsprinsipp: Objektordnet etter personnavn Sekundærkode 1 2 3 4 1 2 1 2 3 Journalposter Journal/arkiv og datastrukturer Opprinnelig var arkivfaget en lære om å skape struktur gjennom selve den fysiske organiseringen av arkivet Proveniensprinsippet, arkivets indre sammenheng Den strukturerende informasjonen ble ikke eksplisitt registrert noe sted, man fant frem gjennom å søke i de fysiske papirene I IT-alderen : Behov for endre fra implisitt til eksplisitt informasjon NOARK-standard for registrering og håndtering av journalopplysninger Journal/arkiv er en hybrid mellom struktur og fritekst Strukturert informasjon viktig i praksis, fritekstsøk gir lav presisjon 3

Åpne og lukkede sammenhenger Åpne og lukkede sammenhenger Gammelt begrepspar, brukt for å forklare hva datamaskiner kan og ikke kan En tenkt utviklingslinje (basert på Jervell/Olsen, 1982): Den fysiske verden er en åpen sammenheng Landjorda likeså Noen steder er det mer hensiktsmessig å gå eller ri enn andre: Derfor dannes det stier og veier (en delvis tillukking) Veinett planlegges og utvikles, for å håndtere større/tyngre trafikk Veiene får navn og numre, informasjon om destinasjoner, brohøyder, tillatt akseltrykk etc. (Lukket sammenheng) Det lukkede systemet blir representert i kjørekart og gps-navigasjon Merk dere at de forutgående, åpne nivåene ikke slutter å eksistere Fritekst og relasjonsdatabaser som to ytterpunkter Fritekst kan prinsipielt bare være basert på antakelser om en åpen verden Relasjonsdatabaser (og mange andre måter å strukturere data på) er basert på en antatt lukket verden Åpne sammenhenger Ofte mulig å tolke samme kilde på forskjellige måter Kildekritikk, vi trenger å forstå tekstens sammenhenger: Hvem kommuniserer, til hvem, om hva, hvorfor og hvor troverdig? Lukkede sammenhenger Struktur, positiv og negativ troverdighet, er både forutsetning og mål Transparens, vi trenger å forstå modellen, og å forstå både hva som er tilføyd og hva som er utelatt i tillukningsprosessene Organisering av informasjonen på Internett Fritekst har vært, og er fremdeles, dominerende Lenker mellom dokumenter på kryss og tvers, uavhengig av hvem som er forfatter eller utgiver Også strukturerte opplysninger (relasjonsdatabaser og ulike mellomformer ) finnes i mange nettjenester: eforvaltning, ehelse Netthandel og nettbanker Bibliotekskataloger, tidsskriftdatabaser (+ mye mer) men er da i mye større grad lukkede tjenester, gjerdet inn (både teknisk og innholdsmessig) hos de enkelte tjenestetilbydere Semantisk web (i sakte og stødig anmarsj?) Nettinnhold i form strukturerte data, tilgjengelig på kryss og tvers som åpne kilder (slik Internetts tekstinnhold for det meste er) Vanlig versus semantisk web Samme basisteknologi Pakkevekslet kommunikasjon, TCP/IP protokoll, URL-adresser etc. Samme nettlesere og brukeropplevelse Tradisjonell web, basert på dokumenter og markup-språk blir på ingen måte borte Hypertekstdokumenter er fremdeles (primært) fritekst beskjedne muligheter for å tilføre noe struktur og metadata Semantisk web bygger videre på nevnte basis, men Tilfører nye språk for å uttrykke metadata og begrepstrukturer Informasjonen i semantisk web nærmer seg strukturerte data, som supplement til mer tradisjonelle dokumenter Metadata Blir ofte definert som data om data Man kan (kanskje) si at metadata er de sammenhengsopplysningene man trenger for å tolke gitte data meningsfullt, som informasjon Med eksempler fra relasjonsdatabasen: tabellnavnene og kolonneoverskriftene er metadata Regissør og Hovedrolle er to forskjellige metadata/ sammenhengsopplysninger, som sier forskjellige ting om hva Clint Eastwood har med tre av de registrerte filmene å gjøre Relasjonsdatabaser har også andre typer metadata, eks.: Formatinformasjon (at Fødselsår er et 4-sifret tall, > 1800) Hvilke kolonner i en tabell som utgjør unike koblingsnøkler Metadata Foregående eksempel på metadata går ut på: Metadata = databasedefinisjoner Data + Metadata = informasjon Det er for så vidt riktig, men et veldig smalt perspektiv på hva metadata er En annen definisjon (brukes i internasjonale arkivog records management standard ISO 15489): Data describing context, content and structure of records and their management trough time Peker både på definisjoner, strukturer, faktisk innhold (i praksis klassifiseringssystemer), og endringer through time (hvem de mottas fra, sendes til, endringer i tilgangsrettigheter ++) 4

Flere perspektiver på metadata Noe man konstruerer eller noe man finner? Hører metadata hjemme i en antatt åpen eller i en antatt lukket verden? Er metadata noe som skal leses og forstås av mennesker eller av maskiner? Er metadata en forutsetning, som må være på plass før øvrige data får en mening, eller (akkumulerte) resultater av å behande de dataene de gjelder? Svarene på alle disse spørsmålene er begge deler Metadata i den semantiske web-en RDF: Resouce Description Framework Språk for å definere metadata om et begrep Basert på XML (RDF er en XML skjemadefinisjon) Semantikken består av gjenstand egenskap verdi -tripler Det du ser nå kunne for eksempel ha som ressursbeskrivelse: forelesningsmateriell emne DRI2010 videre kan man definere hvor dette befinner seg, hvem som har skrevet det, osv., ved å tilføre flere RDF-tripler Andre web-anvendelser kan gjenbruke samme ressursdefinisjoner OWL: Web Ontology Language Definere systematiske begrepsstrukturer, bygger på RDF Gjør semantisk web Internett til en eneste, stor strukturert database? Har viktige fellestrekk med databaser Designede datamodeller Metadata som uttrykker struktur og hvordan data skal tolkes Et visst felles matematisk fundament, mengdelære Forskjeller fra sterkt formaliserte relasjonsdatabaser RDF har ikke like enkel tabellstruktur, forskjellige elementer av samme klasse kan ha litt ulike attributter (ligner mer på konstruksjonen sub-klasser i objektorientert programmering) RDF og OWL bygger i utgangspunktet på en antatt åpen verden (ikke negativ troverdighet) Ikke enhetlige organisatoriske rammer Uklart hvordan gjenbrukbarheten av en ressursdefinisjon skal dokumenteres/aksepteres/forhandles/forbedres 5