Semantikk, pragmatikk og kontekst

Like dokumenter
Mapping mot Dewey. Kristine Aalrust Kristoffersen Mapping mot norsk WebDewey

Mapping mot Dewey. Kristine Aalrust Kristoffersen Mapping mot norsk WebDewey

En diskusjon av SKOS og mapping i henhold til ISO (Information and documentation Thesauri and interoperability with other vocabularies)

Viola Kuldvere, Heidi Konestabo, Dan Michael O. Heggø, Kristine Aalrust Kristoffersen

Kunnskapsorganisering i ulendt terreng: Mapping av Humord og Realfagstermer mot norsk WebDewey / ved Grete Seland HumSam frokostmøte 12.

Styringsdokument for prosjektet «Mapping mot norsk WebDewey» ved Universitetsbiblioteket i Oslo (UBO)

Hvorfor mapper vi? Forankring av mappingprosjektet. Grete Seland, HumSam personalmøte 12. des Mapping mot norsk WebDewey

Hvorfor mapper vi? Forankring av mappingprosjektet. Grete Seland, HumSam personalmøte 12. des Mapping mot norsk WebDewey

Vokabularer for læring - standarder og standardiseringsinitiativ på ontologiområdet Fra visjon til virkelighet

SERES - status Ressursnettverk for eforvaltning og Norstella Elektronisk Samhandling i Offentlig Sektor 27.august 2009

Los. Direktoratet for forvaltning og IKT

Los. Direktoratet for forvaltning og IKT

SEmantic Health Integration Architecture (SEHIA) En lettere vei til interoperabilitet?

NorStellas 3 strategiske prosjekter i 2007

«Standard for begrepsbeskrivelser»

Masterutdanning i bibliotek- og informasjonsvitenskap

Litt kontekst Topic maps er en måte å organisere informasjon på en ISO standard (ISO/IEC 13250:2000) en XML applikasjon et lag oppå XML (gjerne også o

Leksikalsk semantikk II

Mot en generell, nasjonal tesaurus? Seminar på Nasjonalbiblioteket

INF1820: Oppsummering

Norsk webdewey. Nye muligheter for utnyttelsen av klassifikasjonsdata. Elise Conradi og Ingebjørg Rype

Semantisk web og ontologier et forsøk på oppklaring? Bibliotekmøtet 2010, Hamar

To RDF or not to RDF Fagdag om Noark 5 og RDF

2.b: Er det derimot snakk om ekstremt generelle begrep, som «Romaner», bør man opprette mapping til så generelle nummer som 809.3, H3A 3 og H3B 3.

Rapport fra prosjektet Mapping mot Norsk WebDewey

Definere relasjoner mellom ulike entiteter.

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Mapping av emnevokabularene Humord og Realfagstermer til Norsk WebDewey

GENERELL NORSK TESAURUS. Avgrensing og omfang Unni Knutsen 8/9-14

Modellering av verk Verk og uttrykk i et brukerperspektiv. Litt om modeller/modellering

KulturNAV. Riksarkivet. Bård Bie-Larsen Seniorrådgiver Seksjon for museumsutvikling 20. Januar 2015

EAC-CPF i DIAS. <eac-cpf> - Encoded Archival Context - Corporate Bodies, Persons, and Families. Kan inneholde. Attributter.

IDA 350, oppgave 4. André Børge Kjetil (gruppe2) 3. november 2005

Web fundamentals. Web design. Frontend vs. Backend Webdesign 17. januar Monica Strand

Linked Open Data Kartverkets praktiske erfaringer

Forprosjekt tesaurus Status / resultater. Orientering på NKKI-møte 6. Februar 2015 Oddrun Pauline Ohren

På vei mot en generell norsk tesaurus (Ref #7de4b4e5)

ORIGO. Robert Engels. Hvordan plassere oss for fremtiden - endrede krav til interne systemer for å imøtekomme fremtidens behov

DRI2001 : Informasjonsinfrastrukturer Forelesning Arild Jansen, AFIN

Referat fra møte i Humord koordineringsgruppe

INF2820 Datalingvistikk V gang, Jan Tore Lønning

NorStellas 3 strategiske prosjekter i 2007

En ny generasjon standarder for bygging av geografisk infrastruktur

Predikatlogikk Syntaks Semantikk INF3170 / INF4171. Predikatlogikk: Syntaks og semantikk. Andreas Nakkerud. 1. september 2015

Starship SOSI versjon 5?

Afasi og demens. Inger Moen Februar, Institutt for lingvistiske og nordiske studier (ILN)

INF 329: Web-Teknologier. Dataimplementasjon. Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004

RAS - AMF. Teknisk dokumentasjon

Slipp dataene fri! Det er vår!

Norsk webversjon av Dewey. Ingebjørg Rype

Hvordan kan en gjenbrukbar NOARK kjerne bidra til samhandling mellom forvaltningsnivåene?

Flerspråklig terminologi en ressurs for digitale offentlige tjenester i EU- og EØS-området. Jon Arild Olsen

CHAPTER 11 - JORUN BØRSTING, ANALYZING QUALITATIVE DATA

NORDTERM Terminologiens terminologi

SPARQL. Daniel Reinholdt. Trondheim Daniel Reinholdt (NTNU) SPARQL Trondheim / 17

AUTORITETSREGISTRE I NRK

SERES concept API for managing definitions

SOSI-forvaltning - logisk modell

Semantic Web The revenge of metadata? Slide 1 Reproduksjon forbudt uten tillatelse fra Computas AS

Hvordan gi veven mening? Semantisk web: W3C, emnekart mm. FINF 4001 Design av nettsider og informasjonsarkitektur Semantisk web, emnekart mm

«Avvik» mellom standard definisjonskatalog og NPR - melding

Mapping mot norsk webdewey (Ref #684d0eaa)

definisjonsarbeid Anbefalinger til standardiseringsrådet

SERES og Tjenesteutvikling i Altinn. Geir Jevne Semantiske dager 7.juni 2011

Fra datasiloer til en samlet informasjonsforvaltning - en trinnvis prosess

MPEG-7. Problemstilling:

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

Automatisering av uttrekk fra bevarte databaser

Kristine Aalrust Kristoffersen. Mapping med mening. Utfordringer ved mapping av indekseringsspråk

Last ned I språkets bilde - Alf Petter Høgberg. Last ned

Kontekst. DRI3010 Emnekode 644 Kandidatnummer Dato SIDE 1 AV 6

Siren Steen, Bergen offentlige bibliotek/norsk musikkbibliotekforening

Endringer fra versjon til 5.7. Primus 5.7

GODKJENNING AV ENDRING I PROGRAMPLAN FOR BACHELORSTUDIET I BIBLIOTEK- OG INFORMASJONSVITENSKAP FOR STUDIEÅRET

Semantikk og Informasjonsarkitektur. Geir Myrind, SITS Planlegging Arkitektur

Emnekart og kunnskapsorganisering ny flaske for gammel vin? Foredrag på Nolug 11. november 2008

Tekstmining: En kort innføring

Offentlige data - hvem, hva hvor?

«Standard for begrepsbeskrivelser»

Mapping for sluttbrukertjenester

FutureLab - Søking på nett

Controller Brukerstøttedatabase Ottar Holstad/Cantor 09.

Søk med kontrollerte vokabularer i BIBSYS, Store norske leksikon, norsk og engelsk Wikipedia, Det periodiske system

På vei mot en generell norsk tesaurus?

Emneportalverktøy for bibliotek. Ellen Aabakken Deichmanske bibliotek, Bibliotekmøtet i Bergen 7. mars 2008

Situasjonsanlyse. av markedssystemet

Terminologi den tradisjonelle tilnærminga. Trondheim Johan Myking

Barnets beste og barns medvirkning i forvaltningssaker Elisabeth Gording Stang

Søkesystemer og thesauri

Hva inneholder tallene, hvordan tyde disse og bruke dem? Fagsamling 3. november 2015 Øyvind Lind Kvanmo

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

Tilbakeblikk på to Semantisk Web prosjekter

RDA - Keiserens nye klær? BIBSYS-konferansen tirsdag Trine Adolfsen og Frank Berg Haugen

Not doubly naked? CC BY-SA 3.0

Master Data Management

Public Linked Open Data - the Publications Office Contribution to the Semantic Web

Hvordan kan innsats for å koordinere begrepsbruk i offentlig forvaltning organiseres?

Testing av Noark 5 uttrekk med kdrs-toolboxvalidator og innsyn med kdrs-toolbox-innsyn. Thomas Sødring HiOA

Noark 5 kjerne Status og planer. Thomas Sødring thomas.sodring@jbi.hio.no P-R

Transkript:

Tesaurus-mapping prosjektmøte 10. nov2014 Are Gulbrandsen Semantikk, pragmatikk og kontekst - Bruk av vektorromsmodellen for å ta hensyn til kontekst ved mapping

Vi mapper begreper, ikke termer Noen vanlige utfordringer: Synonymer (ulik term for samme begrep) Kan finnes samme begrep i begge vokabularer, men ulik foretrukken term, f.eks. Biologisk mangfold vs Biodiversitet Homonymer (samme term for to ulike begrep) Ulike bøyningsformer

Semantikk i språkvitenskap (lingv.) Semantikk Betydning Betydningsmessige relasjoner mellom ord To ord med lik betydning = synonymi To ord med samme uttrykksform, men helt forskjellig betydning = homonymi Forskjellig, men beslektet betydning kalles polysemi (gjerne overført betydning (metafor) som tre, stjerne) Samme setning kan brukes eller tolkes forskjellig avhengig av situasjonen eller konteksten Studiet av setningers betydning i kontekst kalles gjerne pragmatikk

Semantikk i informasjonsvitenskap Hvis syntaksen (kodingen) og semantikken (meningen) for dataene er kjent kan dataene tolkes som informasjon. XML og databaser er f.eks. ikke semantisk teknologi Elementnavn/feltnavn er korte tekstlige beskrivelser (termer), som ikke er definerte (i den forstand at man kan bestemme om samme elementnavn i to dokumenter med ulikt skjema faktisk har samme betydning) Er avhengig av situasjonsbestemt tolkning Har bl.a. utfordringer rundt synonymer og homonymer

Semantikk i praksis Det er store utfordringer i elektronisk samhandling og kobling av informasjon hvis man ser nærmere på betydning og definisjon av termer som brukes for begreper. Noen ganger er små forskjeller viktige. Eks: Kungsbacka-saken i Sverige Ca. 1000 personer ble politianmeldt for mistanke om trygdemisbruk da myndighetene sammenlignet informasjon i ulike offentlige systemer. Under 2 % av de anmeldte ble domfelt. Et av forholdene som kom frem under etterforskningen var at det fantes mer enn 25 rettslige definisjoner av «inntekt» innenfor ulike deler av offentlig forvaltning.

Semantikken i RDF, OWL og SKOS RDF Ting er identiske (har lik betydning) hvis de har samme uri OWL Owl:sameAs Vi kan bytte ut identifikatoren og beholde betydningen SKOS skos:closematch, skos:exactmatch skos:broadmatch, skos:narrowmatch eller skos:relatedmatch For å være generell definerer SKOS med vilje ikke i detalj hva disse relasjonene betyr, det må tolkes i kontekst: Emphasis on minimal ontological commitment

Etablerte metoder og verktøy for mapping Mange begrep og metoder i bruk innen litt varierende fagområder, som er overlappende med vår bruk av begrepet mapping, bl.a: «Ontology Mapping», «Ontology Alignment», «Ontology Matching», «Semantic Matching» og «Semantic Mapping» «Linking data without common identifiers»: «Record linkage», «Entity resolution», «Name resolution», «Identity resolution», «Deduplication» og «Merge/purge»

Vektorromsmodellen Tar utgangspunkt i statistisk analyse av termer i tekst. Et dokument representeres av termenes forekomst og hyppighet i teksten Dokument term -matrise (tabell) Termvektor Likhet representeres og måles med sammenligning av multidimensjonale termvektorer

Likhet basert på vektorvinkel

Kontekst for Emneord i Humord I hvilken grad kan ulike former for kontekst gi oss mulighet til å sammenligne humord med Deweyklasser? Overordnede termer Definisjon 'Brukt for'-termer (synonymer) Underordnede termer 'Se også'-termer Noter?

Begreper = term + kontekst Begrepet kan representeres av et dokument som består av en vektet sammensetning av bl.a: Term Definisjon Synonymer Overordnede termer Noter

Etablerte verktøy Apache Lucene: http://lucene.apache.org Støtter Vektorromsmodellen Open Source Modent, og i bruk på UiO Skalerer mer enn bra nok for oss