NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

Like dokumenter
Merknader til Evaluering Fellestjenester panelets rapport

IT-verktøy i infrastrukturprosjektet LIA

Norsyg en syntaksbasert dyp parser for norsk

CLARINO. Koenraad De Smedt. 6 juni MMXI. Universitetet i Bergen ...

Standardisering av språkteknologiske termer i Norden? Torbjørg Breivik, Språkrådet

Ny norsk dialektinnsamling gir ny forståing av grammatikken. Åshild Søfteland, Universitetet i Oslo, doktorgradsstipendiat i nordisk språkvitskap

CLARINO. Common Language Resources and Technology Infrastructure Norway. Koenraad De Smedt OSLO DIE XVI FEBRUARII A D MMXII. Universitas Bergensis ...

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INESS Infrastructure for the Exploration of Syntax and Semantics

Evaluering fellestjenester panelets rapport

Nasjonal satsing på forskningsinfrastruktur

Adr: Von der Lippes gt 6, 0454 Oslo Født:

Digital humaniora

Sjeldne Diagnosers Nordiske Brukernettverk. V Hedevig Castberg

Samspillet mellom leksikon og syntaks

Vitskaplege samlingar. Åse Wetås, Norsk Ordbok 2014 Ope seminar om Språkbanken,

Innsamling av språkdata i Norge for ELRC utfordringer og muligheter

Fellestjenestene Tekstlaboratoriet Oktober 2013

Oslospråket i tall. Janne Bondi Johannessen. Innledning

LIA - Language Infrastructure made Accessible. Janne Bondi Johannessen

CLARINO: samarbeid mellom bibliotek og forskningsmiljø om infrastruktur for språkdata

Flerspråklig terminologi en ressurs for digitale offentlige tjenester i EU- og EØS-området. Jon Arild Olsen

ordbok svensk norsk D2AE A6FB1F5F3D088033F02A Ordbok Svensk Norsk 1 / 6

UNIVERSITETET I OSLO. Utlysingstekst phd-stillingar DET HUMANISTISKE FAKULTET. Notat:

Bakgrunn Organisasjon Prosjektplan WP1 WP3 WP11 WP12 CLARINO. Common Language Resources and Technology Infrastructure Norway.

Islandsk Norsk Ordbok

Medisinsk Ordbok Engelsk Norsk

UNIVERSITETET I OSLO

Tekstmining: En kort innføring

Dei mest relevante formuleringane for oss

Last ned Pedagogikkens språk. Last ned. Last ned e-bok ny norsk Pedagogikkens språk Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

PLAN FOR ETABLERING AV NORSK SPRÅKBANK 15. august Utarbeidet av en arbeidsgruppe nedsatt av Språkrådet

BIRD - Administrasjon av forskningsdata (Ref #2219b941)

Status for Språkbanken satsingsområde framover. Kristin Bakken 6. juni 2011

Enhet for digital dokumentasjon. C-E Ore 13. april 2015

Samisk disambiguering Saara Huhmarniemi Marit Julien Ilona Kivinen Pekka Sammallahti Trond Trosterud Linda Wiechetek

Nordisk miniordbok. Bakgrunn

HFs LANGTIDSBUDSJETT OPPSUMMERING

CS Library har vært en stor bidragsyter for svenske bibliotek og deres publikum på nettet i åtte år.

Språkbankens sommerseminar Om språkteknologiens muligheter i Forskningsrådet. Avdelingsdirektør Jon Holm 6. juni 2011

Medarbeidertilfredshets undersøkelse ved UiB. Stig Morten Frøiland personal og organisasjonsavdelingen

Deling av norske språkdata: terminologi og flerspråklige ressurser. ELRC Workshop 8. juni Gisle Andersen, NHH

Norsk Tyrkisk Oversettelse

Hvor mye forstår dagens ungdommmer i Norden av hverandres språk?

Hvorfor mapper vi? Forankring av mappingprosjektet. Grete Seland, HumSam personalmøte 12. des Mapping mot norsk WebDewey

Hvorfor mapper vi? Forankring av mappingprosjektet. Grete Seland, HumSam personalmøte 12. des Mapping mot norsk WebDewey

Kompetanseplan Vi har tid til undring, utfordring og utvikling sammen med ditt barn!

Kvalitetskriterier for digitale læringsressurser

Mot en trebank for talespråk

Fremmedspråk på universiteter og høyskoler - status for studieåret

SPRÅKRÅDET. Norsk språkbank oppdatering av opplysninger og vurderinger

Last ned De nordiske språk - Kurt Braunmüller. Last ned. Last ned e-bok ny norsk De nordiske språk Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

Viola Kuldvere, Heidi Konestabo, Dan Michael O. Heggø, Kristine Aalrust Kristoffersen

Årsrapport 2012 Nasjonal satsing på forskningsinfrastruktur (2009-)

NASJONAL PUBLISERINGSPLATTFORM FOR DIGITALT MATERIALE NYE DIGITALARKIVET. SAMDOK-konferansen 2017, Anette Skogseth Clausen, Arkivverket

Trugar «teljekantsystemet» norsk som forskingsspråk?

NORSK SPRÅKRÅD. REF. VÅR REF. DATO 2003/1372 ME/MEI CBU:elt OH HØRING VEDRØRENDE ENDRINGER I ÅNDSVERKLOVEN

Bokomtaler. Bokomtaler

Overvinn dine skriftlige utfordringer med..txtanalyser

Samarbeidet mellom Standard Norge og Språkrådet. Åse Wetås Direktør, Språkrådet

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

Etablering av CSE-nettressurs

Nordisk dialektkorpus: Oversettelse fra dialekt til bokmål

Veikart Standardiseringsrådet

Last ned Lesson study i en nordisk kontekst. Last ned


Årsrapport for USIT for 2015

1. SAMMENDRAG BAkgrunn og INNLEDNING RAMMER FOR LØSNINGEN Mål Organisering og bemanning Økonomi

Synkron overføring - Digitalt skapt materiale fra kommunene. Petter B. Høiaas Rådgiver, IKA Kongsberg

EVALUERING AV NOSP103-F (FJERNORD) «SPRÅKHISTORIE OG TALEMÅL» VÅREN 2016

Request for information (RFI) Integrasjonsplattform

Avtale om samarbeid i konkurransesaker

Del I - Oversikt over fagkoder skoleåret 2003/2004 videregående opplæring og teknisk fagskole

Læreplan i fremmedspråk programfag i utdanningsprogram for studiespesialisering

Vedlegg til utlysning i Nasjonal satsing på forskningsinfrastruktur (INFRASTRUKTUR) med søknadsfrist 12. oktober 2016:

Læreplan i samisk som førstespråk - Høringsuttalelse til forslag til revidert læreplan

E-læring hvordan? Botnane Bedriftsutvikling AS

FoU-statistikk for de nordiske land. Figurer og tabeller om FoU-utgifter og FoU-årsverk

Notat om Norge digitalt og Norvegiana

Prøveordning for organisering av programråd og studieretninger ved ILOS fra januar 2010

Språkteknologi: grunnforskning vs. næring

nvf-its REFERAT 1 (5) REFERAT FORMANN OG SEKRETÆRMØTE 14. april 2010

SPRÅKRÅDET. REF. VÅR REF. DATO 2006/04040 KU/KU3 IE:kdp TB Svar på KKDs brev av 29. mai 2006 om en norsk språkbank

TERMPORTALEN SOM INFRASTRUKTUR FOR TERMINOLOGI I NORGE

Kor é termen? Presentasjon av EØS-EU-basen. Cecilie Ovrum Enhet for EØS-oversettelse, UD

Tekstlaboratoriet. Presentasjon for ILOS, 13. april 2015

Emneportalverktøy for bibliotek. Ellen Aabakken Deichmanske bibliotek, Bibliotekmøtet i Bergen 7. mars 2008

Forslag til Norsk Referansekatalog

Metoder for bedre samhandling. erfaringer fra Semicolon

Videreutvikling av CRIStin

Kort om Sweco ansatte i 12 land MSEK i omsetning oppdrag per år kunder

NorSIKT Hensikt, målsetting og status

Integrerings- og mangfoldsdirektoratet (IMDi) Vedlegg 1: KRAVSPESIFIKASJON for Komparativ gjennomgang av introduksjonsprogram i Skandinavia

Prosjektet Moderne importord i språka i Norden Helge Sandøy. Dansk Sprognævn, København 7. november 2018

Praktisk PfDK SAMHANDLING OG KOMMUNIKASJON. Ellen Birgitte Johnsrud Sigrun Lindaas Norhagen

Det humanistiske fakultet Universitetet i Oslo

MOOC-utvalget: Digitalisering av høyere utdanning

Institutt for lærerutdanning og skoleforskning (ILS)

Digitale verktøy i undervisningssamarbeid ressursutnytting og faglig sammenheng i akvakulturstudiet

Transkript:

NO-CLARIN fra et UiO-HF-perspektiv Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

Noen utfordringer om hva som finnes Antall ressurser Innholdet i ressursene Type ressurser Infrastruktur for gjenbruk av ressurser Infrastruktur for oppgradering av ressurser

Skriftspråkskorpus v/uio, 2007 Dvs. 16 skriftspråkskorpus

Nye skriftspråkskorpus siden 2007 NoWaC-korpuset første versjon av et stort web-basert korpus for bokmål. Denne versjonen inneholder 700 millioner ord. (Emiliano Guevara, Tekstlab) RuN-korpuset parallellkorpus med norsk, russisk, engelsk. (Atle Grønn, ILOS + Tekstlab) Bibliotheca Polyglotta flerspråklig korpus av historisk viktige tekster. (Jens Braarvig, IKOS + IT- HF) SalCorpora Hindi database (Claus Peter Zoller, IKOS + USIT, Tekstlab, U i Heidelberg) PROIEL Trebank for gresk, latin, kirkeslavisk, armensk og gotisk. (Dag Haug, IFIKK) The French Newspaper Corpus 115 millioner ord fra franske nyhetstekster (Tekstlab). Makedonsk tekstkorpus (Tekstlab)

Andre språkressurser: også flere og flere Talespråkskorpus Taggere Databaser Ordlister Leksikon Kartløsninger Parsere Distribusjonsmodeller for semantikk

Det samlede inventaret av ressurser er IKKE uforanderlig

Endringer i innhold Nordisk dialektkorpus 2007: noen dialektopptak fra Norge og Sverige 2010: mange dialekter fra Norge, Sverige, Danmark, Island, Færøyene 2012? Også fra svensktalende Finland? Flere opptak fra de andre 2007: svenske dialektopptak var bare med lyd 2010: mange svenske dialektopptak med video også 2008: bare norske dialekter var grammatisk tagget 2010: tagging ferdigstilles for færøysk, islandsk og svensk. 2008: ingen kartløsning 2010: stadig nye kartløsninger i korpuset

Innholdet i et korpus (og andre ressurser) er IKKE uforanderlig

Behovene endres generelt Lagringskapasitet Fra tekst til video: Fra Mbyte til Tbyte Akkumulerte datamengder Krever nyere og hurtigere typer analyseverktøy Tungregning Fra enkle regelbaserte grammatikker til statistiske beregningsalgoritmer Direkte tilgjengelighet Forutsetter web

Stadig nye ressurser på stadig flere steder Tidligere: Bare et par-tre institusjoner utviklet språkteknologi Bare et par-tre firmaer var interessert i språkteknologisk råstoff Bare noen få språkfolk og filologer var interessert i bruk av språkteknologi I dag: Mange utvikler språkteknologi Mange firmaer er interessert Mange språkfolk og filologer er interessert

Foreløpig konklusjon Behov på flere nivåer når det gjelder eksisterende og nye ressurser

Språkteknologisk ressursoppbygging er dyrt gjenbruk veldig viktig Viktig at man vet hva som finnes Behov: dynamisk sentralisert katalog inndelt i temaer, funksjoner o.a. (CLARIN WG 5.6: LRT Integration) Viktig at man vet hvor det finnes Behov: dynamisk sentralisert katalog Viktig at man vet hvordan det som finnes, er. Behov: detaljerte opplysninger om hver enkelt ressurs Viktig at man vet hvordan det som finnes, kan brukes Behov: gode bruksanvisninger Praktisk med interoperabilitet Behov: like standarder (CLARIN WG 5.7: Interoperability and Standards, WG 7.2 A: Licensing of Materials)

Infrastruktur: forbedring av eksisterende ressurser (i) For korpus, leksikon og andre samlinger: (Clarin WG 5.2: Lexical Resources, WG 5.3: Corpora) Web-basert søking Nedlastbarhet Audiovisuell visning for talespråk Transkripsjoner av talespråk Grammatisk tagging Grammatisk parsing Full metadataoppmerking Sentral eller lokal tilgang?

Infrastruktur: forbedring av eksisterende ressurser (ii) For taggere, parser, analyseverktøy (Clarin: WG 5.1: Tools) Bedre presisjon og dekningsgrad Web-basert Nedlastbar Direkte anvendbar

Juridiske problemstillinger Rettigheter og plikter ifølge loven Er loven for streng? Håndheves den for strengt?

http://www.meertens.knaw.nl/edisyn/searchengine/

Spørsmål som var ønsket besvart - hvordan kan brukere (forskere i humanistiske fag) best jobbe sammen med leverandører (språk- og tekstteknologer) Ut fra erfaring: hyppig kontakt, smidig utvikling og kursing - hva er en fornuftig arbeidsdeling basert på tilgjengelig ekspertise? - hva er mulige oppdelinger av et bredt prosjekt i arbeidspakker? Katalogisering Teknisk infrastruktur Tilgjengeliggjøring av verktøy Tilgjengeliggjøring av korpus Tilgjengeliggjøring av leksika Tilgjengeliggjøringav andre typer data(baser) Juridiske aspekter - hva er mulige tekniske plattformer? Delvis avhengig av CLARIN-EUs valg, og delvis av hvilke plattformer de eksisterende verktøyene finnes på. - hva er realistisk å oppnå og hva er store utfordinger som gjenstår? Felles katalog og felles tilgjengeliggjøring er realistisk, felles samkjøring av ressurser fra samme portal er mindre realistisk - hva kan vi lære av andre prosjekter (som f.eks. CLARIN-NL, D-SPIN osv.)? Bør være noe

Mange spørsmål! På bakgrunn av CLARINs målsetting om tilgjengeliggjøring av eksisterende ressurser: Hva vil det si å tilgjengeliggjøre for innpassing i en overordnet infrastruktur? Hva vil det si at en ressurs eksisterer? Hvor ferdig eller uferdig er en ressurs som kan gå inn i CLARIN(udigitaliserte manuskripter, lydbånd, elektroniske råtekster, rå lydfiler, en halvgod parser, en mangelfull ordliste)? Hvor konkret eller abstrakt skal den felles katalogen være? Mens leksikon og korpusdata er ment for teknologer og ikke minst filologer, er det kanskje mest teknologene som kan ha særlig glede av verktøyene? Skal alt være tilgjengelig via en portal? Skal alt være anvendbart via en portal?