INESS Infrastructure for the Exploration of Syntax and Semantics

Like dokumenter
Samspillet mellom leksikon og syntaks

Mot en trebank for talespråk

CLARINO: samarbeid mellom bibliotek og forskningsmiljø om infrastruktur for språkdata

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

Norsyg en syntaksbasert dyp parser for norsk

Bibliotek- og arkivfaglig støtte Karin Rydving Universitetsbiblioteket i Bergen

IT-verktøy i infrastrukturprosjektet LIA

NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

NORDISKE STUDIER I LEKSIKOGRAFI

LF - Eksamen i INF1820

Nasjonal satsing på forskningsinfrastruktur en foreløpig evaluering av prosess og resultat

NSD Norsk senter for forskningsdata

Tekstmining: En kort innføring

LIA - Language Infrastructure made Accessible. Janne Bondi Johannessen

INF INF1820. Lectio secunda INF1820. Arne Skjærholt. Lectio secunda

Digital eksamen

Nasjonal vs lokal informasjon - NFR arbeidsgruppens erfaringer og arbeid

Infrastruktur store søknader og prosjekter. Katrine Eldegard, INA

Gøy med grammatikk Kurs på Lillehammer 23. oktober

INF1820: Oppsummering

CLARINO WP6 Korpuskel-integrering

Infrastrukturmillaradene - Hvor er NMBU?

INF 2820 V2016: Innleveringsoppgave 3 del 1

BIRD - Administrasjon av forskningsdata (Ref #2219b941)

Betydningen av tidlig og langsiktig forankring i institusjonenes ledelse

Forskningsrådets oppdaterte strategi og veikart 2012

Digitale fulltekstarkiv UBB (Ref # )

ÅRSPLAN I ENGELSK 2015/2016

Last ned Kunnskapsforlagets tysk grammatikk. Last ned

Last ned Kunnskapsforlagets engelsk grammatikk. Last ned

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

Innsamling av språkdata i Norge for ELRC utfordringer og muligheter

En nasjonal kunnskapsplattform for tidlige stadier med spesiell vekt på torsk

Last ned Kunnskapsforlagets spansk grammatikk. Last ned

Last ned Kunnskapsforlagets italiensk grammatikk. Last ned

INF 2820 V2016: Innleveringsoppgave 3 hele

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Utlysning av miljøstøtte 2014, støtteform 1 og 2

NorStore - StoreBioInfo

Nasjonal satsing på forskningsinfrastruktur (INFRASTRUKTUR) Informasjon om søknadsprosess 2016

Rift om studieplassene i utradisjonelle språkfag Nasjonalt senter for fremmedspråk i opplæringen Notat 3/2014

LEKSEPLAN 10B UKE 12 Mål i faget MANDAG TIRSDAG ONSDAG TORSDAG FREDAG Husk/info Religion og moral som tema i sentrale klassiske tekster.

Cristin, NVI, NORA og Open Access

Årsplan i norsk med Zeppelin 6

Bakgrunn for etablering av fagrådet for einfrastruktur ved UiO

IN1140: Introduksjon til språkteknologi. Forelesning #2

Verdiskapningsinitiativet

Flerspråklig terminologi en ressurs for digitale offentlige tjenester i EU- og EØS-området. Jon Arild Olsen

Bidragsmodell for e-infrastruktur

Hvordan fungerer INFRASTRUKTUR-satsingen for UoH-sektoren? Svein Stølen og Robert Bjerknes

For økt elevengasjement i norsk 8 10

Felles mal for vitnemål og vitnemålstillegg

UNIVERSITETET I OSLO

NAFALM NAFALM. Nasjonal forskerskole i allmennmedisin. Elin O. Rosvold, leder. Elin O. Rosvold, Nasjonal forskerskole i allmennmedisin - NAFALM

Periodeplan 8D uke 39 og 41

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Sluttrapport: Undersøkelse av lastprofiler og spenningspåvirkning fra hurtigladestasjoner for elbil

Øivin Andersen Norsk termbank Universitetet i Bergen FAGTEKST OG AGENTIVITET. Abstract. 1 Innledning. féiti

BRUKERVEILEDNING. ::: Parallellkorpus og søkegrensesnittet. ::> Korpuset ::> Utskriftsvennlig versjon ::> Kodeboken.

SFU-søknad fra Institutt for fysikk og teknologi. Professor Bjørn Tore Hjertaker

ifinger Produktoversikt Grunnskole

FORNY StudENT. Odd M Reitevold, spesialrådgiver Norges forskningsråd

PROSJEKTPLAN PROSJEKTINFORMASJON NØKKELINFORMASJON. * Prosjektnavn * Prosjektnummer

Slå to fluer i en smekk Ordbank på OneNote med minoritetsspråklige elever. Fredrik Zhang Sandbekken ungdomsskole

Hva skjer i Biobank Norge?

Halvårsplan i norsk våren 2017

BIA Brukerstyrt innovasjonsarena. -Noe for din bedrift? Svein Erik Moen, Forskningsrådet Mob:

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

Enhet for digital dokumentasjon. C-E Ore 13. april 2015

Transkript:

INESS Infrastructure for the Exploration of Syntax and Semantics Victoria Rosén Universitetet i Bergen og Uni Research Språkbankens sommerseminar, 6. juni 2011 Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 1 / 19

Trebanker Korpora er nyttige redskaper for lingvistisk forskning Grunn annotasjon tillater søk etter ord og ordklasser Dypere annotasjon gir bedre søkemuligheter for syntaktiske strukturer En trebank er et korpus med syntaktisk annotasjon Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 2 / 19

Hvorfor trebanker? Syntaktisk annotasjon er nødvendig for effektivt å kunne finne fenomener som: inversjon passiver (med og uten agens) ditransitiver utbrytning relativsetninger (med og uten subjunksjon/relativt pronomen) Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 3 / 19

LFG-strukturer Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 4 / 19

Passiv Da funnet ble oppdaget, ble det foretatt DNA-undersøkelser av bakterien. De positive prøvene ble tatt av et parti sauekjøtt [...] Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 5 / 19

Passiv Prøvene ble tatt av kontrolløren. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 6 / 19

Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 7 / 19

Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 8 / 19

Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten [som] hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 9 / 19

Relativsetninger Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 10 / 19

En infrastruktur for trebanker INESS: Infrastructure for the Exploration of Syntax and Semantics Ett av fem databaseprosjekter innvilget etter første gangs utlysning i NFRs infrastrukturprogram Bevilgning fra NFR på 19 MNOK, støttes også av UiB med 3,5 MNOK Prosjektperiode: 2010 2015 INESS vil inngå i Språkbanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 11 / 19

INESS: mål De viktigste målene for prosjektet: å lage en stor trebank for norsk å gjøre trebanker med avanserte søkemuligheter for norsk og andre språk lett tilgjengelige Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 12 / 19

Hvordan lager man en trebank? Ulike metoder (manuell annotasjon vs. automatisk analyse) Ulike typer annotasjon (konstituentanalyse vs. dependensanalyse, bruk av en bestemt teori vs. mer eklektisk analyse) Vår metode: automatisk analyse med en LFG-grammatikk Fordel: konsistens Ulempe: stor grad av flertydighet Løsning: effektiv semiautomatisk disambiguering Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 13 / 19

Oppbygging av den norske trebanken Et korpus parses med NorGram Disambiguering i LFG Parsebanker Når den intenderte analysen er tilstede, lagres den i trebanken Når den intenderte analysen mangler, vil leksikon og grammatikk kunne utvides Korpuset parses på nytt, og annotatorenes disambigueringsvalg vil automatisk gjenbrukes Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 14 / 19

HPC-cluster INESS implementerer selv einfrastruktur for første fase av prosjektet. HPC nødvendig for: parsing og reparsing av korpuset raske søk i trebanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 15 / 19

Konsortium og partnere Et konsortium mellom UiB (LLE) og Uni Research (Uni Computing) UNINETT Sigma/NorStore Powerset (Microsoft) Nasjonalbiblioteket Kunnskapsforlaget Norsk Ordbok 2014 Universitetet i Oslo Universitetet i Tromsø Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 16 / 19

Nasjonalt og internasjonalt samarbeid Referansepanel av spesialister Internasjonale møter: ParGram/ParSem, TLT CLARIN (ESFRI) CLARA-stipendiat Språkbanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 17 / 19

Trebanker for andre språk Tysk: TIGER-trebanken Engelsk: Wikipedia-trebank (Powerset) Samisk: Universitetet i Tromsø Klassiske indoeuropeiske språk: Parallellstilt dependenstrebank, PROEIL Norsk, georgisk, nederlandsk, tigrinya: Parallellstilt LFG-trebank, XPAR Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 18 / 19

Milepæler 1 Høst 2011: Andre trebanker gjøres tilgjengelig gjennom INESS 2 Høst 2012: Første versjon av den norske trebanken (50 K ord semiautomatisk annotert, 50 M ord automatisk annotert) 3 Vår 2013: Første seminar med referansepanelet 4 Vår 2015: Andre seminar med referansepanelet 5 Høst 2015: Endelig versjon av den norske trebanken (500 K ord semiautomatisk annotert, 500 M ord automatisk annotert) Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 19 / 19