INESS Infrastructure for the Exploration of Syntax and Semantics Victoria Rosén Universitetet i Bergen og Uni Research Språkbankens sommerseminar, 6. juni 2011 Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 1 / 19
Trebanker Korpora er nyttige redskaper for lingvistisk forskning Grunn annotasjon tillater søk etter ord og ordklasser Dypere annotasjon gir bedre søkemuligheter for syntaktiske strukturer En trebank er et korpus med syntaktisk annotasjon Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 2 / 19
Hvorfor trebanker? Syntaktisk annotasjon er nødvendig for effektivt å kunne finne fenomener som: inversjon passiver (med og uten agens) ditransitiver utbrytning relativsetninger (med og uten subjunksjon/relativt pronomen) Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 3 / 19
LFG-strukturer Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 4 / 19
Passiv Da funnet ble oppdaget, ble det foretatt DNA-undersøkelser av bakterien. De positive prøvene ble tatt av et parti sauekjøtt [...] Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 5 / 19
Passiv Prøvene ble tatt av kontrolløren. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 6 / 19
Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 7 / 19
Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 8 / 19
Relativsetninger Amerikansk politi ble torsdag kveld sendt hjem til popstjernen Britney Spears i forbindelse med konflikten [som] hun og eksmannen har når det gjelder omsorg for deres to felles barn. Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 9 / 19
Relativsetninger Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 10 / 19
En infrastruktur for trebanker INESS: Infrastructure for the Exploration of Syntax and Semantics Ett av fem databaseprosjekter innvilget etter første gangs utlysning i NFRs infrastrukturprogram Bevilgning fra NFR på 19 MNOK, støttes også av UiB med 3,5 MNOK Prosjektperiode: 2010 2015 INESS vil inngå i Språkbanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 11 / 19
INESS: mål De viktigste målene for prosjektet: å lage en stor trebank for norsk å gjøre trebanker med avanserte søkemuligheter for norsk og andre språk lett tilgjengelige Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 12 / 19
Hvordan lager man en trebank? Ulike metoder (manuell annotasjon vs. automatisk analyse) Ulike typer annotasjon (konstituentanalyse vs. dependensanalyse, bruk av en bestemt teori vs. mer eklektisk analyse) Vår metode: automatisk analyse med en LFG-grammatikk Fordel: konsistens Ulempe: stor grad av flertydighet Løsning: effektiv semiautomatisk disambiguering Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 13 / 19
Oppbygging av den norske trebanken Et korpus parses med NorGram Disambiguering i LFG Parsebanker Når den intenderte analysen er tilstede, lagres den i trebanken Når den intenderte analysen mangler, vil leksikon og grammatikk kunne utvides Korpuset parses på nytt, og annotatorenes disambigueringsvalg vil automatisk gjenbrukes Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 14 / 19
HPC-cluster INESS implementerer selv einfrastruktur for første fase av prosjektet. HPC nødvendig for: parsing og reparsing av korpuset raske søk i trebanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 15 / 19
Konsortium og partnere Et konsortium mellom UiB (LLE) og Uni Research (Uni Computing) UNINETT Sigma/NorStore Powerset (Microsoft) Nasjonalbiblioteket Kunnskapsforlaget Norsk Ordbok 2014 Universitetet i Oslo Universitetet i Tromsø Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 16 / 19
Nasjonalt og internasjonalt samarbeid Referansepanel av spesialister Internasjonale møter: ParGram/ParSem, TLT CLARIN (ESFRI) CLARA-stipendiat Språkbanken Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 17 / 19
Trebanker for andre språk Tysk: TIGER-trebanken Engelsk: Wikipedia-trebank (Powerset) Samisk: Universitetet i Tromsø Klassiske indoeuropeiske språk: Parallellstilt dependenstrebank, PROEIL Norsk, georgisk, nederlandsk, tigrinya: Parallellstilt LFG-trebank, XPAR Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 18 / 19
Milepæler 1 Høst 2011: Andre trebanker gjøres tilgjengelig gjennom INESS 2 Høst 2012: Første versjon av den norske trebanken (50 K ord semiautomatisk annotert, 50 M ord automatisk annotert) 3 Vår 2013: Første seminar med referansepanelet 4 Vår 2015: Andre seminar med referansepanelet 5 Høst 2015: Endelig versjon av den norske trebanken (500 K ord semiautomatisk annotert, 500 M ord automatisk annotert) Victoria Rosén (UiB/UniResearch) INESS Oslo, 6. juni 2011 19 / 19