Samspillet mellom leksikon og syntaks Victoria Rosén Universitetet i Bergen og Uni Research 12. konferanse om leksikografi i Norden Oslo, 16. august 2013
Bakgrunn som syntaktiker Introduksjon Arbeidet de siste 15 år med prosjekter innenfor språkteknologi: SCARRIE, NORGRAM, LOGON, TREPIL, XPAR Leder nå INESS-prosjektet et prosjekt innenfor NFRs program INFRASTRUKTUR lager en forskningsinfrastruktur for trebanker Tema for dette foredraget: Språkteknologiske applikasjoner trenger korrekt informasjon om flest mulig ord Hvordan syntaktisk analyse kan bidra til en berikelse av leksikalske ressurser
Oversikt 1. Introduksjon 2. Trebanker og syntaktisk analyse 3. Hvilken informasjon om ord trenger vi? 4. Hvilke ord trenger vi? 5. Konklusjoner
2. Trebanker og syntaktisk analyse
Trebanker Trebanker er korpora som er annoterte med syntaktiske strukturer Ulike typer syntaktiske representasjoner: Konstituenstrebanker Dependenstrebanker Trebanker basert på bestemte lingvistiske teorier som f.eks. HPSG, LFG De kan være enspråklige eller flerspråklige (parallelle)
Trebanker Ulike typer konstruksjonsprosess: manuelt annotert automatisk parset med en manuelt laget grammatikk automatisk parset med statistiske teknikker Trebanker laget med en grammatikk, trenger: syntaktiske regler et leksikon De syntaktiske reglene og leksikonet må selvsagt være samstemte mht. morfosyntaktiske trekk
Parallellstilte setninger fra den islandsk-danske Sofie-trebanken
C- og F-struktur fra den norske Sofie-trebanken
INESS INfrastructure for the Exploration of Syntax and Semantics Prosjektets to hovedmål: å lage en infrastruktur for trebanker å lage en stor LFG-basert trebank for norsk Infrastrukturen er webbasert, man trenger ikke spesiell programvare, bare en vanlig nettleser Trebanker skal være lettilgjengelige forskningsressurser clarino.uib.no/iness
Syntaktisk analyse i den norske trebanken Parsingplattform: XLE (Xerox Linguistic Environment) Grammatikken: NorGram (Norsk komputasjonell grammatikk) Leksikonet: 1. Et håndskrevet LFG-leksikon, bl.a. for grammatiske ord 2. Et LFG-leksikon basert på NorKompLeks Norsk Komputasjonelt Leksikon maskinleselige ordlister for bokmål og nynorsk med informasjon om: 2.1 ord- og bøyningsklasser 2.2 uttale 2.3 valens eller subkategorisering basert på Bokmålsordboka og Nynorskordboka oppslagene er derivert fra oppslagene i NorKompLeks, litt annet format, hovedsakelig samme innhold
En dynamisk trebank Trebanken lages gjennom at et korpus parses automatisk Siden leksikalsk og syntaktisk flertydighet kan resultere i mange analyser, må man disambiguere for å finne den riktige analysen Annotatorer velger mellom analyser gjennom å bruke diskriminanter, enkle egenskaper slik som entall vs. flertall, eller ulike PP-tilknytninger Når den ønskede analysen ikke finnes, rapporterer de problemet slik at grammatikken og/eller leksikonet kan oppdateres En ny runde med parsing resulterer i bedre dekning av korpuset Denne metoden gir en dynamisk trebank der analysene kan videreutvikles i tandem med grammatikk og leksikon
Hvorfor får vi ikke alltid riktig analyse? Vi har undersøkt de første analysene av de 255 første setningene i Sofies verden Vi fant følgende fordeling av problemer: 29% syntaktisk 71% leksikalsk De to vanligste typer leksikalske problemer var: 41% flerordsuttrykk 31% leksikalske kategorier
3. Hvilken informasjon om ord trenger vi?
Typer nødvendig leksikalsk informasjon En stor fordel for syntaktisk arbeid å ha så rike leksikonressurser Vi finner likevel at vi ofte mangler leksikalsk informasjon som vi trenger for å analysere ganske vanlige ord Vi trenger bl.a.: ordklasse bøyning subkategorisering tellelighet sammensetningsstruktur flerordsuttrykk
Ordklasse Kan virke trivielt, men likevel ikke alltid likefrem Ordklassen er gjemt inne i ordartikkelen Ordklassen er feil Ordklassen må være mer finkornet
Ordklassen er gjemt inne i ordartikkelen
Ordklassen er feil
Ordklassen må være mer finkornet Foredraget var temmelig langt. ADVdeg (degree adverb) Han liker dessverre ikke ostekake. ADVatt (attitude adverb) Vi har vel hørt den før. ADVprt (particle adverb) Han er tydeligvis ikke fornøyd. ADVcmt (commitment adverb)
Subkategorisering NorKompLeks har lagt til subkategoriseringsrammer for alle verbene i BMO Rammene er inspirert av eksemplene i BMO Men da vi parser et korpus, finner vi ofte at rammer mangler Faren mumlet et farvel. ny transitiv ramme Han trengte seg fram. ny ramme med refleksivt objekt og partikkel Også substantiver og adjektiver kan ta komplementer: Orker ikke tanken på mer drittslenging. Han er stolt av datteren.
Subkategorisering Noen verb kan forekomme i såkalte inquit-konstruksjoner Et sitat følges av finitt verb og subjekt Forbausende mange verb forekommer i denne konstruksjonen: Jeg finner da veien hjem, skrek Fredrik etter ham. Ja, jeg leter etter en jobb, lyver jeg. «Jeg vil se Farid,» jamret Zoubida. «Det er telegram fra doktern, fra Alex,» rettet hun. Det dufter deilig, skrøt han mens hun bakte julekaker. Dette er et interessant subsett av verb som tar at-setninger som komplement (ikke glemme, lære, oppnå osv.)
Tellelighet Informasjon om tellelighet er ikke direkte tilgjengelig i BMO Noen ord har ikke flertallsbøyning: dette gjelder enten hele ordet, eller noen av delbetydningene Vi har derfor regnet tellelig som default for alle substantiver Vi legger til massetermer når vi oppdager dem under disambiguering Piken var en skjensel, hun kastet vanry over dem. Han løftet forsiktig opp et smykke som glimtet i gull.
Sammensetningsstruktur Man kan bruke automatisk sammensetningsanalyse for å analysere produktive sammensetninger Likevel er det nyttig å ha informasjon om sammensetningsanalyse i leksikon Man finner nemlig ofte slike elliptiske koordinasjoner: munn- og klovsyke Norsk Nærings- og Nytelsesmiddelarbeiderforbund vinter- og sommerdekk Hvis man skal kunne få en tilfredsstillende syntaktisk og semantisk analyse, må man vite at sommerdekk består av sommer+dekk
Flerordsuttrykk
Flerordsuttrykk
Flerordsuttrykk over bord oppdaget som flerordsuttrykk under disambiguering av denne setningen: Men før Artur hoppet over bord, hadde Martin hatt et hav av tid. Grunnen er at PP-frasen med indefinitt objekt er rar Vanlige PP-er ville være f.eks.: over stolen, over relingen, over bordet Ikke: over stol, over reling
4. Hvilke ord trenger vi?
Ukjente ord Når man parser et korpus, vil det alltid være ord som er ukjente for morfologi/leksikon Kan være nyord, men vi trenger å kunne analysere alle ord, også feilstavede, feilbøyde osv. Ett ukjent ord vil kunne resultere i at parseren ikke finner rett analyse INESS bruker bl.a. OCR-leste tekster fra Nasjonalbiblioteket Disse tekstene inneholder en del OCR-feil INESS har et grensesnitt for tekstpreprosessering der annotatorene kan både korrigere OCR-feil og legge inn ukjente ord
Å legge til et ukjent substantiv
Å legge til en ny bøyningsform
Å legge til en ny form av en stamme
Ad hoc-loan Er han en slags, he-he, boy-friend eller noe sånt? spurte han. Jeg dro rundt med mitt kamera og min «business class»-billett på maven. «Au contraire, Nick,» lød Edmonds lyse, slepende stemme fra døren. - Jeg har med frisisk kruidkoek til deg, sa Natasha og la en krydderkake på bordet. Men dette greier du jo fint, det er jo peanuts for deg, Halvdan,
Interjeksjoner Kan få fliser i tunga! Og kvae! Dobbelt-æsj! Verste som finnes! og hanen Hanibal gol: «Kykkeli-gratuly-ky»! Følgende skal skrives som to (eller flere) ord: jovisst (jo visst), jaja (ja ja), jøssda (jøss da), javelja (ja vel ja), uffda (uff da), heisann/heisan (hei sann), ojsann/oisan (oi sann), fyttirakkern/fytterakker n/fytte rakker n (fy til rakkeren), jipppiii/jippiiiiii/jipppiiii (?)
5. Konklusjoner
Konklusjoner Små unøyaktigheter og inkonsistenser er ikke nødvendigvis forstyrrende for mennesker som leser ordbøker på papir eller dataskjerm Men disse kan være alvorlige feilkilder i et elektronisk leksikon Det er vanlig å kreve et visst antall forekomster som et kriterium for et nytt leksikalsk oppslag For å parse autentisk tekst kan én forekomst være nok til å rettferdiggjøre et leksikalsk oppslag
Konklusjoner Lars Trap-Jensen sa i sitt foredrag at fremtidens leksikografer stadig vil være ansvarlige for innhold, og at de vil levere datainnhold til språkteknologer En stor og rik leksikalsk database kan være uavhengig av hvilket formål det skal brukes til Fremtidsvisjonen bør være at vi kan utvikle et tettere samarbeid mellom leksikografi og språkteknologi
Takk for oppmerksomheten!