Samspillet mellom leksikon og syntaks

Like dokumenter
INESS Infrastructure for the Exploration of Syntax and Semantics

Norsyg en syntaksbasert dyp parser for norsk

Norsk minigrammatikk bokmål

NORDISKE STUDIER I LEKSIKOGRAFI

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

INF1820: Oppsummering

Mot en trebank for talespråk

Grammatikk Adverb. Forteller oss noe nytt om ord eller setninger

APPENDIKS D Geminittisk språk/grammatikk

Askeladden som kappåt med trollet

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Kapittel 11 Setninger

Anne-Cath. Vestly. Åtte små, to store og en lastebil

INF 2820 V2016: Innleveringsoppgave 3 del 1

DIANA Vil du hjelpe meg med matvarene? DAVID Okay. DIANA Tomatene ser fine ut... Har du sett dem? David? DAVID Hva er Gryphon?

MANN Jeg snakker om den gangen ved elva. MANN Den første gangen. På brua. Det begynte på brua.

PROSJEKT: «Det flyvende teppe» Våren 2015.

Den internasjonale sommerskole Universitetet i Oslo

Slides til 12.1 Formelt språk og formell grammatikk

misunnelig diskokuler innimellom

Livet til det lykkelige paret Howie og Becca blir snudd på hodet når deres fire år gamle sønn dør i en ulykke.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

DA MIRJAM MÅTTE FLYTTE TIL KAIRO

I hvilken klasse går Ole? Barnehagen 1. klasse 2. klasse Hvor gammel er Kristine? 5 år 7 år 8 år. Hvor gammel er Ole?

MAMMA MØ HUSKER. Sett opp tilhørende bilde på flanellograf tavlen når du leser et understreket ord.

Overblikk over komplementer i kinesisk

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

INF 2820 V2016: Innleveringsoppgave 3 hele

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Ordenes makt. Første kapittel

Thomas er lei av livet. Han forsøker å gjøre det slutt med Sarah, hans elsker. Thomas sitter i bilen. Sarah kommer til vinduet.

PALE Jeg er her. Ikke vær redd. PALE Ikke vær redd. Jeg er klin edru. ANNA Jeg er litt full. Hvordan kom du deg inn?

COUNTRY MUSIC av Simon Stephens.

MARIE Det er Marie. CECILIE. (OFF) Hei, det er Cecilie... Jeg vil bare si at Stine er hos meg. MARIE

NO-CLARIN fra et UiO-HF-perspektiv. Janne Bondi Johannessen Nasjonalt møte om CLARIN, Nasjonalbiblioteket, 18.juni 2010

Samisk disambiguering Saara Huhmarniemi Marit Julien Ilona Kivinen Pekka Sammallahti Trond Trosterud Linda Wiechetek

Veiledning og tilleggsoppgaver til kapittel 7 i Her bor vi 2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

Et lite svev av hjernens lek

1. a. Gi en analyse av folkeeventyret Askeladden som kappåt med trollet.

Overblikk over komplementer i kinesisk

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

PERIODEPLAN 5. TRINN ORMESTAD SKOLE UKE 48-51

Den internasjonale sommerskole Universitetet i Oslo

JERRY Hva vil du gjøre da? EMMA Jeg vet faktisk ikke hva vi gjør lenger, det er bare det. EMMA Jeg mener, denne leiligheten her...

Uke 7: Små barn, små setninger I

MARIETTA Melody! Å, det er deg! Å, min Gud! Det er barnet mitt! Endelig fant jeg deg! MARIETTA Lovet være Jesus! Å, mine bønner er endelig besvart!

Historien om et godt menneske

FOTOGRAFENS - FØDSELS HISTORIE

TILBAKE MOT GUD 6 SNU MAX LUCADO 7

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

Anne-Cath. Vestly. Mormor og de åtte ungene i skogen

Fortelling 3 ER DU MIN VENN?

METODISK VEILEDNING OM LÆREPLAN OG RAMMEVERK 1. Metodisk veiledning. Grammatikkens plass i norskopplæringen

Muligheter for lulesamisk språkteknologi

Eksamen (6 timar) 29. november 2010, kl

Dersom spillerne ønsker å notere underveis: penn og papir til hver spiller.

HENRIK Å tenke seg at dette en gang har vært et veksthus. ANNA Orgelet må visst også repareres. HENRIK Anna? Jeg vil at vi

Lisa besøker pappa i fengsel

ANNE HELENE GUDDAL Bebo Roman

UNIVERSITETET I OSLO

SEX, LIES AND VIDEOTAPE av Steven Soderbergh

LÆRER: For en smart gutt! Tenk at du bare er 12 år og kan stille så kloke spørsmål!

Samlingsdatabasane. I denne presentasjonen vil de få sjå Eit felles brukargrensesnitt Døme på nokre databasar frå ulike fagområde

Norsk Grammatikk Oppgaver

NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

Håkon Øvreås. Brune. Illustrert av Øyvind Torseter

LexicoNordica. Korpusbasert leksikonbygging. Lars G. Johnsen og Torbjørn Nordgård. Kilde: LexicoNordica 3, 1996, s

God tekst i stillingsannonser

Proof ble skrevet som et teaterstykke og satt opp på Manhatten i Senere ble det laget film av Proof.

Da Askeladden kom til Haugsbygd i 2011

Forord Om å bruke Nå begynner vi! Hei! Presentasjon av familien til Johanne En vanlig dag... 41

Setningsledd. Norsk som fremmedspråk Side 131

Klaus Hagerup. Markus er konge

Velkommen til minikurs om selvfølelse

INF 2820 V2018: Innleveringsoppgave 3

Kvinne 66 ukodet. Målatferd: Redusere alkoholforbruket

IN1140: Introduksjon til språkteknologi. Forelesning #2

Kristina Ohlsson. Mios blues. Oversatt fra svensk av Inge Ulrik Gundersen

Gøy med grammatikk Kurs på Lillehammer 23. oktober

Bokomtaler. Bokomtaler

Gordana Ili_ Holen Institutt for lingvistiske fag Det historisk-filosofiske fakultet Universitetet i Oslo g.i.holen@hfstud.uio.no

3. Generell presentasjon av MT-programmet


Halvårsplan våren 2015

INF 2820 V2018: Innleveringsoppgave 2

Det barn ikke vet har de vondt av...lenge Gjør noe med det, og gjør det nå!

Kvinne 66 kodet med atferdsskårer

Definisjonene og forklaringene i denne presentasjonen er hentet fra eller basert på kap. 1 (Kristoffersen: «Hva er språk?

INT. BRYGGA. SENT Barbro har nettopp fått sparken og står og venter på brygga der Inge kommer inn med siste ferja. INGE BARBRO INGE BARBRO INGE

Verb: å plage, å mobbe, å røre, å kjenne, å løpe, å slippe, å røyke, å bade, å vaske, å danse, å snakke, å huske, å ønske, å krangle, å falle

JOE Kathleen Kelly. Hei. For et sammentreff. Har du noe imot at jeq setter meg? KATHLEEN Ja det har jeg faktisk. Jeg venter på noen.

LESEVERKSTEDET Damm forlag. Tina på tur. Tina er på tur i. Oversatt til Bliss symbolspråk. Leseverkstedet En serie på 18 lettlesbøker fra Damm forlag

Fagplan i norsk 6. trinn

ÅRSPLAN NORSK FOR 7. TRINN

JANUAR- OG FEBRUARNYTT PÅ STJERNA.

Transkript:

Samspillet mellom leksikon og syntaks Victoria Rosén Universitetet i Bergen og Uni Research 12. konferanse om leksikografi i Norden Oslo, 16. august 2013

Bakgrunn som syntaktiker Introduksjon Arbeidet de siste 15 år med prosjekter innenfor språkteknologi: SCARRIE, NORGRAM, LOGON, TREPIL, XPAR Leder nå INESS-prosjektet et prosjekt innenfor NFRs program INFRASTRUKTUR lager en forskningsinfrastruktur for trebanker Tema for dette foredraget: Språkteknologiske applikasjoner trenger korrekt informasjon om flest mulig ord Hvordan syntaktisk analyse kan bidra til en berikelse av leksikalske ressurser

Oversikt 1. Introduksjon 2. Trebanker og syntaktisk analyse 3. Hvilken informasjon om ord trenger vi? 4. Hvilke ord trenger vi? 5. Konklusjoner

2. Trebanker og syntaktisk analyse

Trebanker Trebanker er korpora som er annoterte med syntaktiske strukturer Ulike typer syntaktiske representasjoner: Konstituenstrebanker Dependenstrebanker Trebanker basert på bestemte lingvistiske teorier som f.eks. HPSG, LFG De kan være enspråklige eller flerspråklige (parallelle)

Trebanker Ulike typer konstruksjonsprosess: manuelt annotert automatisk parset med en manuelt laget grammatikk automatisk parset med statistiske teknikker Trebanker laget med en grammatikk, trenger: syntaktiske regler et leksikon De syntaktiske reglene og leksikonet må selvsagt være samstemte mht. morfosyntaktiske trekk

Parallellstilte setninger fra den islandsk-danske Sofie-trebanken

C- og F-struktur fra den norske Sofie-trebanken

INESS INfrastructure for the Exploration of Syntax and Semantics Prosjektets to hovedmål: å lage en infrastruktur for trebanker å lage en stor LFG-basert trebank for norsk Infrastrukturen er webbasert, man trenger ikke spesiell programvare, bare en vanlig nettleser Trebanker skal være lettilgjengelige forskningsressurser clarino.uib.no/iness

Syntaktisk analyse i den norske trebanken Parsingplattform: XLE (Xerox Linguistic Environment) Grammatikken: NorGram (Norsk komputasjonell grammatikk) Leksikonet: 1. Et håndskrevet LFG-leksikon, bl.a. for grammatiske ord 2. Et LFG-leksikon basert på NorKompLeks Norsk Komputasjonelt Leksikon maskinleselige ordlister for bokmål og nynorsk med informasjon om: 2.1 ord- og bøyningsklasser 2.2 uttale 2.3 valens eller subkategorisering basert på Bokmålsordboka og Nynorskordboka oppslagene er derivert fra oppslagene i NorKompLeks, litt annet format, hovedsakelig samme innhold

En dynamisk trebank Trebanken lages gjennom at et korpus parses automatisk Siden leksikalsk og syntaktisk flertydighet kan resultere i mange analyser, må man disambiguere for å finne den riktige analysen Annotatorer velger mellom analyser gjennom å bruke diskriminanter, enkle egenskaper slik som entall vs. flertall, eller ulike PP-tilknytninger Når den ønskede analysen ikke finnes, rapporterer de problemet slik at grammatikken og/eller leksikonet kan oppdateres En ny runde med parsing resulterer i bedre dekning av korpuset Denne metoden gir en dynamisk trebank der analysene kan videreutvikles i tandem med grammatikk og leksikon

Hvorfor får vi ikke alltid riktig analyse? Vi har undersøkt de første analysene av de 255 første setningene i Sofies verden Vi fant følgende fordeling av problemer: 29% syntaktisk 71% leksikalsk De to vanligste typer leksikalske problemer var: 41% flerordsuttrykk 31% leksikalske kategorier

3. Hvilken informasjon om ord trenger vi?

Typer nødvendig leksikalsk informasjon En stor fordel for syntaktisk arbeid å ha så rike leksikonressurser Vi finner likevel at vi ofte mangler leksikalsk informasjon som vi trenger for å analysere ganske vanlige ord Vi trenger bl.a.: ordklasse bøyning subkategorisering tellelighet sammensetningsstruktur flerordsuttrykk

Ordklasse Kan virke trivielt, men likevel ikke alltid likefrem Ordklassen er gjemt inne i ordartikkelen Ordklassen er feil Ordklassen må være mer finkornet

Ordklassen er gjemt inne i ordartikkelen

Ordklassen er feil

Ordklassen må være mer finkornet Foredraget var temmelig langt. ADVdeg (degree adverb) Han liker dessverre ikke ostekake. ADVatt (attitude adverb) Vi har vel hørt den før. ADVprt (particle adverb) Han er tydeligvis ikke fornøyd. ADVcmt (commitment adverb)

Subkategorisering NorKompLeks har lagt til subkategoriseringsrammer for alle verbene i BMO Rammene er inspirert av eksemplene i BMO Men da vi parser et korpus, finner vi ofte at rammer mangler Faren mumlet et farvel. ny transitiv ramme Han trengte seg fram. ny ramme med refleksivt objekt og partikkel Også substantiver og adjektiver kan ta komplementer: Orker ikke tanken på mer drittslenging. Han er stolt av datteren.

Subkategorisering Noen verb kan forekomme i såkalte inquit-konstruksjoner Et sitat følges av finitt verb og subjekt Forbausende mange verb forekommer i denne konstruksjonen: Jeg finner da veien hjem, skrek Fredrik etter ham. Ja, jeg leter etter en jobb, lyver jeg. «Jeg vil se Farid,» jamret Zoubida. «Det er telegram fra doktern, fra Alex,» rettet hun. Det dufter deilig, skrøt han mens hun bakte julekaker. Dette er et interessant subsett av verb som tar at-setninger som komplement (ikke glemme, lære, oppnå osv.)

Tellelighet Informasjon om tellelighet er ikke direkte tilgjengelig i BMO Noen ord har ikke flertallsbøyning: dette gjelder enten hele ordet, eller noen av delbetydningene Vi har derfor regnet tellelig som default for alle substantiver Vi legger til massetermer når vi oppdager dem under disambiguering Piken var en skjensel, hun kastet vanry over dem. Han løftet forsiktig opp et smykke som glimtet i gull.

Sammensetningsstruktur Man kan bruke automatisk sammensetningsanalyse for å analysere produktive sammensetninger Likevel er det nyttig å ha informasjon om sammensetningsanalyse i leksikon Man finner nemlig ofte slike elliptiske koordinasjoner: munn- og klovsyke Norsk Nærings- og Nytelsesmiddelarbeiderforbund vinter- og sommerdekk Hvis man skal kunne få en tilfredsstillende syntaktisk og semantisk analyse, må man vite at sommerdekk består av sommer+dekk

Flerordsuttrykk

Flerordsuttrykk

Flerordsuttrykk over bord oppdaget som flerordsuttrykk under disambiguering av denne setningen: Men før Artur hoppet over bord, hadde Martin hatt et hav av tid. Grunnen er at PP-frasen med indefinitt objekt er rar Vanlige PP-er ville være f.eks.: over stolen, over relingen, over bordet Ikke: over stol, over reling

4. Hvilke ord trenger vi?

Ukjente ord Når man parser et korpus, vil det alltid være ord som er ukjente for morfologi/leksikon Kan være nyord, men vi trenger å kunne analysere alle ord, også feilstavede, feilbøyde osv. Ett ukjent ord vil kunne resultere i at parseren ikke finner rett analyse INESS bruker bl.a. OCR-leste tekster fra Nasjonalbiblioteket Disse tekstene inneholder en del OCR-feil INESS har et grensesnitt for tekstpreprosessering der annotatorene kan både korrigere OCR-feil og legge inn ukjente ord

Å legge til et ukjent substantiv

Å legge til en ny bøyningsform

Å legge til en ny form av en stamme

Ad hoc-loan Er han en slags, he-he, boy-friend eller noe sånt? spurte han. Jeg dro rundt med mitt kamera og min «business class»-billett på maven. «Au contraire, Nick,» lød Edmonds lyse, slepende stemme fra døren. - Jeg har med frisisk kruidkoek til deg, sa Natasha og la en krydderkake på bordet. Men dette greier du jo fint, det er jo peanuts for deg, Halvdan,

Interjeksjoner Kan få fliser i tunga! Og kvae! Dobbelt-æsj! Verste som finnes! og hanen Hanibal gol: «Kykkeli-gratuly-ky»! Følgende skal skrives som to (eller flere) ord: jovisst (jo visst), jaja (ja ja), jøssda (jøss da), javelja (ja vel ja), uffda (uff da), heisann/heisan (hei sann), ojsann/oisan (oi sann), fyttirakkern/fytterakker n/fytte rakker n (fy til rakkeren), jipppiii/jippiiiiii/jipppiiii (?)

5. Konklusjoner

Konklusjoner Små unøyaktigheter og inkonsistenser er ikke nødvendigvis forstyrrende for mennesker som leser ordbøker på papir eller dataskjerm Men disse kan være alvorlige feilkilder i et elektronisk leksikon Det er vanlig å kreve et visst antall forekomster som et kriterium for et nytt leksikalsk oppslag For å parse autentisk tekst kan én forekomst være nok til å rettferdiggjøre et leksikalsk oppslag

Konklusjoner Lars Trap-Jensen sa i sitt foredrag at fremtidens leksikografer stadig vil være ansvarlige for innhold, og at de vil levere datainnhold til språkteknologer En stor og rik leksikalsk database kan være uavhengig av hvilket formål det skal brukes til Fremtidsvisjonen bør være at vi kan utvikle et tettere samarbeid mellom leksikografi og språkteknologi

Takk for oppmerksomheten!