The Oslo-Bergen-Tagger and The Nomen Nescio Project



Like dokumenter
NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

EN Skriving for kommunikasjon og tenkning

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Den som gjør godt, er av Gud (Multilingual Edition)

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

Trigonometric Substitution

Gordana Ili_ Holen Institutt for lingvistiske fag Det historisk-filosofiske fakultet Universitetet i Oslo g.i.holen@hfstud.uio.no

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

Den som gjør godt, er av Gud (Multilingual Edition)

Databases 1. Extended Relational Algebra

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

PATIENCE TÅLMODIGHET. Is the ability to wait for something. Det trenger vi når vi må vente på noe

Some problems related to the development of a grammar checker

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Slope-Intercept Formula

Ole Isak Eira Masters student Arctic agriculture and environmental management. University of Tromsø Sami University College

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Enkel og effektiv brukertesting. Ida Aalen LOAD september 2017

Vedlegg til veiledning til læreplan i engelsk. Se skolenettet.no/veiledninger

Information search for the research protocol in IIC/IID

SVM and Complementary Slackness

Exercise 1: Phase Splitter DC Operation

Anna Krulatz (HiST) Eivind Nessa Torgersen (HiST) Anne Dahl (NTNU)

HONSEL process monitoring

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Emnedesign for læring: Et systemperspektiv

Dynamic Programming Longest Common Subsequence. Class 27

1 User guide for the uioletter package

«Flerspråklighet som ressurs i engelskundervisningen» - forskningsperspektiver og didaktiske grep. Christian Carlsen, USN

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Norsk (English below): Guide til anbefalt måte å printe gjennom plotter (Akropolis)

THE MONTH THE DISCIPLINE OF PRESSING

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

The regulation requires that everyone at NTNU shall have fire drills and fire prevention courses.

Mathematics 114Q Integration Practice Problems SOLUTIONS. = 1 8 (x2 +5x) 8 + C. [u = x 2 +5x] = 1 11 (3 x)11 + C. [u =3 x] = 2 (7x + 9)3/2

Prinsipper for å lage definisjoner (ISO704:2000) Principles for definition writing (ISO 704:2000)

Periodeplan 10E uke 44 og 45

Perpetuum (im)mobile

Mining who said what, and when in the Norwegian newspaper corpus

Måling av informasjonssikkerhet ISO/IEC 27004:2016. Håkon Styri Seniorrådgiver Oslo,

2018 ANNUAL SPONSORSHIP OPPORTUNITIES

Hvor finner vi flått på vårbeiter? - og betydning av gjengroing for flåttangrep på lam på vårbeite

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Public roadmap for information management, governance and exchange SINTEF

UNIVERSITETET I OSLO

Call function of two parameters

Neural Network. Sensors Sorter

FIRST LEGO League. Härnösand 2012

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

ISO 41001:2018 «Den nye læreboka for FM» Pro-FM. Norsk tittel: Fasilitetsstyring (FM) - Ledelsessystemer - Krav og brukerveiledning

INF Logikk og analysemetoder Forslag til løsning på oppgave fra læreboken

Bærekraftig FM til tiden/ Bærekraftig FM på tid

Vedlegg til veiledning til læreplan i engelsk. Se skolenettet.no/veiledninger

Trådløsnett med. Wireless network. MacOSX 10.5 Leopard. with MacOSX 10.5 Leopard

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

Elektronisk innlevering/electronic solution for submission:

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Bibliotekundervisningens fremtid nytt fokus på metodikk og digitalisering

NORGES FOTBALLFORBUND FORELDREVETTREGLER

GeWare: A data warehouse for gene expression analysis

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Hvordan ser pasientene oss?

stjerneponcho for voksne star poncho for grown ups

Graphs similar to strongly regular graphs

Mandatory assignment 1, INF2820, 2013

Søker du ikke om nytt frikort/skattekort, vil du bli trukket 15 prosent av utbetalingen av pensjon eller uføreytelse fra og med januar 2016.

Gol Statlige Mottak. Modul 7. Ekteskapsloven

Hvordan kvalitetssikre åpne tidsskrift?

Familieeide selskaper - Kjennetegn - Styrker og utfordringer - Vekst og nyskapning i harmoni med tradisjoner

I can introduce myself in English. I can explain why it is important to learn English. I can find information in texts. I can recognize a noun.

Improving Customer Relationships

Risikofokus - også på de områdene du er ekspert

Answering Exam Tasks

EXFAC03-FIL Exfac, filosofivariant HØST 2007 Torsdag 13. desember kl ( 4 timer)

INF5820. Language technological applications. H2010 Jan Tore Lønning

// Translation // KLART SVAR «Free-Range Employees»

Søker du ikke om nytt frikort, vil du bli trukket 15 prosent av din pensjonsutbetaling fra og med januar 2014.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

CAMES. Technical. Skills. Overskrift 27pt i to eller flere linjer teksten vokser opad. Brødtekst 22pt skrives her. Andet niveau.

INSTALLATION GUIDE FTR Cargo Rack Regular Ford Transit 130" Wheelbase ( Aluminum )

Digital Transformasjon

Issues and challenges in compilation of activity accounts

Vurderingsveiledning SPR3008 Internasjonal engelsk Eleven gir stort sett greie og relevante svar på oppgavene i samsvar med oppgaveordlyden.

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

GEO231 Teorier om migrasjon og utvikling

Accuracy of Alternative Baseline Methods

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

GEO326 Geografiske perspektiv på mat

Presenting a short overview of research and teaching

Skjema for spørsmål og svar angående: Skuddbeskyttende skjold Saksnr TED: 2014/S

Assignment. Consequences. assignment 2. Consequences fabulous fantasy. Kunnskapsløftets Mål Eleven skal kunne

Vurdering. Her finner dere forslag til ulike typer vurdering:

! En!egen!trykkpresse!

RF Power Capacitors Class kV Discs with Moisture Protection

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

SAS FANS NYTT & NYTTIG FRA VERKTØYKASSA TIL SAS 4. MARS 2014, MIKKEL SØRHEIM

Transkript:

The Oslo-Bergen-Tagger and The Nomen Nescio Project Janne Bondi Johannessen (jannebj@mail.hf.uio.no) Outline Addresses Which tagset How the tagger treats: compounds, names, unknown words etc. Its performance Input, preprocessing, output Names and Nomen Nescio Norsk Ordbank

Read more! On the Oslo Corpus and the tagger: http://www.tekstlab.uio.no/norsk/bokmaal/ Try the Oslo-Bergen Tagger: http://decentius.hit.uib.no:8005/cl/cgp/test.ht ml The Nomen Nescio Project: http://scrooge.spraakdata.gu.se/nn/

Multitagged text "<lang>" "lang" adj pos mask fem ub ent "lange" verb imp <trans1> "<tradisjon>" "tradisjon" subst mask appell ent ub "<$ >" "$ " CLB <OVERSKRIFT> "<*i>" "i" prep "<over>" "over" prep "<hundre>" "hundre" det kvant fl "hundre" subst n yt appell ent ub "hundre" subst n yt appell fl ub "< r>" " r" subst fem appell ent ub " r" subst mask appell ent ub " r" subst n yt appell ent ub " r" subst n yt appell fl ub "<har>" "ha" verb pres <trans6><auxp>

"<sportsfiskere>" "sportsfisker" subst mask appell fl ub "<og>" "og" CLB konj "og" adv "og" konj "<elveeiere>" "elveeier" subst mask appell fl ub "<pr vd>" "pr ve" adj <perf-part>mask fem ub ent <trans1><trans3> "pr ve" adj <perf-part>n yt ub ent <trans1><trans3> "pr ve" verb perf-part <trans1><trans3> "< >" " " inf-merke " " interj " " subst fem appell ent ub " " subst mask appell e nt ub "<hjelpe>" "hjelpe" verb inf <trans1> "<laksen>" "laks" subst mask appell ent be "<til>"

"til" prep "< >" " " inf-merke " " interj " " subst fem appell ent ub " " subst mask appell e nt ub "<formere>" "former" subst mask appell fl ub "formere" verb inf <trans1><refl4> "<seg>" "seg" pron refl ent/fl akk "sige" verb pret <intrans2> "<I>" "i" prep "<norske>" "norsk" adj pos mask fem n yt be ent "norsk" adj pos ub be fl "norske" verb inf <trans1> "<elver>" "elv" subst fem appell fl ub "elv" subst mask appell fl ub

"<$.>" "$." CLB <PUNKT> opp

Disambiguated text."<*lang>" "lang" adj pos mask fem ub ent "<tradisjon>" "tradisjon" subst mask appell ent ub "<$ >" "$ " CLB <OVERSKRIFT> "<*i>" "i" prep "<over>" "over" prep "<hundre>" "hundre" det kvant fl "< r>" " r" subst n yt appell fl ub "<har>" "ha" verb pres <trans6> <auxp>

"<sportsfiskere>" "sportsfisker" subst mask appell fl ub "<og>" "og" konj "<elveeiere>" "elveeier" subst mask appell fl ub "<pr vd>" "pr ve" verb perf-part <trans1> <trans3> "< >" " " inf-merke "<hjelpe>" "hjelpe" verb inf <trans1> "<laksen>" "laks" subst mask appell ent be "<til>" "til" prep

"< >" " " inf-merke "<formere>" "formere" verb inf <trans1> <refl4> "<seg>" "seg" pron refl ent/fl akk "<i>" "i" prep "<norske>" "norsk" adj pos ub be fl "<elver>" "elv" subst fem appell fl ub "elv" subst mask appell fl ub "<$.>" "$." CLB <PUNKT> opp

Syntactic tags "<*lang>" ----------------@ADJ> "<tradisjon>" ----------------@SUBJ @OBJ @LflS-NP "<$ >" "<*i>" ------------------------@ADV "<over>" ----------------@ADV "<hundre>" ----------------@DET> "< r>" ---------- --------------@<P-UTFYLL "<har>" ------------------------@FV "<sportsfiskere>" --------@SUBJ "<og>" ------------------------@KON "<elveeiere>" ----------------@SUBJ @OBJ @I-OBJ "<pr vd>" ----------------@IV "< >" --------- ---------------@OBJ "<hjelpe>" ----------------@IV "<laksen>" ----------------@OBJ "<til>" ------------------------@ADV "< >" --------- ---------------@<P-UTFYLL "<formere>" ----------------@IV "<seg>" ------------------------@OBJ "<i>" ------------------------@ADV "<norske>" ----------------@ADJ>

"<elver>" ----------------@<P-UTFYLL "<$.>" "<*naturen>" ----------------@SUBJ "<er>" ------------------------@FV "<nemlig>" ----------------@ADV "<knallhard>" ----------------@S-PRED "<mot>" ------------------------@ADV "<lakseavkommet>" --------@<P-UTFYLL "<$->" "<bare>" ----------------@ADV "<noen>" ----------------@DET> "<f >" -------- ----------------@ADJ> "<prosent>" ----------------@SUBJ @OBJ "<av>" ------------------------@ADV "<den>" ------------------------@DET> "<yngelen>" ----------------@<P-UTFYLL "<som>" ------------------------@<SBU-REL "<klekkes>" ----------------@FV "<naturlig>" ----------------@S-PRED @O-PRED @ADV "<i>" ------------------------@ADV "<elvene>" ----------------@<P-UTFYLL "<overlever>" ----------------@FV

"<s >" ------- -----------------@ADV> "<lenge>" ----------------@ADV "<at>" ------------------------@SUBJ @OBJ "<de>" ------------------------@SUBJ "<begynner>" ----------------@FV "< >" --------- ---------------@OBJ "<ta>" ------------------------@IV "<til>" ------------------------@ADV "<seg>" ------------------------@<P-UTFYLL "<f de>" ----------------@OBJ @I-OBJ "<$.>"

Compounds kuldekammer (cold chamber) frontruteareal (windscreenarea) 30- rene (the thirties) livssammenhengen (the life style connection) foreldreforberedende (parent preparing) f dselsopplevelsen (the birth experience) s dkvalitet (sperm quality) laparoskopi (laparoscopy) kjempespent (very excited) spontanaborterte (miscarried)

Compounds with tags kuldekammer "kuldekam" subst mask appell fl ub samset "kuldekammer" subst n yt appell ent ub samset "kuldekammer" subst n yt appell fl ub samset frontruteareal "frontruteareal" subst n yt appell ent ub samset "frontruteareal" subst n yt appell fl ub samset spontanaborterte "spontanabortere" verb pret i2 tr1 samset foreldreforberedende "foreldreforberedende" adj pos n yt ub ent samset laparoskopi "laparoskopi" subst mask appell ent ub samset kortikosteroider "kortikosteroid" subst n yt appell fl ub samset

Compound summary Analyses inflected word forms Accepts unknown first member Analyses productive derivations Gives several analyses if they are equally probable

What to do with unknown words (those not in the lexicon) See if they can be analysed as compounds or derivations If not, mark them as unknow n

Unknown Words with (sometimes wrong) compound analysis Misspelt words: instititutt johannes cowboy-k re veerdensbasis Name at beginning of sentence: Aslaug Foreign words: great

Words marked as unknown Misspellings benia (beina - the legs) eli (Eli) kommme (komme - come) allerde (allerede - already) Non-standard writing conventions du a (du henne - you her/ du da - you then) noesomhelst (noe som helst - anything at all) peppern (pepperen - the pepper) Foreign or dialect words workout con tipica chat

How to improve results with unknown words Expand the lexicon with non-standard words (the Oslo-tagger uses this strategy) Guess

Some words in the expanded Oslo-lexicon (Norsk Ordbank) (marked by unormert Words with old-fashioned spelling: hverken (verken - neither) turde (torte - dared) syv (sju - seven) Inflections outside the norm: faxer (pl. of fax) mann (singular form used as pl. of man) Foreign words: catwalk management Common mistakes: j vli (j vlig - swear w ord) maks (maks. - max.) sj l (sj l, selv - him/her/yourself)

The performance of the tagger Performance of the morphological part of the tagger. (Measured at a 100 000 word training corpus of vary varied text types.) Recall: 99,2% Precision: 96,8% (New testing on unknown corpus will be done soon, + syntacting evaluation and improvement.)

Input, preprocessing, output Input: pure text (or SGML, HTML, XML) Preprocessing: Abbreviations Sentence boundaries Headlines Compounds Names Dates Multitagging Output: pure text in CG-format

NAMES (THE NOMEN NESCIO PROJECT, work by Paul Meurer and JBJ) DIFFICULT NAMES I Only first letter is capital - a noun phrase name: a. Den norske stat b. Institutt for lingvistiske fag c. Direktoratet for naturforvaltning d. Det historisk-filosofiske fakultet

DIFFICULT NAMES II One of the words is a proper name a. Mj r ungdomsskole b. Gjerdrum likningskontor og folkeregister c. Hungerholt gruppebolig d. Universitetet i Oslo e. Sentralsykehuset i Akershus

How are difficult names solved: Regular expressions based on morphologically tagged words: Universitetet i Oslo (:seq (:and subst prop be) "i" (:and subst prop)) Document centered approach: makes it possible to recognise phrasal names (with only one capital letter) even after a full stop: Den norske kirke

NE recognition Ongoing work by: sne H aaland (statistical methods) Andra Bj r k Jonsdottir (linguistic, rule based methods) Six Categories: person names location names organization names publication names events other

Norsk ordbank Oracle data base at UiO containing Bokm lsordboka Nynorskordboka IBM-lexicon + expanded by non-standard words (marked as such)