INF1820 V2013 Oppgave 3b CFGer og semantikk

Like dokumenter
INF1820 V2014 Oppgave 3b CFGer og semantikk

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

Engelsk gruppe 2 høsten 2015

Slope-Intercept Formula

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF 2820 V2018: Innleveringsoppgave 3

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

UNIVERSITETET I OSLO

INF 2820 V2016: Innleveringsoppgave 3 hele

Norsk Grammatikk Oppgaver

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

SERVICE BULLETINE

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Of all the places in the world, I love to stay at Grandma Genia and

Den som gjør godt, er av Gud (Multilingual Edition)

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

LF - Eksamen i INF1820

Vedlegg 2 Dokumentasjon fra TVM leverandør

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

PSi Apollo. Technical Presentation

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

IN1140: Introduksjon til språkteknologi. Forelesning #10

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

IN1140: Introduksjon til språkteknologi. Forelesning #10

2018 ANNUAL SPONSORSHIP OPPORTUNITIES

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Oppgave 1 (samlet 15%)

Norsk (English below): Guide til anbefalt måte å printe gjennom plotter (Akropolis)

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Enkel og effektiv brukertesting. Ida Aalen LOAD september 2017

INF2820 Datalingvistikk V gang, Jan Tore Lønning

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok

Macbeth: Frozen Scenes

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Økologisk og kulturell dannelse i økonomiutdanningen

Den som gjør godt, er av Gud (Multilingual Edition)

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

C13 Kokstad. Svar på spørsmål til kvalifikasjonsfasen. Answers to question in the pre-qualification phase For English: See page 4 and forward

INF 2820 V2018: Innleveringsoppgave 2

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

EMPIC MEDICAL. Etterutdanningskurs flyleger 21. april Lars (Lasse) Holm Prosjektleder Telefon: E-post:

Guidance. CBEST, CSET, Middle Level Credential

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Manuset ligger på NSKI sine sider, men kan også kjøpes på

INF2820 Datalingvistikk V2012. Jan Tore Lønning

UNIVERSITETET I OSLO

Come to praise. We have come to praise your name and give thanks for all things you ve done We lift our voices up to you You are worthy of our song

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Språkleker og bokstavinnlæring

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

EN Skriving for kommunikasjon og tenkning

GYRO MED SYKKELHJUL. Forsøk å tippe og vri på hjulet. Hva kjenner du? Hvorfor oppfører hjulet seg slik, og hva er egentlig en gyro?

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Samlede Skrifter PDF. ==>Download: Samlede Skrifter PDF ebook

Gol Statlige Mottak. Modul 7. Ekteskapsloven

Last ned The baby guest book : for barn som tåler å høre sannheten. Last ned

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

Oppgave 1 (samlet 15%)

SJEKKESKOLEN: EN STEG-FOR-STEG GUIDE TIL TILTREKNING AV FANTASTISKE JENTER (NORWEGIAN EDITION) BY ANDREAS GODE VIBBER

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Elektronisk innlevering/electronic solution for submission:

2A September 23, 2005 SPECIAL SECTION TO IN BUSINESS LAS VEGAS

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

En praktisk innføring i team-basert læring

INF2820-V2014-Oppgavesett 15, gruppe 13.5

Bestille trykk av doktoravhandling Ordering printing of PhD Thesis

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Obligatorisk oppgave 4, INF2820, 2014

Transkript:

INF1820 V2013 Oppgave 3b CFGer og semantikk Innleveringsfrist, onsdag 1. mai Lever inn svarene dine i en fil som angir brukernavnet ditt, slik: oblig3a brukernavn.py En perfekt besvarelse på denne oppgaven er verdt 100 poeng. 1 En CFG for norsk (40 poeng) På norsk har vi samsvarsbøyning i kjønn, tall og bestemthet mellom bestemmer og substantiv og en liten rest av kasusbøyning i pronomenene. I denne oppgaven skal du skrive en liten kontekstfri grammatikk for norsk som tar høyde for kjønn i ubestemt form entall, og kasus. (a) Setninger grammatikken skal akseptere: 1. ei jente ser en gutt 2. en gutt ser ham 3. jeg ser henne 4. hun spiser et eple 5. hun ser ham 6. han ser det 7. de deler et eple 8. vi ser ei ku 9. ei ku ser oss 1

(b) Setninger grammatikken ikke skal akseptere: 1. *ei gutt ser ham 2. *ham ser henne 3. *en gutt ser han 4. *hun ser de 5. *en ku ser oss 6. *et ku ser dem Det viktige er altså å passe på at bestemmere bare går med subtantiver av samme kjønn 1 og at nominativformene av pronomenene er forbeholdt subjektsplass og akkusativsformene objektsplass. NLTK inneholder flere forskjellige parsere som tildeler syntaktisk struktur til en setning automatisk, i henhold til en grammatikk. I denne oppgaven bruker vi RecursiveDescent-parseren som er beskrevet i del 8.3 av NLTK-boka. Du formulerer grammatikken direkte som en streng slik: grammar = nltk.parse_cfg(u""" S -> NP VP NP -> Det N NP -> Pron VP -> V NP Det -> "en" "ei" "et" N -> "gutt" "jente" "ku" "eple" Pron -> "jeg" "du" "han" "hun" "den" "det" \ "meg" "deg" "ham" "henne" \ "vi" "dere" "dem" "oss" V -> "ser" "spiser" "deler" """) parser = nltk.recursivedescentparser(grammar) En regel A -> B C tilsvarer en regel A B C i foreleningene, det vil si at frasetypen A består av en frase av typen B først, etterfulgt av en frase av typen C. En regel N -> bil" betyr at kategorien N kan oppfylles av et ord bil i inputstrengen, slik som N bil i foilene, og er disjunksjon på samme måte som i regulære uttrykk. 1 I en større grammatikk ville vi (blant annet) også ha måttet ta høyde for tall og bestemthet, men det blir litt mye for denne obligen. 2

Du kan teste grammatikken din på en setning slik: sent = u"per så Kari".split() for tree in parser.nbest_parse(sent): print tree Dette vil skrive ut en analyse i klammenotasjon for hver analyse grammatikken tilordner setningen: (S (NP Per) (VP (V så) (NP Kari))) 2 Manuell annotering av ordbetydning (25 poeng) I denne oppgaven skal du manuelt annotere setningsbetydning og kommentere observasjonene dine. Skriv svarene som utkommentert tekst i Pythonfila du leverer som besvarelse. Setningene 1 10 under er hentet fra SemCor-korpuset, som er annotert med ordbetydning. Alle setningene inneholder verbet leave, som vi er interessert for i denne oppgaven. 1. But questions with which committee members taunted bankers appearing as witnesses left little doubt that they will recommend passage of it. 2. The departure of the Giants and the Dodgers to California left New York with only the Yankees. 3. After the coach listed all the boy s faults, Hartweger said, Coach before I leave here, you ll get to like me. 4. R. H. S. Crossman, M.P., writing in The Manchester Guardian, states that departures from West Berlin are now running at the rate not of 700, but of 1700 a week, and applications to leave have risen to 1900 a week. 5. The house has been swept so clean that contemporary man has been left with no means, or at best with wholly inadequate means, for dealing with his experience of spirit. 6. A second and also good practice is to shear off the tops, leaving an inch high stub with just a leaf or two on each branch. 3

7. No doubt some experiences vanish so completely as to leave no trace on the sleeper s mind. 8. He is a widower, his three children are dead, he has no one left on earth ; also he is a drunk, and has lost his job on that account 9. Piepsam tries to stop him by force, receives a push in the chest from Life, and is left standing in impotent and growing rage, while a crowd begins to gather. 10. The audience leaves the play under a spell, It is the kind of spell which the exposure to spirit in its living active manifestation always evokes. Slå opp leave i WordNet 2, og bruk betydningene under verbet og se bort fra substantivbetydningene. For hver setning velger du én betydning ( sense ) for verbet i setningen, og noterer valget ditt. I webgrensesnittet kan du klikke på Display Options og velge Show Sense Numbers for å få en nummerert oversikt over de forskjellige betydningene. Bruk disse nummerene i besvarelsen din. I tillegg, vurder følgende aspekter ved arbeidet: Hvilke setninger var vanskelige å annotere? Hvorfor? Hvilke par eller grupperinger av betydninger var vanskelige å skille fra hverandre? Hvilke kriterier brukte du for å skille dem? 3 Betydningsklassifikasjon med Naive Bayes (35 poeng) Fila wsd tren.txt inneholder (fiktive) treningsdata annotert med ordbetydning for lemmaet skim. Hver linje inneholder en liste med trekk og en kategori, skilt av mellomrom. Første element i hver linje er betydningen, resten er trekk. Første linje er: Reading book day novel Dette vil si at betydningen for dette eksempelet er reading og inneholder trekkene book, day, og novel. 2 Bruk web-grensesnittet http://wordnetweb.princeton.edu/perl/webwn 4

Ved hjelp av treningsdataene i wsd tren.txt lager du sannsynlighetsdistribusjoner med Python slik som vi gjorde for HMM-sannsynlighetene i forrige oblig, men denne gangen for de to distribusjonene vi bruker i Naive Bayes: P (S), distribusjonen over betydninger, og P (F S), distribusjonen av trekk gitt betydning. Ved hjelp av disse distribusjonene svarer du på følgende spørsmål: Hva er P (removing), sannsynligheten til betydningen removing? Ett av trekkene i fila er day. Hva er sannsynligheten for dette trekket gitt betydningen reading: P (day reading)? Fila wsd test.txt inneholder et testeksempel på samme format som treningsdataene, men uten betydning:? paper surface towards Bruk Naive Bayes-formelen og Python til å beregne den mest sannsynlige betydningen for dette eksempelet. Husk at i Naive Bayes er den mest sannsynlige betydningen ŝ gitt ved: ŝ = argmax s S P (s) n P (f i s) Du kan lese mer om Naive Bayes for WSD i Jurafsky & Martin, 20.2. i=1 5