Obligatorisk oppgave 4, INF2820, 2014

Like dokumenter
Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

UNIVERSITETET I OSLO

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

UNIVERSITETET I OSLO

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

UNIVERSITETET I OSLO

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

INF 2820 V2018: Innleveringsoppgave 3

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

INF2820-V2014-Oppgavesett 15, gruppe 13.5

INF 2820 V2016: Innleveringsoppgave 3 del 1

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

Oppgave 1 (samlet 40%)

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 hele

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Hjemmeeksamen 2 i INF3110/4110

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V gang, Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V gang, Jan Tore Lønning

UNIVERSITETET I OSLO

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Oppgave 1 (samlet 15%)

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Mandatory assignment 1, INF2820, 2013

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet BIOKJEMISK INSTITUTT

UNIVERSITETET I OSLO

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Slope-Intercept Formula

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Du må håndtere disse hendelsene ved å implementere funksjonene init(), changeh(), changev() og escape(), som beskrevet nedenfor.

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Trigonometric Substitution

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Transkript:

Obligatorisk oppgave 4, INF2820, 2014 Besvarelsene skal leveres i devilry innen 7.5 kl 1800. Filene det vises til finner du etter hvert på /projects/nlp/inf2820/ Oppgavene kan løses alene og det skal leveres individuelle besvarelser Les for øvrig reglementet på http://www.mn.uio.no/ifi/studier/admin/obliger/index.html Oppgave 1 Subsumpsjon og unifikasjon (20 poeng) a) Betrakt de fem trekkstrukturene på siden bak side 4. For hvert par av to forskjellige strukturer A, B: avgjør om A subsummerer B, og om B subsummerer A? (Det er 10 forskjellige slike par.) b) For hvert par A, B: er de to strukturene unifiserbare? For de parene som er unifiserbare, skriv opp resultatet av unifiksajonen både som en attributt-verdi matrise (AVM) og som en rettet acyklisk graf (DAG). Innlevering: Svar på spørsmålene. Strukturene det spørres etter i (b). Du behøver ikke bruke tid på avansert typesetting. Den beste eksamensforberedelsen er å løse (b) med penn og papir. Du kan så skænne eller ta et digitalt bilde av løsningen din og levere dette. Oppgave 2 Forstå unifikasjonsgrammatikker (20 poeng) Vi skal bruke grammatikk v. 2.1 fra forelesningene. For den enkle setningen «John slept» gir den analysen i figur 1. I en forenklet notasjon svarer denne til treet i figur 2. Som en grammatisk analyse bør en være klar over en del valg vi har foretatt, særlig at vi bruker et strengt X-barskjema: 1. En setning betraktes som en maksimal projeksjon av verbet, altså av kategori V. 2. For å følge en streng X-bar-tilnærming vil det være flere unære (ikke-forgrenete) trær for fraser uten spesifikatorer eller komplementer. 3. Vi har tillatt en forenklet behandlig av bestemmere ( det). Vi har implementert grammatikk v.2.1 i NLTK fcfg-formatet i fila fcfg/grammar_2_1.fcfg. Resultatet av å analysere John slept er >>> slept= mod.nbest_parse("john slept".split()) >>> len(slept) 1 >>> print slept0 (XFS==='V', =BAR=2, -MOD (XFS==='N', =BAR=2, -MOD (XFS==='N', =BAR=1, -MOD, -SPEC (XFS==='N', =BAR=0, -COMP1, -MOD, -SPEC John))) (XFS==='V', =BAR=1, -MOD, SPEC==='N', =BAR=2 (XFS==='V', =BAR=0, -COMP1, -MOD, SPEC==='N', =BAR=2 slept))) Som en ser har vi vært nødt til å legge på litt ekstra for å implementere grammatikken i NLTK, som forklart på forelesningen. 1

a) For hver nummerert node i (fig. 1): hvilken regel er ansvarlig for konstruksjonen av denne fra dens døtre? b) Vi skal se på hvordan grammatikken beskriver andre setninger. Betrakt setningen: 3) A small girl saw John Denne setningen er dekket av grammatikken. En forenklet analyse er gitt i (fig. 3). Vi ønsker en fullstendig analyse som forholder seg til (fig.3) omtrent som (fig.1) forholder seg til (fig.2). For å spare dere for en del repetitivt arbeid, trenger dere bare tegne strukturene som svarer til nodene innenfor den røde skyen. Innlevering: Svar på spørsmålene. Strukturene det spørres etter i pkt. (b). Også her kan du bruke penn og papir og ta et bilde og sende inn. Noen nyttige redskaper: Before we proceed we will introduce some useful tools. First repeat the class Tree from Exercise set 6, and in particular the method <name_of_tree>.draw() which may be used when you want to inspect your analyses. (It is also possible to save the tree to postscript from which you may include it in your delivery if you find it convenient.) Another tool which we have not used so far : It is possible to draw several trees at the same time if you like to compare them by >>> from nltk.draw.tree import draw_trees >>> draw_trees(t1, t2, t3) where t1, t2 and t3 are trees. The function takes any number of trees as arguments. If you have a list of trees, say ts, you may pass them as arguments by >>> draw_trees(*ts) Unfortunately, even though the tree drawing methods work for feature structure trees, there seems to be some problems with the vertical alignment and the results are hard to read. I have written a small function which converts a tree of the form (fig.1) to form (fig.2), and a version that rewrites a list of trees. Combining this with draw_trees will give you a quick indication of whether your analyses are on the right track. These tools are in the file fcfg/wrap.py. For example, figure 1 is produced by >>> cp = load_parser("file:grammar_2_1.fcfg") >>> ts = cp.nbest_parse("john slept".split()) >>> tn = simple_trees(ts) >>> draw_trees(*tn) 2

Oppgave 3 Utvidelse av en unifikasjonsgrammatikk (40 poeng) a) Vi skal nå utvide fragmentet i grammar_2_1.fcfg. Først skal vi inkludere noen flere verb og starter med analysen av 4) A small girl told that John slept svarende til fig.4. Du trenger ikke å legge til nye semantiske regler, bare flere leksikalske oppslag. Det trengs to nye oppslag: Verbet told skal ta et komplement av type C (=CP, komplementfrase) Ordet that skal ha kategori C og ta en V som komplement Fullfør detaljene og sjekk at du får den ønskete analysen av setningen.. b) Ser vi tilbake på tidligere oblig.er dette semesteret, ønsker vi også å ta med flere verb og konstruksjoner som i følgende eksempler (* betyr at dette ikke er en grammatisk setning og at den ikke skal med i fragmentet) 4b) Mary told a girl that John slept 4c) Mary said that John slept 4d) *Mary said a girl that John slept c) Vi vil også ha med konstruksjoner som i 5) John gave a toy to Mary Vi vil analysere den som i treet i fig. 5. For å få til dette må vi dessverre ha to forskjellige oppslag for verb som give. (I et mer avansert rammeverk kunne vi klart oss med ett leksikalsk oppslag og en leksikalsk regel som til alle verb av den ene typen lagde verb av den andre typen.) Lag et nytt leksikalsk oppslag for give og for to for å lage denne analysen. d) Det er ett problem. Vi vil også inkludere andre preposisjoner, som by, in, with, of, men unngå konstruksjoner som 5b) John gave a toy by Mary En mulighet er å introdusere et nytt head-trekk for hver preposisjon som skiller denne preposisjonen fra andre preposisjoner. Vi kan kalle trekket FORM og la FORM= to for to, FORM= by for by etc. Og så la give bare ta en PP som COMP2 hvis denne PPen har formen to. Fullfør denne analysen. e) Vi ønsker også PP-er som modifikatorer til N som i (cf. fig. 6) 6) A girl with a toy slept. Se på hvordan adjektiv blir analysert som modifikatorer og lag MOD-trekket på PP-er tilsvarende. Innlevering: Den utvidete grammatikken. På noen punkter kan det være at du finner at oppgaven ikke er fullt spesifisert. I så fall: Gjør dine egne valg for hvordan du vil løse dette og forklar de valgene du har gjort. 3

Oppgave 4 Semantikk (20 poeng) Gjør oppgave 5 fra eksamen INF2820, 2013. Oppgaven skal løses på maskin. Innlevering: NLTK-grammatikken det spørres etter. Kjøringseksempler med eksempelsetningene fra oppgaveteksten. 4

1) AGR PERS 3rd NUM sg n BAR 0 SPEC det SPEC - 2) AGR PERS 3rd NUM sg n BAR 1 SPEC det SPEC - 3) AGR 3 n BAR 0 SPEC det AGR 3 4) det AGR PERS 3rd NUM sg BAR 1 SPEC - 5) BAR 0 2

Fig.1 Fig.2 Fig.3

Fig.4 Fig.5 Fig.6

UNIVERSITETET I OSLO Side 1 Det matematisk-naturvitenskapelige fakultet Eksamen i: INF2820 Datalingvistikk Eksamensdag: 10. juni 2013 Tid for eksamen: 0900-1300 Oppgavesettet er på 4 side(r) Vedlegg: 0 Tillatte hjelpemidler: ingen Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene.

2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er indikert. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne når de kommer i tilfelle noe er uklart. Hvis du føler noen forutsetninger mangler, lag dine egne og redegjør for dem.! Oppgave 1 La G1 være grammatikken med hovedsymbol S og følgende regler: 1. S -> NP VP 2. VP -> IV 3. VP -> TV NP 4. NP -> DET N 5. N -> N R 6. R -> RP S_NP 7. S_NP -> NP_NP VP 8. S_NP -> NP VP_NP 9. VP_NP -> TV NP_NP 10. NP_NP -> 11. IV -> 'smiled' 'slept' 'danced' 12. TV -> 'chased' 'saw' 'owned' 13. N -> 'cat' 'dog' 'child' 14. DET -> 'a' 'the' 'some' 15. RP -> 'that' S_NP er her en regulær ikke-terminal med samme status som f.eks. TV, og det er NP_NP og VP_NP også. Spørsmål 1.1 (10%) Tegn trærne (eller treet) grammatikken tilordner til a) the cat that the child owned smiled Spørsmål 1.2 (5%) Hva vil det si at et språk er regulært? Spørsmål 1.3 (10%) Er språket L(G1), dvs. språket generert av G1, et regulært språk? Begrunn svaret! Oppgave 2 (10%) Noen av reglene i grammatikk G1 likner på andre regler, f.eks. er regel (9) parallell til regel (3) og reglene (7) og (8) er parallelle til regel (1). En kan derfor redusere antall regler i grammatikken ved å bruke trekk (eng.: features ). Konstruer en trekkbasert grammatikk (unifikasjonsgrammatikk) for språket L(G1) som har færre regler enn G1.

3 Oppgave 3 Spørsmål 3.1 (5%) Noen parsere har problemer med grammatikk G1. Hvilke parsere? Hvilken egenskap ved G1 er det som lager et problem for slike parsere, og hvorfor er det et problem? Spørsmål 3.2 (10%) Vis hvordan en chart-parser vil anerkjenne setning (b) ut i fra grammatikk G1. b) the cat smiled Spørsmål 3.3 (10%) Finn en grammatikk G2 på Chomsky Normal Form (CNF) for språket L(G1). Vis stegene i omformingen av G1 til CNF. Spørsmål 3.4 (10%) Vis hvordan en CKY-parser vil anerkjenne setning (a) fra oppgave 1 ut i fra grammatikk G2. Oppgave 4 (10%) Betrakt følgende fire trekkstrukturer. Hvilke par av dem (A,B) er slik at A subsummerer B? Hvilke par av strukturer er unifiserbare? Tegn resultatet av unifikasjonen for de parene som er unifiserbare. Vis også attributt-verdimatriserepresentasjonene for de resulterende unifiserte strukturene. Oppgave 5 Vi skal se på semantikk. Vi skal forenkle litt. Vi vil ikke se på kvantorer ( quantifiers ). De eneste NP-er vi vil se på er egnennavn ( proper names ). Vi ønsker at (c) representeres som (d): c) Fido walks d) walk(f)

4 Følgende regler vil gi det ønskede resultat: SSEM = <?vp(?subj)> NPSEM=?np VPSEM=?v PropNSEM=<f> IVSEM=<\x.walk(x)> -> NPSEM=?subj VPSEM=?vp -> PropNSEM=?np -> IVSEM=?v -> Fido -> 'walks' Vi ønsker også at setning (e) får representasjonen (f) og at setning (g) får representasjonen (h). e) Fido chases Socks f) chase(f, s) g) Mary gives John Fido h) give(m, j, f) Spørsmål 5.1 (10%) Utstyr følgende regler med trekk ( features ) som gir det ønskede resultatet, dvs. fyll inn for prikkene. VPSEM= -> TVSEM= NPSEM= VPSEM= -> DTVSEM= NPSEM= NPSEM= TVSEM= -> chases DTVSEM= -> gives Spørsmål 5.2 (10%) Vi vil også inkludere negasjon. For eksempel ønsker vi at setning (i) får representasjonen (j). i) Socks does not chase Fido j) chase(s, f) Utvid og modifiser grammatikken til å gi denne representasjonen. Forsikr deg om at du får riktige grammatiske begrensninger. Grammatikken skal ikke generere: k) Socks does not chases Fido l) Socks chase Fido SLUTT