INF2820 Datalingvistikk V gang, Jan Tore Lønning

Like dokumenter
INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 5.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

Obligatorisk oppgave 4, INF2820, 2014

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF 2820 V2018: Innleveringsoppgave 3

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 hele

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

Norsyg en syntaksbasert dyp parser for norsk

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Uke 7: Små barn, små setninger I

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2014. Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #7

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF 2820 V2018: Innleveringsoppgave 2

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

MAT1030 Forelesning 25

INF2820 Datalingvistikk V2012. Jan Tore Lønning

1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Forelesning 25. MAT1030 Diskret Matematikk. Litt repetisjon. Litt repetisjon. Forelesning 25: Trær. Roger Antonsen

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Forelesning 24. Grafer og trær. Dag Normann april Vektede grafer. En kommunegraf

Vektede grafer. MAT1030 Diskret matematikk. En kommunegraf. En kommunegraf. Oppgave

INF2820 Datalingvistikk V2016. Jan Tore Lønning

MAT1030 Forelesning 25

Forelesning 25. MAT1030 Diskret Matematikk. Litt repetisjon. Litt repetisjon. Forelesning 25: Trær. Dag Normann

MAT1030 Diskret Matematikk

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Transkript:

INF2820 Datalingvistikk V2014 11. gang, 27.3.2014 Jan Tore Lønning

I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning Trekkbaserte grammatikker for naturlige språk, trinn-for-trinn v.1.0 «Head»-trekk v.1.5 X-bar v.2 - generaliseringer 2

Forrige gang Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj 15.1 Unifikasjon og subsumpsjon J&M, seksj. 15.2 Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK boka seksj 9.3 3

Trekkstrukturer som grafer Attribute Value Matrices (AVMs) Directed Acyclic Graphs (DAGs) To alternative notasjoner for det samme 4

Deling («Reentrancies») 5

24. mars 2014 6

Subsumpsjon og unifikasjon Subsumpsjon F subsummerer G F er minst like generell som G Hvis og bare hvis: F er atomær og F=G Ellers For hvert trekk x i F: F(x) subsumerer G(x) For alle stier p, q in F: Hvis F(p) = F(q), så G(p) = G(q) Unifikasjon H er unifikasjonen av F og G H = Hvis og bare hvis Og H er den mest generelle slike trekkstrukturen 24. mars 2014 7

I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning Trekkbaserte grammatikker for naturlige språk, trinn-for-trinn v.1.0 «Head»-trekk v.1.5 X-bar v.2 - generaliseringer 8

I dag Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj 15.1 Unifikasjon og subsumpsjon J&M, seksj. 15.2 Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK boka seksj 9.3 9

Grammatikker to alternative format 1. Trekkstrukturer i reglene NLTK er et (begrenset) forsøk på å implementere dette formatet 2. Regler + likninger Jurafsky og Martin 25. mars 2014 10

1. Regler med trekkstrukturer S NP VP NP Det N V serve V serves En ikke-terminal suppleres med en partiell trekkstruktur Mulig deling mellom trekkstrukturene i en regel Terminalene er uendret March 25, 2014 11

1B. NLTKs format S NP VP S NP[AGR=?x] VP[AGR=?x] NP Det N NP[AGR=?x] Det[AGR=?x] Nom[AGR=?x] V serves V[AGR=[NUM=SG, PERS=3rd]] serves NLTKs format er en implementasjon av denne formalismen Men som vi vil se senere, har implementasjonen en del begrensninger March 25, 2014 12

Generalisering av formalisme 1 Vi trenger ikke egne symboler for ikke-terminalene Vi kan bruke et trekk for dem, f.eks. Cat Fordeler: Enklere teori Større fleksibilitet, f.eks. variable over kategorier Trekkstrukturgrammatikk Syntaktisk regel: En trekkstr. på v.s Null eller flere t.s. på h.s Deling mellom trekkstr.ene Leksikalsk regel: En trekkstr. på v.s En terminal på h.s. 25. mars 2014 13

Tolkning av trekkstrukturgrammatikker Har definert: Trekkstrukturer og unifikasjon Grammatikkregler med trekkstrukturer Gjøre presist hvordan en trekkstrukturgrammatikk definerer et språk (mangler både fra J&M og NLTK-boka) Vi vil gi en semi-formell definisjon (ikke formalisere alle detaljer) 25. mars 2014 14

Husk: CFG og trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: B s1 s2.. sn 25. mars 2014 15

Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme ( yield ) av treet t er symbolene på bladene i riktig rekkefølge Forkortelse: hviss for hvis og bare hvis En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). 25. mars 2014 16

Trær med trekkstrukturer S, Hver ikke-terminal node inneholder en trekkstruktur NP, VP, DET, N, V, NP, DET, N, the restaurant serves many fish 25. mars 2014 17

Betingelser på grammatikalitet S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, DET, N, V, NP, DET, N, the restaurant serves many fish 25. mars 2014 18

Lokalt tre tillatt av regel eks 1 t1: S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, R1: S NP VP Regelen R1 svarer til et lokalt tre t2 R1 tillater t1 hvis t1 «utvider» t2, Mer formelt: hvis t2 subsummerer t1: Nodene i t2 subsummerer nodene på tilsv. plass i t1 Delinger i t2 er også delt i t1 25. mars 2014 19

Lokalt tre tillatt av regel eks 2 t: DET, Hvert lokalt tre må tillates av en grammatikkregel the R: DET[AGR=[PERS= 3rd ]]-> the R svarer til det lokale treet t som subsummerer t t': DET, the 25. mars 2014 20

Tolkning av grammatikk Et tre T med trekkstrukturer er tillatt av grammatikk G hvis og bare hvis. Hvis t1, t2,, tn er alle de lokale trærne i T: så fins det tilsvarende regler i G, si g 1, g 2,, g n s.a.: Tre t i er tillatt av regel g i for i= 1, 2,, n T er en minimal struktur som tilfredstiller g 1, g 2,, g n T er minimal: Hvis fs i er trekkstrukturen på moren i treet t i for i = 1, 2,, n, Så fins ikke et strukturelt likt tre for samme setning med trekkstrukturer fs i slik at fs i subsummerer fs i for i = 1, 2,, n fs i subsummerer ikke fs i for minst en i 25. mars 2014 21

Grammatikker to alternative format 1. Trekkstrukturer i reglene 2. Regler + likninger S NP VP NP Det NOM V serves 25. mars 2014 22

Lokalt tre tillatt av regel eks 1 S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, J&M-format: Det lokale treet lystrer alle likningene 24. mars 2014 23

Lokalt tre tillatt av regel eks 2 DET, Hvert lokalt tre må tillates av en grammatikkregel the Regler + likninger: Det lokale treet lystrer alle likningene DET the <DET AGR PERS>=3rd Trekkstr. i regel DET[AGR=[PERS= 3rd ]]-> the DET, the 24. mars 2014 24

Sammenlikning av formatene 1. Trekkstrukturer i reglene Utvid ikke-terminaler med partielle trekkstrukturer Variable i trekkstrukturene for deling («reentrancy») Brukt for eksempel i tidlig Head-driven Phrase Structure Grammars (HPSG) 2. Regler + likninger Legg likninger til CFG-reglene En likning mellom To stier, eller En sti og en atomær verdi Inspirert av PATR Lexical-Functional Grammar Blir det samme (før evt utvidelser) 25. mars 2014 25

I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning Trekkbaserte grammatikker for naturlige språk, trinn-for-trinn v.1.0 «Head»-trekk v.1.5 X-bar v.2 - generaliseringer 26

Se på 3 ulike måter å lage trekkstrukturgrammatikker for naturlige språk: v.1.0, v.1.5, v.2.0 Gradvis vekk fra spesifikke grammatiske regler mot mer generelle regler/prinsipper hvor ett skjema generaliserer flere mer spesifikke regler 27

Hoder ( heads ) (husker du?) I en CFG-regel har alle elementer på høyresiden samme status I en NL regel har som oftest et ledd hovedrollen NP Det N PP P NP VP V NP VP VP PP a house to the house built the house built the house in a week I et PS-tre og en CFG-regel kan en frase være hode I en annen frase I noen modeller snakker en bare om ord som hodet 28

«Hodetrekk»(Head features) (v.1.0) En frase deler mange trekk med sitt hode Vi samler det i et særskilt «head» trekk + tilsvarende regel med transitive verb gives 29

Flere regler (v.1.0) 30

I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning Trekkbaserte grammatikker for naturlige språk, trinn-for-trinn v.1.0 «Head»-trekk v.1.5 X-bar v.2 - generaliseringer 31

X-bar (husker du?) En antagelse i flere grammatiske modeller/teorier En frase har tre nivåer: Full frase, eks. NP (= N ) Ord, eks N Midtnivå, eks. N (kalt Nominal i J&M) NP Det N N AP N N N PP VP V V V PP V V NP For generell form og mer informasjon, se Wikipedia 32

X-barskjema med et BAR-trekk (v.1.5) En del «nomenegenskaper» er delt mellom NP og hodet N (og N =Nom) En del «verbegenskaper» er delt mellom VP og V Vi representerer dette som trekk i «head»-trekket? Hva med forskjellen mellom NP (=N ), Nom (=N ), N (ordet)? Flere muligheter. En av dem er å bruke et trekk for dette BAR: (Denne løsningen kaller vi her v.1.5) 33

Så langt (v.1.5) Mot 2.0: Dette er nesten en universell X-bar-regel for flere kategorier. Men vi må si spesielt fra om kategoriene som inngår (DET og N) Et alternativ er å Leksikalisere det i N at N kan kombineres med DET til N Sammen med en modifisert regel Vi samler informasjon om kombinasjoner i et VAL(ency)-trekk 34

I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning Trekkbaserte grammatikker for naturlige språk, trinn-for-trinn v.1.0 «Head»-trekk v.1.5 X-bar v.2 - generaliseringer 35

Head-specifier regel Head-complement regel-0 v.2.0 house Eksempel på leksikalsk oppslag, eller egentlig: -Leksikalsk oppslag + -Leksikalsk regel som gir flertallsform Merk at N og Det bare nevnes i leksikon ikke i reglene 36

Subkategorisering Tidligere 3 VP-regler for mønstrene: VP V sleep VP V NP love VP V NP NP give Men det er mange andre mønstre VP V NP PP[to] give VP V NP VP[inf] persuade VP V CP tell (that Mary left) VP V NP CP tell (John that Mary left) VP V AP grow VP V NP PP save etc. Skal vi ha separate regler for hvert tilfelle? Bedre: La verbet selektere sine argumenter March 25, 2014 37

Head-complement-regler: Antall argumenter kan variere v.2.0 38

v.2.0 sleeps 39

v.2.0 gives 40

v.2.0 gives 41

v.2.0 persuades 42

Komplementer vs. Modifikatorer Komplement (argument): Kim gave the book to Mary Obligatorisk Eks, ugrammatisk: *Kim gave the book Kan ikke skifte med en annen preposisjon: *Kim gave the book from Mary Modifikator: Kim sang in the garden Kan fjernes uten at det blir ugrammatisk Kan gjentas: sang in the garden with great joy Kan bruke annen preposisjon: sang with great joy Husker du? Kan noen ganger være vanskelig å avgjøre om det er komplement eller modifikator 43

Modifikatorer v.2.0 N AP N small 44

Modifikatorer N N PP v.2.1 with Head-specifier og komplement reglene må utvides til å sende MOD-trekket fra hodet og oppover 45