INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

Like dokumenter
INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 5.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Obligatorisk oppgave 4, INF2820, 2014

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

INF 2820 V2018: Innleveringsoppgave 3

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V Gang Jan Tore Lønning

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

INF 2820 V2016: Innleveringsoppgave 3 hele

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Norsyg en syntaksbasert dyp parser for norsk

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

Oppgave 1 (samlet 40%)

INF 2820 V2018: Innleveringsoppgave 2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #7

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Uke 7: Små barn, små setninger I

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

UNIVERSITETET I OSLO

INF2820-V2014-Oppgavesett 15, gruppe 13.5

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag

Transkript:

INF2820 Datalingvistikk V2017 11. Gang 20.3 Jan Tore Lønning

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 2

Trekkstrukturer Lang tradisjon i lingvistikk Eks.: fonologi En mengde trekk og verdier: For hvert trekk er det definert hvilke verdier som er mulige Et skritt videre: Hele trekkstrukturer som verdier 3

Trekkstrukturer som grafer Attribute Value Matrices (AVMs) Directed Acyclic Graphs (DAGs) To alternative notasjoner for det samme 4

Trekkstrukturer - formelt To endelige mengder F = {f 1, f 2,, f n } A = {a 1, a 2,, a n } En trekkstruktur over F og A er Atomær, dvs et element i A, eller Ikke atomær. Det er et objekt. Dette inneholder En mengde trekk, dvs en delmengde av F: f 1, f 2,, f j Til hvert av disse trekkene er det en verdi, som igjen er en trekkstruktur (atomær eller ikke atomær) 25. mars 2017 Begrensning: En trekkstruktur kan ikke inneholde to par av trekk og verdier (f k, a k ), (f p, a p ) der f k = f p, men a k =/= a p (som dictionaries i python) Observasjon: To trekkstrukturer som inneholder de samme trekk verdiparene kan være identiske, men behøver ikke være det 5

Unifikasjon av trekkstrukturer 25. mars 2017 6

25. mars 2017 7

Unifikasjon - grafisk SUBJ AGR PERS NUM 3rd sg SUBJ AGR AGR 8

Unifikasjon - grafisk SUBJ AGR PERS NUM 3rd sg SUBJ AGR AGR AGR PERS 3rd SUBJ AGR NUM sg 9

Subsumpsjon og unifikasjon Subsumpsjon F subsummerer G F er minst like generell som G Hvis og bare hvis: F er atomær og F=G Ellers For hvert trekk x i F: F(x) subsumerer G(x) For alle stier p, q in F: Hvis F(p) = F(q), så G(p) = G(q) Unifikasjon H er unifikasjonen av F og G H = Hvis og bare hvis Og H er den mest generelle slike trekkstrukturen 25. mars 2017 10

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 11

NLTK - implementasjon >>> fs1 = nltk.featstruct(tense='past', NUM='sg') >>> fs1 [NUM='sg', TENSE='past'] >>> print(fs1) [ NUM = 'sg' ] [ TENSE = 'past' ] >>> from nltk import FeatStruct >>> fs2 = FeatStruct(CAT='vp', AGR = fs1) >>> print(fs2) [ AGR = [ NUM = 'sg' ] ] [ [ TENSE = 'past' ] ] [ ] [ CAT = 'vp' ] 25. mars 2017 12

NLTK - implementasjon >>> fs3 = fs2.unify(featstruct( "[AGR =?x, SUBJ = [AGR =?x]]")) >>> print(fs3) [ AGR = (1) [ NUM = 'sg' ] ] [ [ TENSE = 'past' ] ] [ ] [ CAT = 'vp' ] [ ] [ SUBJ = [ AGR > (1) ] ] 25. mars 2017 13

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 14

Gram.1. Regler med trekkstrukturer S NP VP NP Det N V serve V serves En ikke terminal suppleres med en partiell trekkstruktur Mulig deling mellom trekkstrukturene i en regel Terminalene er uendret 25. mars 2017 15

Betingelser på grammatikalitet S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, DET, N, V, NP, DET, N, the restaurant serves many fish 25. mars 2017 16

Lokalt tre tillatt av regel eks 1 t1: S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, R1: S NP VP Regelen R1 svarer til et lokalt tre t2 R1 tillater t1 hvis t1 «utvider» t2, Mer formelt: hvis t2 subsummerer t1 25. mars 2017 17

Subsumpsjon av trær Vi kan utvide definisjonen av subsumpsjon fra trekkstrukturer til trær med trekkstrukturer på nodene Et tre T subsummerer et tre T dersom Trekkstrukturen på T subsummerer strukturen på T Inkludert at hvis T har en kategori, så har T samme kategori Hvis T har døtrene D 1, D 2,, D n, så har T like mange døtre D 1, D 2,, D n, der D i subsummerer D i for i = 1, 2,, n, og Alle delinger i T er også delinger i T. 18

Tolkning av grammatikk Et tre T med trekkstrukturer er tillatt av grammatikk G hvis og bare hvis. Hvis t 1, t 2,, t n er alle de lokale trærne i T, så fins det tilsvarende regler i G, si g 1, g 2,, g n s.a.: tre t i er tillatt av regel g i for i= 1, 2,, n Hvis T er et annet tre tillatt av de samme reglene g 1, g 2,, g n, på tilsvarende subtrær og T subsummerer T, så subsummerer T også T. "Det skal ikke være med mer i treet enn det reglene krever. " 25. mars 2017 19

Grammatikker to alternative format 1. Trekkstrukturer i reglene NLTK er et (begrenset) forsøk på å implementere dette formatet 2. Regler + likninger Jurafsky og Martin 25. mars 2017 20

Grammatikker to alternative format 1. Trekkstrukturer i reglene 2. Regler + likninger S NP VP NP Det NOM V serves 25. mars 2017 21

Lokalt tre tillatt av regel eks 1 S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, J&M format: Det lokale treet lystrer alle likningene 25. mars 2017 22

Lokalt tre tillatt av regel eks 2 DET, Hvert lokalt tre må tillates av en grammatikkregel the Trekkstr. i regel DET[AGR=[PERS= 3rd ]] > the DET, Regler + likninger: Det lokale treet lystrer alle likningene the DET the <DET AGR PERS>=3rd 25. mars 2017 23

Sammenlikning av formatene 1. Trekkstrukturer i reglene Utvid ikke terminaler med partielle trekkstrukturer Variable i trekkstrukturene for deling («reentrancy») Brukt for eksempel i tidlig Head driven Phrase Structure Grammars (HPSG) 2. Regler + likninger Legg likninger til CFG reglene En likning mellom To stier, eller En sti og en atomær verdi Inspirert av PATR Lexical Functional Grammar Blir det samme (før evt utvidelser) 25. mars 2017 24

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 25

Videre Vise noen eksempler på hvordan trekk og unifikasjon anvendes i moderne lingvistiske teorier, spesielt til subkategorisering: ved å lage en serie av grammatikk(fragment)er gå lengre enn NLTK være mer detaljert enn J&M og samtidig se hvor mye av dette som kan og ikke kan gjøres i NLTKs fcfg-er 26

Subkategorisering Tidligere 3 VP regler for mønstrene: VP V sleep VP V NP love VP V NP NP give Men det er mange andre mønstre (jfr. Oblig. 2) VP V NP PP[to] give VP V NP VP[inf] persuade VP V CP tell (that Mary left) VP V NP CP tell (John that Mary left) VP V AP grow VP V NP PP save etc. Hvert verb kan forekomme i noen slike mønstre ikke i andre Mål: Unngå overgenerering og falske flertydigheter 25. mars 2017 27

Løsning med CFG Innføre forskjellige kategorier (ikke terminaler) for de forskjellige verbene, f.eks: VP IV VP TV NP VP DTV NP NP IV sleep TV love DTV give Osv. Svakheter med denne løsningen: Mange regler Mange kategorier Manglende generalisering: «verb er verb» 25. mars 2017 28

Med eksempelgrammatikk 1 Eksempel først i seksjon 9.3 i NLTK-boka. VP[TENSE=?t, NUM=?n] > V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] > V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] > V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar V[SUBCAT=intrans, TENSE=pres, NUM=sg] > 'disappears' 'walks' V[SUBCAT=trans, TENSE=pres, NUM=sg] > 'sees' 'likes' V[SUBCAT=clause, TENSE=pres, NUM=sg] > 'says' 'claims' V[SUBCAT=intrans, TENSE=pres, NUM=pl] > 'disappear' 'walk' V[SUBCAT=trans, TENSE=pres, NUM=pl] > 'see' 'like' V[SUBCAT=clause, TENSE=pres, NUM=pl] > 'say' 'claim' V[SUBCAT=intrans, TENSE=past, NUM=?n] > 'disappeared' 'walked' V[SUBCAT=trans, TENSE=past, NUM=?n] > 'saw' 'liked' V[SUBCAT=clause, TENSE=past, NUM=?n] > 'said' 'claimed' 29

Noen observasjoner - anvendelse S NP[NUM=?x] VP[NUM=?x] VP[TENSE=?t, NUM=?n] > V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] > V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] > V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar Eksempelet viser en mulig behandling av subkategorisering av verb Generaliserer over verb Men like mange regler som i en CFG Skal se alternative måter senere 30

En generalisering av formalismen Eksempelgrammatikk 2 serves Så sist at grammatikk 2 sees på som en notasjonell variant av grammatikk 1 25. mars 2017 31

NLTK og grammatikk 2 NLTKs format for trekkgrammatikker tillater ikke regler som i grammatikk 2. Men vi kan «lure» NLTKs fcfg ved å innføre en dummy kategori og la alle fraser være av denne kategorien, f.eks.: X[CAT=S] > X[CAT=NP,AGR=?x] X[CAT=VP,AGR=?x] X[CAT=NP,AGR=?x] > X[CAT=Det,AGR=?x] X[CAT=N,AGR=?x] X[CAT=VP,AGR=?x] > X[CAT=V,AGR=?x] X[CAT=NP] X[CAT=V,AGR =[NUM = 'sg', PERS = '3rd']] > 'serves' Obs: Parsing kan bli mindre effektiv 25. mars 2017 32

Grammatikk 2 i likningsformalismen I likningsformalismen som brukes i J&M kan grammatikker som grammatikk 2 skrives med regler som denne (fra J&M seksj. 15.5.2) 33

Eksempelgrammatikk 2: subkat. Tilsvarende løsning som i grammatikk 1 Samme styrker og svakheter serves osv. 25. mars 2017 34

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 35

Eksempelgrammatikk 3 Den samme regelen virker for alle verb som tar ett argument. says (Kim says that Lee is asleep) serves (The restaurant serves fish) Resten i leksikon 25. mars 2017 36

Eksempelgrammatikk 3 En regel for hvert mulig antall av argumenter til en V Resten i leksikon 25. mars 2017 37

Eksempelgrammatikk 3 COMP2 Forhindrer verb som tar 2 argumenter her says serves COMP2 Forhindrer at disse verbene tar flere enn to argumenter 25. mars 2017 38

Så langt, grammatikk 3 Færre og mer generelle regler Mer informasjon i leksikon Et verb velger sine argumenter 39

I NLTK NLTK boka drøfter denne type løsninger (seksj. 9.3), men implementerer dem ikke. Denne løsningen kan implementeres i NLTKs fcfg med samme trikk som for grammatikk 2: X[CAT=VP,AGR=?x] > X[CAT=V,AGR=?x,SC=[COMP1=?y, COMP2]] X[CAT=?y] X[CAT=V, AGR=[NUM=sg,PERS=3rd],SC=[COMP1=NP, COMP2]] > 'serves' 40

X-bar (husker du?) En frase har tre nivåer: Full frase, eks. NP (= N ) Ord, eks N Midtnivå, eks. N (kalt Nominal i J&M) Felles struktur for fraser av ulike kategorier: NP, VP, PP For generell form og mer informasjon, se Wikipedia En del egenskaper er felles for NP og hodet N (og N =Nom), f.eks. kasus En del egenskaper er delt mellom VP og V, f.eks. tempus Bar V N PP Adj? 2 S: V NP: N PP: P 1 VP: V Nom: N PP: P 0 V N P 41

N =NP N =NOM DET An A =AP old N =NOM N =NOM P =PP A =AP boring N professor N =NOM P =PP of German from Sweden 42

Grammatikk 4 basert på X-bar Vi representerer det som er felles mellom N, Nom og NP i et trekk «head» Tilsvarende for S, VP og V, og for P og PP, osv. Hva med forskjellen mellom NP (=N ), Nom (=N ), N (ordet)? Flere muligheter. En av dem er å bruke et trekk for dette BAR: 43

Head-complement rule+lexicon serves En regel for verb som tar ett komplement uavhengig av komplementets kategori Samme regel virker for PP P NP with Resten i leksikon 25. mars 2017 44

Head complement-rules En regel for hvert mulig antall (0, 1, 2) av argumenter uavhengig av kategori Resten i leksikon 25. mars 2017 45

Specifier rules Den første regelen vil både dekke S NP VP NP DET NOM hamburger 25. mars 2017 46

Eksempel with a hamburger 47

Leksikalsk regel with a hamburger 48

Head-complement-0-regel with a hamburger 49

Resultat with a hamburger 50

Leksikalsk regel (?) with a hamburger 51

Head-specifier-regel-1 with a hamburger 52

Resultat with a hamburger 53

Leksikalsk regel with a hamburger 54

HC-1-regel with a hamburger 55

Resultat with a hamburger 56

Grammatikk 4 i NLTKs fcfg-formalisme Kan vi uttrykke grammatikk 4 i NLTKs fcfg formalisme (med trikket for kategorier)? Noe går, men regler hvor strukturer både er delt og (delvis) instansiert er ikke mulig å uttrykke i fcfggrammatikker, f.eks. 25. mars 2017 57

Vurdering av grammatikk 4 Denne uttrykker langt på vei en generell X-bar grammatikk Noen fenomener er problematiske: Skal enhver SPEC være BAR2, f.eks. er dette naturlige for DET? Er alle argumenter fulle fraser (BAR2), f.eks. Kari prøvde [å synge] (er dette en V?) Det er ikke bare kategorien til argumentet som avgjør om det kan være komplement F.eks. form Kari hørte [Ola synge]. (+INF) 25. mars 2017 58

Grammatikk 4b Grammatikk 4 er gjort enkel dels for å få plass til strukturene serves Vi kunne like gjerne brukt dette formatet serves I stedet for dette dette formatet 25. mars 2017 59

Grammatikk 4b Sammen med denne regelen I stedet for dette denne regelen og tilsvarende for de andre reglene 25. mars 2017 60

Så langt Grammatikk 4b vil beskrive akkurat det samme som grammatikk 4 Men med dette formatet ser vi muligheten for at hodet kan stille flere krav til sine komplementer og SPEC., f.eks. at den må ha en spesiell form Vi kan legge inn mere i f.eks. COMP1 61

Frasetyper. Kan være argumenter. Ulik subkategorisering av verb. (J&M, fig 15.3) 62

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 63

Grammatikk 5 Hovedide: Hodet kan spesifisere hele strukturen til sine komplementer og til specifier ikke bare kategorien Spesielt kan hodet spesifisere «Bar-nivået» på argumentene Formen til argumentene f.eks. finit/infinite Grammatikkformalismen må tillate variable over hele strukturer 64

Head specifier regel Head complement regel 0 house Eksempel på leksikalsk oppslag, eller egentlig: Leksikalsk oppslag + Leksikalsk regel som gir entallsform 65

Head complement regler 66

sleeps 67

gives 68

gives 69

persuades 70

Grammatikk 5 i NLTKs fcfg? NLTK tillater ikke variable over hele strukturer. F.eks. kunne vi ønsket å skrive X[HEAD=?y, VAL=[BAR=1, SPEC=?z]] X[HEAD=?y, VAL=[BAR=0, SPEC=?z, COMP1=?u, COMP2=False]]?u for 71

Grammatikk 5 i NLTKs fcfg? Vi kan ikke skrive grammatikk 5 direkte i NLTK selv med vårt trikk Vi kan ta noen av ideene og gjøre litt mer ut av subkat enn i grammatikk 3/4 72

Grammatikk 5 i likningsformatet I prinsippet er dette mulig J&M, seksj. 15.3.3 skisserer tre suksessive løsninger til subkat som svarer omtrent til våre Grammatikk1/2 Grammatikk 3/4 Grammatikk 5 Men gjør noen litt rare ting 73

Grammatikk 5 i likningsformatet F.eks burde Hvis argumentets CAT er bestemt av <VP subcat> skal den ikke også i regel Heller vært X X SUBCAT kan ikke være et HEAD-trekk fordi det ikke er delt mellom mor og datter 74

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 75

Unifikasjonbaserte/trekkstrukturbaserte grammatiske teorier Flere moderne grammatiske teorier/modeller/rammeverk Bruker: trekk («features») og unifikasjon Leksikaliserte: Mye informasjon i leksikon Få frasestrukturregler. Inklusive Generalized Phrase Structure Grammar (GPSG) Head Driven Phrase Structure Grammar (HPSG) Lexical Functional Grammar (LFG) 76

Hvert rammeverk består av 1. Grunnleggende unifikasjonsformalisme 2. Utvidelser og begrensninger i forhold til denne formalismen 3. Prinsipper som gjelder for alle menneskespråk 4. Språkspesifikke regler og leksika ( (2) og (3) er ofte nøstet i hverandre og vanskelige å skille.) 77

HPSG og oss HPSG endrer og utvider det vi har gjort: Lister for subkategorisering av komplementer Bruk av typer og arv 78

Lister (HPSG) HPSG bruker lister i VAL(ency) trekket BAR2 tilsv. tom SPEC-liste og tom COMPS-liste BAR1 tilsv. tom COMPS-liste persuades We HPSG 79

Fotnote Vi har i HPSG skilt argumentene mellom SUBCAT som en liste av komplementer SPEC, specifier, f.eks. subjekts-np til et verb Begge lærebøkene har også eksempler med SUBCAT-lister: NLTK har en liste av CAT-navn (tilsv. grammatikk 3/4) J&M har en liste av strukturer (tilsv. grammatikk 5) Begge legger også specifier (subjekts NP) (først) på SUBCAT-lista og har ikke SPEC-trekk Tilsvarer en tidlig variant av HPSG 80

I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte grammatikker (=Unifikasjonsgrammatikker) Delvis: J&M, seksj15.3, NLTK-boka seksj 9.3 Subkategorisering: a. Enkel løsning, grammatikk 1 og 2 b. Valg på kategori, grammatikk 3 og 4 c. Valg på hel struktur, grammatikk 5 Forhold til grammatiske modeller Implementasjon og parsing 81

Implementasjon av unifikasjon Du må kunne: Gitt to trekkstrukturer f1 og f2: Avgjøre om de er unifiserbare Hvis de er unifiserbare, konstruere en struktur f3 som er resultatet av å unifisere de to. J&M seksj 15.4 er ikke pensum: Trenger ikke å kunne konstruksjonen med ekstra pekere 82

Parsing med trekkgrammatikker Vi har sett hvordan vi kan bygge trær med trekkstrukturer for setninger ut i fra en trekkgrammatikk Dette kan kombineres med alle parsingalgoritmene vi har sett for CFG: Parsingalgoritmen holder rede på rekkefølgen vi bygger treet Det er en komplikasjon når vi skal bygge flere trær Enten det er ved baktrackking: RD, SR Eller ved tabell: CKY, Chart 83

Eksempel S NP[AGR=?x] VP[AGR=?x] NP[AGR=?x] Det[AGR=?x] Nom[AGR=?x] Nom[AGR=?x] N[AGR=?x] Nom[AGR=?x] N[AGR=?x] Nom[AGR=?x] Det the N[AGR=sg] hamburger N[AGR=pl] resturants 84

Eksempel fortsatt Den ene analysen gjør the til sg, den andre gjør den til pl NP[NUM=pl] NP[NUM=sg] Nom[NUM=pl] Nom[NUM=sg] Nom[NUM=pl] Det[NUM=sg] N[NUM=sg] N[NUM=pl] Det[NUM=pl] N[NUM=sg] N[NUM=pl] the hamburger restaurants the hamburger restaurants 85

Løsning En backtrack-parser må kunne omgjøre unifikasjoner som ikke fører frem, her at the s NUM er sg. En tabellparser (CKY eller Chart) som vil lage begge alternativ må kopiere strukturer før de unifiseres Være klar over problemet og prinsippet for løsninger Ikke se på detaljer, J&M, seksj 15.5 ikke pensum. 25. mars 2017 86