INF2820 Datalingvistikk V Gang 5.3 Jan Tore Lønning

Størrelse: px
Begynne med side:

Download "INF2820 Datalingvistikk V Gang 5.3 Jan Tore Lønning"

Transkript

1 INF2820 Datalingvistikk V Gang 5.3 Jan Tore Lønning

2 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 2

3 Chomsky-normalform (CNF) CKY algoritmen forutsetter at grammatikken er på Chomsky-normalform En grammatikk er på Chomsky-normalform hvis alle reglene er på en av følgende former: A B C (ikketerminaler) A t (t en terminal) Enhver CFG G hvor L(G) er svakt ekvivalent til en G på CNF, dvs L(G)=L(G ) 2. mars

4 Chomsky-normalform (CNF) Enhver CFG G hvor L(G) er svakt ekvivalent til en G på CNF Oppskrift: 1. Erstatt alle regler på formen A 2. Erstatt alle regler på formen A B for B en ikke-terminal 3. Erstatt alle regler A, der > 1 og inneholder en eller flere terminaler t 1,, t n 4. Erstatt alle regler A B 1 B 2 B n, der n > 2, : 2. mars

5 Trinn 1: A Erstatt alle regler på formen A unntatt evt. S 1. Finn mengden E av alle ikke-terminaler A, s.a. A + 2. For hver regel B : Legg til alle regler på formen B, der fremkommer ved å stryke en eller flere ikke-terminaler fra E i. 3. Stryk alle regler på formen A 2. mars

6 Eksempel Grammatikk 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. B 2. mars

7 Eksempel Grammatikk 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. B Trinn 1 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. stryk 7. S a 8. A a 9. A a b 10.B a c 2. mars

8 Trinn 2: A B for B en ikke-terminal Erstatt alle regler på formen A B for B en ikke-terminal: 1. For enhver ikke-terminal B: For enhver A s.a. A B eller A + B: For enhver B, der ikke er en enslig ikketerminal: Innfør A, hvis den ikke alt finnes 2. Fjern alle unære regler med ikketerminal høyreside 2. mars

9 Eksempel Grammatikk 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. B Trinn 1 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. stryk 7. S a 8. A a 9. A a b 10.B a c Trinn 2 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. stryk 5. B a B c 6. strøket 7. S a 8. A a 9. A a b 10.B a c 11.A a B c 12.A a c 2. mars

10 Trinn 3 Erstatt alle regler A, der > 1 og inneholder en eller flere terminaler t 1,, t n 1. Innfør nye ikke-terminaler T 1,, T n. 2. Erstatt t i med T i i 3. Innfør reglene T i t i for i = 1,, n 2. mars

11 Eksempel Grammatikk 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. B Trinn 1 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. stryk 7. S a 8. A a 9. A a b 10.B a c Trinn 2 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. strøket 5. B a B c 6. strøket 7. S a 8. A a 9. A a b 10.B a c 11.A a B c 12.A a c Trinn 3 1. S X A 2. A X A 3. A X A Y 4. strøket 5. B X B Z 6. strøket 7. S a 8. A a 9. A X Y 10. B X Z 11. A X B Z 12. A X Z 13. X a 14. Y b 15. Z c 2. mars

12 Trinn 4 Erstatt alle regler A B 1 B 2 B n, der n > 2, For hver regel A B 1 B 2 B n, n > 2, : 1. Innfør nye ikke-terminaler C 1,, C n-2 og regler 2. A B 1 C 1 3. C i B i+1 C i+1 for i = 1,, n-3 4. C n-2 B n-1 B n 2. mars

13 Eksempel Grammatikk 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. B Trinn 1 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. A B 5. B a B c 6. stryk 7. S a 8. A a 9. A a b 10.B a c Trinn 2 E = {A, B} 1. S a A 2. A a A 3. A a A b 4. stryk 5. B a B c 6. strøket 7. S a 8. A a 9. A a b 10.B a c 11.A a B c 12.A a c Trinn 3 1. S X A 2. A X A 3. A X A Y 4. strøket 5. B X B Z 6. strøket 7. S a 8. A a 9. A X Y 10. B X Z 11. A X B Z 12. A X Z 13. X a 14. Y b 15. Z c Trinn 4 1. S X A 2. A X A 3.i A X P 3.ii P A Y 4. strøket 5.i B X Q 5.ii Q B Z 6. strøket 7. S a 8. A a 9. A X Y 10. B X Z 11.i A X R 11.ii R B Z 12. A X Z 13. X a 14. Y b 15. Z c 2. mars

14 Sample L1 Grammar 3/2/2018 Speech and Language Processing - Jurafsky and Martin 14

15 CNF Conversion 3/2/2018 Speech and Language Processing - Jurafsky and Martin 15

16 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 16

17 Trekk ( features ) trinn for trinn NLTK ch.9, ex. 8 S NP_SG VP_SG S NP_PL VP_PL NP_SG Det_SG N_SG NP_PL Det_PL N_PL VP_SG V_SG VP_PL V_PL Det_SG 'this' Det_PL 'these' N_SG 'dog' N_PL 'dogs' V_SG 'runs' V_PL 'run' Kategorier og trekk S NP[NUM=sg] VP[NUM=sg] S NP[NUM=pl] VP[NUM=pl] NP[NUM=sg] Det[NUM=sg] N[NUM=sg] NP[NUM=pl] Det[NUM=pl] N[NUM=pl] VP[NUM=sg] V[NUM=sg] VP[NUM=pl] V[NUM=pl] Det[NUM=sg] 'this' Det[NUM=pl] 'these' N[NUM=sg] 'dog' N[NUM=pl] 'dogs' V[NUM=sg] 'runs' V[NUM=pl] 'run' March 2,

18 Trekk trinn for trinn 2 Kategorier og trekk S NP[NUM=sg] VP[NUM=sg] S NP[NUM=pl] VP[NUM=pl] NP[NUM=sg] Det[NUM=sg] N[NUM=sg] NP[NUM=pl] Det[NUM=pl] N[NUM=pl] VP[NUM=sg] V[NUM=sg] VP[NUM=pl] V[NUM=pl] Saml sammen likheter S NP[NUM=?x] VP[NUM=?x] NP[NUM=?x] Det[NUM=?x] N[NUM=?x] VP[NUM=?x] V[NUM=?x] Det[NUM=sg] 'this' Det[NUM=pl] 'these' N[NUM=sg] 'dog' N[NUM=pl] 'dogs' V[NUM=sg] 'runs' V[NUM=pl] 'run' Det[NUM=sg] 'this' Det[NUM=pl] 'these' N[NUM=sg] 'dog' N[NUM=pl] 'dogs' V[NUM=sg] 'runs' V[NUM=pl] 'run' March 2,

19 Intuitiv tolkning CFG S NP VP Med trekk S NP[NUM=?x] VP[NUM=?x] Hvis words[i,j] er en NP og words[j,k] er en VP Så kan words[i,k] være en S Hvis words[i,j] er en NP og words[j,k] er en VP og NP sin NUM = VP sin NUM Så kan words[i,k] være en S March 2,

20 I NLTK Samme grammatikken forts. i 9.3 i NLTK-boka. VP[TENSE=?t, NUM=?n] -> V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] -> V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] -> V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar V[SUBCAT=intrans, TENSE=pres, NUM=sg] -> 'disappears' 'walks' V[SUBCAT=trans, TENSE=pres, NUM=sg] -> 'sees' 'likes' V[SUBCAT=clause, TENSE=pres, NUM=sg] -> 'says' 'claims' V[SUBCAT=intrans, TENSE=pres, NUM=pl] -> 'disappear' 'walk' V[SUBCAT=trans, TENSE=pres, NUM=pl] -> 'see' 'like' V[SUBCAT=clause, TENSE=pres, NUM=pl] -> 'say' 'claim' V[SUBCAT=intrans, TENSE=past, NUM=?n] -> 'disappeared' 'walked' V[SUBCAT=trans, TENSE=past, NUM=?n] -> 'saw' 'liked' V[SUBCAT=clause, TENSE=past, NUM=?n] -> 'said' 'claimed' 20

21 Noen observasjoner - formalismen S NP[NUM=?x] VP[NUM=?x] VP[TENSE=?t, NUM=?n] -> V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] -> V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] -> V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar En kategori kan ha mer enn ett trekk Et trekk kan ta en atomær verdi, eks.: trans eller være en (delt) variabel, eks:?n Vi behøver ikke spesifisere alle trekk: F.eks. VP[ ] i de to reglene er forenlige selv om NUM er nevnt i den ene og ike den andre 21

22 Noen observasjoner - anvendelse S NP[NUM=?x] VP[NUM=?x] VP[TENSE=?t, NUM=?n] -> V[SUBCAT=intrans, TENSE=?t, NUM=?n] VP[TENSE=?t, NUM=?n] -> V[SUBCAT=trans, TENSE=?t, NUM=?n] NP VP[TENSE=?t, NUM=?n] -> V[SUBCAT=clause, TENSE=?t, NUM=?n] SBar Færre syntaktiske regler, men i utgangspunktet like stort leksikon Mange muligheter for å skrive en grammatikk i denne formalismen ikke én fasit Eksempelet viser en mulig behandling av subkategorisering av verb Men like mange regler som i en CFG Finnes metoder for å slå sammen regler Flere trekk, som TENSE, kan være nyttige 22

23 Eksempel med tysk Tysk har en rikere morfo-syntaks Enda mer å spare her ved å bruke trekk F.eks 16 former av bestemt artikkel Case Masc Fem Neut Plural Nom der die das die Gen des der des der Dat dem der dem den Acc den die das die 23

24 Hvordan kan vi takle dette i CFG? NP_neut_sg_nom Det_neut_sg_nom N_neut_sg_nom NP_neut_sg_acc Det_neut_sg_acc N_neut_sg_acc NP_neut_sg_gen Det_neut_sg_gen N_neut_sg_gen NP_neut_sg_dat Det_neut_sg_dat N_neut_sg_dat NP_fem_sg_nom Det_fem_sg_nom N_fem_sg_nom NP_fem_sg_acc Det_fem_sg_acc N_fem_sg_acc NP_fem_sg_gen Det_fem_sg_gen N_fem_sg_gen NP_fem_sg_dat Det_fem_sg_dat N_fem_sg_dat NP_mask_sg_nom Det_mask_sg_nom N_mask_sg_nom NP_mask_sg_acc Det_mask_sg_acc N_mask_sg_acc NP_mask_sg_gen Det_mask_sg_gen N_mask_sg_gen NP_mask_sg_dat Det_mask_sg_dat N_mask_sg_dat NP_pl_nom Det_pl_nom N_pl_nom NP_pl_acc Det_pl_acc N_pl_acc NP_pl_gen Det_pl_gen N_pl_gen NP_pl_dat Det_pl_dat N_pl_dat 24

25 Observasjoner Dette gir 16 ulike regler Kanskje ikke nok. Vi må skille mellom Bestemt: der gute Mann Ubestemt: ein guter Mann (begge er nom, mask, sg) Og vi må kanskje dra på forskjellene i andre deler av gramamtikken, eks S NP_neut_sg_nom S NP_mask_sg_nom S NP_fem_sg_nom Osv. VP_3p_sg VP_3p_sg VP_3p_sg 25

26 Tysk med trekkgrammatikk, alt 1 S NP[CASE=nom, NUM=?x, PERS=?y] VP[NUM=?x, PERS=?y] NP[CASE=?z,NUM=?x, PERS=3rd] Det[CASE=?z,NUM=?x, GEN=?u] N[CASE=?z,NUM=?x, GEN=?u] VP[NUM=?x, PERS=?y] V[SUBC= dtv, PERS=?y, NUM=?x] NP[CASE=dat] NP[CASE=acc] Det[NUM=sg, CASE=nom, GEN=mask] 'der' N[NUM=sg, CASE=nom, GEN=mask] Mann' 26

27 Tysk med trekkgrammatikk, alt 2 S NP[CASE=nom, AGR=?x] VP[AGR=?x] NP[CASE=?z, AGR=?x] Det[CASE=?z, AGR=?x,] N[CASE=?z, AGR=?x,] VP[AGR=?x] V[SUBC= dtv, AGR=?x] NP[CASE=dat] NP[CASE=acc] Vi kan samle flere trekk som hører sammen i en «pakke», en trekkstruktur innenfor en større struktur Det[CASE=nom, AGR=[NUM=sg, GEN=mask, PERS=3rd]] 'der' N[CASE=nom, AGR=[NUM=sg, GEN=mask, PERS=3rd]] Mann' 27

28 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 28

29 Trekkstrukturer Lang tradisjon i lingvistikk Eks.: fonologi En mengde trekk og verdier: For hvert trekk er det definert hvilke verdier som er mulige Et skritt videre: Hele trekkstrukturer som verdier 29

30 Trekkstrukturer som grafer Attribute Value Matrices (AVMs) Directed Acyclic Graphs (DAGs) To alternative notasjoner for det samme 30

31 Deling («Reentrancies») 31

32 1. Regler med trekkstrukturer S NP VP NP Det N V serve V serves En ikke-terminal suppleres med en partiell trekkstruktur Mulig deling mellom trekkstrukturene i en regel Terminalene er uendret 2. mars

33 1B. NLTKs format S NP VP S NP[AGR=?x] VP[AGR=?x] NP Det N NP[AGR=?x] Det[AGR=?x] Nom[AGR=?x] V serves V[AGR=[NUM=SG, PERS=3rd]] serves NLTKs format er en implementasjon av denne formalismen Men som vi vil se senere, har implementasjonen en del begrensninger i forhold til formalismen 2. mars

34 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 34

35 Liten eksempelgrammatikk: S -> NP[AGR=?x] VP[AGR=?x] NP[AGR=?x] -> DET[AGR=?n] N[AGR=?n] VP[AGR=?x] -> V[AGR=?x] NP V[AGR = [NUM = 'pl']] -> 'serve' V[AGR = [NUM = 'sg', PERS = '3rd']] -> 'serves' DET[AGR = [PERS = '3rd']] -> 'the' DET[AGR = [PERS = '3rd', NUM = 'sg']] -> 'a' DET[AGR = [PERS = '3rd', NUM = 'pl']] -> 'many' N[AGR = [PERS = '3rd', NUM = 'sg']] -> 'restaurant' N[AGR = [PERS = '3rd', NUM = 'pl']] -> 'restaurants' N[AGR = [PERS = '3rd', NUM = 'sg']] -> 'hamburger' N[AGR = [PERS = '3rd', NUM = 'pl']] -> 'hamburgers' N[AGR = [PERS = '3rd', NUM = 'sg']] -> 'customer' N[AGR = [PERS = '3rd', NUM = 'pl']] -> 'customers' N[AGR = [PERS = '3rd']] -> 'fish' mars 2018

36 Anerkjenning med grammatikken the restaurant serves many hamburgers 2. mars

37 De leksikalske reglene Det N V Det N the restaurant serves many hamburgers 2. mars

38 En regel svarer til partielt lokalt tre NP Det N Det N V Det N the restaurant serves many hamburgers 2. mars

39 Prøver å unifisere regel med noder NP Det N V Det N the restaurant serves many hamburgers 2. mars

40 Tilsvarende NP Det N NP Det N V Det N the restaurant serves many hamburgers 2. mars

41 (strukturen for the utvides) NP NP Det N V Det N the restaurant serves many hamburgers 2. mars

42 VP V NP NP NP Det N V Det N the restaurant serves many hamburgers 2. mars

43 (VP samsvarer med SUBJ ikke OBJ) VP NP NP Det N V Det N the restaurant serves many hamburgers 2. mars

44 S NP VP VP NP NP Det N V Det N the restaurant serves many hamburgers 2. mars

45 Strukturene unifiseres (2=3=4) S VP NP NP Det N V Det N the restaurant serves many hamburgers 2. mars

46 Ikke en grammatisk setning Det N V Det N the restaurant serve many hamburgers 2. mars

47 4 kan ikke unifiseres med både 2 og 3 S NP VP VP NP NP Det N V Det N the restaurant serve many hamburgers 2. mars

48 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 48

49 En generalisering av formalisme 1 Trekkstrukturgrammatikk Syntaktisk regel: En trekkstr. på v.s Null eller flere t.s. på h.s Deling mellom trekkstr.ene Leksikalsk regel: En trekkstr. på v.s En terminal på h.s. gives 2. mars

50 En generalisering av formalisme 1 Hvis det er et trekk som alle strukturene i reglene har, f.eks. CAT (eller *TYPE*) dette trekket bare tar atomære verdier, så blir dette det samme som å ha en ikke-terminal + trekkstruktur Men dette formatet gir også muligheter for utvidelser: F.eks. regler med variable cat-trekket gives 2. mars

51 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 51

52 Trekkstrukturer Lang tradisjon i lingvistikk Eks.: fonologi En mengde trekk og verdier: For hvert trekk er det definert hvilke verdier som er mulige Et skritt videre: Hele trekkstrukturer som verdier 52

53 Trekkstrukturer som grafer Attribute Value Matrices (AVMs) Directed Acyclic Graphs (DAGs) To alternative notasjoner for det samme 53

54 Deling («Reentrancies») 54

55 Trekkstrukturer - formelt To endelige mengder F = {f 1, f 2,, f n } A = {a 1, a 2,, a n } En trekkstruktur over F og A er Atomær, dvs et element i A, eller Ikke-atomær. Det er et objekt. Dette inneholder En mengde trekk, dvs en delmengde av F: f 1, f 2,, f j Til hvert av disse trekkene er det en verdi, som igjen er en trekkstruktur (atomær eller ikke-atomær) En trekkstruktur kan ikke inneholde to par av trekk og verdier (f k, a k ), (f p, a p ) der f k = f p, men a k =/= a p To trekkstrukturer som inneholder de samme trekk-verdiparene kan være identiske, men behøver ikke være det 2. mars 2018 (som dictionaries i python) 55

56 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 56

57 Unifikasjon av trekkstrukturer 2. mars

58 2. mars

59 2. mars

60 2. mars

61 I dag grammatikker med trek og unifikasjon Fortsatt:) CKY og Chart: Parsing vs anerkjenning Grammatikker med trekk Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 61

62 Subsumpsjon og unifikasjon Subsumpsjon F subsummerer G F er minst like generell som G Hvis og bare hvis: F er atomær og F=G Ellers For hvert trekk x i F: F(x) subsumerer G(x) For alle stier p, q in F: Hvis F(p) = F(q), så G(p) = G(q) Unifikasjon H er unifikasjonen av F og G H = Hvis og bare hvis Og H er den mest generelle slike trekkstrukturen 2. mars

63 NLTK - implementasjon >>> fs1 = nltk.featstruct(tense='past', NUM='sg') >>> fs1 [NUM='sg', TENSE='past'] >>> print fs1 [ NUM = 'sg' ] [ TENSE = 'past' ] >>> from nltk import FeatStruct >>> fs2 = FeatStruct(CAT='vp', AGR = fs1) >>> print fs2 [ AGR = [ NUM = 'sg' ] ] [ [ TENSE = 'past' ] ] [ ] [ CAT = 'vp' ] 2. mars

64 NLTK - implementasjon >>> fs3 = fs2.unify(featstruct( "[AGR =?x, SUBJ = [AGR =?x]]")) >>> print fs3 [ AGR = (1) [ NUM = 'sg' ] ] [ [ TENSE = 'past' ] ] [ ] [ CAT = 'vp' ] [ ] [ SUBJ = [ AGR -> (1) ] ] 2. mars

65 I dag: CNF og trekkstrukturgrammatikker Chomsky Normal Form (CNF) Grammatikker med trekk Trekkstrukturer og trekkstrukturgrammatikker Tolkning av grammatikkene, eksempel En generalisering av formalismen Trekkstrukturer, mer formelt Subsumpsjon og unifikasjon Trekkstrukturgrammatikker, mer formelt 65

66 Betingelser på grammatikalitet S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, DET, N, V, NP, DET, N, the restaurant serves many fish 2. mars

67 Lokalt tre tillatt av regel eks 1 t1: S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, R1: S NP VP Regelen R1 svarer til et lokalt tre t2 R1 tillater t1 hvis t1 «utvider» t2, Mer formelt: hvis t2 subsummerer t1 2. mars

68 Subsumpsjon av trær Vi kan utvide definisjonen av subsumpsjon fra trekkstrukturer til trær med trekkstrukturer på nodene Et tre T subsummerer et tre T dersom Trekkstrukturen på T subsummerer strukturen på T Inkludert at hvis T har en kategori, så har T samme kategori Hvis T har døtrene D 1, D 2,, D n, så har T like mange døtre D 1, D 2,, D n, der D i subsummerer D i for i = 1, 2,, n, og Alle delinger i T er også delinger i T. 68

69 Tolkning av grammatikk Et tre T med trekkstrukturer er tillatt av grammatikk G hvis og bare hvis. Hvis t 1, t 2,, t n er alle de lokale trærne i T, så fins det tilsvarende regler i G, si g 1, g 2,, g n s.a.: tre t i er tillatt av regel g i for i= 1, 2,, n Hvis T er et annet tre tillatt av de samme reglene g 1, g 2,, g n, på tilsvarende subtrær og T subsummerer T, så subsummerer T også T. "Det skal ikke være med mer i treet enn det reglene krever. " 2. mars

70 Grammatikker to alternative format 1. Trekkstrukturer i reglene NLTK er et (begrenset) forsøk på å implementere dette formatet 2. Regler + likninger Jurafsky og Martin 2. mars

71 Grammatikker to alternative format 1. Trekkstrukturer i reglene 2. Regler + likninger S NP VP NP Det NOM V serves 2. mars

72 Lokalt tre tillatt av regel eks 1 S, Hvert lokalt tre må tillates av en grammatikkregel NP, VP, J&M-format: Det lokale treet lystrer alle likningene 2. mars

73 Lokalt tre tillatt av regel eks 2 DET, Hvert lokalt tre må tillates av en grammatikkregel the Trekkstr. i regel DET[AGR=[PERS= 3rd ]]-> the DET, Regler + likninger: Det lokale treet lystrer alle likningene the DET the <DET AGR PERS>=3rd 2. mars

74 Sammenlikning av formatene 1. Trekkstrukturer i reglene Utvid ikke-terminaler med partielle trekkstrukturer Variable i trekkstrukturene for deling («reentrancy») Brukt for eksempel i tidlig Head-driven Phrase Structure Grammars (HPSG) 2. Regler + likninger Legg likninger til CFG-reglene En likning mellom To stier, eller En sti og en atomær verdi Inspirert av PATR Lexical-Functional Grammar Blir det samme (før evt utvidelser) 2. mars

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning INF2820 Datalingvistikk V2017 10. Gang 20.3 Jan Tore Lønning I dag grammatikker med trek og unifikasjon Fortsatt:) CKY og Chart: Parsing vs anerkjenning Grammatikker med trekk Tolkning av grammatikkene,

Detaljer

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 10. Gang 30.3 Jan Tore Lønning I dag Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj

Detaljer

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning INF2820 Datalingvistikk V2015 9. Gang 16.3 Jan Tore Lønning I dag Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 10. gang, 20.3.2014 Jan Tore Lønning I dag Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M,

Detaljer

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning INF2820 Datalingvistikk V2018 9. Gang 13.3 Jan Tore Lønning I dag to deler A. Trekkstrukturgramatikker Fortsatt fra sist B. Chart-parsing Fortsetter parsing fra for to uker siden 2 TREKKSTRUKTUR- GRAMMATIKKER

Detaljer

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning INF2820 Datalingvistikk V2016 11. Gang 6.4 Jan Tore Lønning Sist Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj

Detaljer

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning INF2820 Datalingvistikk V2016 11. Gang 6.4 Jan Tore Lønning Sist Med anbefalt lesing og rekkefølge Grammatiske trekk («features») NLTK boka, seksj 9.1 Trekkstrukturer («feature structures») J&M, seksj

Detaljer

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning INF2820 Datalingvistikk V2017 11. Gang 20.3 Jan Tore Lønning I dag (Fra sist Trekkstrukturer og unifikasjon (J&M, seksj 15.1, J&M, seksj. 15.2) Trekkstrukturer i NLTK NLTK-boka seksj. 9.2 Trekkbaserte

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 11. gang, 27.3.2014 Jan Tore Lønning I dag Repetere en del begreper: Trekkstrukturer Unifikasjon og subsumpsjon Trekkbaserte grammatikker Form: to alternative format Tolkning

Detaljer

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning INF2820 Datalingvistikk V2015 10. Gang 23.3 Jan Tore Lønning I dag Trekkbaserte grammatikker, delvis repetisjon Formelle egenskaper: Alternative format for slike grammatikker Tolkning av grammatikkreglene

Detaljer

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning INF2820 Datalingvistikk V2015 8. Gang 9.3 Jan Tore Lønning I dag Avslutte parsing i denne omgang Chomsky Normal Form (CNF) Algoritme for omforming CKY Algoritme Implementasjon Begynne trekkgramatikker

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 9. gang, 13.3.2014 Jan Tore Lønning I dag Chart parsing Implementasjon (Earley s algoritme) Parsing vs anerkjenning For CKY og chart Trekkbaserte ( feature-based )grammatikker

Detaljer

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning INF2820 Datalingvistikk V2016 12. Gang 13.4 Jan Tore Lønning I dag Trekkbaserte grammatikker for naturlige språk med vekt på subkategorisering/argumenter, 3 tilnærminger a. Enkel løsning, grammatikk 1

Detaljer

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 9. Gang 16.3 Jan Tore Lønning I dag Kort repetisjon: Hoedideer i chart-parsing CKY og chart: anerkjenning vs parsing Formell språkteori: Chomsky-hierarkiet Er naturlige språk

Detaljer

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning INF2820 Datalingvistikk V2015 11. Gang 13.4 Jan Tore Lønning I dag Unifikasjonsgrammatikker Repetisjon og overblikk: Formalisme Lingvistisk anvendelse Utvidelse av lingvistisk anvendelse NLTKs implementering

Detaljer

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning INF2820 Datalingvistikk V2017 8. Gang 6.3 Jan Tore Lønning I dag CKY-algoritmen fortsatt fra sist Python-implementasjon av CKY Chomsky Normal Form (CNF) Chart-parsing BU-algoritme for chart-parsing 3.

Detaljer

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 7. Gang 2.3 Jan Tore Lønning I dag CKY-algoritmen Python-implementasjon Chomsky Normal Form (CNF) 2. mars 2016 2 Dynamisk programmering I en beregning kan det inngå delberegninger

Detaljer

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 7. Gang 2.3 Jan Tore Lønning I dag CKY-algoritmen Python-implementasjon Chomsky Normal Form (CNF) 1. mars 2016 2 Dynamisk programmering I en beregning kan det inngå delberegninger

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 12. gang, 3.4.2014 Jan Tore Lønning I dag Trekkbaserte grammatikker (unifikasjonsgrammatikker) for naturlige språk NLTKs implementering av slike Litt om lingvistiske modeller

Detaljer

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning INF2820 Datalingvistikk V2014 7. gang, 27.2 Jan Tore Lønning I dag Mellomspill: Chomsky Normal Form Tabellparsing: CKY-algoritmen Innlede Chart-Parsing 20. februar 2014 2 Chomsky-normalform (CNF) En grammatikk

Detaljer

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning INF2820 Datalingvistikk V2018 10. Gang 19.3 del 1 Jan Tore Lønning I dag: to deler A. Active chart-parsing Fortsatt fra sist B. Tekstklassifisering 2 CHART-PARSING 3 I dag chart-parsing Chart-parsing:

Detaljer

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning INF2820 Datalingvistikk V2017 9. Gang 13.3 Jan Tore Lønning I dag chart-parsing Fortsatt fra sist: Chart-parsing: hovedideer BU chart-parsing: algoritmen NLTKs ChartParser Enkel Python-implementasjon av

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen KONTEKSTFRIE GRAMMATIKKER OG PARSING 22. februar 2011 2 I dag Avledninger og normalformer Parsing: ovenifra og ned (top-down) Parsing: nedenifra

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2016 5. Gang - 17.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker for naturlige språk

Detaljer

INF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning INF2820 Datalingvistikk V2017 7. Gang 27.2 Jan Tore Lønning I dag Fra sist: Høyre- og venstreavledninger Recursive-descent parser (top-down) Shift-reduce parser (bottom-up) Pythonimplementasjon: Shift-Reduce

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2017 6. Gang - 20.2 Jan Tore Lønning I dag Kontekstfrie grammatikker og naturlige språk (fortsatt fra sist) Kontekstfrie grammatikker og regulære språk Grammatikker og trær i NLTK

Detaljer

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 8. Gang 9.3 Jan Tore Lønning CHART-PARSING 2 I dag Bakgrunn Svakheter med andre parsere CKY og Chart Chart-parsing: hovedideer BU chart-parsingalgoritmen Algoritmen uttrykt

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning TABELLPARSING OG CHART- PARSING 24. februar 2012 2 I dag Mellomspill: Chomsky Normal Form Tabellparsing: CKY-algoritmen Innlede Chart-Parsing 24. februar

Detaljer

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF 2820 V2015: Obligatorisk innleveringsoppgave 3 INF 2820 V2015: Obligatorisk innleveringsoppgave 3 Besvarelsene skal leveres i devilry innen fredag 17.4 kl 18.00 Filene det vises til finner du i o /projects/nlp/inf2820/cfg Del 1 RD Parsing Oppgave 1:

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2015 5. Gang - 16.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker

Detaljer

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning INF2820 Datalingvistikk V2016 8. Gang 9.3 Jan Tore Lønning CHART-PARSING 2 I dag Bakgrunn Svakheter med andre parsere CKY og Chart Chart-parsing: hovedideer BU chart-parsing algoritmen Algoritmen uttrykt

Detaljer

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning INF2820 Datalingvistikk V2015 7. Gang 2.3 Jan Tore Lønning PARSING DEL 2 2 I dag Recursive-descent parser, kort repetisjon Shift-reduce parser (bottom-up) Algoritme for anerkjenning Eksempelimplementasjon

Detaljer

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning INF2820 Datalingvistikk V2018 7. Gang 26.2 Jan Tore Lønning I dag Fra sist: Høyre- og venstreavledninger Recursive-descent parser (top-down) Shift-reduce parser (bottom-up) Pythonimplementasjon: Shift-Reduce

Detaljer

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen KONTEKSTFRIE GRAMMATIKKER OG PARSING 22. februar 2011 2 Høyre- og venstreavledninger Til hvert tre svarer det mange avledninger. For kontekstfrie

Detaljer

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 24. februar 2012 2 Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk 24. februar 2012 3 2/24/2012 Speech

Detaljer

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk : Eksempelspørsmål Spørsmål av denne typen kan forventes til eksamen, men kanskje ikke så mange. I hvert fall ville dette pluss spørsmål fra første del av pensum blitt for mye for en tretimers eksamen. Oppgave

Detaljer

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012 INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 24. februar 2012 2 1 I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Parsing: ovenifra og ned

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 23. februar 2012 2 I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Parsing: ovenifra og ned

Detaljer

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning TABELLPARSING OG CHART- PARSING 24. februar 2012 2 I dag Mellomspill: Chomsky Normal Form Tabellparsing: CKY-algoritmen Innlede Chart-Parsing Dynamic Programming

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen CHARTPARSING (SEKSJ 13.4) FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) 8. mars 2011 2 I dag Oppsummering fra sist: Dynamisk programmering CKY-algoritmen

Detaljer

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER. INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi:

Detaljer

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning INF2820 Datalingvistikk V2015 14. Gang 4.5 Jan Tore Lønning CHART PARSING 2 I dag Svakheter ved tidligere parsere RD og SR: ineffektivitet CKY: CNF Chart parsing,,dotted items og fundamentalregelen Algoritmer:

Detaljer

Obligatorisk oppgave 4, INF2820, 2014

Obligatorisk oppgave 4, INF2820, 2014 Obligatorisk oppgave 4, INF2820, 2014 Besvarelsene skal leveres i devilry innen 7.5 kl 1800. Filene det vises til finner du etter hvert på /projects/nlp/inf2820/ Oppgavene kan løses alene og det skal leveres

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 8. gang, 6.3.2014 Jan Tore Lønning I dag Chart parsing Implementasjon CKY og Chart: Parsing vs anerkjenning 2 Chart alternativ datastruktur (S, [0, 1]) (VP, [0,1]) (Det, [1,2])

Detaljer

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler: 2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er indikert. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen FORMELLE OG NATURLIGE SPRÅK KONTEKSTFRIE GRAMMATIKKER 7. februar 2011 2 Naturlige språk som formelle språk Et formelt språk består av: En

Detaljer

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF2820 V2017 Oppgavesett 5 Gruppe 21.2 INF2820 V2017 Oppgavesett 5 Gruppe 21.2 Denne uka er det først noen teoretiske oppgaver. Deretter er det en del praktiske arbeidsoppgaver som vil forberede deg til arbeidet med innleveringsoppgavesett

Detaljer

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket. 2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er oppgitt. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne

Detaljer

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF 2820 V2016: Obligatorisk innleveringsoppgave 3 INF 2820 V2016: Obligatorisk innleveringsoppgave 3 Besvarelsene skal leveres i devilry innen torsdag 21.4 kl 18.00 Filene det vises til finner du i o /projects/nlp/inf2820/cfg Oppgave 1: Shift-reduce-effektivisering

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER 2 I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning MER OM PARSING, SÆRLIG TABELLPARSING 20. februar 2012 2 I dag Oppsummering og utfylling fra sist: Recursive-descent parser (top-down) Shift-reduce parser

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Side 1 Det matematisk-naturvitenskapelige fakultet Eksamen i: INF2820 Datalingvistikk Eksamensdag: 6. juni 2014 Tid for eksamen: 1430-1830 Oppgavesettet er på 5 side(r) Vedlegg: 0

Detaljer

INF 2820 V2018: Innleveringsoppgave 3

INF 2820 V2018: Innleveringsoppgave 3 INF 2820 V2018: Innleveringsoppgave 3 Besvarelsene skal leveres i devilry innen fredag 23.3 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil 100 poeng. Til sammen kan en få inntil

Detaljer

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver INF2820 V2017 Oppgavesett 5 arbeidsoppgaver Dette er oppgaver du kan arbeide med på egen hånd. Du kan også arbeide med dem i gruppa 28.2 (hvis du har innleveringsoppgave 2 under kontroll) og spørre gruppelæreren

Detaljer

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen CHARTPARSING (SEKSJ 13.4) FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) 8. mars 2011 2 I dag Oppsummering fra sist: Dynamisk programmering CKY-algoritmen

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2015 6. Gang - 23.2 Jan Tore Lønning PARSING DEL 1 2 I dag Høyre- og venstreavledninger Recursive-descent parser (top-down) Begynne Shift-reduce parser (bottom-up) 25. februar

Detaljer

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY INF5830, H2009, Obigatorisk innlevering 2 Innleveringsfrist 4.11 1 Oppgave: Unære produksjoner i CKY For bottom-up parsere, som CKY, har vi forutsatt at grammatikken er på CNF. For de ikke-leksikalske

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2016 6. Gang - 24.2 Jan Tore Lønning PARSING DEL 1 2 I dag Hva er parsing? Høyre- og venstreavledninger Recursive-Descent parser (top-down) Shift-Reduce parser (bottom-up) Pythonimplementasjon:

Detaljer

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være: 2 Eksamen INF2820, 2015, oppgave 2 Oppgave 2 La gramatikk G være: S > NP VP VP > VI VP > VTV NP VP > VS CP CP > C S NP > 'dyret' 'barnet' 'Kari' 'Ola' VI > 'sov' 'smilte' 'danset' VTV > 'kjente' 'likte'

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2018 6. Gang - 19.2 Jan Tore Lønning I dag Kontekstfrie grammatikker og naturlige språk Grammatikker og trær i NLTK Kontekstfrie grammatikker, avledninger og trær Hva er parsing?

Detaljer

Oppgave 1 (samlet 40%)

Oppgave 1 (samlet 40%) 2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er oppgitt. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 15. gang, 8.5.2014 Jan Tore Lønning Språk og grammatikk Språk (formelt): En endelig mengde A Ø En undermengde L A* Grammatikk: En endelig innretning som definerer L Klasser

Detaljer

INF1820 2013-04-12 INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820 2013-04-12 INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция Arne Skjærholt десятая лекция Dagens språk: Russisk. dyes yataya l yektsiya Arne Skjærholt десятая лекция N,Σ,R,S Nå er vi tilbake i de formelle, regelbaserte modellene igjen, og en kontekstfri grammatikk

Detaljer

INF 2820 V2016: Innleveringsoppgave 3 hele

INF 2820 V2016: Innleveringsoppgave 3 hele INF 2820 V2016: Innleveringsoppgave 3 hele Dette er det komplette settet! Besvarelsene skal leveres i devilry innen fredag 24.3 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil

Detaljer

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning CHART-PARSING FORMELL SPRÅKTEORI 5. mars 2012 2 Chart alternativ datastruktur NP Det Nom Fundamentalregelen NP Det Nom Nom Nom PP Nom Nom PP NP PP P NP Det

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning CHART-PARSING FORMELL SPRÅKTEORI 5. mars 2012 2 Chart alternativ datastruktur NP Det Nom Nom Nom PP NP PP P NP Det Nom, N P NP, PN 0 book 1 the 2 flight 3

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 20. januar 2012 2 Non-Determinism Speech and Language Processing - Jurafsky and Martin

Detaljer

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag 1 2 Tre1: Tre 2: Tre 3: 3 Det kan være lurt å bytte ut regel NP > NP og NP med NP > NP C NP C > og Grammatikk G blander terminaler og ikketerminaler

Detaljer

2/20/2012. I dag. Parsing. Recursive descent parser SÆRLIG TABELLPARSING. Venstre- og høyreavledning. Jan Tore Lønning

2/20/2012. I dag. Parsing. Recursive descent parser SÆRLIG TABELLPARSING. Venstre- og høyreavledning. Jan Tore Lønning INF2820 Datalingvistikk V2012 Jan Tore Lønning MER OM PARING, ÆRLIG TABELLPARING 20. februar 2012 2 hift-reduce parser (bottom-up) vakheter ved disse 20. februar 2012 3 Parsing Gitt en grammatikk G og

Detaljer

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen TABELLPARSING 1. mars 2011 2 I dag Oppsummering fra sist: Recursive-descent og Shift-reduce parser Svakheter med disse Tabellparsing: Dynamisk

Detaljer

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning INF2820 Datalingvistikk V2014 Forelesning 4, 6.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Regulære uttrykk: teoretiske og praktiske Begrensninger ved regulære språk Noen egenskaper

Detaljer

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 V2017 Oppgavesett 6 Gruppe 7.3 INF2820 V2017 Oppgavesett 6 Gruppe 7.3 Oppgave 1: Lag en kontekstfri grammatikk som beskriver samme språk som nettverket under. S a S S c S S b A1 A1 a S A1 c S A1 b A2 A2 c S A2 a S A2 b A3 A3 a A3 A3

Detaljer

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF 2820 V2016: Innleveringsoppgave 3 del 1 INF 2820 V2016: Innleveringsoppgave 3 del 1 Pga tekniske problemer er oppgaveteksten delt i to. Dette er første del. Andre del legges ut mandag 13.3! Besvarelsene skal leveres i devilry innen fredag 24.3

Detaljer

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 TABELLPARSING Jan Tore Lønning & Stephan Oepen 1. mars 2011 2 I dag Oppsummering fra sist: Recursive-descent og Shift-reduce parser Svakheter med disse Tabellparsing: Dynamisk

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2017 5. Gang - 13.2 Jan Tore Lønning I dag Tekstnormalisering: lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie

Detaljer

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK 19. januar 2017 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En

Detaljer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO UNIVERSITETET I OSLO Side 1 Det matematisk-naturvitenskapelige fakultet Eksamen i: INF2820 Datalingvistikk Eksamensdag: 14. juni 2016 Tid for eksamen: 1430-1830 Oppgavesettet er på 5 side(r) Vedlegg: 0

Detaljer

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

INF2820-V2018 Oppgavesett 10 Gruppe 18.4 INF2820-V2018 Oppgavesett 10 Gruppe 18.4 Chart-parsing med papir og penn Denne oppgaven tjener flere formål: Få bedre grep på chart-parsing See hvordan en chart-parser behandler venstrerekursjon Praktisk

Detaljer

INF 2820 V2018: Innleveringsoppgave 2

INF 2820 V2018: Innleveringsoppgave 2 INF 2820 V2018: Innleveringsoppgave 2 Besvarelsene skal leveres i devilry innen fredag 2.3 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil 100 poeng. Til sammen kan en få inntil

Detaljer

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning INF2820 Datalingvistikk V2015 Forelesning 4, 9.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Begrensninger ved regulære språk Regulære uttrykk: teoretiske og praktiske Noen egenskaper

Detaljer

Norsyg en syntaksbasert dyp parser for norsk

Norsyg en syntaksbasert dyp parser for norsk en syntaksbasert dyp parser for norsk Petter Haugereid petterha@hf.ntnu.no Institutt for språk- og kommunikasjonsstudier NTNU Språkteknologi ved NTNU, seminar VI, 30. november 2006 Oversikt 1 2 Oversikt

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 26. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 26. januar 2015

Detaljer

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 25. januar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som

Detaljer

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 3. februar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2014 2 DFA deterministisk endelig maskin Q = {q0, q1, q2,, qn-1} Strengt

Detaljer

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les Arne Skjærholt egende les Arne Skjærholt egende les σύνταξις Syntaks, fra gresk for oppstilling, er studiet av hvordan vi bygger opp setninger fra ord. Pāṇini (ca. 400 år f.kr.) er den første som formulerer

Detaljer

Slides til 12.1 Formelt språk og formell grammatikk

Slides til 12.1 Formelt språk og formell grammatikk Slides til 12.1 Formelt språk og formell grammatikk Andreas Leopold Knutsen April 6, 2010 Introduksjon Grammatikk er studiet av reglene som gjelder i et språk. Syntaks er læren om hvordan ord settes sammen

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 19. januar 2014 2 Naturlige språk En mann kjøpte en bil av en mann som hadde eid bilen i

Detaljer

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2012 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 17. januar 2012 2 Naturlige språk En mann kjøpte en bil av en mann som hadde

Detaljer

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning INF2820 Datalingvistikk V2014 Jan Tore Lønning INF2820 Datalingvistikk 19. januar 2014 2 I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Endelige tilstandsteknikker

Detaljer

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen til INF2820 Datalingvistikk Ole Johan Dahls hus 18. januar 2011 2 I dag: 0 Praktisk informasjon OBS: Lov å stille spørsmål underveis Forelesninger

Detaljer

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk Helge Dyvik Institutt for fonetikk og lingvistikk Universitetet i Bergen Sydnesplass 9 5000 Bergen Knut Hofland NA VFs EDB-senter fo r humanistisk forskning Postboks 53 5014 Bergen-Universitet Parsing

Detaljer

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK, DEL 2 19. januar 2017 2 Sist uke: FSA Brukes om hverandre: Finite state automaton - FSA

Detaljer

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning INF2820 Datalingvistikk V2018 10. Gang, del 2 19.3 Jan Tore Lønning TEKSTKLASSIFISERING 2 I dag: tekstklassifisering Tekstklassifisering og maskinlæring Eksempel: NLTK "Names" Ekseperimentelt oppsett 1

Detaljer

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning INF2820 Datalingvistikk V2018 5. Gang - 12.2 Jan Tore Lønning I dag Tokenisering, lemmatisering og «stemming» Tagget tekst og tagging Begrensninger ved regulære språk Frasestruktur og kontekstfrie grammatikker

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 23. januar 2015

Detaljer

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning INF2820 Datalingvistikk V2016 Forelesning 4, 10.2 Jan Tore Lønning I dag Ord Begrensninger med regulære språk Regulære uttrykk i praksis Utvidete regulære uttrykk Frasestruktur og kontekstfrie grammatikker

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2014 13. gang, 10.4.2014 Jan Tore Lønning I dag Introduksjon til semantikk Formell semantikk grunnideene Logikk i NLTK 2 Semantikk Semantikk= studiet av mening Lingvistisk semantikk

Detaljer

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning INF2820 Datalingvistikk V2015 Jan Tore Lønning INF2820 Datalingvistikk 21. januar 2015 2 I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Endelige tilstandsteknikker

Detaljer

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning INF2820 Datalingvistikk V2015 13. gang, 27.4.2015 Jan Tore Lønning Semantikk noen poeng fra sist Vi legger vekt på at språket er om noe det denotasjonelle aspektet ved mening Det logiske forholdet mellom

Detaljer