INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi: 1. Det er ikke sikkert naturlige er regulære (dvs regelmessige nok) 2. Mindre mønstre forekommer flere steder og må skrives ut fullt hvert sted, f. eks. DET (ADJ) n N 3. Naturlige har en hierarkisk struktur som ikke fanges opp 4 BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER Formelle som ikke er regulære Notasjon: w = n er antall symboler i strengen w. Gitt en DFA over alfabetet A, kalt M. Anta at L(M) er uendelig. M har et visst antall tilstander n. La w L(M) og w >n. Når M leser w, må det finnes en tilstand s som w er innom to forskjellige steder i w. ( pigeon hole principle ), mao: w kan skrives på formen xyz der y >0 og M er i samme tilstand etter xy som etter x (og etter xyy ) Da må xy n z L(M) for alle n. (Pumpelemmaet for regulære ). 2 5 Eksempler, A={a,b,c} 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Regulære L = {w w > 10 000 000} L = {w w inneholder sekvensen abc} L = {w w inneholder 118 a-er} Ikke-regulære L={w w w A*} L={w w R w A*} L={a n b n } 3 6. februar 2012 6 1
Er naturlige regulære Et som Kari kjente en mann så by løp barn fra 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Kan vi beskrive syntaksen til setninger i naturlige med regulære uttrykk/fsa? Antatt ikke pga center embedding (Chomsky, Syntactic structures, 1957) 10 Center embedding Regulært Barnet smilte. Barnet, som eide hunden, smilte. Barnet, som eide hunden, som elsket katta, smilte. Barnet, som eide hunden, som elsket katta, som jagde musa, smilte. NP, (som TV NP,)* VP Ikke regulært Musa rømte. Musa, som katta jagde, rømte. Musa, som katta, som hunden elsket, jagde, rømte. Musa, som katta, som hunden, som barnet eide, elsket, jagde, rømte. NP (, som NP,) n (TV,) n VP Kan dette gjentas for alle n? 8 Naturlige som formelle Et formelt består av: En endelig mengde A Ø En delmengde L A* Naturlige, alt. 1 Hvert norsk ord oppfattes ftt om et symbol Setninger er strenger av ord Men hva med: Ordenes indre struktur Setninger mer enn strenger har struktur Begrensninger: Bare to nivåer: Symboler Strenger Ingen indre struktur Naturlige, alt. 2 Hverlyd (eller bokstav) oppfattes som et symbol Setninger er strenger av lyder/bokstaver Men hva med: At det fins ord mellom lyder og setninger Setninger har struktur 6. februar 2012 11 Chomsky&Miller (1963): Ordklasser/ Part of speech N V N Jenta spiste eplet N V jenta, gutten, potetene, sola,.. spiste, så, likte, kastet, (Forenklet:) Ord av samme klasse kan erstatte hverandre: Gutten spiste eplet. Jenta så potetene. Ord av forskjellige klasser kan ikke alltid erstatte hverandre: *Gutten jenta potetene. *Spiste så potetene. 9 6. februar 2012 12 2
Noen ordklasser Klasse Underklasser (føyes til senere) Eksempler V verb kastet, spiser, løper, er, N nomen, substantiv, noun Fellesnavn, common noun, CN Egennavn, proper name jenta, gutter, barna, potetene, Per, Kari, Michelle, Bill, A adjektiv P preposisjon på, under, ved, Det Bestemmer, en, enhver, noen, ingen, determiner Pronomen jeg, du, oss, min, 6. februar 2012 13 Fraser NP Jenta Den lille hunden Hunden fra Moss Du V spiste likte så VP NP eplet et stort, grønt eple eplet som Per hadde kjøpt det Frase: sekvens av ord som hører sammen, her: NP, VP Forskjellige fraser av samme kategori oppfører seg ganske likt Fraser kan delvis identifiseres ved at de kan Koordineres: Du og barna dine, stjal en bil og stakk misplasseres Hvis noe opptrer på en unormal plass er det gjerne en frase 6. februar 2012 16 Bøyning/infleksjon N, substantiv Entall Flertall Ubestemt Bestemt Ubestemt Bestemt gutt gutten gutter guttene jente jenta jenter jentene barn barnet barn barna V, verb Skille Abstrakt trekk Realisering Ubest+flertall er,, preteritum et, de, et, infinitiv presens preteritum perfektum imperativ Adjektiv, avledning kaste kaster kastet kasta bygge bygger bygde bygget kastet kasta bygd bygget Substantiv, avledning kast kastende kasting bygg byggende bygging gå går gikk gått gå gående gåing 6. februar 2012 14 Frasestruktur En setning er hierarkisk ordnet i fraser 6. februar 2012 17 Ordform - trekk En fullform av et ord vil ha en del trekk ( features ) Noen av disse er inherente og felles for alle former av et leksem: Kjønn/ gender for substantiv Jente/jenta/jenter/jentene er femininum Transitivitet(stype) for verb Kaste/kaster/kastet/kast tar nomen-komplementet Vite/vet/visste/visst tar komplementsetning (at ) Andre er spesifikke for formen av ordet, Jfr. forrige foil Kjønn for adjektiv 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Begge typer er avgjørende for hvor ordet kan forekomme: Ei jente *et jente *ei jenta 6. februar 2012 15 18 3
Context-Free Grammars Leksikalske regler i L0 Terminals We ll take these to be words (for now) Non-Terminals The constituents in a language Like noun phrase, verb phrase and sentence Rules Rules are equations that consist of a single nonterminal on the left and any number of terminals and non-terminals on the right. OBS L0 er ikke lingvistisk realistisk men illustrerer formalismen 2/6/2012 Speech and Language Processing - Jurafsky and Martin 19 6. februar 2012 22 Et som Kari kjente en mann så by løp barn fra Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk Kontekstfrie frasestruktur-grammatikker (CF P-SG) S NP VP NP DET N VP IV VP TV NP NP NP som VP NP NP PP PP P NP NP kari ola N barn by mann På BNF (Backus-Naur Form) S ::= NP VP NP ::= DET N NP som VP NP PP kari ola VP ::= IV TV NP PP ::= P NP N ::= barn by mann 2/6/2012 Speech and Language Processing - Jurafsky and Martin 23 Eksempelgrammatikk L0 Hva betyr kontekstfri? Generell frasestrukturgrammatikk: venstresiden kan være en vilkårlig symbolstreng: Kontekstfri grammatikk = kontekstfri frasestrukturgrammatikk: Venstresiden består av én ikke-terminal A 6. februar 2012 21 2/6/2012 Speech and Language Processing - Jurafsky and Martin 24 4
Konvensjoner Forenkling, kan skrive A for A A A Trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: B s1 s2.. sn 6. februar 2012 25 6. februar 2012 28 Avledning, leses: kan direkte avledes fra dersom: har formen C for en ikke-terminal C det er en regel på formen C og = 1 * m, leses: m kan avledes fra 1 dersom: det fins en sekvens 1, 2,, m der m>1, og i i+1 En kontekstfri grammatikk G generer et L(G) = { w A* S * w} Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme( yield ) av treet t er Forkortelse: symbolene på bladene i riktig hviss for rekkefølge hvis og bare hvis En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). 6. februar 2012 26 6. februar 2012 29 Eksempel Eksempler på tavla Samme streng kan avledes på flere måter Er vi interessert i dette? Noen ganger Andre ganger ikke Ekvivalens To grammatikker, G1 og G2, er (svakt) ekvivalente hvis og bare hvis L(G1)=L(G2) G1 og G2 er sterkt ekvivalente hvis T(G1)=T(G2) 6. februar 2012 27 6. februar 2012 30 5
1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Kontekstfrie og regulære Hvis L=L(G) og G er høyrelinjær så er L regulært. Hvis L=L(G) og G er venstrelinjær, så er L regulært. OBS, L=L(G) kan være regulær selv om G verken er høyre eller venstrelinjær. Hvorfor? 31 6. februar 2012 34 Fra regulært til kontekstfritt Eksempel S svarer til starttilstand En ikketerminal per tilstand: S, A1, A2, A3 En regel per transisjon: S a A1 A1 b A2 A2 b S A2 c A3 A3 c A1 En regel per sluttilstand A3 Ethvert regulært kan beskrives av en kontekstfri grammatikk A = {a, b, c} S A S a A A b c A A c b A A a a B B b C C c C C a Lag DFA 6. februar 2012 32 6. februar 2012 35 Kontekstfrie og regulære Alle regulære er kontekstfrie Det fins kontekstfrie som ikke er regulære. En CF grammatikk er høyrelinjær hviss: Høyresidene i reglene ikke inneholder mer enn en ikke-terminal. Og den må stå lengst til høyre Venstrelinjær defineres tilsvarende Kontekstfrie og regulære Alle regulære er kontekstfrie Det fins kontekstfrie som ikke er regulære: L = {a n b n n > 1} S ab S asb Konstruksjonen forrige slide: Ethvert regulært kan beskrives av en høyrelinjær grammatikk 6. februar 2012 33 6. februar 2012 36 6