INF2820 Datalingvistikk V2012 Jan Tore Lønning
BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER 2
I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie grammatikker 4. Forholdet mellom kontekstfrie og regulære språk 3
Begrensninger ved regulære språk Regulære språk er ikke ideelle modeller for naturlige språk, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige språk fordi: 1. Det er ikke sikkert naturlige språk er regulære (dvs regelmessige nok) 2. Mindre mønstre forekommer flere steder og må skrives ut fullt hvert sted, f. eks. DET (ADJ) n N 3. Naturlige språk har en hierarkisk struktur som ikke fanges opp 4
Formelle språk som ikke er regulære Notasjon: w = n er antall symboler i strengen w. Gitt en DFA over alfabetet A, kalt M. Anta at L(M) er uendelig. M har et visst antall tilstander n. La w L(M) og w >n. Når M leser w, må det finnes en tilstand s som w er innom to forskjellige steder i w. ( pigeon hole principle ), mao: w kan skrives på formen xyz der y >0 og M er i samme tilstand etter xy som etter x (og etter xyy ) Da må xy n z L(M) for alle n. (Pumpelemmaet for regulære språk). 5
Eksempler, A={a,b,c} Regulære L = {w w > 10 000 000} L = {w w inneholder sekvensen abc} L = {w w inneholder 118 a-er} Ikke-regulære L={w w w A*} L={w w R w A*} L={a n b n } 6. februar 2012 6
Er naturlige språk regulære som Et Kari kjente en mann så løp barn by fra Kan vi beskrive syntaksen til setninger i naturlige språk med regulære uttrykk/fsa? Antatt ikke pga center embedding (Chomsky, Syntactic structures, 1957)
Center embedding Regulært Barnet smilte. Barnet, som eide hunden, smilte. Barnet, som eide hunden, som elsket katta, smilte. Barnet, som eide hunden, som elsket katta, som jagde musa, smilte. NP, (som TV NP,)* VP Ikke regulært Musa rømte. Musa, som katta jagde, rømte. Musa, som katta, som hunden elsket, jagde, rømte. Musa, som katta, som hunden, som barnet eide, elsket, jagde, rømte. NP (, som NP,) n (TV,) n VP Kan dette gjentas for alle n? 8
Chomsky&Miller (1963): 9
I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie grammatikker 4. Forholdet mellom kontekstfrie og regulære språk 10
Naturlige språk som formelle språk Et formelt språk består av: En endelig mengde A Ø En delmengde L A* Begrensninger: Bare to nivåer: Symboler Strenger Ingen indre struktur Naturlige språk, alt. 1 Hvert norsk ord oppfattes om et symbol Setninger er strenger av ord Men hva med: Ordenes indre struktur Setninger mer enn strenger har struktur Naturlige språk, alt. 2 Hver lyd (eller bokstav) oppfattes som et symbol Setninger er strenger av lyder/bokstaver Men hva med: At det fins ord mellom lyder og setninger Setninger har struktur 6. februar 2012 11
Ordklasser/ Part of speech N V N Jenta spiste eplet N V jenta, gutten, potetene, sola,.. spiste, så, likte, kastet, (Forenklet:) Ord av samme klasse kan erstatte hverandre: Gutten spiste eplet. Jenta så potetene. Ord av forskjellige klasser kan ikke alltid erstatte hverandre: *Gutten jenta potetene. *Spiste så potetene. 6. februar 2012 12
Noen ordklasser Klasse Underklasser (føyes til senere) Eksempler V verb kastet, spiser, løper, er, N A nomen, substantiv, noun adjektiv Fellesnavn, common noun, CN Egennavn, proper name jenta, gutter, barna, potetene, Per, Kari, Michelle, Bill, P preposisjon på, under, ved, Det Bestemmer, determiner Pronomen en, enhver, noen, ingen, jeg, du, oss, min, 6. februar 2012 13
Bøyning/infleksjon Entall N, substantiv Flertall Ubestemt Bestemt Ubestemt Bestemt gutt gutten gutter guttene jente jenta jenter jentene barn barnet barn barna V, verb infinitiv presens preteritum perfektum imperativ Adjektiv, avledning kaste kaster kastet kasta bygge bygger bygde bygget kastet kasta bygd bygget Abstrakt trekk Ubest+flertall preteritum Skille Realisering -er, -, -et, -de, -et, Substantiv, avledning kast kastende kasting bygg byggende bygging gå går gikk gått gå gående gåing 6. februar 2012 14
Ordform - trekk En fullform av et ord vil ha en del trekk ( features ) Noen av disse er inherente og felles for alle former av et leksem: Kjønn/ gender for substantiv Jente/jenta/jenter/jentene er femininum Transitivitet(stype) for verb Kaste/kaster/kastet/kast tar nomen-komplementet Vite/vet/visste/visst tar komplementsetning (at ) Andre er spesifikke for formen av ordet, Jfr. forrige foil Kjønn for adjektiv Begge typer er avgjørende for hvor ordet kan forekomme: Ei jente *et jente *ei jenta 6. februar 2012 15
Fraser NP Jenta Den lille hunden Hunden fra Moss Du V spiste likte så VP NP eplet et stort, grønt eple eplet som Per hadde kjøpt det Frase: sekvens av ord som hører sammen, her: NP, VP Forskjellige fraser av samme kategori oppfører seg ganske likt Fraser kan delvis identifiseres ved at de kan Koordineres: Du og barna dine, stjal en bil og stakk misplasseres Hvis noe opptrer på en unormal plass er det gjerne en frase 6. februar 2012 16
Frasestruktur En setning er hierarkisk ordnet i fraser 6. februar 2012 17
I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie grammatikker 4. Forholdet mellom kontekstfrie og regulære språk 18
Context-Free Grammars Terminals We ll take these to be words (for now) Non-Terminals The constituents in a language Like noun phrase, verb phrase and sentence Rules Rules are equations that consist of a single nonterminal on the left and any number of terminals and non-terminals on the right. 2/6/2012 Speech and Language Processing - Jurafsky and Martin 19
som Kari kjente en mann Et barn så løp by Kontekstfrie frasestruktur-grammatikker (CF P-SG) S NP VP NP DET N VP IV VP TV NP NP NP som VP NP NP PP PP P NP NP kari ola N barn by mann fra På BNF (Backus-Naur Form) S ::= NP VP NP ::= DET N NP som VP NP PP kari ola VP ::= IV TV NP PP ::= P NP N ::= barn by mann
Eksempelgrammatikk L0 6. februar 2012 21
Leksikalske regler i L0 OBS L0 er ikke lingvistisk realistisk men illustrerer formalismen 6. februar 2012 22
Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk 2/6/2012 Speech and Language Processing - Jurafsky and Martin 23
Hva betyr kontekstfri? Generell frasestrukturgrammatikk: venstresiden kan være en vilkårlig symbolstreng: α β Kontekstfri grammatikk = kontekstfri frasestrukturgrammatikk: Venstresiden består av én ikke-terminal A β 2/6/2012 Speech and Language Processing - Jurafsky and Martin 24
Konvensjoner Forenkling, kan skrive A β γ δ for A β A γ A δ 6. februar 2012 25
Avledning α β, leses: β kan direkte avledes fra α dersom: α har formen γ C δ for en ikke-terminal C det er en regel på formen C ψ og β = γ ψ δ α 1 * α m, leses: α m kan avledes fra α 1 dersom: det fins en sekvens α 1, α 2,, α m der m>1, og α i α i+1 En kontekstfri grammatikk G generer språket L(G) = { w A* S * w} 6. februar 2012 26
Eksempel Eksempler på tavla Samme streng kan avledes på flere måter Er vi interessert i dette? Noen ganger Andre ganger ikke 6. februar 2012 27
Trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: B s1 s2.. sn 6. februar 2012 28
Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme ( yield ) av treet t er symbolene på bladene i riktig rekkefølge Forkortelse: hviss for hvis og bare hvis En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). 6. februar 2012 29
Ekvivalens To grammatikker, G1 og G2, er (svakt) ekvivalente hvis og bare hvis L(G1)=L(G2) G1 og G2 er sterkt ekvivalente hvis T(G1)=T(G2) 6. februar 2012 30
I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie grammatikker 4. Forholdet mellom kontekstfrie og regulære språk 31
Fra regulært til kontekstfritt S svarer til starttilstand En ikketerminal per tilstand: S, A1, A2, A3 En regel per transisjon: S a A1 A1 b A2 A2 b S A2 c A3 A3 c A1 En regel per sluttilstand A3 ε Ethvert regulært språk kan beskrives av en kontekstfri grammatikk 6. februar 2012 32
Kontekstfrie og regulære språk Alle regulære språk er kontekstfrie Det fins kontekstfrie språk som ikke er regulære. En CF grammatikk er høyrelinjær hviss: Høyresidene i reglene ikke inneholder mer enn en ikke-terminal. Og den må stå lengst til høyre Venstrelinjær defineres tilsvarende Konstruksjonen forrige slide: Ethvert regulært språk kan beskrives av en høyrelinjær grammatikk 6. februar 2012 33
Kontekstfrie og regulære språk Hvis L=L(G) og G er høyrelinjær så er L regulært. Hvis L=L(G) og G er venstrelinjær, så er L regulært. OBS, L=L(G) kan være regulær selv om G verken er høyre- eller venstrelinjær. Hvorfor? 6. februar 2012 34
Eksempel A = {a, b, c} S A S a A A b c A A c b A A a a B B b C C c C C a Lag DFA 6. februar 2012 35
Kontekstfrie og regulære språk Alle regulære språk er kontekstfrie Det fins kontekstfrie språk som ikke er regulære: L = {a n b n n > 1} S ab S asb 6. februar 2012 36