2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

Like dokumenter
INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, Jan Tore Lønning

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Slides til 12.1 Formelt språk og formell grammatikk

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 hele

Eksamen INF2820 Datalingvistikk, H2018, Løsningsforslag

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

UNIVERSITETET I OSLO

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Oppgave 2. Eksamen INF2820, 2015, oppgave 2. La gramatikk G være:

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

Norsk minigrammatikk bokmål

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF 2820 V2018: Innleveringsoppgave 3

INF 2820 V2018: Innleveringsoppgave 2

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

INF3110 Programmeringsspråk

Kap. 5, del 1: Parsering nedenfra-opp (Bottom-up parsering) INF / Stein Krogdahl Ifi, UiO

Hvor er vi nå - kap. 3 (+4,5)? Forenklet skisse av hva en parser gjør PARSER. Kontekstfrie grammatikker og syntaksanalyse (parsering)

IN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

Kap. 5, Del 3: INF5110, fra 1/3-2011

INF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning

Repetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

Kap. 5, del 1: Parsering nedenfra-opp (Bottom up parsing) INF5110. Stein Krogdahl Ifi, UiO

Oppgave 1 (samlet 40%)

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

van Baar Språkservice Substantiv 2015 Substantiv: Hovedregel

Transkript:

INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi: 1. Det er ikke sikkert naturlige er regulære (dvs regelmessige nok) 2. Mindre mønstre forekommer flere steder og må skrives ut fullt hvert sted, f. eks. DET (ADJ) n N 3. Naturlige har en hierarkisk struktur som ikke fanges opp 4 BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER Formelle som ikke er regulære Notasjon: w = n er antall symboler i strengen w. Gitt en DFA over alfabetet A, kalt M. Anta at L(M) er uendelig. M har et visst antall tilstander n. La w L(M) og w >n. Når M leser w, må det finnes en tilstand s som w er innom to forskjellige steder i w. ( pigeon hole principle ), mao: w kan skrives på formen xyz der y >0 og M er i samme tilstand etter xy som etter x (og etter xyy ) Da må xy n z L(M) for alle n. (Pumpelemmaet for regulære ). 2 5 Eksempler, A={a,b,c} 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Regulære L = {w w > 10 000 000} L = {w w inneholder sekvensen abc} L = {w w inneholder 118 a-er} Ikke-regulære L={w w w A*} L={w w R w A*} L={a n b n } 3 6. februar 2012 6 1

Er naturlige regulære Et som Kari kjente en mann så by løp barn fra 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Kan vi beskrive syntaksen til setninger i naturlige med regulære uttrykk/fsa? Antatt ikke pga center embedding (Chomsky, Syntactic structures, 1957) 10 Center embedding Regulært Barnet smilte. Barnet, som eide hunden, smilte. Barnet, som eide hunden, som elsket katta, smilte. Barnet, som eide hunden, som elsket katta, som jagde musa, smilte. NP, (som TV NP,)* VP Ikke regulært Musa rømte. Musa, som katta jagde, rømte. Musa, som katta, som hunden elsket, jagde, rømte. Musa, som katta, som hunden, som barnet eide, elsket, jagde, rømte. NP (, som NP,) n (TV,) n VP Kan dette gjentas for alle n? 8 Naturlige som formelle Et formelt består av: En endelig mengde A Ø En delmengde L A* Naturlige, alt. 1 Hvert norsk ord oppfattes ftt om et symbol Setninger er strenger av ord Men hva med: Ordenes indre struktur Setninger mer enn strenger har struktur Begrensninger: Bare to nivåer: Symboler Strenger Ingen indre struktur Naturlige, alt. 2 Hverlyd (eller bokstav) oppfattes som et symbol Setninger er strenger av lyder/bokstaver Men hva med: At det fins ord mellom lyder og setninger Setninger har struktur 6. februar 2012 11 Chomsky&Miller (1963): Ordklasser/ Part of speech N V N Jenta spiste eplet N V jenta, gutten, potetene, sola,.. spiste, så, likte, kastet, (Forenklet:) Ord av samme klasse kan erstatte hverandre: Gutten spiste eplet. Jenta så potetene. Ord av forskjellige klasser kan ikke alltid erstatte hverandre: *Gutten jenta potetene. *Spiste så potetene. 9 6. februar 2012 12 2

Noen ordklasser Klasse Underklasser (føyes til senere) Eksempler V verb kastet, spiser, løper, er, N nomen, substantiv, noun Fellesnavn, common noun, CN Egennavn, proper name jenta, gutter, barna, potetene, Per, Kari, Michelle, Bill, A adjektiv P preposisjon på, under, ved, Det Bestemmer, en, enhver, noen, ingen, determiner Pronomen jeg, du, oss, min, 6. februar 2012 13 Fraser NP Jenta Den lille hunden Hunden fra Moss Du V spiste likte så VP NP eplet et stort, grønt eple eplet som Per hadde kjøpt det Frase: sekvens av ord som hører sammen, her: NP, VP Forskjellige fraser av samme kategori oppfører seg ganske likt Fraser kan delvis identifiseres ved at de kan Koordineres: Du og barna dine, stjal en bil og stakk misplasseres Hvis noe opptrer på en unormal plass er det gjerne en frase 6. februar 2012 16 Bøyning/infleksjon N, substantiv Entall Flertall Ubestemt Bestemt Ubestemt Bestemt gutt gutten gutter guttene jente jenta jenter jentene barn barnet barn barna V, verb Skille Abstrakt trekk Realisering Ubest+flertall er,, preteritum et, de, et, infinitiv presens preteritum perfektum imperativ Adjektiv, avledning kaste kaster kastet kasta bygge bygger bygde bygget kastet kasta bygd bygget Substantiv, avledning kast kastende kasting bygg byggende bygging gå går gikk gått gå gående gåing 6. februar 2012 14 Frasestruktur En setning er hierarkisk ordnet i fraser 6. februar 2012 17 Ordform - trekk En fullform av et ord vil ha en del trekk ( features ) Noen av disse er inherente og felles for alle former av et leksem: Kjønn/ gender for substantiv Jente/jenta/jenter/jentene er femininum Transitivitet(stype) for verb Kaste/kaster/kastet/kast tar nomen-komplementet Vite/vet/visste/visst tar komplementsetning (at ) Andre er spesifikke for formen av ordet, Jfr. forrige foil Kjønn for adjektiv 1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Begge typer er avgjørende for hvor ordet kan forekomme: Ei jente *et jente *ei jenta 6. februar 2012 15 18 3

Context-Free Grammars Leksikalske regler i L0 Terminals We ll take these to be words (for now) Non-Terminals The constituents in a language Like noun phrase, verb phrase and sentence Rules Rules are equations that consist of a single nonterminal on the left and any number of terminals and non-terminals on the right. OBS L0 er ikke lingvistisk realistisk men illustrerer formalismen 2/6/2012 Speech and Language Processing - Jurafsky and Martin 19 6. februar 2012 22 Et som Kari kjente en mann så by løp barn fra Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk Kontekstfrie frasestruktur-grammatikker (CF P-SG) S NP VP NP DET N VP IV VP TV NP NP NP som VP NP NP PP PP P NP NP kari ola N barn by mann På BNF (Backus-Naur Form) S ::= NP VP NP ::= DET N NP som VP NP PP kari ola VP ::= IV TV NP PP ::= P NP N ::= barn by mann 2/6/2012 Speech and Language Processing - Jurafsky and Martin 23 Eksempelgrammatikk L0 Hva betyr kontekstfri? Generell frasestrukturgrammatikk: venstresiden kan være en vilkårlig symbolstreng: Kontekstfri grammatikk = kontekstfri frasestrukturgrammatikk: Venstresiden består av én ikke-terminal A 6. februar 2012 21 2/6/2012 Speech and Language Processing - Jurafsky and Martin 24 4

Konvensjoner Forenkling, kan skrive A for A A A Trær Et lokalt tre: En node som ikke er et blad Alle døtrene Rekkefølgen mellom døtrene Kantene mellom mor og datter En regel B s1, s2,, sn tillater ( license ) et lokalt tre hvis og bare hvis det har formen: B s1 s2.. sn 6. februar 2012 25 6. februar 2012 28 Avledning, leses: kan direkte avledes fra dersom: har formen C for en ikke-terminal C det er en regel på formen C og = 1 * m, leses: m kan avledes fra 1 dersom: det fins en sekvens 1, 2,, m der m>1, og i i+1 En kontekstfri grammatikk G generer et L(G) = { w A* S * w} Trær En CFG G, generer et tre t hviss Toppen av t er merket med S Bladene er merket med terminaler Hvert lokalt tre er tillatt av en produksjonsregel T(G) for mengde av trær generert av G Utkomme( yield ) av treet t er Forkortelse: symbolene på bladene i riktig hviss for rekkefølge hvis og bare hvis En streng w er avledbar fra G hviss w er utkomme til et tre i T(G). 6. februar 2012 26 6. februar 2012 29 Eksempel Eksempler på tavla Samme streng kan avledes på flere måter Er vi interessert i dette? Noen ganger Andre ganger ikke Ekvivalens To grammatikker, G1 og G2, er (svakt) ekvivalente hvis og bare hvis L(G1)=L(G2) G1 og G2 er sterkt ekvivalente hvis T(G1)=T(G2) 6. februar 2012 27 6. februar 2012 30 5

1. Begrensninger ved regulære 2. Noen egenskaper ved naturlige Kontekstfrie og regulære Hvis L=L(G) og G er høyrelinjær så er L regulært. Hvis L=L(G) og G er venstrelinjær, så er L regulært. OBS, L=L(G) kan være regulær selv om G verken er høyre eller venstrelinjær. Hvorfor? 31 6. februar 2012 34 Fra regulært til kontekstfritt Eksempel S svarer til starttilstand En ikketerminal per tilstand: S, A1, A2, A3 En regel per transisjon: S a A1 A1 b A2 A2 b S A2 c A3 A3 c A1 En regel per sluttilstand A3 Ethvert regulært kan beskrives av en kontekstfri grammatikk A = {a, b, c} S A S a A A b c A A c b A A a a B B b C C c C C a Lag DFA 6. februar 2012 32 6. februar 2012 35 Kontekstfrie og regulære Alle regulære er kontekstfrie Det fins kontekstfrie som ikke er regulære. En CF grammatikk er høyrelinjær hviss: Høyresidene i reglene ikke inneholder mer enn en ikke-terminal. Og den må stå lengst til høyre Venstrelinjær defineres tilsvarende Kontekstfrie og regulære Alle regulære er kontekstfrie Det fins kontekstfrie som ikke er regulære: L = {a n b n n > 1} S ab S asb Konstruksjonen forrige slide: Ethvert regulært kan beskrives av en høyrelinjær grammatikk 6. februar 2012 33 6. februar 2012 36 6