INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning
|
|
- Ørjan Danielsen
- 6 år siden
- Visninger:
Transkript
1 INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning
2 ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK, DEL januar
3 Sist uke: FSA Brukes om hverandre: Finite state automaton - FSA Finite automaton FA Finite state machine - FSM Kan betraktes som Notasjoner for å beskrive språk Notasjon for en automat som leser en tape og skifter tilstand for hvert symbol den leser 1/19/2017 Speech and Language Processing - Jurafsky and Martin 3
4 Hva har vi lært? Definisjon av deterministiske endelige tilstandsautomater Hvordan disse definerer et språk Hvordan vi kan konstruere en DFA for komplementet til en språk definert av en DFA Algoritme for anerkjenning med DFA går i linjær tid 19. januar
5 IKKE-DETERMINISTISKE AUTOMATER 19. januar
6 Non-Determinism Speech and Language Processing - Jurafsky and Martin 6
7 Ikke-determinisme er nyttig Kari elsket sin hund. Kari elsket sin hund og venn. Kari elsket sin hund og beundret en venn. Kari elsket sin hund og Ola beundret en venn. Kari elsket sin hund og venn og beundret en venn og Ola beundret en hund og elsket sin venn. 7
8 Non-Determinism cont. Yet another technique Epsilon transitions Key point: these transitions do not examine or advance the tape during recognition Speech and Language Processing - Jurafsky and Martin 8
9 Yet Another View Gå til tilstand 2 eller gå til tilstand 3 The guts of FSAs can ultimately be represented as tables If you re in state 1 and you re looking at an a, go to state 2 b a! e , Speech and Language Processing - Jurafsky and Martin 9
10 Formell definisjon En ikkedeterministisk endelig maskin (NFA) består av 1. En endelig mengde av tilstander: Q= {q 0, q 1,, q N 1 } 2. Et endelig alfabet av symboler: 3. En begynnertilstand: q 0 Q 4. En mengde av sluttilstander F Q 5. En transisjonsfunksjon som til hver q Qog a { } gir en delmengde av Q (Denne kan være tom) (5) Kan også formuleres som at D er en relasjon på Q { } Q Sammenhengen er at D(q1, s, q2) hvis og bare hvis q2 (q1, s) 10 1/19/2017
11 NFA ikkedeterministisk endelig maskin Enhver DFA er også en NFA! forvirrende? Kanskje burde NFA hett FA? Men DFA (=FA) kom først Det finnes NFA-er som ikke er DFA-er Men hvis et språk kan beskrives av en NFA, så fins det også en DFA som beskriver språket. Ikke opplagt Trengs et bevis NFA DFA
12 Fra NFA til DFA for samme språk Oppskrift, (uformell) gitt DFA kalt M1 Lag en ny automat M2 med en tilstand for hver mengde av tilstander i M1. Her 8 stk:, {0}, {1}, {2}, {0,1}, {0,2}, {1,2}, {0,1,2} For hver ny tilstand Qi={q 1,, q n } og symbol a, lag kant til tilstanden Qj som består av alle tilstander q som det går kant til fra minst en av q 1,, q n merket med a. I praksis trenger vi ikke alltid å lage alle tilstandene (Vi lager kantene, og de tilstandene vi kan nå med en sti fra starten.) 12
13 Fra NFA til DFA for samme språk 13
14 Fra NFA til DFA for samme språk 14
15 Fra NFA til DFA for samme språk 15
16 Fra NFA til DFA for samme språk 16
17 Fra NFA til DFA for samme språk 17
18 Fra NFA til DFA uten -kanter Gitt en NFA uten -kanter: N= Q, q0,, F, Definer en DFA, D= Q D, Q 0D, D, F D, D ved: Q D = Pow(Q) = {Ø, {q0}, {q1}, {q0, q1}, } Q 0D = {q0} D = F D = { Qi Q Qi F } For en tilstand Qi={q1, q2, qk}, og symbol s : D (Qi,s) = (q1,s) (q2,s) (qk,s) (Hvis det ikke finnes noen sti fra Q 0D til Q i, kan vi fjerne Q i ). Observasjon: For et ord w=x 1 x 2 x m, vil D være i en (eller annen) tilstand Qi For samme w vil N kunne være i en tilstand q hvis og bare hvis q Qi Altså vil D og N anerkjenne de samme ordene. 18
19 -transisjoner og epsilontillukning For enhver tilstand q er epsilontillukningen, E(q), mengden av tilstander som nås fra q med transisjoner. Dette generaliserer til mengder av tilstander: E({q1, q2,, qi}) = E(q1) E(q2) E(qi) altså mengden av tilstander som kan nås fra minst en q1,, qn med transisjoner (Formelt er E(s) minste mengde s.a.: s E(s) Hvis t E(s) og u (t, ) så er u E(s) ) 19
20 Vis omforming til DFA 20
21 Fra NFA til DFA generelt Gitt en NFA: N= Q, q0,, F, Definer en DFA, D= Q D, Q0 D, D, F D, D ved: Q D = Pow(Q) = {Ø, {q0}, {q1}, {q0, q1}, } Q0 D = E( {q0}) D = F D = { Qi Q E(Qi) F } For en tilstand Qi={q1, q2, qk}, og symbol s : D (Qi,s) = E( (q1,s) (q2,s) (qk,s)) (Hvis det ikke finnes noen sti fra Q 0D til Q i, kan vi fjerne Q i ). Observasjon: For et ord w=x 1 x 2 x m, vil D være i en (eller annen) tilstand Qi For samme w vil N kunne være i en tilstand q hvis og bare hvis q Qi Altså vil D og N anerkjenne de samme ordene. 21
22 Fotnote: NFA en litt annen definisjon NFA, def. Pkt. 5 er en funksjon som til hver tilstand q Q og symbol s { } gir en delmengde (q,s) av Q. Vi vil bruke def.1 definisjon: i det formelle I Python impl. NFA, alternativ def, pkt. 5 er en funksjon som til hver tilstand q Q og symbolsekvens s * gir en delmengde (q,s) av Q. Alternativt D er en relasjon på Q * Q JFLAP bruker def 2. Strengt tatt gir def. 2 en større klasse av automater, men lett å vise at for ethvert språk definert av automat av def.2 finnes en automat av def. 1 (oppgave)
23 Hva har vi lært? Definisjon av ikkedeterministiske endelige tilstandsautomater (NFA) Hvordan disse definerer et språk Hvordan vi gitt en NFA kan konstruere en DFA for det samme språket 19. januar
24 Formelle språk Et formelt språk består av: En endelig mengde A Ø En delmengde L A* Merk A* er alle mulige strenger over A er den tomme strengen (skrives også og ). Ø er det tomme språket Ø { } Eksempel 1 A = {a, b, c} A* = {, a, b, c, aa, ab, ac, ba,, cccc, } L ={x A* x inneholder nøyaktig to a er} Eksempel 2 A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} L ={x A* x begynner ikke med 0} {0} 19. januar
25 Mengdeoperasjoner på språk Siden språk er mengder kan vi gjøre mengdeoperasjoner Hvis <A, L> og <A, M> er to språk, så er L M, unionen av L og M L M, snittet av L og M A* L, komplementet til L språk (Merk at L eller A* L, men ikke begge) Eksempel 6 A = {a, b, c,, æ, ø, å} L = mengden av norske ord. M = mengden av engelske ord. L M er ord som fins i begge språkene, = {i, ad, al, be, by,, cup, union, } A* L er alle bokstavsekvenser som ikke er norske ord= {bb, bbb, bbbb, } L M er alle bokstavsekvenser som er et ord i minst ett av de to språkene 19. januar
26 Flere operasjoner Konkatenering Hvis s og t er to strenger skriver vi s t (eller bare st) for konkateneringen av dem Eks s= abc, t=ca, s t=abcca Hvis <A, L> og <A, M> er to språk, så er konkateneringen LM = {s t s L& t M} Kleene stjerne Hvis <A, L> er et språk, så er L* alle mulige konkateneringer av et endelig antall strenger fra L. Formelt: L* er minste mengde s.a.: L* Hvis s L* og t L så er s t L* 19. januar
27 Regulære språk Definisjon av regulære språk 1. Språkene Ø { } { a } for alle a A er regulære 2. Hvis M og L er regulære, er L M LM L* regulære Regulære uttrykk Ø Beskriver språket L(Ø) = Ø L( ) = { } a, for alle a A L(a) = { a } Hvis R og S er regulære uttrykk: (R + S) L(R+S)=L(R) L(S) (R T) L(R T) = L(R)L(T) (R*) L(R*)=L(R)* Merk: R S, R S, R S brukes også for R+S og brukes også for Vi kan sløyfe ( og ) hvis det er entydig Vanlig med operatorpresedens: R* så RS så R+S 19. januar
28 Observasjoner Alle endelige språk er regulære Eks L({abc, bb, ca}) = L(abc) L(bb) L(ca), og L(abc) = L(a)L(b)L(c), osv. Rett frem å se Hvis L og M er regulære, så er 1. L M 2. A* L regulære. Ikke trivielt. Trenger bevis 19. januar
29 Regulære språk Følgende er ekvivalente: a) L kan beskrives med et regulært uttrykk. b) Det fins en NFA som anerkjenner L. c) Det fins en DFA som anerkjenner L. 1. Gjort ekvivalensen av (b) og (c). 2. Fra (a) til (b) forholdsvis greit å se. 3. Fra (b/c) til (a) er litt vanskeligere å vise Litt notasjon: Hvis R er et regulært uttrykk, er L(R) språket beskrevet av R. Hvis M er en FSA, så er L(M) språket anerkjent av M. 29
30 Lag automat for reg. uttrykk Eksempel: ((a+c)*b(a+c))* 30
31 2. Fra regulært uttrykk til NFA til til til JFLAP algoritme litt annerledes: legger til flere kanter 19. januar
32 2. Fra regulært uttrykk til NFA Gitt et regulært uttrykk r Lag en automat N med to tilstander: starttilstand og en sluttilstand en kant fra start til slutt merket med r Omform kantene trinn for trinn som vist på forrige side Da vil L(N)=L(r) Observasjon: N vil være ikke-deterministisk med -kanter 19. januar
33 3. Fra FSA til RE Hvorfor ikke bare reversere forrige algoritme? Kryssende løkker! 33
34 Legg til ny start og sluttilstand Fjern 1 og 1 tilstand 34
35 Ved fjerning av tilstand k: For alle tilstander i og j: new(i,j) := old(i,j) + old(i,k) old(k,k)*old(k,j) old(k,j) er uttrykket på kanten fra k til j 35
36 Fra DFA til RE: 1. Lag: 1. Ny begynnertilstand med -kant til original begynnertilstand 2. Ny sluttilstand med -kant fra alle originale sluttilstander. (Dette er eneste sluttilstand.) 2. Omform alle til 3. Hvis det ikke går kant fra tilstand i til tilstand k, så er det det samme som en kant merket med Ø. 4. Fjern i tur og orden alle indre tilstander. Ved fjerning av tilstand k: For alle gjenværende tilstander i og j: new(i,j) := old(i,j) + old(i,k) old(k,k)* old(k,j) Ikke nødvendig å kunne konstruksjonen. Men vite at det er mulig! 36
37 Observasjoner Hvis L og Mer regulære språk, så er 1. L M 2. A* L regulære. Bevis for 2: Fra ekvivalensen finnes en DFA a1 s.a. L=L(a1) Så sist at da finnes en DFA a2 s.a. A*-L = L(a2) Fra ekvivalensen følger det at A*-L er regulært Oppgave: Vis (1) tilsvarende. 19. januar
38 Hva har vi lært? At DFA, NFA og regulære uttrykk definerer de samme språkene: de regulære språkene Hvordan vi gitt et regulært uttrykk kan konstruere en NFA for samme språk, og deretter en DFA for språket (Kjennskap til hvordan en DFA kan omformes til et regulært uttrykk, men ikke forventet å gjøre dette.) 19. januar
INF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 23. januar 2015
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 20. januar 2012 2 Non-Determinism Speech and Language Processing - Jurafsky and Martin
DetaljerINF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 26. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 26. januar 2015
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 25. januar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 3. februar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som
DetaljerINF2820 Datalingvistikk V2014. Jan Tore Lønning
INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2014 2 DFA deterministisk endelig maskin Q = {q0, q1, q2,, qn-1} Strengt
DetaljerINF2820 Datalingvistikk V2014. Jan Tore Lønning
INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 19. januar 2014 2 Naturlige språk En mann kjøpte en bil av en mann som hadde eid bilen i
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 26. januar 2011 2 Naturlige språk En mann kjøpte en bil av en mann som hadde
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2012 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 17. januar 2012 2 Naturlige språk En mann kjøpte en bil av en mann som hadde
DetaljerINF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning
INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK 19. januar 2017 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En
DetaljerINF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning Idag Automater og regulære uttrykk Litt Python Implementasjon av DFA i Python Naiv NFA-algoritme Smart NFA-algoritme Pythonimplementasjon 30. januar 2015
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning I dag Automater og regulære uttrykk Litt Python Implementasjon av DFA i Python Naiv NFA-algoritme Smart NFA-algoritme Pythonimplementasjon av smart NFA 1.
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 31. januar 2011 2 SAMMENHENGER FSA OG REGULÆRE UTTRYKK 31. januar
Detaljer1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 31. januar 2011 2 Regulære språk Følgende er ekvivalente: a) L kan
DetaljerINF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning
INF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning I dag Regulære språk og endelige tilstandsmaskiner oppsummering Reg.ex. i praksis, særlig i Python Litt Python Algoritme for DFA med Python-implementasjon
DetaljerINF2080 Logikk og beregninger
INF2080 Logikk og beregninger Forelesning 4: Regulære uttrykk Sist oppdatert: 2012-01-24 12:05 4.1 Regulære uttrykk Beskrive aksepterte ord 4.1 Regulære uttrykk Beskrive aksepterte ord INF2080 Logikk og
DetaljerFølger Sipsers bok tett både i stoff og oppgaver.
1 - hrj 1 Følger Sipsers bok tett både i stoff og oppgaver. Tirsdag forelesninger, nytt stoff Onsdag eksempler og utfyllende stoff Torsdag oppgaver fra uka før Start: kapittel 1 (2uker), 2 (2uker),3 (2uker),4
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et
DetaljerINF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning
INF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning Hva her vi lært? A. Deterministiske endelige tilstandsmaskiner (DFA) og hvordan de kan definer et (formelt) språk. B. Ikke-deterministiske
DetaljerSkanning del I INF /01/15 1
Skanning del I INF 5110-2015 21/01/15 1 Skanning: innhold (begge forelesningene) Hva gjør en skanner? Input: Programteksten. Output: Ett og ett token fra programteksten (sekvensielt). Regulære uttrykk/definisjoner.
DetaljerINF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione
Arne Skjærholt Terza lezione Arne Skjærholt Terza lezione Regulære uttrykk Regex Regulære uttrykk (regular expressions) er et godt eksempel på det som kalles finite-state methods (hvorfor det heter det
DetaljerINF2820 Datalingvistikk V gang, Jan Tore Lønning
INF2820 Datalingvistikk V2014 15. gang, 8.5.2014 Jan Tore Lønning Språk og grammatikk Språk (formelt): En endelig mengde A Ø En undermengde L A* Grammatikk: En endelig innretning som definerer L Klasser
Detaljer1/26/2012 LITT PYTHON. INF2820 Datalingvistikk V2012. Hvorfor Pyhton. Python syntaks. Python er objektorientert. Python datatyper.
INF2820 Datalingvistikk V2012 Jan Tore Lønning LITT PYTHON 2 Hvorfor Pyhton Python syntaks NLTK Natural Language Tool Kit: Omgivelser for å eksperimentere med datalingvistikk Diverse datalingvistiske algoritmer
DetaljerSkanning del I. Kapittel 2 INF 3110/ INF
Skanning del I Kapittel 2 18.01.2013 1 Skanning: innhold (begge forelesningene) Hva gjør en skanner? Input: programteksten. Output: Ett og ett token fra programteksten (sekvensielt). Regulære uttrykk/definisjoner.
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning LITT PYTHON 2 Hvorfor Pyhton NLTK Natural Language Tool Kit: Omgivelser for å eksperimentere med datalingvistikk Diverse datalingvistiske algoritmer Inkluderte
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen KONTEKSTFRIE GRAMMATIKKER OG PARSING 22. februar 2011 2 I dag Avledninger og normalformer Parsing: ovenifra og ned (top-down) Parsing: nedenifra
DetaljerScanning - I Kap. 2. Hva scanneren gjør
Scanning - I Kap. 2!! Hovedmål! Gå ut fra en beskrivelse av de enkelte tokens, og hvordan de skal deles opp i klasser! Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med all
DetaljerTypisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord
Scanning-I Kap. 2 Hovedmål Gå ut fra en beskrivelse av de enkelte leksemer (tokens), og hvordan de skal deles opp i klasser Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med
DetaljerTypisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord
Scanning - I Kap. 2 Hovedmål Gå ut fra en beskrivelse av de enkelte tokens, og hvordan de skal deles opp i klasser Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med all nødvendig
DetaljerINF2820 Datalingvistikk V forelesning, 30.1 Jan Tore Lønning
INF2820 Datalingvistikk V2014 3. forelesning, 30.1 Jan Tore Lønning Idag Noen ord om Python Implementasjon av DFA J&Ms algoritme Oversatt til Python Rekursiv vs. Iterativ implementasjon Naiv NFA-algoritme
DetaljerINF 2820 V2016: Obligatorisk innleverinsoppgave 1
INF 2820 V2016: Obligatorisk innleverinsoppgave 1 OBS Korrigert eksemplene oppgave 2, 8.2 Besvarelsene skal leveres i devilry innen torsdag 18.2 kl 18.00 Filene det vises til finner du på /projects/nlp/inf2820/fsa
DetaljerOppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd
2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er oppgitt. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne
Detaljer2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen KONTEKSTFRIE GRAMMATIKKER OG PARSING 22. februar 2011 2 Høyre- og venstreavledninger Til hvert tre svarer det mange avledninger. For kontekstfrie
Detaljer2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 24. februar 2012 2 Context-Free Grammars Det mest sentrale verktøyet i datalingvistikk 24. februar 2012 3 2/24/2012 Speech
DetaljerAnatomien til en kompilator - I
Anatomien til en kompilator - I 5/22/2006 1 Framgangsmåte for automatisk å lage en scanner Beskriv de forskjellige token-klassene som regulære uttrykk Eller litt mer fleksibelt, som regulære definisjoner
DetaljerINF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning
INF2820 Datalingvistikk V2015 Forelesning 4, 9.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Begrensninger ved regulære språk Regulære uttrykk: teoretiske og praktiske Noen egenskaper
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen FORMELLE OG NATURLIGE SPRÅK KONTEKSTFRIE GRAMMATIKKER 7. februar 2011 2 Naturlige språk som formelle språk Et formelt språk består av: En
Detaljer2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.
INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi:
DetaljerINF2820 Datalingvistikk V2012
INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 24. februar 2012 2 1 I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Parsing: ovenifra og ned
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning KONTEKSTFRIE GRAMMATIKKER OG PARSING 23. februar 2012 2 I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Parsing: ovenifra og ned
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER 2 I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie
DetaljerINF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning
INF2820 Datalingvistikk V2014 Forelesning 4, 6.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Regulære uttrykk: teoretiske og praktiske Begrensninger ved regulære språk Noen egenskaper
DetaljerINF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning
INF2820 Datalingvistikk V2018 7. Gang 26.2 Jan Tore Lønning I dag Fra sist: Høyre- og venstreavledninger Recursive-descent parser (top-down) Shift-reduce parser (bottom-up) Pythonimplementasjon: Shift-Reduce
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Arne Skjærholt 25 januar, 2012 SIST GANG Forrige gang: Alle rare ordene Alle rare morfene Nå: Morfologi med datamaskin (computational
DetaljerINF2820 V2017 Oppgavesett 6 Gruppe 7.3
INF2820 V2017 Oppgavesett 6 Gruppe 7.3 Oppgave 1: Lag en kontekstfri grammatikk som beskriver samme språk som nettverket under. S a S S c S S b A1 A1 a S A1 c S A1 b A2 A2 c S A2 a S A2 b A3 A3 a A3 A3
DetaljerTMA4140 Diskret Matematikk Høst 2016
Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag TMA44 Diskret Matematikk Høst 26 Seksjon 3. Husk at w = λ, den tomme strengen, for enhver streng w. 4 a) Følgende utledning/derivasjon
DetaljerSyntax/semantics - I INF 3110/ /29/2005 1
Syntax/semantics - I Program program execution Compiling/interpretation Syntax Classes of langauges Regular langauges Context-free langauges Scanning/Parsing Meta models INF 3/4-25 8/29/25 Program
DetaljerDagens tema: Regulære språk og uttrykk
IN 2 Programmeringsspråk Dagens tema: Regulære språk og uttrykk Ulike typer språk (Kompendium 47: 23) Hvorfor er regulære uttrykk så interessante? Ulike representasjoner av regulære språk (Kompendium 47:
DetaljerDagens plan. INF3170 Logikk. Mengder. Definisjon. Notasjon. Forelesning 0: Mengdelære, Induksjon. Martin Giese. 23. januar 2008.
INF3170 Logikk Dagens plan Forelesning 0:, Induksjon Martin Giese 1 Institutt for informatikk, Universitetet i Oslo 2 23. januar 2008 Institutt for informatikk (UiO) INF3170 Logikk 23.01.2008 2 / 47 1
DetaljerINF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning
INF2820 Datalingvistikk V2017 9. Gang 13.3 Jan Tore Lønning I dag chart-parsing Fortsatt fra sist: Chart-parsing: hovedideer BU chart-parsing: algoritmen NLTKs ChartParser Enkel Python-implementasjon av
DetaljerINF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning
INF2820 Datalingvistikk V2018 10. Gang 19.3 del 1 Jan Tore Lønning I dag: to deler A. Active chart-parsing Fortsatt fra sist B. Tekstklassifisering 2 CHART-PARSING 3 I dag chart-parsing Chart-parsing:
DetaljerTo mengder S og T er like, S = T, hvis de inneholder de samme elementene. Notasjon. Mengden med elementene a, b, c og d skrives ofte {a, b, c, d}.
Forelesning 0: Mengdelære, Induksjon Martin Giese - 23. januar 2008 1 Mengdelære 1.1 Mengder Mengder Definisjon 1.1. En mengde er en endelig eller uendelig samling objekter der innbyrdes rekkefølge og
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen CHARTPARSING (SEKSJ 13.4) FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) 8. mars 2011 2 I dag Oppsummering fra sist: Dynamisk programmering CKY-algoritmen
DetaljerINF2820 Datalingvistikk V Gang Jan Tore Lønning
INF2820 Datalingvistikk V2016 5. Gang - 17.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker for naturlige språk
DetaljerINF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning
INF2820 Datalingvistikk V2016 8. Gang 9.3 Jan Tore Lønning CHART-PARSING 2 I dag Bakgrunn Svakheter med andre parsere CKY og Chart Chart-parsing: hovedideer BU chart-parsing algoritmen Algoritmen uttrykt
DetaljerINF2820 Datalingvistikk V Gang Jan Tore Lønning
INF2820 Datalingvistikk V2015 5. Gang - 16.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker
DetaljerINF 2820 V2018: Innleveringsoppgave 1
INF 2820 V2018: Innleveringsoppgave 1 Besvarelsene skal leveres i devilry innen fredag 9.2 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil 100 poeng. Til sammen kan en få inntil
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Side 1 Det matematisk-naturvitenskapelige fakultet Eksamen i: INF2820 Datalingvistikk Eksamensdag: 6. juni 2014 Tid for eksamen: 1430-1830 Oppgavesettet er på 5 side(r) Vedlegg: 0
DetaljerINF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning
INF2820 Datalingvistikk V2017 8. Gang 6.3 Jan Tore Lønning I dag CKY-algoritmen fortsatt fra sist Python-implementasjon av CKY Chomsky Normal Form (CNF) Chart-parsing BU-algoritme for chart-parsing 3.
DetaljerTuringmaskiner en kortfattet introduksjon. Christian F Heide
13. november 2014 Turingmaskiner en kortfattet introduksjon Christian F Heide En turingmaskin er ikke en fysisk datamaskin, men et konsept eller en tankekonstruksjon laget for å kunne resonnere omkring
DetaljerEn repetisjon hrj høst 2009
En repetisjon hrj høst 2009 Data Maskin Data Syntaktiske objekter - endelige Mengde { } Multimengde [ ] Liste < > Symbol String = Liste av symboler Vi kan alltid finne ut om to syntaktiske objekter er
DetaljerINF2820 Datalingvistikk V Gang 27.2 Jan Tore Lønning
INF2820 Datalingvistikk V2017 7. Gang 27.2 Jan Tore Lønning I dag Fra sist: Høyre- og venstreavledninger Recursive-descent parser (top-down) Shift-reduce parser (bottom-up) Pythonimplementasjon: Shift-Reduce
DetaljerHva er syntaks? En overskrift i en norsk avis: Dagens tema Grundig repetisjon og utdyping:
Hva er syntaks? En overskrift i en norsk avis: Fanger krabber så lenge de orker Dagens tema Grundig repetisjon og utdyping: Er det i C lov å skrive for (;;) { while () { Syntaks kontra semantikk for å
DetaljerINF2820 Datalingvistikk V gang, Jan Tore Lønning
INF2820 Datalingvistikk V2014 8. gang, 6.3.2014 Jan Tore Lønning I dag Chart parsing Implementasjon CKY og Chart: Parsing vs anerkjenning 2 Chart alternativ datastruktur (S, [0, 1]) (VP, [0,1]) (Det, [1,2])
DetaljerKap. 5, Del 3: INF5110, fra 1/3-2011
Kap. 5, Del 3: LR(1)- og LALR(1)-grammatikker INF5110, fra 1/3-2011 Bakerst: Oppgaver til kap 5 (svar kommer til gjennomgåelsen) gåe Nytt 2/3: Nå også oppgave 2 fra eksamen 2006 Stein Krogdahl, Ifi, UiO
DetaljerINF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning
INF2820 Datalingvistikk V2016 8. Gang 9.3 Jan Tore Lønning CHART-PARSING 2 I dag Bakgrunn Svakheter med andre parsere CKY og Chart Chart-parsing: hovedideer BU chart-parsingalgoritmen Algoritmen uttrykt
DetaljerDagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk
Dagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk Regulære uttrykk og automataer Ulike typer språk Ulike representasjoner av regulære språk Endelige tilstandsmaskiner (FSM-er) Deterministiske
DetaljerOppgaver til INF 5110, kapittel 5
Oppgaver til INF 5110, kapittel 5 Fra boka: 5.3 Vi har sett litt på denne på en forelesning 5.11 Vi har tidligere sett på: -> ) a 5.18 Forsøk også sette alternativet -> til slutt Utvid grammatikken på
DetaljerLO118D Forelesning 3 (DM)
LO118D Forelesning 3 (DM) Mengder og funksjoner 27.08.2007 1 Mengder 2 Funksjoner Symboler x y Logisk AND, både x og y må være sanne x y Logisk OR, x eller y må være sann x Negasjon, ikke x x For alle
DetaljerINF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning
INF2820 Datalingvistikk V2015 14. Gang 4.5 Jan Tore Lønning CHART PARSING 2 I dag Svakheter ved tidligere parsere RD og SR: ineffektivitet CKY: CNF Chart parsing,,dotted items og fundamentalregelen Algoritmer:
DetaljerLøsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009
Løsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009 Torgeir Lebesbye torgeirl@ifi.uio.no Universitetet i Oslo Lars-Erik Bruce larsereb@ifi.uio.no Universitetet i Oslo
DetaljerIN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der
IN2080 Eksamen Vår 2019 Oppgave 1 Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der Q = {q 0, q 1, q 2 } er mengden av tilstander Σ = {a, b} er inputalfabetet q 0 er starttilstanden
DetaljerKap. 5 del 2: LR(1)- og LALR(1)-grammatikker INF5110 V2005. Stein Krogdahl, Ifi, UiO
Kap. 5 del 2: LR(1)- og LALR(1)-grammatikker INF5110 V2005 Stein Krogdahl, Ifi, UiO 1 Bottom up parsering (nedenfra-og-opp) S A B B A LR-parsering og grammatikker: t 1 t 2 t 3 t 7 t 4 t 5 t 6 - LR(0) Det
DetaljerOppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar
Oppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar Fra boka: 5.3, 5.4, 5.11, 5.12, 5.13. Oppgave 2 fra Eksamen 2006 (se undervisningsplanen 2008). Utvid grammatikken
DetaljerINF2820 Datalingvistikk V Gang Jan Tore Lønning
INF2820 Datalingvistikk V2017 6. Gang - 20.2 Jan Tore Lønning I dag Kontekstfrie grammatikker og naturlige språk (fortsatt fra sist) Kontekstfrie grammatikker og regulære språk Grammatikker og trær i NLTK
DetaljerMAT1030 Forelesning 22
MAT1030 Forelesning 22 Grafteori Roger Antonsen - 21. april 2009 (Sist oppdatert: 2009-04-21 15:13) Introduksjon Introduksjon Vi skal nå over til kapittel 10 & grafteori. Grafer fins overalt rundt oss!
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv
DetaljerAnatomien til en kompilator - I
Anatomien til en kompilator - I program Symboltabell tekst tokens syntaks-tre beriket syntaks-tre Finne struktur i programmet OK i henhold til grammatikk? Preprocessor Makroer Betinget kompilering Filer
DetaljerIntroduksjon. MAT1030 Diskret matematikk. Søkealgoritmer for grafer. En graf
Introduksjon MAT13 Diskret matematikk Forelesning 21: Grafteori Roger Antonsen Matematisk Institutt, Universitetet i Oslo 9. april 28 Vi skal nå over til kapittel 1 & grafteori. Grafer fins overalt rundt
DetaljerMAT1030 Diskret matematikk
MAT1030 Diskret matematikk Forelesning 21: Grafteori Roger Antonsen Matematisk Institutt, Universitetet i Oslo 9. april 2008 Introduksjon Vi skal nå over til kapittel 10 & grafteori. Grafer fins overalt
DetaljerIntroduksjon. MAT1030 Diskret Matematikk. Introduksjon. En graf. Forelesning 22: Grafteori. Roger Antonsen
MAT1030 Diskret Matematikk Forelesning 22: Grafteori Roger Antonsen Institutt for informatikk, Universitetet i Oslo Introduksjon 21. april 2009 (Sist oppdatert: 2009-04-21 15:13) MAT1030 Diskret Matematikk
DetaljerRepetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.
INF3 Programmeringsspråk INF3 Programmeringsspråk Dagens tema Syntaks (Komp 47, kap 3 (og noe 4)) Repetisjon Regulære språk i klassisk NF Regulære språk i utvidet NF Regulære språk i jerbanediagrammer
DetaljerMA3301 Beregnbarhets- og kompleksitetsteori Høsten
MA3301 Beregnbarhets- og kompleksitetsteori Høsten 2012 1 Notat 2 Om den kanoniske automaten til et språk og minimalisering. Vi vil si at en automat M = Q, Σ, q 0, A, δ er redusert enhver tilstand q Q
DetaljerINF3110 Programmeringsspråk
INF3 Programmeringsspråk Dagens tema Syntaks (Komp 47, kap 3 (og noe 4)) Repetisjon Regulære språk i klassisk BNF Regulære språk i utvidet BNF Regulære språk i jerbanediagrammer Regulære språk og automater
DetaljerMer om mengder: Tillegg til Kapittel 1. 1 Regneregler for Booleske operasjoner
MAT1140, H-16 Mer om mengder: Tillegg til Kapittel 1 Vi trenger å vite litt mer om mengder enn det som omtales i første kapittel av læreboken. I dette tillegget skal vi først se på regneregler for Booleske
DetaljerINF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning
INF2820 Datalingvistikk V2015 7. Gang 2.3 Jan Tore Lønning PARSING DEL 2 2 I dag Recursive-descent parser, kort repetisjon Shift-reduce parser (bottom-up) Algoritme for anerkjenning Eksempelimplementasjon
DetaljerOppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr Dette er versjon fra 28/7
Oppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr. 2008. Dette er versjon fra 28/7 OPPGAVER: Fra boka: 5.3, 5.4, 5.11, 5.12, 5.13. Oppgave 2 fra Eksamen 2006. Utvid grammatikken
DetaljerINF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning
INF2820 Datalingvistikk V2016 7. Gang 2.3 Jan Tore Lønning I dag CKY-algoritmen Python-implementasjon Chomsky Normal Form (CNF) 2. mars 2016 2 Dynamisk programmering I en beregning kan det inngå delberegninger
DetaljerINF / Kap. 5, Del 2 Stein Krogdahl, Ifi, UiO
INF5110 12/2-2013 Kap. 5, Del 2 Stein Krogdahl, Ifi, UiO Dagens temaer: Noen foiler igjen fra forrige gang SLR(1), LR(1)- og LALR(1)-grammatikker NB: Oppgaver til kap 4 og 5 er lagt ut på undervisningsplanen
DetaljerViktige begrep i kapittel 1.
Viktige begrep i kapittel 1. 1. Egenskaper ved relasjoner. La R A A være en binær relasjon. (a) At R er refleksiv betyr at x (x, x) R. (b) At R er symmetrisk betyr at x y ((x, y) R (y, x) R ). (c) At R
DetaljerTuringmaskiner en kortfattet introduksjon. Christian F Heide
7. november 016 Turingmaskiner en kortfattet introduksjon Christian F Heide En turingmaskin er ikke en fysisk datamaskin, men et konsept eller en tankekonstruksjon laget for å kunne resonnere omkring blant
DetaljerINF2820 Datalingvistikk V Gang 2.3 Jan Tore Lønning
INF2820 Datalingvistikk V2016 7. Gang 2.3 Jan Tore Lønning I dag CKY-algoritmen Python-implementasjon Chomsky Normal Form (CNF) 1. mars 2016 2 Dynamisk programmering I en beregning kan det inngå delberegninger
DetaljerINF2820 V2017 Oppgavesett 5 Gruppe 21.2
INF2820 V2017 Oppgavesett 5 Gruppe 21.2 Denne uka er det først noen teoretiske oppgaver. Deretter er det en del praktiske arbeidsoppgaver som vil forberede deg til arbeidet med innleveringsoppgavesett
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv
DetaljerINF1080 Logiske metoder for informatikk. 1 Små oppgaver [70 poeng] 1.1 Grunnleggende mengdelære [3 poeng] 1.2 Utsagnslogikk [3 poeng]
INF1080 Logiske metoder for informatikk Digital eksamen (med løsningsforslag) Dette er et utkast til løsningsforslag til eksamen i INF1080, og feil kan forekomme. Hvis du finner noen feil, si ifra til
Detaljer3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning CHART-PARSING FORMELL SPRÅKTEORI 5. mars 2012 2 Chart alternativ datastruktur NP Det Nom Fundamentalregelen NP Det Nom Nom Nom PP Nom Nom PP NP PP P NP Det
DetaljerAksiom 3.1 (Likhet av mengder). La A og B være mengder. Da er A og B like hvis og bare hvis de har akkurat de samme elementene.
Notat 3 for MAT1140 3 Mengder 3.1 Mengder definert ved en egenskap Det matematiske begrepet mengde har sin opprinnelse i vår intuisjon om samlinger. Objekter kan samles sammen til et nytt objekt kalt mengde.
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 06 februar, 2012 OVERSIKT Finite-state -teknologi er kjapp og effektiv nyttig for et antall språkteknologiske
DetaljerGauss-Jordan eliminasjon; redusert echelonform. Forelesning, TMA4110 Fredag 18/9. Reduserte echelonmatriser. Reduserte echelonmatriser (forts.
Gauss-Jordan eliminasjon; redusert echelonform Forelesning, TMA4110 Fredag 18/9 Martin Wanvik, IMF MartinWanvik@mathntnuno En matrise vil normalt være radekvivalent med flere echelonmatriser; med andre
Detaljer