IN1140: Introduksjon til språkteknologi. Forelesning #4
|
|
- Unni Knutsen
- 4 år siden
- Visninger:
Transkript
1 IN1140: Introduksjon til språkteknologi Forelesning #4 Samia Touileb Universitetet i Oslo 13. september 2018
2 Tema for i dag 2 Regulære uttrykk Endelige tilstandsmaskiner ( Finite State Automata, FSA)
3 Definisjon 3 Regulære uttrykk: Standard notasjon for å karakterisere tekst sekvenser Blir brukt for å spesifisere tekst strenger i all slags type tekst processering og informasjon ekstraksjon Regulære utrykk kan også bli implementert ved bruk av endelige tilstandsmaskiner (Finate-State Automata, FSA) Veldig viktig i NLP Har mange variasjoner: finate-state transducers, hidden Markov models, N-gram grammars...
4 Oversikt 4 Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et antall språkteknologiske oppgaver Regulære uttrykk og endelige tilstandsmaskiner er matematisk ekvivalente, men gir oss forskjellig innfallsvinkel på oppgaver
5 Oversikt 5 Perioden rett etter 2 verdenskrig ca 1960: viktig for datalingvistikk Automata-teori basert på Turings arbeid (1936) om algoritmisk beregning Kleene: (1951, 1956): endelige automata og regulære uttrykk. Beviste ekvivalens Chomsky (1956): endelige tilstandsmaskiner som beskrivelser av naturlige språk Formell språkteori: algebra og mengdelære for å definere formelle språk
6 Noen applikasjonseksempler 6 Tokenisering (oblig1) Tekstprosessering (finne, erstatte) Finne alle telefonnumre i en tekst, feks: Du kan også ringe Kundeservice på Du kan også ringe Kundeservice på Du kan også ringe Kundeservice på Finne flere tilgrensende instanser av samme ord i en tekst Bestemme språket i en setning/tekst: spansk eller polsk? Sytuacja na Bliskim Wschodzie jest napieta, szczegolnie po wczorajszym ataku
7 Noen applikasjonseksempler 7 Validere felter i en database (datoer, e-postadresser, URL er) Søk i et korpus etter lingvistiske mønstre samle statistikk Tildele ordklasse til disse, selv om de ikke fins i ordboken. F.eks.: conurbation, cadence, disproportionality, Thatcherization
8 Noen applikasjonseksempler 8 Utstrakt bruk innenfor: informasjonshenting ( information extraction ), f.eks. navn på personer og firmaer automatisk morfologisk analyse
9 Regulære uttrykk 9
10 Regulære uttrykk 10 Et regulært uttrykk er en beskrivelse av en mengde strenger Finnes en rekke UNIX-verktøy (grep, sed), editorer (emacs) og progammeringsspråk (perl, python, java) som har funksjonalitet for regulære uttrykk Som alle formalismer har ikke regulære uttrykk noe språklig (lingvistisk) innhold, men kan snarere brukes til å referere til lingvistiske enheter
11 11
12 Regulære uttrykk (RU) 12 To slags tegn ( characters ): Bokstaver ethvert teksttegn er et RU og refererer til seg selv Meta-tegn spesialtegn som lar deg kombinere RU på forskjellige måter Eksempel: /a/ refererer til a /a*/ refererer til ɛ (null) eller a eller aa eller aaa eller... MERK: // (i feks /a/) er ikke en del av et RU. Brukes som notasjon for å gjøre det tydelig hva er RU og hva ikke er RU
13 Regulære uttrykk 13 Regulære uttrykk består av: Strenger bestående av tegn: /b/, /IN1140/, /informatikk/ Disjunksjon: vanlig disjunksjon: /spise ete/, /penge(r ne)/ tegnklasser:/[dd]en/, /m[ae]nn/, /bec[oa]me/ rekker ( ranges ): [A-Z], [a-z], [0-9] Negasjon: Bruk av ^ [^b] [^A-Z0-9] a\^b ser etter sekvensen a^b i en streng feks: se etter a^b nå e\^ ser etter sekvensen e^ i en streng feks: se etter e^ nå
14 Regulære uttrykk 14 Regulære uttrykk består av (forts.): Tellere opsjonalitet (0 eller 1):? /woodchucks?/ (fanger begge woodchucks og woodchuck ) /colou?r/ (fanger begge colour og color ) hvilket som helst antall (0 eller flere): Kleene * /baaa*!/ (fanger baa!, baaa!, baaaa!, baaaaaaaaaaa! ) /[0-9][0-9]*/ Minst en: + /baaa+!/ (fanger baaa!, baaaa!, baaaaaaaaaaa! ) /[0-9]+ kroner/
15 Regulære uttrykk 15 Regulære uttrykk består av (forts.): wildcard for et hvilket som helst tegn:. /beg.n/ (alt som finnes mellom beg og n) begin beg n begun brukes ofte sammen med stjerne: hva som helst : /beltedyr.*beltedyr/ beltedyr er en familie av gomlere som er i utgangspunktet en ren søramerikansk gruppe, og Sør-Amerika pluss de sørlige delene av Nord-Amerika er de eneste stedene hvor beltedyr finnes vilt i dag
16 Regulære uttrykk 16 Regulære uttrykk består av (forts.): Ankere: spesielle tegn som forankrer det regulære uttrykket til spesifikt sted i strengen/teksten ^ - begynnelsen av linjen /^Den/ matcher Den bare i begynnelsen av en linje ^ har tre mulige bruk: Matche begynnelsen av en linje Indikerer negasjon innefor firkantede parenteser ([]) altså tegnklasser Bare karakteren ^ $ - slutten av linjen /der\.$/ matcher der. på slutten av en linje /^Det hvite huset\.$/? Matcher kun en linje som inneholder frasen Det hvite huset.
17 Regulære uttrykk 17 Regulære uttrykk består av (forts.): Ankere \b og \B \b matcher en word boundary (altså ordgrense) /\bthe\b/ matcher ordet the men ikke other \B matcher en non-boundary
18 Regulære uttrykk 18 Disjunksjon, gruppering, og presedens: Ser etter katter og hunder i en tekst: Kan ikke bruk [ og ] for å søke for katter eller hunder Må bruke disjunksjon: /katter hunder/ Ser etter guppy og guppies : Kan vi si /guppy ies/? Nei! Vil matche strengene guppy og ies Sekvensen guppy har presedens over disjunksjonen Må derfor bruke ( og ), (gruppering) /gupp(y ies)/
19 Regulære uttrykk 19 Kleene (cleany) * operator: Vi vil fange repetisjoner av en instans, feks: Kolone 1 Kolone 2 Kolone 3. Hva vil /Kolone [0-9]+ */ fange? Kolone 1 etterfulgt av uendelig mange mellomrom (feks. Kolone 1... ) Må bruke () : /(Kolone [0-9]+ *)*/ Her har () presedens over *
20 Regulære uttrykk 20 Kleene (cleany) * operator: Vi har /[a-z]*/ Setningen once upon a time Hva vil /[a-z]*/ fange? ingenting? o? on? onc? once? once? once u?... once RU matcher alltid lengste strengen, de er kallt greedy
21 Regulære uttrykk 21 Presedens av RU operatorer: 1 Parentes () 2 Tellere (counters) + -? {} 3 Sekvenser og ankere the ^my end$ 4 Disjunksjon
22 Regulære uttrykk 22 Nyttige forkortelser: RU = Eksempel \d [0-9] Lag av 5 \D [^0-9] Blå himmel \w [A-Za-z0-9] Dag \W [^A-Za-z0-9]!!!!! \s [ \r\t\n] \S [^\s] På Fløyen
23 Regulære uttrykk 23 Nyttige forkortelser: RU Matcher * null eller flere + en eller flere? null eller en. wildcard, matcher hva som helst {n} n forekomster {n,m} fra n til m forekomster {n,} minst n forekomster
24 Regulære uttrykk 24 Det som trenger backslash : Men også /\[/, og /\\/... RU Eksempel \* I*N*1*1*4*0 \. Dr. Nesehorn \? Dr. Nesehorn? \n ny linje \t tab
25 Regulære uttrykk 25 Et eksempel: Finne alle forekomster av og i en tekst /og/ Problem: Og det ble kveld, og det ble morgen... /[Oo]g/ Problem: Togets rutetider /\s[oo]g\s/ eller /\b[oo]g\b/ Minimere antall falske positiver (uriktig matchet, feks Toget) og falske negativer (uriktig utelukket, feks Og)
26 Regulære uttrykk 26 Substitusjon (python format): re.sub( color, colour, text) re.sub( versjon 2.4, versjon 2.5, text)
27 Regulære uttrykk 27 ELIZA (Weizenbaum 1966): User: ELIZA: User: ELIZA: User: ELIZA: User: ELIZA: Men are all alike in what way? They re always bugging us about something can you think of an example? Well, my boyfriend made me come here your boyfriend made you come here. He says I am depressed much of the time i m sorry to hear that you are depressed. s/.* I am (depressed sad).* / I am sorry to hear that you are \1/ s/.* (all always).* / Can you think of an example /
28 Prøv hjemme med og uten Python 28 Beskriv strengene som aksepteres av følgende regulære uttrykk /ab+a/ /(ab)*/ /([^aeiou][aeiou])/ /\sdis[a-z]+\s/
29 Endelige tilstandsmaskiner 29
30 FSA er 30 Ethvert regulært uttrykk kan implementeres som en endelig tilstandsmaskin (og vice-versa) Måte å beskrive et spesielt formelt språk, nemlig regulære språk
31 FSA er 31 Hva er en endelig tilstandsmaskin (FSA)? Abstrakt beregningsmaskin Består av en mengde tilstander (noder i en graf), og en mengde transisjoner (kanter i en graf) Tre typer tilstander: vanlig, start og slutt
32 FSA er 32 Brukes for å gjenkjenne/akseptere strenger: Antar en tape, der input-symbolene leses av celle etter celle Maskinen starter i starttilstanden For hvert symbol på tape en, forsøkes tilsvarende transisjon i maskinen Dersom ingen mulig transisjon: avvis Når strengen er ferdig lest, sjekk om tilstanden er sluttilstand Ja: aksepter, nei: avvis
33 En liten digresjon 33
34 Formell definisjon 34 En endelig tilstandsmaskin er definert ved: Q = {q0, q 1, q 2,..., q n 1 }: en endelig mengde tilstander Σ: et endelig alfabet q0 : en starttilstand F : mengden av sluttilstander, F Q δ(q i, i): en funksjon som gitt en tilstand q i og et inputsymbol i Σ, returnerer en ny tilstand q Q
35 Kan også spesifiseres ved en transisjonstabell: 35
36 36 For saueprat-eksempelet: Q = {q 0, q 1, q 2, q 3, q 4 } Σ = {a, b,!} F = {q4 } δ(q, i) er gitt ved transisjonstabellen
37 37 FSA som gjenkjenner strenger på formen [ab]+ Feks a, b, ab, ba, aab, bab, aba, bba, etc. FSA definert som: a b S 0 S 1 S 1 S 1 S 1 S 1 Hva blir Q (endelig mengde tilstander), Σ (endelig alfabet), og F (mengden av sluttilstander)? Hvordan ser automaten ut?
38 Svar 38 Q = {S 0, S 1 } Σ = {a, b} F = {S 1 }
39 39 FSA for enkle (engelske) substantivfraser d for artikler ( determiners ), a for adjektiver og n for substantiver the car the green car the fast green car ḋ a n S 0 S 1 ø ø S 1 ø S 1 S 2 S 2 ø ø ø Hva med fast cars eller cars?
40 FSA for enkle (engelske) substantivfraser: 40
41 41 Eksempel 1: Eksempel 2:
42 Ikke-deterministiske FSAer 42 En FSA er ikke-deterministisk dersom: For minst en tilstand (node) og ett symbol finnes det mer enn en transisjon som passer (to transisjoner med samme symbol) Disse valgene kan involvere tomme (ɛ-)transisjoner b a! S 0 S 1 ø ø S 1 ø S 1,S 2 ø S 2 ø ø S 3 S 3 ø ø ø
43 Ikke-deterministiske FSAer 43 Enhver ikke-deterministisk FSA kan gjøres deterministisk Strategier: Backup: Hver gang må foreta et valg: marker hvor langt du har kommet og hvilken tilstand Look-ahead: Se framover i input en Parallellisme: Utforske alternative ruter samtidig
44 44 Hvorfor endelige ( finite )? Antall tilstander er bestemt på forhånd (transisjonstabellen) Derfor bruker maskinen begrenset minne Hva den gjør ved hvert skritt bestemmes av transisjonstabellen Tilstanden ved ethvert tidspunkt reflekterer prosesseringsrekkefølgen
45 45 1. Tegn en endelig tilstandsmaskin som gjenkjenner følgende språk: {s s inneholder minst tre 1 ere} (altså strenger av 0 og 1 med minst tre 1 ere ) Alfabetet er: 0 og 1. Tilstandsmaskine må være deterministiske. 2. Angi transisjonstabellen for maskinen.
46 Svar q0 q0 q1 q1 q1 q2 q2 q2 q3 q3: q3 q3
INF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2017 1 FS-metoder Oversikt Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 06 februar, 2012 OVERSIKT Finite-state -teknologi er kjapp og effektiv nyttig for et antall språkteknologiske
DetaljerINF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione
Arne Skjærholt Terza lezione Arne Skjærholt Terza lezione Regulære uttrykk Regex Regulære uttrykk (regular expressions) er et godt eksempel på det som kalles finite-state methods (hvorfor det heter det
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Fjerde forelesning Lilja Øvrelid 6 februar, 2014 OVERSIKT Såkalt endelig tilstand (finite-state) -teknologi er kjapp og effektiv nyttig for et
DetaljerINF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning
INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK 19. januar 2017 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En
DetaljerINF1820: Introduksjon til spra k-og kommunikasjonsteknologi
INF1820: Introduksjon til spra k-og kommunikasjonsteknologi Tredje forelesning Lilja Øvrelid 30 januar, 2014 D ATA I Ra data: uprosesserte tall, tegn, bilder I Kvantitative vs kvalitative data D ATA I
DetaljerINF2080 Logikk og beregninger
INF2080 Logikk og beregninger Forelesning 4: Regulære uttrykk Sist oppdatert: 2012-01-24 12:05 4.1 Regulære uttrykk Beskrive aksepterte ord 4.1 Regulære uttrykk Beskrive aksepterte ord INF2080 Logikk og
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 25. januar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 3. februar 2016 2 Fysisk modell En tape delt opp i ruter. I hver rute står det et symbol. En innretning som
DetaljerINF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning
INF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning Hva her vi lært? A. Deterministiske endelige tilstandsmaskiner (DFA) og hvordan de kan definer et (formelt) språk. B. Ikke-deterministiske
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 20. januar 2012 2 Non-Determinism Speech and Language Processing - Jurafsky and Martin
DetaljerINF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 26. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 26. januar 2015
DetaljerINF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2015 2 ENDELIGE AUTOMATER «FINITE STATE AUTOMATA» (FSA) 23. januar 2015
DetaljerFølger Sipsers bok tett både i stoff og oppgaver.
1 - hrj 1 Følger Sipsers bok tett både i stoff og oppgaver. Tirsdag forelesninger, nytt stoff Onsdag eksempler og utfyllende stoff Torsdag oppgaver fra uka før Start: kapittel 1 (2uker), 2 (2uker),3 (2uker),4
DetaljerINF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning
INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning ENDELIGE TILSTANDSMASKINER OG REGULÆRE SPRÅK, DEL 2 19. januar 2017 2 Sist uke: FSA Brukes om hverandre: Finite state automaton - FSA
DetaljerINF2820 Datalingvistikk V2014. Jan Tore Lønning
INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 22. januar 2014 2 DFA deterministisk endelig maskin Q = {q0, q1, q2,, qn-1} Strengt
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2012 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 17. januar 2012 2 Naturlige språk En mann kjøpte en bil av en mann som hadde
DetaljerINF2820 Datalingvistikk V2014. Jan Tore Lønning
INF2820 Datalingvistikk V2014 Jan Tore Lønning ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 19. januar 2014 2 Naturlige språk En mann kjøpte en bil av en mann som hadde eid bilen i
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK 26. januar 2011 2 Naturlige språk En mann kjøpte en bil av en mann som hadde
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen FORMELLE OG NATURLIGE SPRÅK KONTEKSTFRIE GRAMMATIKKER 7. februar 2011 2 Naturlige språk som formelle språk Et formelt språk består av: En
DetaljerTMA4140 Diskret Matematikk Høst 2016
Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag TMA44 Diskret Matematikk Høst 26 Seksjon 3. Husk at w = λ, den tomme strengen, for enhver streng w. 4 a) Følgende utledning/derivasjon
DetaljerTuringmaskiner en kortfattet introduksjon. Christian F Heide
13. november 2014 Turingmaskiner en kortfattet introduksjon Christian F Heide En turingmaskin er ikke en fysisk datamaskin, men et konsept eller en tankekonstruksjon laget for å kunne resonnere omkring
DetaljerINF 2820 V2016: Obligatorisk innleverinsoppgave 1
INF 2820 V2016: Obligatorisk innleverinsoppgave 1 OBS Korrigert eksemplene oppgave 2, 8.2 Besvarelsene skal leveres i devilry innen torsdag 18.2 kl 18.00 Filene det vises til finner du på /projects/nlp/inf2820/fsa
DetaljerSkanning del I INF /01/15 1
Skanning del I INF 5110-2015 21/01/15 1 Skanning: innhold (begge forelesningene) Hva gjør en skanner? Input: Programteksten. Output: Ett og ett token fra programteksten (sekvensielt). Regulære uttrykk/definisjoner.
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Arne Skjærholt 25 januar, 2012 SIST GANG Forrige gang: Alle rare ordene Alle rare morfene Nå: Morfologi med datamaskin (computational
DetaljerINF1820: Oppsummering
Arne Skjærholt 8. mai Arne Skjærholt 8. mai Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til
DetaljerSkanning del I. Kapittel 2 INF 3110/ INF
Skanning del I Kapittel 2 18.01.2013 1 Skanning: innhold (begge forelesningene) Hva gjør en skanner? Input: programteksten. Output: Ett og ett token fra programteksten (sekvensielt). Regulære uttrykk/definisjoner.
DetaljerUNIVERSITETET I OSLO. Det matematisk-naturvitenskapelige fakultet
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i INF1080 Logiske metoder for informatikk Eksamensdag: 10. desember 2013 Tid for eksamen: 09.00 13.00 Oppgave 1 Mengdelære (10 poeng)
DetaljerINF 2820 V2018: Innleveringsoppgave 1
INF 2820 V2018: Innleveringsoppgave 1 Besvarelsene skal leveres i devilry innen fredag 9.2 kl 18.00 Det blir 5 sett med innleveringsoppgaver. Hvert sett gir inntil 100 poeng. Til sammen kan en få inntil
DetaljerINF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 31. januar 2011 2 SAMMENHENGER FSA OG REGULÆRE UTTRYKK 31. januar
DetaljerINF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning
INF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning I dag Regulære språk og endelige tilstandsmaskiner oppsummering Reg.ex. i praksis, særlig i Python Litt Python Algoritme for DFA med Python-implementasjon
DetaljerINF1820 INF Arne Skjærholt INF1820. Arne Skjærholt
Arne Skjærholt Quatrième leçon Arne Skjærholt Quatrième leçon Previously... Alle rare ordene Alle rare morfene Previously... Coming up... Morfologi med datamaskin (computational morphology) Hvordan analysere
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning BEGRENSNINGER VED REGULÆRE SPRÅK OG KONTEKSTFRIE GRAMMATIKKER 2 I dag 1. Begrensninger ved regulære språk 2. Noen egenskaper ved naturlige språk 3. Kontekstfrie
DetaljerTuringmaskiner en kortfattet introduksjon. Christian F Heide
7. november 016 Turingmaskiner en kortfattet introduksjon Christian F Heide En turingmaskin er ikke en fysisk datamaskin, men et konsept eller en tankekonstruksjon laget for å kunne resonnere omkring blant
DetaljerDagens tema: Regulære språk og uttrykk
IN 2 Programmeringsspråk Dagens tema: Regulære språk og uttrykk Ulike typer språk (Kompendium 47: 23) Hvorfor er regulære uttrykk så interessante? Ulike representasjoner av regulære språk (Kompendium 47:
Detaljer2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.
INF2820 Datalingvistikk V2012 Jan Tore Lønning Begrensninger ved regulære Regulære er ikke ideelle modeller for naturlige, dvs Verken regulære uttrykk eller NFA er ideelle for å beskrive naturlige fordi:
Detaljer1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2
INF2820 Datalingvistikk V2011 Jan Tore Lønning & Stephan Oepen ENDELIGE TILSTANDSTEKNIKKER OG REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2 31. januar 2011 2 Regulære språk Følgende er ekvivalente: a) L kan
DetaljerIN1140: Introduksjon til språkteknologi. Forelesning #2
IN1140: Introduksjon til språkteknologi Forelesning #2 Samia Touileb Universitetet i Oslo 30. august 2018 Tema forrige uke 2 Introduksjon Hva er språkteknologi? Hva er IN1140? Praktiske detaljer Tema for
DetaljerRepetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.
INF3 Programmeringsspråk INF3 Programmeringsspråk Dagens tema Syntaks (Komp 47, kap 3 (og noe 4)) Repetisjon Regulære språk i klassisk NF Regulære språk i utvidet NF Regulære språk i jerbanediagrammer
DetaljerHjemmeeksamen 1 i INF3110/4110
Hjemmeeksamen i INF30/40 Innleveringsfrist: fredag 24. oktober kl. 500 Innlevering Hele besvarelsen skal leveres skriftlig på papir i IFI-ekspedisjonen innen fredag 24. oktober kl. 500. Merk besvarelsen
DetaljerINF3110 Programmeringsspråk
INF3 Programmeringsspråk Dagens tema Syntaks (Komp 47, kap 3 (og noe 4)) Repetisjon Regulære språk i klassisk BNF Regulære språk i utvidet BNF Regulære språk i jerbanediagrammer Regulære språk og automater
DetaljerINF2820 Datalingvistikk V gang, Jan Tore Lønning
INF2820 Datalingvistikk V2014 15. gang, 8.5.2014 Jan Tore Lønning Språk og grammatikk Språk (formelt): En endelig mengde A Ø En undermengde L A* Grammatikk: En endelig innretning som definerer L Klasser
DetaljerINF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning
INF2820 Datalingvistikk V2015 Forelesning 4, 9.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Begrensninger ved regulære språk Regulære uttrykk: teoretiske og praktiske Noen egenskaper
DetaljerIN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der
IN2080 Eksamen Vår 2019 Oppgave 1 Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der Q = {q 0, q 1, q 2 } er mengden av tilstander Σ = {a, b} er inputalfabetet q 0 er starttilstanden
DetaljerTypisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord
Scanning-I Kap. 2 Hovedmål Gå ut fra en beskrivelse av de enkelte leksemer (tokens), og hvordan de skal deles opp i klasser Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med
DetaljerTypisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord
Scanning - I Kap. 2 Hovedmål Gå ut fra en beskrivelse av de enkelte tokens, og hvordan de skal deles opp i klasser Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med all nødvendig
DetaljerLøsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009
Løsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009 Torgeir Lebesbye torgeirl@ifi.uio.no Universitetet i Oslo Lars-Erik Bruce larsereb@ifi.uio.no Universitetet i Oslo
DetaljerHva er syntaks? En overskrift i en norsk avis: Dagens tema Grundig repetisjon og utdyping:
Hva er syntaks? En overskrift i en norsk avis: Fanger krabber så lenge de orker Dagens tema Grundig repetisjon og utdyping: Er det i C lov å skrive for (;;) { while () { Syntaks kontra semantikk for å
DetaljerDagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk
Dagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk Regulære uttrykk og automataer Ulike typer språk Ulike representasjoner av regulære språk Endelige tilstandsmaskiner (FSM-er) Deterministiske
DetaljerIN1140: Introduksjon til språkteknologi. Forelesning #12
IN1140: Introduksjon til språkteknologi Forelesning #12 Lilja Øvrelid Universitetet i Oslo 15 november 2018 Tema for i dag 2 I dag Repetisjon Digital prøveeksamen Neste uke Gjennomgang av eksamensoppgave
DetaljerKombinatorikk. MAT1030 Diskret Matematikk. Oppsummering av regneprinsipper
MAT1030 Diskret Matematikk Forelesning 22: Grafteori Dag Normann Matematisk Institutt, Universitetet i Oslo Kombinatorikk 14. april 2010 (Sist oppdatert: 2010-04-14 12:43) MAT1030 Diskret Matematikk 14.
DetaljerMAT1030 Diskret Matematikk
MAT1030 Diskret Matematikk Forelesning 22: Grafteori Dag Normann Matematisk Institutt, Universitetet i Oslo 14. april 2010 (Sist oppdatert: 2010-04-14 12:42) Kombinatorikk MAT1030 Diskret Matematikk 14.
DetaljerINF2820 Datalingvistikk V Gang Jan Tore Lønning
INF2820 Datalingvistikk V2015 5. Gang - 16.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær (delvis repetisjon) Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker
DetaljerINF2820 Datalingvistikk V Gang Jan Tore Lønning
INF2820 Datalingvistikk V2016 5. Gang - 17.2 Jan Tore Lønning I dag Kontekstfrie grammatikker, avledninger og trær Kontekstfrie grammatikker og regulære språk Kontekstfrie grammatikker for naturlige språk
DetaljerScanning - I Kap. 2. Hva scanneren gjør
Scanning - I Kap. 2!! Hovedmål! Gå ut fra en beskrivelse av de enkelte tokens, og hvordan de skal deles opp i klasser! Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med all
DetaljerInf1000 (Uke 10) HashMap og ArrayList
Inf1000 (Uke 10) HashMap og ArrayList Grunnkurs i programmering Institutt for Informatikk Universitetet i Oslo Anja Bråthen Kristoffersen og Are Magnus Bruaset Bibliotekpakker i Java Det er laget mange
Detaljer1/26/2012 LITT PYTHON. INF2820 Datalingvistikk V2012. Hvorfor Pyhton. Python syntaks. Python er objektorientert. Python datatyper.
INF2820 Datalingvistikk V2012 Jan Tore Lønning LITT PYTHON 2 Hvorfor Pyhton Python syntaks NLTK Natural Language Tool Kit: Omgivelser for å eksperimentere med datalingvistikk Diverse datalingvistiske algoritmer
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i : INF5110 - Kompilatorteknikk Eksamensdag : Onsdag 5. juni 2013 Tid for eksamen : 14.30-18.30 Oppgavesettet er på : Vedlegg :
DetaljerMAT1030 Forelesning 22
MAT1030 Forelesning 22 Grafteori Dag Normann - 14. april 2010 (Sist oppdatert: 2010-04-14 12:45) Kombinatorikk Oppsummering av regneprinsipper Ordnet utvalg med repetisjon: n r Ordnet utvalg uten repetisjon:
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Trettende forelesning REPETISJON Lilja Øvrelid 15 mai, 2017 1 Fra emnebeskrivelsen Kurset gir en innføring i lingvistisk teori og relaterer denne
DetaljerIntroduksjon. MAT1030 Diskret Matematikk. Introduksjon. En graf. Forelesning 22: Grafteori. Roger Antonsen
MAT1030 Diskret Matematikk Forelesning 22: Grafteori Roger Antonsen Institutt for informatikk, Universitetet i Oslo Introduksjon 21. april 2009 (Sist oppdatert: 2009-04-21 15:13) MAT1030 Diskret Matematikk
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Trettende forelesning REPETISJON Lilja Øvrelid 15 mai, 2017 1 Fra emnebeskrivelsen Kurset gir en innføring i lingvistisk teori og relaterer denne
DetaljerLF - Eksamen i INF1820
LF - Eksamen i INF820 INF820 Eksamen vår 207 Hjelpemidler Ingen. Flervalgsoppgaver I oppgave og 6 får man 5 poeng for riktig svar og 0 poeng for galt svar. I oppgave 0 får du 2 poeng for hvert riktig svar
DetaljerIntroduksjon. MAT1030 Diskret matematikk. Søkealgoritmer for grafer. En graf
Introduksjon MAT13 Diskret matematikk Forelesning 21: Grafteori Roger Antonsen Matematisk Institutt, Universitetet i Oslo 9. april 28 Vi skal nå over til kapittel 1 & grafteori. Grafer fins overalt rundt
DetaljerMAT1030 Diskret matematikk
MAT1030 Diskret matematikk Forelesning 21: Grafteori Roger Antonsen Matematisk Institutt, Universitetet i Oslo 9. april 2008 Introduksjon Vi skal nå over til kapittel 10 & grafteori. Grafer fins overalt
DetaljerOppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd
2 Du kan svare på norsk, dansk, svensk eller engelsk. Du skal besvare alle spørsmålene. Vekten på de ulike spørsmålene er oppgitt. Du bør lese gjennom hele settet slik at du kan stille spørsmål til faglærerne
DetaljerSlides til 12.1 Formelt språk og formell grammatikk
Slides til 12.1 Formelt språk og formell grammatikk Andreas Leopold Knutsen April 6, 2010 Introduksjon Grammatikk er studiet av reglene som gjelder i et språk. Syntaks er læren om hvordan ord settes sammen
DetaljerSyntax/semantics - I INF 3110/ /29/2005 1
Syntax/semantics - I Program program execution Compiling/interpretation Syntax Classes of langauges Regular langauges Context-free langauges Scanning/Parsing Meta models INF 3/4-25 8/29/25 Program
DetaljerMAT1030 Forelesning 22
MAT1030 Forelesning 22 Grafteori Roger Antonsen - 21. april 2009 (Sist oppdatert: 2009-04-21 15:13) Introduksjon Introduksjon Vi skal nå over til kapittel 10 & grafteori. Grafer fins overalt rundt oss!
DetaljerINF2220: Time 8 og 9 - Kompleksitet, beregnbarhet og kombinatorisk søk
INF0: Time 8 og 9 - Kompleksitet, beregnbarhet og kombinatorisk søk Mathias Lohne mathialo Rekursjonseksempel Eksempel Finn kjøretid for følgende program: (Ex11 b) 1 float foo(a) { n = Alength; 3 4 if
DetaljerGenerell rekursjon og induksjon. at(n) + bt(n 1) + ct(n 2) = 0
Forelesning 17 Generell rekursjon og induksjon Dag Normann - 10. mars 2008 Opphenting Forrige uke så vi på rekurrenslikninger. En rekurrenslikning er en funksjonslikning på formen at(n) + bt(n 1) + ct(n
DetaljerINF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning
INF2820 Datalingvistikk V2016 Forelesning 4, 10.2 Jan Tore Lønning I dag Ord Begrensninger med regulære språk Regulære uttrykk i praksis Utvidete regulære uttrykk Frasestruktur og kontekstfrie grammatikker
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i Eksamensdag: 28. november 2014 Tid for eksamen: 08.15 12.15 Oppgavesettet er på 6 sider. Vedlegg: Tillatte hjelpemidler: INF1080
DetaljerMAT1030 Diskret Matematikk
MAT1030 Diskret Matematikk Forelesning 27: Trær Dag Normann Matematisk Institutt, Universitetet i Oslo 4. mai 2010 (Sist oppdatert: 2010-05-04 14:11) Forelesning 27 MAT1030 Diskret Matematikk 4. mai 2010
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i INF1080 Logiske metoder for informatikk Eksamensdag: 28. november 2014 Tid for eksamen: 08.15 12.15 Oppgave 1 Mengdelære (10 poeng)
DetaljerMAT1030 Diskret Matematikk
MAT1030 Diskret Matematikk Forelesning 26: Trær Roger Antonsen Institutt for informatikk, Universitetet i Oslo 5. mai 2009 (Sist oppdatert: 2009-05-06 22:27) Forelesning 26 MAT1030 Diskret Matematikk 5.
DetaljerOppgaver til INF 5110, kapittel 5
Oppgaver til INF 5110, kapittel 5 Fra boka: 5.3 Vi har sett litt på denne på en forelesning 5.11 Vi har tidligere sett på: -> ) a 5.18 Forsøk også sette alternativet -> til slutt Utvid grammatikken på
DetaljerMAT1030 Diskret matematikk
MAT1030 Diskret matematikk Forelesning 27: Trær Dag Normann Matematisk Institutt, Universitetet i Oslo 30. april 2008 Oppsummering Mandag så vi på hvordan vi kan finne uttrykk og termer på infiks form,
DetaljerINF1820 2013-04-12 INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция
Arne Skjærholt десятая лекция Dagens språk: Russisk. dyes yataya l yektsiya Arne Skjærholt десятая лекция N,Σ,R,S Nå er vi tilbake i de formelle, regelbaserte modellene igjen, og en kontekstfri grammatikk
DetaljerINF2820 Datalingvistikk V2012. Jan Tore Lønning
INF2820 Datalingvistikk V2012 Jan Tore Lønning LITT PYTHON 2 Hvorfor Pyhton NLTK Natural Language Tool Kit: Omgivelser for å eksperimentere med datalingvistikk Diverse datalingvistiske algoritmer Inkluderte
DetaljerINF1800 LOGIKK OG BEREGNBARHET
INF1800 LOGIKK OG BEREGNBARHET FORELESNING 6: UTSAGNSLOGIKK Roger Antonsen Institutt for informatikk Universitetet i Oslo 3. september 2008 (Sist oppdatert: 2008-09-03 12:49) Mer om bruk av utsagnslogikk
DetaljerINF2080 Logikk og beregninger
INF2080 Logikk og beregninger Forelesning 22: Fliser Sist oppdatert: 2012-04-16 20:32 22.1 Fliser Beregne med fliser 22.1 Fliser Beregne med fliser INF2080 Logikk og beregninger Forelesning 22 Side 3 /
DetaljerINF1820: Introduksjon til språk-og kommunikasjonsteknologi
INF1820: Introduksjon til språk-og kommunikasjonsteknologi Femtende forelesning REPETISJON Lilja Øvrelid 14 mai, 2011 1 / 68 FRA EMNEBESKRIVELSEN Kurset gir en innføring i lingvistisk teori og relaterer
DetaljerINF2820 Datalingvistikk V2016. Jan Tore Lønning
INF2820 Datalingvistikk V2016 Jan Tore Lønning I dag Automater og regulære uttrykk Litt Python Implementasjon av DFA i Python Naiv NFA-algoritme Smart NFA-algoritme Pythonimplementasjon av smart NFA 1.
DetaljerUNIVERSITETET I OSLO. Det matematisk-naturvitenskapelige fakultet. INF1080 Logiske metoder for informatikk
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i Eksamensdag:. desember Tid for eksamen:.. INF Logiske metoder for informatikk Oppgave Mengdelære ( poeng) La A = {,, {}}, B =
DetaljerINF2820 Datalingvistikk V2015. Jan Tore Lønning
INF2820 Datalingvistikk V2015 Jan Tore Lønning Idag Automater og regulære uttrykk Litt Python Implementasjon av DFA i Python Naiv NFA-algoritme Smart NFA-algoritme Pythonimplementasjon 30. januar 2015
DetaljerUNIVERSITETET I OSLO
UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i Eksamensdag: 9. desember 2015 Tid for eksamen: 09.00 13.00 (Fortsettes på side 2.) INF1080 Logiske metoder for informatikk Oppgave
DetaljerUNIVERSITETET I OSLO
UIVERSITETET I OSLO et matematisk-naturvitskapelige fakultet Eksam i: IF1820 Introduksjon til språk- og kommunikasjonsteknologi Eksamsdag: 17. juni 2016 Tid for eksam: 14.30 18.30 Oppgavesettet er på 6
DetaljerMAT1030 Diskret matematikk
MAT1030 Diskret matematikk Forelesning 17: Generell rekursjon og induksjon Dag Normann Matematisk Institutt, Universitetet i Oslo 10. mars 2008 Opphenting Forrige uke så vi på rekurrenslikninger. En rekurrenslikning
DetaljerINF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning
INF2820 Datalingvistikk V2014 Forelesning 4, 6.2 Jan Tore Lønning I dag Oppsummering av endelige tilstandsteknikker Regulære uttrykk: teoretiske og praktiske Begrensninger ved regulære språk Noen egenskaper
DetaljerMNFIT-272 Kunstig intelligens Forelesning 4.
MNFIT-272 Kunstig intelligens Forelesning 4. Emner: Søkesystemer - styring og kontroll av søk - søkesystemer i praksis Produksjonssystemer - regelbasert søking - som generell problemløsningsmodell - praktiske
DetaljerOppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar
Oppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar Fra boka: 5.3, 5.4, 5.11, 5.12, 5.13. Oppgave 2 fra Eksamen 2006 (se undervisningsplanen 2008). Utvid grammatikken
DetaljerOppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr Dette er versjon fra 28/7
Oppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr. 2008. Dette er versjon fra 28/7 OPPGAVER: Fra boka: 5.3, 5.4, 5.11, 5.12, 5.13. Oppgave 2 fra Eksamen 2006. Utvid grammatikken
Detaljer. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo
.. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk Sverre Stausland Johnsen Universitetet i Oslo stausland.johnsen@iln.uio.no Universitetet i Stavanger 15. januar
DetaljerINF 2820 V2018: Innleveringsoppgave 1 - løsningsforslag
INF 2820 V2018: Innleveringsoppgave 1 - løsningsforslag Oppgave 1: Endelige tilstandsmaskiner (20 poeng) Denne oppgaven kan gjøres i JFLAP. Du anbefales likevel å løse den med papir og penn først for å
DetaljerForelesning 25. MAT1030 Diskret Matematikk. Litt repetisjon. Litt repetisjon. Forelesning 25: Trær. Roger Antonsen
MAT1030 Diskret Matematikk Forelesning 25: Trær Roger Antonsen Institutt for informatikk, Universitetet i Oslo Forelesning 25 29. april 2009 (Sist oppdatert: 2009-04-29 00:28) MAT1030 Diskret Matematikk
DetaljerObligatorisk oppgavesett 1 MAT1120 H16
Obligatorisk oppgavesett MAT0 H6 Innleveringsfrist: torsdag /09 06, innen kl 4.30. Besvarelsen leveres på Matematisk institutt, 7. etasje i N.H. Abels hus. Husk å bruke forsiden som du finner via hjemmesiden.
DetaljerINF1800 Forelesning 6
INF1800 Forelesning 6 Utsagnslogikk Roger Antonsen - 3. september 2008 (Sist oppdatert: 2008-09-03 12:49) Mer om bruk av utsagnslogikk Hvordan fange inn utsagn? Jeg spiser det hvis det er godt. Jeg spiser
Detaljer