Skanning del I. Kapittel 2 INF 3110/ INF

Like dokumenter
Skanning del I INF /01/15 1

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Scanning - I Kap. 2. Hva scanneren gjør

Anatomien til en kompilator - I

Anatomien til en kompilator - I

Følger Sipsers bok tett både i stoff og oppgaver.

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2080 Logikk og beregninger

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

MAT1030 Plenumsregning 1

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

Plenumsregning 1. MAT1030 Diskret Matematikk. Repetisjon: Algoritmer og pseudokode. Velkommen til plenumsregning for MAT1030

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2016. Jan Tore Lønning

MAT1030 Diskret Matematikk

INF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning

Beskrivelse av programmeringsspråket Compila15 INF Kompilatorteknikk Våren 2015

Plenumsregning 1. Kapittel 1. Roger Antonsen januar Velkommen til plenumsregning for MAT1030. Repetisjon: Algoritmer og pseudokode

INF3110 Programmeringsspråk

Velkommen til plenumsregning for MAT1030. MAT1030 Diskret matematikk. Repetisjon: Algoritmer og pseudokode. Eksempel fra boka. Eksempel

MAT1030 Diskret matematikk

Oppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr Dette er versjon fra 28/7

Kap. 5, del 2 LR(1)- og LALR(1)-grammatikker INF5110 V2008

Kap. 5 del 2: LR(1)- og LALR(1)-grammatikker INF5110 V2005. Stein Krogdahl, Ifi, UiO

Repetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.

Kap.4, del 2: Top Down Parsering Kap. 5, del 1: Bottom Up Parsing INF5110, 7/ Legger ut en oppgave til kap. 4 (se beskjed).

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Oppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

Dagens tema: Regulære språk og uttrykk

Dagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk

Administrivia INF 3110/ INF /02/2005 1

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Språktyper og syntaksanalyseteknikker. Dagens temaer. Hvordan lage en deterministisk automat? Fra jernbanediagram til ID-automat

Oppgaver til INF 5110, kapittel 5

Dagens Tema: Grammatikker

INF2820 Datalingvistikk V forelesning, 30.1 Jan Tore Lønning

Hva er syntaks? En overskrift i en norsk avis: Dagens tema Grundig repetisjon og utdyping:

Programmeringsspråket C

INF 5110, 3. februar Dette foilheftet: Kapittel 3

INF januar Forelesninger fremover:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Kap. 5, del 1: Parsering nedenfra-opp (Bottom-up parsering) INF / Stein Krogdahl Ifi, UiO

Kap. 5, Del 3: INF5110, fra 1/3-2011

INF 2820 V2018: Innleveringsoppgave 1

public static <returtype> navn_til_prosedyre(<parameter liste>) { // implementasjon av prosedyren

INF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning

1/26/2012 LITT PYTHON. INF2820 Datalingvistikk V2012. Hvorfor Pyhton. Python syntaks. Python er objektorientert. Python datatyper.

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Kontekstfrie grammatikker og syntaksanalyse (parsering)

Beskrivelse av programmeringsspråket Simpila INF Kompilatorteknikk Våren 2012

En repetisjon hrj høst 2009

Kap. 5, del 1: Parsering nedenfra-opp (Bottom up parsing) INF5110. Stein Krogdahl Ifi, UiO

OPPGAVE 1 OBLIGATORISKE OPPGAVER (OBLIG 1) (1) Uten å selv implementere og kjøre koden under, hva skriver koden ut til konsollen?

public static <returtype> navn_til_prosedyre(<parameter liste>) { // implementasjon av prosedyren

INF / Kap. 5, Del 2 Stein Krogdahl, Ifi, UiO

MED SVARFORSLAG UNIVERSITETET I OSLO

Kapittel 1 En oversikt over C-språket

UNIVERSITETET I OSLO

Dagens Tema: Grammatikker

Hva er en algoritme? INF HØSTEN 2006 INF1020. Kursansvarlige Ragnar Normann E-post: Dagens tema

Løsningsforslag til eksamen i IN 211 høsten 2001

UNIVERSITETET I OSLO

TDT Øvingsforelesning 1. Tuesday, August 28, 12

TDT4165 PROGRAMMING LANGUAGES. Exercise 01 Introduksjon til Oz

LO118D Forelesning 4 (DM)

TDT4110 IT Grunnkurs Høst 2016

Runtimesystemer - II. Funksjoner som parametere. Virtuelle metoder

INF Algoritmer og datastrukturer. Hva er INF2220? Algoritmer og datastrukturer

INF5110 Kap. 5: Parsering nedenfra-og-opp (Bottom-up parsing) 21/ Stein Krogdahl Ifi, UiO. Angående Oblig 1:


INF5110 V2013 Stoff som i boka står i kap 4, men som er generelt stoff om grammatikker

INF 1000 høsten 2011 Uke september

INF1000 undervisningen INF 1000 høsten 2011 Uke september

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Betinget eksekvering og logiske tester i shell

INF Repetisjon: Hvordan bygge treet og analysere? 8. september Typisk situasjon. De problematiske syntaks-diagrammene

UNIVERSITETET I OSLO

Digitalstyring sammendrag

Obligatorisk oppgave 2 i INF 4130, høsten 2009

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

Kap. 5, Del 2: SLR(1), LR(1)- og LALR(1)-grammatikker INF5110 V2009

1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2

Velkommen til INF5110 Kompilatorteknikk

Håndtering av tekstfiler

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Transkript:

Skanning del I Kapittel 2 18.01.2013 1

Skanning: innhold (begge forelesningene) Hva gjør en skanner? Input: programteksten. Output: Ett og ett token fra programteksten (sekvensielt). Regulære uttrykk/definisjoner. For å beskrive de ulike tokenklassene. Deterministiske automater (DFAer). For å kjenne igjen de enkelt tokens. Implementasjon av DFAer. Ikke-deterministiske automater (NFAer). For enklere overgang fra regulære uttrykk. Overgang fra NFAer til DFAer. 18.01.2013 2

Hva skanneren gjør Hovedmål Lage et program (metode) som leverer ett og ett token, med tilhørende attributter. Vanlige regler Hvert token skal gjøres så langt som mulig innenfor beskrivelsen. Dersom et token kan passe med flere beskrivelser må det finnes regler om valg: Typisk: Kan det være både nøkkelord og navn, så skal det anses som nøkkelord. Blank, linjeskift, TAB og kommentar angir skille mellom tokens, men skal forøvrig fjernes ( white space ). 18.01.2013 3

Hva skanneren gjør Vanlig invariant: Pilen peker på første tegn etter det siste token som ble lest. Ved kall på gettoken skal da denne pekeren flyttes! Tegnet pilen peker på ligger gjerne i en gitt variabel curchar e.l. 18.01.2013 4

Fortran spesielle regler for oppdeling i tokens Mellomrom (whitespace) uten betydning: I F ( X 2. EQ. 0) THE N IF(X2.EQ.0)THEN Ingen reserverte ord: IF(IF.EQ.0)THENTHEN=1.0 DO99I=1,10 DO99I=1.10 18.01.2013 5

Klassifisering Mulig regel: Det som skal behandles likt under syntaktisk analyse skal i samme klasse. Selve tokenet angir klassen hvilket leksem det er angis ved attributter. Det enkleste er å angi selve teksten (f.eks. string value) som attributt. Ofte vil scanneren også: Sette navn i tabell, og gi med indeksen som attributt Sette tekst-konstanter i tabell, og angi indeksen som attributt beregne tallkonstanter, og angi verdien som attributt 18.01.2013 6

En mulig klassifisering Navn (identifikator): abc25 Heltallskonstant: 1234 Reell konstant: 3.14E3 Boolsk konstant: true false Tekst-konstant: dette er en tekstkonstant Aritmetisk operator: + - * / Relasjons-operator: < <= >= > = <> Logisk operator: and or not Alle andre tokens i hver sin gruppe, f.eks.: nøkkelord ( ) [ ] { } :=, ;. MEN: Langt fra klart at denne blir den beste 18.01.2013 7

C-typer som kan representere et token Hovedklassifikasjonen Selve teksten, eller verdien Hvis man vil lagre bare ett attributt: 18.01.2013 8

En skanner er ikke stor og vanskelig De forskjellige token-klassene kan lett beskrives i prosa-tekst. Ut fra det kan en skanner skrives rett fram, uten særlig teori. Kan typisk ta noen hundre linjer, der det samme prinsippet stadig går igjen. Men, man kan ønske seg: Å angi token-klassene i en passelig formalisme. Ut fra denne få laget et skanner-program automatisk. Det er dette kapittel 2 handler mest om. 18.01.2013 9

Framgangsmåte for automatisk å lage en skanner Beskriv de forskjellige token-klassene som regulære uttrykk. Eller litt mer fleksibelt, som regulære definisjoner. Omarbeid dette til en NFA (Nondeterministic Finite Automaton). Er veldig rett fram. Omarbeid dette til en DFA (Deterministic Finite Automaton). Dette kan gjøres med en kjent, grei algoritme. En DFA kan uten videre gjøres om til et program. Det er hele veien et kompliserende element at vi: ikke bare skal finne ett token, men en sekvens av token. hvert token skal være så langt som mulig. Vi skal se på dette i følgende rekkefølge: (1) Regulære uttrykk (2) DFAer (3) NFAer 18.01.2013 10

REGULÆRE UTTRYKK 18.01.2013 11

Definisjon av regulære uttrykk Og det språket de definerer = mengden av strenger Presedens: *, konkatenering, 18.01.2013 12

Mer rasjonelle skrivemåter r+ = rr* r? = r ε Spesielle skrivemåter for tegnmengder: [0-9] [a-z] ~a ikke a ~(a b) hverken a eller b. hele Σ.* en vilkårlig streng Gi regulære uttrykk navn (regulære definisjoner), og så bruke disse navnene videre i regulære uttrykk: digit = [0-9] nat = digit+ signednat = (+ -)nat number = signednat (. nat)?(e signednat)? 18.01.2013 13

DETERMINISTISKE AUTOMATER 18.01.2013 14

Deterministisk Endelig Automat En DFA (deterministic finite automaton) M består av: Σ, et alfabet S, et sett med tilstander T: S x Σ S, en transisjons-funksjon s 0 S, en start-tilstand A S, et sett med aksepterende tilstander L(M) er språket akseptert av M, dvs alle strenger c 1 c 2 c n med c i Σ slik at det eksisterer tilstander s 1 =T(s 0,c 1 ), s 2 =T(s 1,c 2 ),, s n =T(s n-1,c n ) og s n A. Eksempel: a b a b 18.01.2013 15 c

DFA identifier = letter (letter digit )* Funksjonen T: SxΣ -> S er ikke fullstendig definert. Denne utvidelsen (med en feiltilstand) er underforstått. 18.01.2013 16

DFA for tall Regulære definisjoner digit = [0-9] nat = digit+ signednat = (+ -)? nat number = signednat (. nat)?(e signednat)? 18.01.2013 17

DFA for kommentarer Pascal type C, C++, Java type 18.01.2013 18

Implementasjon 1 av DFA ikke flytt til neste tegn 1 2 3 er neste tegn et siffer: tall er neste tegn {+,-,*,/}: arit. operator...... 18.01.2013 19

Implementasjon 2 av DFA Tilstanden eksplisitt representert ved et tall hvis det bare er navn vi leter etter hvis vi også aksepterer tall, vil siffer føre oss til en ny lovlig tilstand 18.01.2013 20

Implementasjon 3 av DFA Har et fast program Automaten ligger i en tabell 1 2 3 18.01.2013 21

IKKE-DETERMINISTISKE AUTOMATER 18.01.2013 22

Ikke-deterministisk Endelig Automat En NFA (nondeterministic finite automaton) M består av: Σ, et alfabet S, et sett med tilstander T: S x (Σ {ε}) p(s), en transisjons-funksjon s 0 S, en start-tilstand A S, et sett med aksepterende tilstander L(M) er språket akseptert av M, dvs alle strenger c 1 c 2 c n med c i Σ {ε} slik at det eksisterer tilstander s 1 T(s 0,c 1 ), s 2 T(s 1,c 2 ),, s n T(s n-1,c n ) og s n A. 18.01.2013 23

NFA vs DFA NFA: Kan ofte være lett å sette opp, spesielt ut fra et regulært uttrykk NFA: Kan ses på som syntaks-diagrammer NFA ikke greit å gjøre til algoritme DFA beskriver samme språk 18.01.2013 24

Motivasjon for å innføre NFA-er (1) DFA-er for de enkelte token Siden de starter forskjellig går det greit å slå dem sammen, men de opprinnelige automatene er ikke der lenger 18.01.2013 25

Motivasjon for å innføre NFA-er (2) Med disse tokendefinisjoner går det ikke med en enkel sammenslåing, da dette ikke er en DFA I dette tilfellet går det an å slå sammen på første tegn, men dette er ikke altid mulig 18.01.2013 26

Motivasjon for å innføre NFA-er (3) Derfor Ville være greiere generelt å gjøre det slik (1) Innfører ε-kant (2) Fjerner kravet om bare én a-kant ut fra hver tilstand 18.01.2013 27

Thomson-konstruksjon I (Ethvert regulært uttrykk skal bli automat på denne formen: ) a: a rs: ε: ε 18.01.2013 28

Thomson-konstruksjon II r s: r*: 18.01.2013 29

Eksempel Thomson-konstruksjon 18.01.2013 30

Neste forelesning: Tirsdag 22. januar (Lille Aud, KN) OVERGANG FRA NFA TIL DFA OPPGAVER: 2.1, 2.12, 2.14, 2.16 18.01.2013 31