Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Like dokumenter
Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Scanning - I Kap. 2. Hva scanneren gjør

Skanning del I INF /01/15 1

Skanning del I. Kapittel 2 INF 3110/ INF

Anatomien til en kompilator - I

Anatomien til en kompilator - I

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

INF2080 Logikk og beregninger

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Følger Sipsers bok tett både i stoff og oppgaver.

Beskrivelse av programmeringsspråket Compila15 INF Kompilatorteknikk Våren 2015

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Kap.4, del 2: Top Down Parsering Kap. 5, del 1: Bottom Up Parsing INF5110, 7/ Legger ut en oppgave til kap. 4 (se beskjed).

Administrivia INF 3110/ INF /02/2005 1

INF3110 Programmeringsspråk

INF2820 Datalingvistikk V2018 Forelesning 3, 29. jan. Jan Tore Lønning

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Kapittel 1 En oversikt over C-språket

Dagens tema Grundig repetisjon og utdyping: Syntaks kontra semantikk

Kap. 5 del 2: LR(1)- og LALR(1)-grammatikker INF5110 V2005. Stein Krogdahl, Ifi, UiO

Dagens Tema: Grammatikker

Dagens tema: Regulære språk og uttrykk

Kap. 5, del 2 LR(1)- og LALR(1)-grammatikker INF5110 V2008

public static <returtype> navn_til_prosedyre(<parameter liste>) { // implementasjon av prosedyren

Hva er syntaks? En overskrift i en norsk avis: Dagens tema Grundig repetisjon og utdyping:

MAT1030 Plenumsregning 1

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

INF 5110, 3. februar Dette foilheftet: Kapittel 3

Repetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.

INF januar Forelesninger fremover:

Syntax/semantics - I INF 3110/ /29/2005 1

Plenumsregning 1. MAT1030 Diskret Matematikk. Repetisjon: Algoritmer og pseudokode. Velkommen til plenumsregning for MAT1030

public static <returtype> navn_til_prosedyre(<parameter liste>) { // implementasjon av prosedyren

MAT1030 Diskret Matematikk

Velkommen til INF Kompilatorteknikk

Programmeringsspråket C

UNIVERSITETET I OSLO

Kap. 5, Del 3: INF5110, fra 1/3-2011

Oppgaver til INF 5110, kapittel 5 Fullt svar på oppgave 5.4, og en del andre oppgaver med svar

Runtimesystemer - II. Funksjoner som parametere. Virtuelle metoder

Dagens Tema: Grammatikker

INF 2820 V2018: Innleveringsoppgave 1

INF Repetisjon: Hvordan bygge treet og analysere? 8. september Typisk situasjon. De problematiske syntaks-diagrammene

UNIVERSITETET I OSLO

Språktyper og syntaksanalyseteknikker. Dagens temaer. Hvordan lage en deterministisk automat? Fra jernbanediagram til ID-automat

Velkommen til INF Kompilatorteknikk

OPPGAVE 1 OBLIGATORISKE OPPGAVER (OBLIG 1) (1) Uten å selv implementere og kjøre koden under, hva skriver koden ut til konsollen?

Datatyper og typesjekking

Beskrivelse av programmeringsspråket Simpila INF Kompilatorteknikk Våren 2012

TDT4110 IT Grunnkurs Høst 2016

UNIVERSITETET I OSLO

Oppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr Dette er versjon fra 28/7

Kap. 5, del 1: Parsering nedenfra-opp (Bottom-up parsering) INF / Stein Krogdahl Ifi, UiO

MED SVARFORSLAG UNIVERSITETET I OSLO

Kap.4 del I Top Down Parsering INF5110 v2005. Arne Maus Ifi, UiO

INF5110 V2013 Stoff som i boka står i kap 4, men som er generelt stoff om grammatikker

Kap. 4 del I Top Down Parsering INF5110 v2006. Stein Krogdahl Ifi, UiO

TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap. 3

Kap. 5, del 1: Parsering nedenfra-opp (Bottom up parsing) INF5110. Stein Krogdahl Ifi, UiO

if (be): else (not_to_be): TDT4110 Informasjonsteknologi grunnkurs: Tema: Betingelser og logiske uttrykk Utgave 3: Kap.

TDT4165 PROGRAMMING LANGUAGES. Exercise 01 Introduksjon til Oz

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Dagens tema. C-programmering. Nøkkelen til å forstå C-programmering ligger i å forstå hvordan minnet brukes.

Datatyper og typesjekking

Kontekstfrie grammatikker og syntaksanalyse (parsering)

Dagens Tema: Grammatikker Kap. 3 i K. C. Louden

Datatyper og typesjekking

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Plenumsregning 1. Kapittel 1. Roger Antonsen januar Velkommen til plenumsregning for MAT1030. Repetisjon: Algoritmer og pseudokode

Løsningsforslag til eksamen i IN 211 høsten 2001

Del 1 En oversikt over C-programmering

Velkommen til plenumsregning for MAT1030. MAT1030 Diskret matematikk. Repetisjon: Algoritmer og pseudokode. Eksempel fra boka. Eksempel

Velkommen til INF5110 Kompilatorteknikk

Hva er en algoritme? INF HØSTEN 2006 INF1020. Kursansvarlige Ragnar Normann E-post: Dagens tema

Datatyper og typesjekking

Velkommen til INF Kompilatorteknikk

MAT1030 Diskret matematikk

Betinget eksekvering og logiske tester i shell

TDT4110 IT Grunnkurs Høst 2016

FASIT/LF FOR EKSAMEN TMA4140, H07

Introduksjon til objektorientert programmering

Løsningsforslag i digitalteknikkoppgaver INF2270 uke 5 (29/1-4/2 2006)

Hjemmeeksamen 1 i INF3110/4110

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Semantisk Analyse del III

INF2100. Oppgaver 23. og 24. september 2010

Transkript:

Scanning - I Kap. 2 Hovedmål Gå ut fra en beskrivelse av de enkelte tokens, og hvordan de skal deles opp i klasser Lage et program (funksjon, prosedyre, metode) som leverer ett og ett token, med all nødvendig informasjon Tokenet skal angis som en hovedklassifikasjon, med tilhørende attributter Vanlige regler Hvert token skal gjøres så langt som mulig innenfor beskrivelsen Dersom et token kan passe med flere beskrivelser må det finnes regler om valg: Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord Blank, linjeskift, TAB og kommentar angir skille mellom tokens, men skal forøvrig fjernes ( white space ) 3110/4110-2004 IN F 5110-200 9 1/19/2009 1

Hva scanneren gjør Vanlig invariant: Pilen peker på første tegn etter det siste token som ble lest. Ved + skal da denne pekeren flyttes! Tegnet pilen peker på ligger gjerne i en gitt variabel curchar e-lign. 3110/4110-2004 IN F 5110-2009 1/19/2009 2

Fortran Spesielle regler for oppdeling i tokens DO 99 I=1,10 - - - 99 CONTINUE 3110/4110-2004 IN F 5110-200 9 1/19/2009 3

Klassifisering Hva som er en god klassifisering i blir ikke klart før senere i kompilatoren En mulig regel: Det som skal behandles likt under syntaktisk analyse skal i samme klasse. Selve tokenet angir klassen hvilket leksem det er angis ved attributter Det enkleste er å angi selve teksten (f.eks. string value) som attributt Men ofte vil scanneren også: Sette navn i tabell, og gi med indeksen som attributt Sette tekst-konstanter konstanter i tabell, og angi indeksen som attributt beregne tallkonstanter, og angi verdien som attributt 3110/4110-2004 IN F 5110-2009 1/19/2009 4

En mulig klassifisering Navn (identifikator): ifik abc25 Heltallskonstant: 1234 Reell konstant: 3.14E3 Boolsk konstant: true false Tekst-konstant: dette er en tekstkonstant Aritmetisk operator: + - * / Relasjons-operator: < <= >= > = <> Logisk operator: and or not Alle andre tokens i hver sin gruppe, f.eks.: nøkkelord ( ) [ ] { } :=, ;. MEN: Langt fra klart at denne blir den beste 3110/4110-2004 IN F 5110-200 9 1/19/2009 5

C-typer som kan representere et token Hovedklassifikasjonen Selve teksten, eller verdien Hvis man vil lagre bare ett attributt: 3110/4110-2004 5110-2009 1/19/2009 6

En scanner er ikke stor og vanskelig De forskjellige token-klassene kl kan lett beskrives i prosa-tekst Ut fra det kan en scanner skrives rett fram, uten særlig teori Kan typisk ta noen hundre linjer, der det samme prinsippet stadig går igjen Men, man kan ønske seg: Å angi token-klassene i en passelig formalisme Ut fra denne å automatisk få laget et scanner-program Det er dette kapittel 2 handler mest om 3110/4110-2004 5110-2009 1/19/2009 7

Framgangsmåte for automatisk å lage en scanner Beskriv de forskjellige token-klassene som regulære uttrykk Eller litt mer fleksibelt, som regulære definisjoner Omarbeid dette til en NFA (Nondeterministic Finite Automaton) Er veldig rett fram Omarbeid dette til en DFA (Deterministic Finite Automaton) Dette kan gjøres med en kjent, grei algoritme En DFA kan uten videre gjøres om til et program Det er hele veien et kompliserende element at vi: ikke bare skal finne ett token, men en sekvens av token hvert token skal være så langt som mulig Vi skal se på dette i følgende rekkefølge: (1) Regulære uttrykk (2) DFAer (3) NFAer 3110/4110-2004 IN F 5110-200 9 1/19/2009 8

Definisjon av regulære uttrykk Og det språket de definerer = mengden av strenger Presedens: *, konkatenering, L(ε) () = språket som bare innholder ε strengerg L( ) = språket uten noen strenger 3110/4110-2004 5110-200 9 1/19/2009 9

Eksempler - I Strenger som har nøyaktig en b Σ={a,b,c} (a c)* b (a c)* Strenger som har maks en b (a c)* (a c)* b (a c)* (a c)* (b ε) (a c)* Strenger som har formen aaaabaaaa (dvs like mange a-er) (a n b a n )? 3110/4110-2004 IN F 5110-2009 1/19/2009 10

Eksempler - II Strenger som ikke inneholder to b-er etter hverandre (b (a c))* en a eller c etter hver b ((a c)* (b (a c))*)* kombinert med (a c)* ((a c) (b (a c)))* forenklet (a c ba bc)* enda mer forenklet (a c b ba b bc)* )*(b ε) ) får med b på slutten (notb b notb)* ) (b ε) ) hvor notb = a c 3110/4110-2004 IN F 5110-200 9 1/19/2009 11

Mer rasjonelle skrivemåter r+ = rr* r? = r ε Gi regulære uttrykk navn (regulære definisjoner), og så bruke disse navnene videre i regulære uttrykk: digit = [0-9] nat = digit+ signednat = (+ -)nat number = signednat (. nat)?(e signednat)? Spesielle skrivemåter for tegnmengder [0-9] [a-z] ~a ikke a ~(a b) hverken a eller b. hele Σ.* en vilkårlig streng 3110/4110-2004 IN F 5110-200 9 1/19/2009 12

Deterministisk Endelig Automat 3110/4110-2004 5110-2009 1/19/2009 13

DFA identifier = letter (letter digit )* Funksjonen T: SxΣ -> S er ikke fullstendig definert Denne utvidelsen (med en feiltilstand) er underforstått 3110/4110-2004 IN F 5110-2009 1/19/2009 14

DFA for tall Regulære definisjoner digit = [0-9] nat = digit+ signednat = (+ -)? nat number = signednat (. nat)?(e signednat)? 3110/4110-2004 5110-2009 1/19/2009 15

DFA for kommentarer Pascal type 3110/4110-2004 C, C++, Java type 5110-2009 1/19/2009 16

Implementasjon 1 av DFA ikke flytt til neste tegn 1 2 3 er neste tegn et siffer: tall er neste tegn {+,-,*,/}: arit. operator...... 3110/4110-2004 5110-200 9 1/19/2009 17

Implementasjon 2 av DFA Tilstanden eksplisitt representert ved et tall hvis det bare er navn vi leter etter hvis vi også aksepterer tall, vil siffer føre oss til en ny lovlig tilstand 3110/4110-2004 IN F 5110-200 9 1/19/2009 18

Implementasjon 3 av DFA Har et fast program Automaten ligger i en tabell 1 2 3 3110/4110-2004 5110-2009 1/19/2009 19

Definisjon av NFA Kan ofte være lett å sette opp, spesielt ut fra et regulært uttrykk Kan ses på som syntaks-diagrammer NFA DFA ikke greit å gjøre til algoritme beskriver samme språk 3110/4110-2004 5110-2009 1/19/2009 20

Motivasjon for å innføre NFA-er (1) DFA-er for de enkelte token Siden de starter forskjellig går det greit å slå dem sammen, men de opprindelige automater t er der ikke lenger 3110/4110-2004 IN F 5110-200 9 1/19/2009 21

Motivasjon for å innføre NFA-er (2) Med disse token- definisjoner går det ikke med en enkel sammenslåing I dette tilfellet går det an å slå sammen på første tegn 3110/4110-2004 IN F 5110-200 9 1/19/2009 22

Motivasjon for å innføre NFA-er (3) Derfor Ville være greiere generelt å gjøre det slik (1) Innfører ε-kant (2) Fjerner kravet om bare én a-kant ut fra hver tilstand t 3110/4110-2004 IN F 5110-200 9 1/19/2009 23

Thomson-konstruksjon I (Ethvert regulært uttrykk skal bli automat på denne formen: a: a rs: ε: ε 3110/4110-2004 IN F 5110-2009 1/19/2009 24

Thomson-konstruksjon II r s: 3110/4110-2004 r*: 5110-2009 1/19/2009 25

Eksempel Thomson-konstruksjon ab a 3110/4110-2004 5110-2009 1/19/2009 26