INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Morfologi INF1820: Morfologi. Arne Skjærholt. 20. februar. INF1820: Morfologi. Arne Skjærholt. 20. februar

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione

INF1820: Oppsummering

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Følger Sipsers bok tett både i stoff og oppgaver.

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Skanning del I. Kapittel 2 INF 3110/ INF

INF2820 Datalingvistikk V2012. Jan Tore Lønning

LF - Eksamen i INF1820

Avgjørbarhet / Uavgjørbarhet

Skanning del I INF /01/15 1

IN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2080 Logikk og beregninger

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Scanning - I Kap. 2. Hva scanneren gjør

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

IN1140: Introduksjon til språkteknologi. Forelesning #4

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Slides til 12.1 Formelt språk og formell grammatikk

TEMA KOMPETANSEMÅL LÆRINGSMÅL INNHOLD METODE VURDERING

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2016. Jan Tore Lønning

TMA4140 Diskret Matematikk Høst 2016

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

MA3301 Beregnbarhets- og kompleksitetsteori Høsten

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Oppgaver til INF 5110, kapittel 5

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

UKE TEMA / EMNE LÆREMIDLER KOMPETANSEMÅL VURDERING Ansvar Samtale om. lærere måloppnåelse. Gjøre ferdig tegnsetting komma.

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF2820 Datalingvistikk V2012. Jan Tore Lønning

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

INF2220: Time 8 og 9 - Kompleksitet, beregnbarhet og kombinatorisk søk

Lære å skrive kort og brev å bruke e-post. Lære å bruke biblioteket forskjellen på skjønnlitteratur

INF1820: Ordklassetagging

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Norsk årsplan for 6. klasse 2014/15 Kompetansemål og forventninger Hovedemner

RENDALEN KOMMUNE Fagertun skole. Årsplan i norsk for 7. trinn

En grunnleggende innføring i bruk av ASK

Viktige begrep i kapittel 1.

Turingmaskiner en kortfattet introduksjon. Christian F Heide

Fagplan i norsk 7. trinn

Kompleksitetsanalyse Helge Hafting Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO117D Algoritmiske metoder

Hovedtema Kompetansemål Delmål Arbeidsmetode Vurdering Lær å lære. Lesekurs. (Zeppelin språkbok) Bison- overblikk. Nøkkelord. VØL- skjema.

En repetisjon hrj høst 2009

Vårplan i norsk for 7.klasse Kaldfjord skole. Vi tar forbehold om endringer!

INF 2820 V2018: Innleveringsoppgave 1

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

MAT1030 Forelesning 13

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Turingmaskiner en kortfattet introduksjon. Christian F Heide

med sammenheng og forståelse. dagene i uka. - Samtale om sanger, regler fra fortid og nåtid. - Variere ordvalg og setningsbygning i egen skriving.

Læringsstrategi Tankekart Nøkkelord Understrekning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

Løsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009

Repetisjon og mer motivasjon. MAT1030 Diskret matematikk. Repetisjon og mer motivasjon

LO118D Forelesning 4 (DM)

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

Oppgave 1 (samlet 15%)

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

Lokal læreplan i engelsk 8

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

Fagplan i norsk 5. trinn

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

Oppgaver til INF 5110, kapittel 5, med svarforslag Gjennomgått torsdag 26. febr Dette er versjon fra 28/7

Kom godt i gang med. Ordboksverktøyet. mikrov.no. Kom godt i gang med Ordboksverktøyet 1 1

INF1400. Tilstandsmaskin

Årsplan i norsk for 6. klasse

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

FAGPLAN I NORSK FOR 7. TRINN HØSTEN 2016

PC-bok 1. Svein-Ivar Fors. Lær deg. og mye mer! Windows Tekstbehandling Regneark Mange nyttige PC-tips!

Anatomien til en kompilator - I

Anatomien til en kompilator - I

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Oppgave 1 (samlet 15%)

Transkript:

Arne Skjærholt Quatrième leçon Arne Skjærholt Quatrième leçon

Previously... Alle rare ordene Alle rare morfene Previously...

Coming up... Morfologi med datamaskin (computational morphology) Hvordan analysere ord? Hvordan generere ord? Coming up...

Noen bruksområder Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette? Generering: Maskinoversettelse: Generere riktig form i målspråket. Språklæringsapplikasjon: Generere former som må analyseres. Text-to-Speech Noen bruksområder

2013-02-14 murer mure+verb+pres murer murer+subst+m+ent+ubest murer mur+subst+m+flt+best Det er mye informasjon i et ord. Spørsmålet er hvordan vi skal hente ut og representere informasjonen. Fra disse eksemplene kan de se ganske enkelt ut. Men når vi går i detalj blir det straks mer innviklet. murer mure+verb+pres murer murer+subst+m+ent+ubest murer mur+subst+m+flt+best

2013-02-14 bever/bevrene en: stop/stopping være/er/var bever/bevrene en: stop/stopping være/er/var

2013-02-14 være+verb+pret var bil+subst+m+ent+best bilen bok+subst+mf+ent+best boka boken Det er ofte også ønskelig å kunne generere en gitt form av et ord. Dette kalles som regel syntese. Spørsmålet er hvordan vi får til dette, helt konkret. For å få det til trenger vi to hoveddeler: Data og regler, som er språkspesifikke, og formalismen som er teoriavhengig, men uavhengig av språk. være+verb+pret var bil+subst+m+ent+best bilen bok+subst+mf+ent+best boka boken Formalismen er Finite State Transducere, men før vi kommer så langt, repeterer vi litt...

Transducere Språk L over alfabet Σ For to uker siden så vi på formell språkteori, og regulære språk. Språket er en mengde, og mengden er en delmengde av alle mulige strenger vi kan lage med bokstaver fra alfabetet. Språk L over alfabet Σ

Transducere A regulært Ā regulært A B regulært A B regulært A B regulært A B regulært A regulært Regulære språk har en del egenskaper som gjør at de er veldig greie å jobbe med. Ā regulært A B regulært A B regulært A B regulært A B regulært

Transducere Σ,S,s 0,δ,F q 2 b q a 0 q 1 c q 3 Σ,S,s 0,δ,F Dette er definisjonen av en FSA, som vi kjenner fra før. Tenkepause: Hva er Σ, S, s 0, F, og δ (transisjonstabellen). q a 0 q 1 b c q 2 q 3

Transducere Regulær relasjon En relasjon R sier at et element fra én mengde står i et eller annet forhold til et element fra en annen mengde. For eksempel er sammenlingningsoperatorene eksempler på relasjoner. En regulær relasjon er en relasjon mellom to regulære språk. Det vil si at vi antar at alle gyldige ordformer i et språk kan beskrives som et endelig språk, og likeledes kan de morfologiske beskrivelsene ses på som et regulært språk. Relasjonen knytter da hver ordform i språket til de riktige morfologiske analysene. Regulær relasjon

Transducere S,Σ,Γ,δ,s 0,F På samme måte som vi kan gjenkjenne regulære språk med FSAer kan vi bruke FSTer for å finne de relaterte ordene gitt et ord fra det ene språket. S,Σ,Γ,δ,s 0,F Definisjonen er i grunnen den samme som for en FSA, men med noen forskjeller: Σ er inputalfabetet og Γ er outputalfabetet, og δ er en funksjon som for input-tilstandparet gir en mengde output-tilstandpar.

Transducere S,Σ,Γ,δ,s 0,F c:k h:a a:t t q 0 q 1 q 2 q 3 q 4 På samme måte som vi kan gjenkjenne regulære språk med FSAer kan vi bruke FSTer for å finne de relaterte ordene gitt et ord fra det ene språket. Definisjonen er i grunnen den samme som for en FSA, men med noen forskjeller: Σ er inputalfabetet og Γ er outputalfabetet, og δ er en funksjon som for input-tilstandparet gir en mengde output-tilstandpar. S,Σ,Γ,δ,s 0,F q c:k 0 q h:a 1 q a:t 2 q t 3 q 4

Transducere A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon A 1 er inversrelasjonen, det vil si at hvis vi har en FST som analyserer norske ord kan vi automatisk lage en automat som tar analyser og spytter ut gyldige ord. Det er veldig praktisk. A B er relasjonen fra input av A til output av B; det vil si, ta output fra A og mat den inn i B. Dette er nyttig siden vi kan dele opp morfologianalysen i flere mindre oppgaver. Først lager vi en maskin som tar analyser og erstatter de morfologiske trekkene med morfemer (bever+subst+m+flt+ubest bever-er) og en annen maskin som tar seg av rettskrivingsregler (bever-er bevre/bevere). A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Til gjengjeld er det noen tillukningsegenskaper som ikke holder (og som kan være slitsomt), men i praksis går det greit.

Transducere A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon A 1 er inversrelasjonen, det vil si at hvis vi har en FST som analyserer norske ord kan vi automatisk lage en automat som tar analyser og spytter ut gyldige ord. Det er veldig praktisk. A B er relasjonen fra input av A til output av B; det vil si, ta output fra A og mat den inn i B. Dette er nyttig siden vi kan dele opp morfologianalysen i flere mindre oppgaver. Først lager vi en maskin som tar analyser og erstatter de morfologiske trekkene med morfemer (bever+subst+m+flt+ubest bever-er) og en annen maskin som tar seg av rettskrivingsregler (bever-er bevre/bevere). A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon Til gjengjeld er det noen tillukningsegenskaper som ikke holder (og som kan være slitsomt), men i praksis går det greit.

Indirekte oversettelse All problems in computer science can be solved by another level of indirection. David Wheeler All problems in computer science can be solved by another level of indirection. David Wheeler

Indirekte oversettelse Morfotaks er reglene for hvordan forskjellige morfemer kan kombineres. Det er nemlig ikke slik at alle morfemene kan kombineres fritt. Morfotaks Morfotaks Stjerne foran et eksempel angir at eksempelet er ugrammatisk.

Indirekte oversettelse Morfotaks er reglene for hvordan forskjellige morfemer kan kombineres. Det er nemlig ikke slik at alle morfemene kan kombineres fritt. Stjerne foran et eksempel angir at eksempelet er ugrammatisk. Morfotaks *bok-ere *gul-ene *spark-t Morfotaks *bok-ere *gul-ene *spark-t

Indirekte oversettelse Ortografi (gresk: rett (som i rett opp og ned, egentlig, men også riktig) skriving) er rettskriving. Ortografi Ortografi I det siste tilfellet står vi foran et valg. look/look-d og save/save-d eller look/look-ed og save/save-ed?

Indirekte oversettelse Ortografi (gresk: rett (som i rett opp og ned, egentlig, men også riktig) skriving) er rettskriving. Ortografi city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved. I det siste tilfellet står vi foran et valg. look/look-d og save/save-d eller look/look-ed og save/save-ed? Ortografi city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved.

Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego amas regis amat regit amamus regimus amatis regitis amant regunt amo rego amas regis amat regit amamus regimus amatis regitis amant regunt

Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt

Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ; amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ;

Indirekte oversettelse Leksikonet spesifiseres som en del av morfotaksen, men de ortografiske reglene er mer uavhengige. Morfotaksen bygger opp en gyldig sekvens av morfemer, mens ortografien omformer morfemsekvensene til korrekte ord. Leksikon Morfotaks Ortografi Leksikon Morfotaks Ortografi

2013-02-14 Indirekte oversettelse Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: brusautomat vinduene pilspiss FSTer kan ikke hjelpe oss med tvetydighetsproblemet. En FST vil gi alle mulige analyser for et ord, uten noen antydning om hva som antageligvis er riktig. En vei ut av dette problemet er HMMer, som vi kommer til om et par uker. Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: brusautomat vinduene pilspiss

2013-02-14 Indirekte oversettelse Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: bru-sau-tomat vin-duene pils-piss FSTer kan ikke hjelpe oss med tvetydighetsproblemet. En FST vil gi alle mulige analyser for et ord, uten noen antydning om hva som antageligvis er riktig. En vei ut av dette problemet er HMMer, som vi kommer til om et par uker. Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: bru-sau-tomat vin-duene pils-piss