INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF1820: Morfologi INF1820: Morfologi. Arne Skjærholt. 20. februar. INF1820: Morfologi. Arne Skjærholt. 20. februar

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF1820: Oppsummering

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2015. Jan Tore Lønning

IN2080. Oppgave 1. Oppgave 2. Eksamen. Vår Den nondeterministiske endelige automaten A er gitt ved (Q, Σ, δ, q 0, F ) der

Følger Sipsers bok tett både i stoff og oppgaver.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

LF - Eksamen i INF1820

INF2080 Logikk og beregninger

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Ordklassetagging

Skanning del I INF /01/15 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Skanning del I. Kapittel 2 INF 3110/ INF

INF 2820 V2018: Innleveringsoppgave 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2015. Jan Tore Lønning

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Løsningsforslag til obligatorisk oppgave 3 INF1800 Logikk og beregnbarhet, høsten 2009

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang Jan Tore Lønning

TMA4140 Diskret Matematikk Høst 2016

Slides til 12.1 Formelt språk og formell grammatikk

Repetisjon. 1 binærtall. INF3110 Programmeringsspråk. Sist så vi ulike notasjoner for syntaks: Jernbanediagrammer. BNF-grammatikker.

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF3110 Programmeringsspråk

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #4

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF 2820 V2016: Innleveringsoppgave 2

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF2820 Datalingvistikk V2016. Jan Tore Lønning

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

MA3301 Beregnbarhets- og kompleksitetsteori Høsten

Oppgaver til INF 5110, kapittel 5

INF 2820 V2016: Obligatorisk innleverinsoppgave 2

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Typisk: Kan det være både nøkkelord og navn, så skal det ansees som nøkkelord

Årsplan i norsk Trinn 8 Skoleåret Haumyrheia skole

IN1140: Introduksjon til språkteknologi. Forelesning #12

Oppgave 1 (samlet 15%)

RENDALEN KOMMUNE Fagertun skole. Årsplan i norsk for 7. trinn

UKE TEMA / EMNE LÆREMIDLER KOMPETANSEMÅL VURDERING Ansvar Samtale om. lærere måloppnåelse. Gjøre ferdig tegnsetting komma.

Oppgave 1. Spørsmål 1.1 (10%) Gitt det regulære uttrykket: a((bcd)+(cd))*cd

Turingmaskiner en kortfattet introduksjon. Christian F Heide

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

FAGPLAN I NORSK FOR 7. TRINN HØSTEN 2016

INF2820 V2017 Oppgavesett 6 Gruppe 7.3

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Norsk årsplan for 6. klasse 2014/15 Kompetansemål og forventninger Hovedemner

Vårplan i norsk for 7.klasse Kaldfjord skole. Vi tar forbehold om endringer!

Oppgave 1 (samlet 15%)

Scanning - I Kap. 2. Hva scanneren gjør

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF5830, H2009, Obigatorisk innlevering 2. 1 Oppgave: Unære produksjoner i CKY

UNIVERSITETET I OSLO

INF2220: Time 8 og 9 - Kompleksitet, beregnbarhet og kombinatorisk søk

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

TEMA KOMPETANSEMÅL LÆRINGSMÅL INNHOLD METODE VURDERING

INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #13

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 3, 30.1 Jan Tore Lønning

jeg kan improvisere med stemme og instrumenter med utgangspunkt i enkle rytmiske, melodiske og harmoniske mønstre.

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Arne Skjærholt 25 januar, 2012

SIST GANG Forrige gang: Alle rare ordene Alle rare morfene Nå: Morfologi med datamaskin (computational morphology) Hvordan analysere ord? Hvordan generere ord?

BUT WHY? Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette?

BUT WHY? Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette? Generering: Maskinoversettelse: Generere riktig form i målspråket. Språklæringsapplikasjon: Generere former som må analyseres. Text-to-Speech

HELT KONKRET Det er mye informasjon i ett enkelt ord Hente ut og representere denne informasjonen

HELT KONKRET Det er mye informasjon i ett enkelt ord Hente ut og representere denne informasjonen fisker fiske+verb+pres fisk+noun+pl+indef fisker+noun+sg+def foxes fox+noun+pl stopping stop+verb+pres+cont er være+verb+pres

SYNTESE Generere gitte former: være+verb+past var bil+noun+sg+det bilen bok+noun+sg+det boka boken

KOMPUTASJONELL MORFOLOGI Teorier og teknikker for maskinell analyse og syntese av morfologi To hovedgrener: regelbasert og statistisk/datadreven

KOMPUTASJONELL MORFOLOGI Teorier og teknikker for maskinell analyse og syntese av morfologi To hovedgrener: regelbasert og statistisk/datadreven Vi skal se nærmere på regelbaserte metoder

GAMLE SANGER OM IGJEN (Formelt) språk: en mengde L av strenger dannet fra et alfabet Σ (dvs: L Σ )

GAMLE SANGER OM IGJEN (Formelt) språk: en mengde L av strenger dannet fra et alfabet Σ (dvs: L Σ ) Regulært språk: Kan gjenkjennes av en endelig tilstands-automat (FSA: Finite State Automaton) Egenskaper, gitt regulære språk A og B: A regulært Ā regulært A B regulært A B regulært A B regulært A B regulært

FSA Formelt: (Q, Σ, δ, q 0, F) Q mengde tilstander Alfabet Σ, en mengde symboler Transisjonsfunksjon δ : Q Σ Q Starttilstand q 0 Q Sluttilstander F Q

FSA Formelt: (Q, Σ, δ, q 0, F) Q mengde tilstander Alfabet Σ, en mengde symboler Transisjonsfunksjon δ : Q Σ Q Starttilstand q 0 Q Sluttilstander F Q q a 0 q 1 b c q 2 q 3

FST Transducer: FSA, med noko attåt

FST Transducer: FSA, med noko attåt Formelt: (Q, Σ, Γ, δ, q 0, F) Q mengde tilstander Innalfabet Σ, en mengde symboler Utalfabet Γ Transisjonsfunksjon δ : Q Σ Γ Q Starttilstand q0 Q Sluttilstander F Q

FST Transducer: FSA, med noko attåt Formelt: (Q, Σ, Γ, δ, q 0, F) Q mengde tilstander Innalfabet Σ, en mengde symboler Utalfabet Γ Transisjonsfunksjon δ : Q Σ Γ Q Starttilstand q0 Q Sluttilstander F Q q c 0 q a:h 1 q t:a 2 q ɛ:t 3 q 4

EGENSKAPER Tillukningsegenskaper for to regulære relasjoner A og B: A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon

EGENSKAPER Tillukningsegenskaper for to regulære relasjoner A og B: A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon

ET EKSEMPEL Engelsk: city/cities, bully/bullies,... Vi antar: city-s, bully-s,...

ET EKSEMPEL Engelsk: city/cities, bully/bullies,... Vi antar: city-s, bully-s,... [ˆy] y:i q 0 q -:e 1 q 2 y [ˆ-] s q 3

FSTER OG MORFOLOGI Fordeler: O(n) tid, O(1) minne Én beskrivelse gjør både analyse og syntese

FSTER OG MORFOLOGI Fordeler: O(n) tid, O(1) minne Én beskrivelse gjør både analyse og syntese Ulemper Tidkrevende og vanskelig å skrive regler

INDIREKTE OVERSETTELSE Vi går ikke direkte fra morfologisk beskrivelse til ord To FSTer i serie: Den første fra beskrivelse til sekvens morfer, den andre til ordform

INDIREKTE OVERSETTELSE Vi går ikke direkte fra morfologisk beskrivelse til ord To FSTer i serie: Den første fra beskrivelse til sekvens morfer, den andre til ordform All problems in computer science can be solved by another level of indirection David Wheeler

MORFOTAKS Morfemer kan ikke kombineres fritt *bok-ere *gul-ene *spark-t

ORTOGRAFI city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved.

ORTOGRAFI city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved. look/look-d og save/save-d? look/look-ed og save/save-ed?

RECAP Leksikon: alle røtter og morfer i språket Morfotaks: kombinasjonsregler for elementene i leksikon Ortografi: omformer morfemsekvenser til korrekt rettskriving

LITT LATIN amo rego amas regis amat regit amamus regimus amatis regitis amant regunt

LITT LATIN amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt

LITT LATIN amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ;

FLERTYDIGHET Ordklasse bukker (substantiv eller verb)

FLERTYDIGHET Ordklasse bukker (substantiv eller verb) Morfem En murer murer murer

FLERTYDIGHET Ordklasse bukker (substantiv eller verb) Morfem En murer murer murer Segmentering brusautomat vinduene pilspiss