INF1820: Introduksjon til språk-og kommunikasjonsteknologi Sjette forelesning Arne Skjærholt 25 januar, 2012
SIST GANG Forrige gang: Alle rare ordene Alle rare morfene Nå: Morfologi med datamaskin (computational morphology) Hvordan analysere ord? Hvordan generere ord?
BUT WHY? Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette?
BUT WHY? Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette? Generering: Maskinoversettelse: Generere riktig form i målspråket. Språklæringsapplikasjon: Generere former som må analyseres. Text-to-Speech
HELT KONKRET Det er mye informasjon i ett enkelt ord Hente ut og representere denne informasjonen
HELT KONKRET Det er mye informasjon i ett enkelt ord Hente ut og representere denne informasjonen fisker fiske+verb+pres fisk+noun+pl+indef fisker+noun+sg+def foxes fox+noun+pl stopping stop+verb+pres+cont er være+verb+pres
SYNTESE Generere gitte former: være+verb+past var bil+noun+sg+det bilen bok+noun+sg+det boka boken
KOMPUTASJONELL MORFOLOGI Teorier og teknikker for maskinell analyse og syntese av morfologi To hovedgrener: regelbasert og statistisk/datadreven
KOMPUTASJONELL MORFOLOGI Teorier og teknikker for maskinell analyse og syntese av morfologi To hovedgrener: regelbasert og statistisk/datadreven Vi skal se nærmere på regelbaserte metoder
GAMLE SANGER OM IGJEN (Formelt) språk: en mengde L av strenger dannet fra et alfabet Σ (dvs: L Σ )
GAMLE SANGER OM IGJEN (Formelt) språk: en mengde L av strenger dannet fra et alfabet Σ (dvs: L Σ ) Regulært språk: Kan gjenkjennes av en endelig tilstands-automat (FSA: Finite State Automaton) Egenskaper, gitt regulære språk A og B: A regulært Ā regulært A B regulært A B regulært A B regulært A B regulært
FSA Formelt: (Q, Σ, δ, q 0, F) Q mengde tilstander Alfabet Σ, en mengde symboler Transisjonsfunksjon δ : Q Σ Q Starttilstand q 0 Q Sluttilstander F Q
FSA Formelt: (Q, Σ, δ, q 0, F) Q mengde tilstander Alfabet Σ, en mengde symboler Transisjonsfunksjon δ : Q Σ Q Starttilstand q 0 Q Sluttilstander F Q q a 0 q 1 b c q 2 q 3
FST Transducer: FSA, med noko attåt
FST Transducer: FSA, med noko attåt Formelt: (Q, Σ, Γ, δ, q 0, F) Q mengde tilstander Innalfabet Σ, en mengde symboler Utalfabet Γ Transisjonsfunksjon δ : Q Σ Γ Q Starttilstand q0 Q Sluttilstander F Q
FST Transducer: FSA, med noko attåt Formelt: (Q, Σ, Γ, δ, q 0, F) Q mengde tilstander Innalfabet Σ, en mengde symboler Utalfabet Γ Transisjonsfunksjon δ : Q Σ Γ Q Starttilstand q0 Q Sluttilstander F Q q c 0 q a:h 1 q t:a 2 q ɛ:t 3 q 4
EGENSKAPER Tillukningsegenskaper for to regulære relasjoner A og B: A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon
EGENSKAPER Tillukningsegenskaper for to regulære relasjoner A og B: A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon
ET EKSEMPEL Engelsk: city/cities, bully/bullies,... Vi antar: city-s, bully-s,...
ET EKSEMPEL Engelsk: city/cities, bully/bullies,... Vi antar: city-s, bully-s,... [ˆy] y:i q 0 q -:e 1 q 2 y [ˆ-] s q 3
FSTER OG MORFOLOGI Fordeler: O(n) tid, O(1) minne Én beskrivelse gjør både analyse og syntese
FSTER OG MORFOLOGI Fordeler: O(n) tid, O(1) minne Én beskrivelse gjør både analyse og syntese Ulemper Tidkrevende og vanskelig å skrive regler
INDIREKTE OVERSETTELSE Vi går ikke direkte fra morfologisk beskrivelse til ord To FSTer i serie: Den første fra beskrivelse til sekvens morfer, den andre til ordform
INDIREKTE OVERSETTELSE Vi går ikke direkte fra morfologisk beskrivelse til ord To FSTer i serie: Den første fra beskrivelse til sekvens morfer, den andre til ordform All problems in computer science can be solved by another level of indirection David Wheeler
MORFOTAKS Morfemer kan ikke kombineres fritt *bok-ere *gul-ene *spark-t
ORTOGRAFI city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved.
ORTOGRAFI city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved. look/look-d og save/save-d? look/look-ed og save/save-ed?
RECAP Leksikon: alle røtter og morfer i språket Morfotaks: kombinasjonsregler for elementene i leksikon Ortografi: omformer morfemsekvenser til korrekt rettskriving
LITT LATIN amo rego amas regis amat regit amamus regimus amatis regitis amant regunt
LITT LATIN amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt
LITT LATIN amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ;
FLERTYDIGHET Ordklasse bukker (substantiv eller verb)
FLERTYDIGHET Ordklasse bukker (substantiv eller verb) Morfem En murer murer murer
FLERTYDIGHET Ordklasse bukker (substantiv eller verb) Morfem En murer murer murer Segmentering brusautomat vinduene pilspiss