Arne Skjærholt Quatrième leçon Arne Skjærholt Quatrième leçon
Previously... Alle rare ordene Alle rare morfene Previously...
Coming up... Morfologi med datamaskin (computational morphology) Hvordan analysere ord? Hvordan generere ord? Coming up...
Noen bruksområder Analyse: Parsing: Samsvar mellom verb og subjekt, substatntiv og adjektiv... Informasjonsgjenfinning ( Information Retrieval /IR): Hva er stammen til et ord? Maskinoversettelse: Hvilken ordform er dette? Generering: Maskinoversettelse: Generere riktig form i målspråket. Språklæringsapplikasjon: Generere former som må analyseres. Text-to-Speech Noen bruksområder
2013-02-14 murer mure+verb+pres murer murer+subst+m+ent+ubest murer mur+subst+m+flt+best Det er mye informasjon i et ord. Spørsmålet er hvordan vi skal hente ut og representere informasjonen. Fra disse eksemplene kan de se ganske enkelt ut. Men når vi går i detalj blir det straks mer innviklet. murer mure+verb+pres murer murer+subst+m+ent+ubest murer mur+subst+m+flt+best
2013-02-14 bever/bevrene en: stop/stopping være/er/var bever/bevrene en: stop/stopping være/er/var
2013-02-14 være+verb+pret var bil+subst+m+ent+best bilen bok+subst+mf+ent+best boka boken Det er ofte også ønskelig å kunne generere en gitt form av et ord. Dette kalles som regel syntese. Spørsmålet er hvordan vi får til dette, helt konkret. For å få det til trenger vi to hoveddeler: Data og regler, som er språkspesifikke, og formalismen som er teoriavhengig, men uavhengig av språk. være+verb+pret var bil+subst+m+ent+best bilen bok+subst+mf+ent+best boka boken Formalismen er Finite State Transducere, men før vi kommer så langt, repeterer vi litt...
Transducere Språk L over alfabet Σ For to uker siden så vi på formell språkteori, og regulære språk. Språket er en mengde, og mengden er en delmengde av alle mulige strenger vi kan lage med bokstaver fra alfabetet. Språk L over alfabet Σ
Transducere A regulært Ā regulært A B regulært A B regulært A B regulært A B regulært A regulært Regulære språk har en del egenskaper som gjør at de er veldig greie å jobbe med. Ā regulært A B regulært A B regulært A B regulært A B regulært
Transducere Σ,S,s 0,δ,F q 2 b q a 0 q 1 c q 3 Σ,S,s 0,δ,F Dette er definisjonen av en FSA, som vi kjenner fra før. Tenkepause: Hva er Σ, S, s 0, F, og δ (transisjonstabellen). q a 0 q 1 b c q 2 q 3
Transducere Regulær relasjon En relasjon R sier at et element fra én mengde står i et eller annet forhold til et element fra en annen mengde. For eksempel er sammenlingningsoperatorene eksempler på relasjoner. En regulær relasjon er en relasjon mellom to regulære språk. Det vil si at vi antar at alle gyldige ordformer i et språk kan beskrives som et endelig språk, og likeledes kan de morfologiske beskrivelsene ses på som et regulært språk. Relasjonen knytter da hver ordform i språket til de riktige morfologiske analysene. Regulær relasjon
Transducere S,Σ,Γ,δ,s 0,F På samme måte som vi kan gjenkjenne regulære språk med FSAer kan vi bruke FSTer for å finne de relaterte ordene gitt et ord fra det ene språket. S,Σ,Γ,δ,s 0,F Definisjonen er i grunnen den samme som for en FSA, men med noen forskjeller: Σ er inputalfabetet og Γ er outputalfabetet, og δ er en funksjon som for input-tilstandparet gir en mengde output-tilstandpar.
Transducere S,Σ,Γ,δ,s 0,F c:k h:a a:t t q 0 q 1 q 2 q 3 q 4 På samme måte som vi kan gjenkjenne regulære språk med FSAer kan vi bruke FSTer for å finne de relaterte ordene gitt et ord fra det ene språket. Definisjonen er i grunnen den samme som for en FSA, men med noen forskjeller: Σ er inputalfabetet og Γ er outputalfabetet, og δ er en funksjon som for input-tilstandparet gir en mengde output-tilstandpar. S,Σ,Γ,δ,s 0,F q c:k 0 q h:a 1 q a:t 2 q t 3 q 4
Transducere A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon A 1 er inversrelasjonen, det vil si at hvis vi har en FST som analyserer norske ord kan vi automatisk lage en automat som tar analyser og spytter ut gyldige ord. Det er veldig praktisk. A B er relasjonen fra input av A til output av B; det vil si, ta output fra A og mat den inn i B. Dette er nyttig siden vi kan dele opp morfologianalysen i flere mindre oppgaver. Først lager vi en maskin som tar analyser og erstatter de morfologiske trekkene med morfemer (bever+subst+m+flt+ubest bever-er) og en annen maskin som tar seg av rettskrivingsregler (bever-er bevre/bevere). A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Til gjengjeld er det noen tillukningsegenskaper som ikke holder (og som kan være slitsomt), men i praksis går det greit.
Transducere A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon A 1 er inversrelasjonen, det vil si at hvis vi har en FST som analyserer norske ord kan vi automatisk lage en automat som tar analyser og spytter ut gyldige ord. Det er veldig praktisk. A B er relasjonen fra input av A til output av B; det vil si, ta output fra A og mat den inn i B. Dette er nyttig siden vi kan dele opp morfologianalysen i flere mindre oppgaver. Først lager vi en maskin som tar analyser og erstatter de morfologiske trekkene med morfemer (bever+subst+m+flt+ubest bever-er) og en annen maskin som tar seg av rettskrivingsregler (bever-er bevre/bevere). A regulær relasjon A 1 regulær relasjon A B regulær relasjon A B regulær relasjon A B regulær relasjon Ā ikke en regulær relasjon A B ikke en regulær relasjon A B ikke en regulær relasjon Til gjengjeld er det noen tillukningsegenskaper som ikke holder (og som kan være slitsomt), men i praksis går det greit.
Indirekte oversettelse All problems in computer science can be solved by another level of indirection. David Wheeler All problems in computer science can be solved by another level of indirection. David Wheeler
Indirekte oversettelse Morfotaks er reglene for hvordan forskjellige morfemer kan kombineres. Det er nemlig ikke slik at alle morfemene kan kombineres fritt. Morfotaks Morfotaks Stjerne foran et eksempel angir at eksempelet er ugrammatisk.
Indirekte oversettelse Morfotaks er reglene for hvordan forskjellige morfemer kan kombineres. Det er nemlig ikke slik at alle morfemene kan kombineres fritt. Stjerne foran et eksempel angir at eksempelet er ugrammatisk. Morfotaks *bok-ere *gul-ene *spark-t Morfotaks *bok-ere *gul-ene *spark-t
Indirekte oversettelse Ortografi (gresk: rett (som i rett opp og ned, egentlig, men også riktig) skriving) er rettskriving. Ortografi Ortografi I det siste tilfellet står vi foran et valg. look/look-d og save/save-d eller look/look-ed og save/save-ed?
Indirekte oversettelse Ortografi (gresk: rett (som i rett opp og ned, egentlig, men også riktig) skriving) er rettskriving. Ortografi city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved. I det siste tilfellet står vi foran et valg. look/look-d og save/save-d eller look/look-ed og save/save-ed? Ortografi city/cities, bully/bullies,... stop/stopping, run/running,... look/looked, men save/saved.
Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego amas regis amat regit amamus regimus amatis regitis amant regunt amo rego amas regis amat regit amamus regimus amatis regitis amant regunt
Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt
Indirekte oversettelse Hva slags rettskrivingsregler trenger vi her? amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ; amo rego ama-o reg-o amas regis ama-s reg-s amat regit ama-t reg-t amamus regimus ama-mus reg-mus amatis regitis ama-tis reg-tis amant regunt ama-nt reg-nt a:0 <=> %-: [ o e ] ; %-:i <=> Cons [ s t m ] ; %-:u <=> Cons n ;
Indirekte oversettelse Leksikonet spesifiseres som en del av morfotaksen, men de ortografiske reglene er mer uavhengige. Morfotaksen bygger opp en gyldig sekvens av morfemer, mens ortografien omformer morfemsekvensene til korrekte ord. Leksikon Morfotaks Ortografi Leksikon Morfotaks Ortografi
2013-02-14 Indirekte oversettelse Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: brusautomat vinduene pilspiss FSTer kan ikke hjelpe oss med tvetydighetsproblemet. En FST vil gi alle mulige analyser for et ord, uten noen antydning om hva som antageligvis er riktig. En vei ut av dette problemet er HMMer, som vi kommer til om et par uker. Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: brusautomat vinduene pilspiss
2013-02-14 Indirekte oversettelse Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: bru-sau-tomat vin-duene pils-piss FSTer kan ikke hjelpe oss med tvetydighetsproblemet. En FST vil gi alle mulige analyser for et ord, uten noen antydning om hva som antageligvis er riktig. En vei ut av dette problemet er HMMer, som vi kommer til om et par uker. Flertydighet bukker substantiv eller verb? En murer murer murer Segmentering: bru-sau-tomat vin-duene pils-piss