Arne Skjærholt 8. mai Arne Skjærholt 8. mai
Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder. Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder.
Lingvistikk er det vitenskapelige studiet av språk. Ganske mange nivåer, men vi har fokusert på morfologi og syntaks, pluss litt syntaks. Vitenskapelig studie i den forstand at vi studerer regler, systemer og prinsipper i menneskelige språk. Morfologi er studiet av ord og byggesteinene for ord, syntaks ser på hvordan ord settes sammen til setninger, og semantikk er studiet av mening og betydning.
Tvetydighet Et av de helt grunnleggende problemene i språkteknologi er tvetydighet, noe som dukker opp på alle nivåene i systemet. Tvetydighet
Korpora Korpora er helt sentralt i stort sett alle språkteknologiske applikasjoner og bruksområder. Korpora
Lingvistikk Morfologi Morfologi Handler om oppbygningen til ord og dannelsen av nye ord. To grunnleggende fenomener vi studerer: bøyning og avledning. Bøyning er dannelsen av nye former av samme ord, mens avledning danner nye ord fra andre ord. Morfologi
Lingvistikk Morfologi Morfemer Morfemet er den minste meningsbærende lingvistiske enheten (finnes mindre enheter i fonetikken og fonologien, men de er ikke selvstendige meningsbærere). Morfemene kan deles inn i to kategorier: frie og bundne. Frie morfer er de som kan forekomme alene, mens bundne morfemer bare forekommer i komplekse ord. Morfemer
Substantiv Adjektiv Verb Adverb 2014-05-08 Lingvistikk Morfologi 1. Morfologiske/formelle kriterier 2. Syntaktiske/funksjonelle 3. Semantiske/betydningsmessige Vi snakker om åpne og lukkede ordklasser, og innholdsord kontra funksjonsord. Omtrent det samme, men ikke helt en-til-en. Åpne ordklasser er de ordklassene som tar opp nye medlemmer, men de som ikke gjør det er lukkede klasser. Innholdsord er ord med semantisk innhold, mens funksjonsord kun har lingvistisk funksjon. Substantiv Verb Adverb 1. Morfologiske/formelle kriterier 2. Syntaktiske/funksjonelle 3. Semantiske/betydningsmessige Adjektiv
Lingvistikk Syntaks Syntaks Hvordan vi setter ord sammen til fraser og fraser sammen til setninger. Vi snakker både om syntaktssk form (hvilke ordklasser og fraser brukes) og funksjon (subjekt, direkte objekt, osv.). Syntaks
Lingvistikk Syntaks Konstituenter En konstituent er en gruppe ord som fungerer som en syntaktisk enhet. Vi har tre typer tester vi bruker for å avgjøre om en gruppe er en konstituent. Stå alene: Kan ordene stå alene, f.eks. som svar på et spørsmål? Kan ordene flyttes som en enhet til et annet sted i setningen? Kan ordene erstattes med et pronomen? Konstituenter
Lingvistikk Syntaks NP NP CC NP Adj N og kvinner gamle menn NP Adj N gamle N CC N menn og kvinner Det er dette som er syntaktisk (eller strukturell flertydighet): Rekkefølgen vi anvender de syntaktiske reglene på (se også CFGer), avgjør hvordan strukturen til setningen ser ut, som igjen kan bestemme setningens betydning. NP NP CC NP Adj NP N Adj N og kvinner gamle N CC N gamle menn menn og kvinner
Lingvistikk Syntaks Funksjonell analyse Noen fraser har en særskilt rolle i setningen, og fyller spesifikke roller: De viktigste setningsleddene er subjekt, predikat, direkte objekt og indirekte objekt. Predikativ og forskjellige typer adverbialer kan også forekomme. Funksjonell analyse
Lingvistikk Semantikk Semantikk Semantikk er studiet av betydning og hvordan vi uttrykker det gjennom språk. Vi kan tildele betydning til morfemer, ord, fraser og setninger. I dette kurset har vi sett på leksikalsk semantikk og setningssemantikk. I tillegg har vi felt som pragmatikk: Hvordan påvirker konteksten betydning? Semantikk
Lingvistikk Semantikk Leksikalsk semantikk Leksikalsk semantikk er hvordan vi representerer betydningene til ord, og forholdene som finnes mellom forskjellige ords betydninger. Ord kan ha forskjellige semantiske trekk (female, human, etc.). Vi har forskjellige typer relasjoner mellom ord. Homonymi vs. polysemi (viktig og skille mellom de to) Synonymi Antonymi Hyponymi Leksikalsk semantikk
Lingvistikk Semantikk Komposisjonell semantikk Hva er sannhetsverdien til en setning? Vi bygger opp logiske uttrykk som kan evalueres for å gi sannhetsverdien, predikatene er mengder og de er sanne hvis argumentene er en del av mengden. Komposisjonell semantikk
Lingvistikk Semantikk Semantiske roller Et annet aspekt av setningsbetydning. Verbet krever forskjellige roller; hvilke deltagere tar de forskjellige rollene? Visse paralleler med setningsleddene her, men ikke trivielt å gå mellom de to. Se for eksempel passiver. PropBank og FrameNet er ressurser for semantiske roller (korpus og leksikon, hhv). Semantiske roller
Formelle modeller Literaler: /b/, /INF1820/ Disjunksjon: /penge(r ne)/, /[A-Z]/ Negasjon av tegnklasser: /[ˆ0-9A-Z]/ Kvantorer: /a?/, /a*/, /a+/ Hva-som-helst: /./ Formell språkteori. Lukket under union og snitt, komplement, mengdedifferanse. Literaler: /b/, /INF1820/ Disjunksjon: /penge(r ne)/, /[A-Z]/ Negasjon av tegnklasser: /[ˆ0-9A-Z]/ Kvantorer: /a?/, /a*/, /a+/ Hva-som-helst: /./
2014-05-08 Formelle modeller hσ, S, s0, δ, Fi a q0 I b q1 Σ = {a, b,!} I S = {q0, q1, q2, q3 } I s0 = q0 I δ(q, σ ) fra transisjonstabellen I F = {q3 } a! q2 q0 q1 q2 q3 Det er en viktig dualitet mellom regulære spra k og tilstandsmaskiner: Regexen beskriver spra ket vi er interessert i, mens FSAen beskriver algoritmen vi bruker for a gjenkjenne strengene i spra ket. Maskinen er deterministisk hvis det ikke finnes en tilstand der det er to kanter ut med samme bokstav pa (ekvivalent: alle tilstandene har maks en pil ut for hver bokstav). Hvis den ikke er deterministisk er den ikke-deterministisk. NFAer kan ogsa ha epsilon-kanter, som lar maskinen bevege seg mellom to tilstander uten a spise en bokstav fra input. q3 a q2 q2 b q1! q3 hσ, S, s0, δ, Fi a q0 I b q1 Σ = {a, b,!} I S = {q0, q1, q2, q3 } I s0 = q0 I δ(q, σ ) fra transisjonstabellen I F = {q3 } a! q2 q0 q1 q2 q3 q3 a q2 q2 b q1! q3
Formelle modeller A og B uavhengige: P (A B) = P (A)P (B) P (A B) Betinget sannsynlighet: P (A B) = P (B) P (A B) = P (A B)P (B) = P (B A)P (A) A og B uavhengige: P (A B) = P (A)P (B) P (A B) Betinget sannsynlighet: P (A B) = P (B) P (A B) = P (A B)P (B) = P (B A)P (A)
Formelle modeller P (B A)P (A) P (A B) = P (B) P (A B) = P (A B)/P (B), P (B A) = P (A B)/P (A) og da følger Bayes trivielt. P (A B) = P (B A)P (A) P (B)
Formelle modeller n P (w1 n ) = P (w i w i 1 ) Språkmodell. Vi antar at ordene er uavhengige av resten av ordene, gitt ordet før. i=1 n P (w1 n ) = P (w i w i 1 ) i=1
Formelle modeller n P (t1 n wn 1 ) = P (t i t i 1 )P (w i t i ) i=1 HMM. Starter med P (t w), Bayes-invertering og stryker under brøkstreken fordi vi argmaxer. n P (t1 n wn 1 ) = P (t i t i 1 )P (w i t i ) i=1
Formelle modeller N,Σ,R,S N = {S,NP,N,N,DT,V P V } Σ = {et,fly,ankom} R = {S NP V P, NP DT N, N N, V P V, N fly, DT et, V ankom} S = S N,Σ,R,S CFGer. Her er det mest samspillet mellom reglene som er interessant. Rekursjon i reglene er en viktig kilde til ubegrensetheten i naturlige språk. N = {S,NP,N,N,DT,V P V } Σ = {et,fly,ankom} R = {S NP V P, NP DT N, N N, V P V, N fly, DT et, V ankom} S = S
Formelle modeller Samme opplegget som HMM. Starter med P (s f ), Bayes og stryk under streken fordi vi argmaxer. n P (s f1 n ) P (f i s) i=1 P (s f n 1 ) n i=1 P (f i s)
Formelle modeller Vektorrommodellen Vi representerer dokumenter og søkestrenger som vektorer, og finner de likeste dokumentene ved å finne de som har likest vektor. For å unngå å gi vanlige ord for høy vekt bruker vi vekting av termfrekvensene (tf), som regel med inverse document frequency (idf): idf = log N n t der n t er antall dokumenter som inneholder termen og N antall dokumenter totalt. Vektorrommodellen
Metoder og applikasjoner bilen: bil+subst+m+ent+best hoppet: hoppe+verb+pret hoppet: hoppe+verb+perfpart hoppet: hopp+subst+n+ent+best Komputasjonell morfologi: Hente ut og representere morfologisk informasjon for senere bruk av andre prosesseringssteg. bilen: bil+subst+m+ent+best hoppet: hoppe+verb+pret hoppet: hoppe+verb+perfpart hoppet: hopp+subst+n+ent+best
Metoder og applikasjoner Ordklassetagging For hvert ord i en setning: Er det substantiv, verb, preposisjon, etc... Ordklassetagging
Metoder og applikasjoner Chunking Markere opp ikke-rekursive blokker i en setning, som regel NP-konstituenter. Chunking
Metoder og applikasjoner WSD Mange ord har flere betydninger. Hvordan kan vi automatisk entydiggjøre betydningene? WSD
Metoder og applikasjoner Information extraction Her har vi snakket mest om Named Entity Recognition (NER), som handler om å finne deler av teksten som refererer til et navngitt objekt: Personer, land, byer, etc. Information extraction
Metoder og applikasjoner Information retrieval Hente de mest relevante dokumentene for en søkestreng. INF3800. Information retrieval
Metoder og applikasjoner Moderne statistisk maskinoversettelse er basert på to hovedkomponenter. En oversettelsesmodell som lager en halvdårlig ord-for-ord-oversettelse og en språkmodell som passer på at en oversettelse som ser ut som en god setning i målspråket blir foretrukket.