INF1820: Oppsummering

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

LF - Eksamen i INF1820

IN1140: Introduksjon til språkteknologi. Forelesning #12

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

UNIVERSITETET I OSLO

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

IN1140: Introduksjon til språkteknologi. Forelesning #13

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt. Terza lezione INF1820. Arne Skjærholt. Terza lezione

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Applikasjoner

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Ordklassetagging

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Slides til 12.1 Formelt språk og formell grammatikk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

Innhold. 1 Innledning Semantikk Talespråk og skriftspråk 47. Forkortelser Språket som kodesystem 17 1.

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820 INF Arne Skjærholt INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF INF1820 INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

IN1140: Introduksjon til språkteknologi. Forelesning #8

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #10

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #10

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Ivar Utne, ; RETTA ; forslag om oppg. II (tekstslingvistikk) FORSLAG TIL SVAR PÅ EKSAMENSOPPGAVER FOR NOSP102-F

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Kristian Emil Kristoffersen, Hanne Gram Simonsen og Andreas Sveen (red.) Språk. En grunnbok. Universitetsforlaget

IN1140: Introduksjon til språkteknologi. Forelesning #7

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

MAT1030 Diskret matematikk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

EXFAC EURA Syntaks2 1

IN1140: Introduksjon til språkteknologi. Forelesning #8

NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

MAT1030 Diskret Matematikk

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Samspillet mellom leksikon og syntaks

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Forelesning 27. MAT1030 Diskret Matematikk. Bevistrær. Bevistrær. Forelesning 27: Trær. Roger Antonsen. 6. mai 2009 (Sist oppdatert: :28)

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Skanning del I INF /01/15 1

UNIVERSITETET I OSLO. Det matematisk-naturvitenskapelige fakultet

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1800 Forelesning 6

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

INNHOLD. Innledning 12. Kapittel 1: Kommunikasjon 14. Kapittel 2: Sjanger 20. Kapittel 3: Med språket som verktøy 26

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Grammatikk En innføring av Anne Lene Berge

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

FAGPLAN I NORSK FOR 7. TRINN HØSTEN 2016

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1800 LOGIKK OG BEREGNBARHET

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

FOL: syntaks og representasjon. 15. og 16. forelesning

INF INF1820. Lectio secunda INF1820. Arne Skjærholt. Lectio secunda

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Setningsledd. Norsk som fremmedspråk Side 131

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

1/26/2012 LITT PYTHON. INF2820 Datalingvistikk V2012. Hvorfor Pyhton. Python syntaks. Python er objektorientert. Python datatyper.

Informasjonsgjenfinning

Ifis forslag til reviderte studieprogrammer

Transkript:

Arne Skjærholt 8. mai Arne Skjærholt 8. mai

Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder. Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder.

Lingvistikk er det vitenskapelige studiet av språk. Ganske mange nivåer, men vi har fokusert på morfologi og syntaks, pluss litt syntaks. Vitenskapelig studie i den forstand at vi studerer regler, systemer og prinsipper i menneskelige språk. Morfologi er studiet av ord og byggesteinene for ord, syntaks ser på hvordan ord settes sammen til setninger, og semantikk er studiet av mening og betydning.

Tvetydighet Et av de helt grunnleggende problemene i språkteknologi er tvetydighet, noe som dukker opp på alle nivåene i systemet. Tvetydighet

Korpora Korpora er helt sentralt i stort sett alle språkteknologiske applikasjoner og bruksområder. Korpora

Lingvistikk Morfologi Morfologi Handler om oppbygningen til ord og dannelsen av nye ord. To grunnleggende fenomener vi studerer: bøyning og avledning. Bøyning er dannelsen av nye former av samme ord, mens avledning danner nye ord fra andre ord. Morfologi

Lingvistikk Morfologi Morfemer Morfemet er den minste meningsbærende lingvistiske enheten (finnes mindre enheter i fonetikken og fonologien, men de er ikke selvstendige meningsbærere). Morfemene kan deles inn i to kategorier: frie og bundne. Frie morfer er de som kan forekomme alene, mens bundne morfemer bare forekommer i komplekse ord. Morfemer

Substantiv Adjektiv Verb Adverb 2014-05-08 Lingvistikk Morfologi 1. Morfologiske/formelle kriterier 2. Syntaktiske/funksjonelle 3. Semantiske/betydningsmessige Vi snakker om åpne og lukkede ordklasser, og innholdsord kontra funksjonsord. Omtrent det samme, men ikke helt en-til-en. Åpne ordklasser er de ordklassene som tar opp nye medlemmer, men de som ikke gjør det er lukkede klasser. Innholdsord er ord med semantisk innhold, mens funksjonsord kun har lingvistisk funksjon. Substantiv Verb Adverb 1. Morfologiske/formelle kriterier 2. Syntaktiske/funksjonelle 3. Semantiske/betydningsmessige Adjektiv

Lingvistikk Syntaks Syntaks Hvordan vi setter ord sammen til fraser og fraser sammen til setninger. Vi snakker både om syntaktssk form (hvilke ordklasser og fraser brukes) og funksjon (subjekt, direkte objekt, osv.). Syntaks

Lingvistikk Syntaks Konstituenter En konstituent er en gruppe ord som fungerer som en syntaktisk enhet. Vi har tre typer tester vi bruker for å avgjøre om en gruppe er en konstituent. Stå alene: Kan ordene stå alene, f.eks. som svar på et spørsmål? Kan ordene flyttes som en enhet til et annet sted i setningen? Kan ordene erstattes med et pronomen? Konstituenter

Lingvistikk Syntaks NP NP CC NP Adj N og kvinner gamle menn NP Adj N gamle N CC N menn og kvinner Det er dette som er syntaktisk (eller strukturell flertydighet): Rekkefølgen vi anvender de syntaktiske reglene på (se også CFGer), avgjør hvordan strukturen til setningen ser ut, som igjen kan bestemme setningens betydning. NP NP CC NP Adj NP N Adj N og kvinner gamle N CC N gamle menn menn og kvinner

Lingvistikk Syntaks Funksjonell analyse Noen fraser har en særskilt rolle i setningen, og fyller spesifikke roller: De viktigste setningsleddene er subjekt, predikat, direkte objekt og indirekte objekt. Predikativ og forskjellige typer adverbialer kan også forekomme. Funksjonell analyse

Lingvistikk Semantikk Semantikk Semantikk er studiet av betydning og hvordan vi uttrykker det gjennom språk. Vi kan tildele betydning til morfemer, ord, fraser og setninger. I dette kurset har vi sett på leksikalsk semantikk og setningssemantikk. I tillegg har vi felt som pragmatikk: Hvordan påvirker konteksten betydning? Semantikk

Lingvistikk Semantikk Leksikalsk semantikk Leksikalsk semantikk er hvordan vi representerer betydningene til ord, og forholdene som finnes mellom forskjellige ords betydninger. Ord kan ha forskjellige semantiske trekk (female, human, etc.). Vi har forskjellige typer relasjoner mellom ord. Homonymi vs. polysemi (viktig og skille mellom de to) Synonymi Antonymi Hyponymi Leksikalsk semantikk

Lingvistikk Semantikk Komposisjonell semantikk Hva er sannhetsverdien til en setning? Vi bygger opp logiske uttrykk som kan evalueres for å gi sannhetsverdien, predikatene er mengder og de er sanne hvis argumentene er en del av mengden. Komposisjonell semantikk

Lingvistikk Semantikk Semantiske roller Et annet aspekt av setningsbetydning. Verbet krever forskjellige roller; hvilke deltagere tar de forskjellige rollene? Visse paralleler med setningsleddene her, men ikke trivielt å gå mellom de to. Se for eksempel passiver. PropBank og FrameNet er ressurser for semantiske roller (korpus og leksikon, hhv). Semantiske roller

Formelle modeller Literaler: /b/, /INF1820/ Disjunksjon: /penge(r ne)/, /[A-Z]/ Negasjon av tegnklasser: /[ˆ0-9A-Z]/ Kvantorer: /a?/, /a*/, /a+/ Hva-som-helst: /./ Formell språkteori. Lukket under union og snitt, komplement, mengdedifferanse. Literaler: /b/, /INF1820/ Disjunksjon: /penge(r ne)/, /[A-Z]/ Negasjon av tegnklasser: /[ˆ0-9A-Z]/ Kvantorer: /a?/, /a*/, /a+/ Hva-som-helst: /./

2014-05-08 Formelle modeller hσ, S, s0, δ, Fi a q0 I b q1 Σ = {a, b,!} I S = {q0, q1, q2, q3 } I s0 = q0 I δ(q, σ ) fra transisjonstabellen I F = {q3 } a! q2 q0 q1 q2 q3 Det er en viktig dualitet mellom regulære spra k og tilstandsmaskiner: Regexen beskriver spra ket vi er interessert i, mens FSAen beskriver algoritmen vi bruker for a gjenkjenne strengene i spra ket. Maskinen er deterministisk hvis det ikke finnes en tilstand der det er to kanter ut med samme bokstav pa (ekvivalent: alle tilstandene har maks en pil ut for hver bokstav). Hvis den ikke er deterministisk er den ikke-deterministisk. NFAer kan ogsa ha epsilon-kanter, som lar maskinen bevege seg mellom to tilstander uten a spise en bokstav fra input. q3 a q2 q2 b q1! q3 hσ, S, s0, δ, Fi a q0 I b q1 Σ = {a, b,!} I S = {q0, q1, q2, q3 } I s0 = q0 I δ(q, σ ) fra transisjonstabellen I F = {q3 } a! q2 q0 q1 q2 q3 q3 a q2 q2 b q1! q3

Formelle modeller A og B uavhengige: P (A B) = P (A)P (B) P (A B) Betinget sannsynlighet: P (A B) = P (B) P (A B) = P (A B)P (B) = P (B A)P (A) A og B uavhengige: P (A B) = P (A)P (B) P (A B) Betinget sannsynlighet: P (A B) = P (B) P (A B) = P (A B)P (B) = P (B A)P (A)

Formelle modeller P (B A)P (A) P (A B) = P (B) P (A B) = P (A B)/P (B), P (B A) = P (A B)/P (A) og da følger Bayes trivielt. P (A B) = P (B A)P (A) P (B)

Formelle modeller n P (w1 n ) = P (w i w i 1 ) Språkmodell. Vi antar at ordene er uavhengige av resten av ordene, gitt ordet før. i=1 n P (w1 n ) = P (w i w i 1 ) i=1

Formelle modeller n P (t1 n wn 1 ) = P (t i t i 1 )P (w i t i ) i=1 HMM. Starter med P (t w), Bayes-invertering og stryker under brøkstreken fordi vi argmaxer. n P (t1 n wn 1 ) = P (t i t i 1 )P (w i t i ) i=1

Formelle modeller N,Σ,R,S N = {S,NP,N,N,DT,V P V } Σ = {et,fly,ankom} R = {S NP V P, NP DT N, N N, V P V, N fly, DT et, V ankom} S = S N,Σ,R,S CFGer. Her er det mest samspillet mellom reglene som er interessant. Rekursjon i reglene er en viktig kilde til ubegrensetheten i naturlige språk. N = {S,NP,N,N,DT,V P V } Σ = {et,fly,ankom} R = {S NP V P, NP DT N, N N, V P V, N fly, DT et, V ankom} S = S

Formelle modeller Samme opplegget som HMM. Starter med P (s f ), Bayes og stryk under streken fordi vi argmaxer. n P (s f1 n ) P (f i s) i=1 P (s f n 1 ) n i=1 P (f i s)

Formelle modeller Vektorrommodellen Vi representerer dokumenter og søkestrenger som vektorer, og finner de likeste dokumentene ved å finne de som har likest vektor. For å unngå å gi vanlige ord for høy vekt bruker vi vekting av termfrekvensene (tf), som regel med inverse document frequency (idf): idf = log N n t der n t er antall dokumenter som inneholder termen og N antall dokumenter totalt. Vektorrommodellen

Metoder og applikasjoner bilen: bil+subst+m+ent+best hoppet: hoppe+verb+pret hoppet: hoppe+verb+perfpart hoppet: hopp+subst+n+ent+best Komputasjonell morfologi: Hente ut og representere morfologisk informasjon for senere bruk av andre prosesseringssteg. bilen: bil+subst+m+ent+best hoppet: hoppe+verb+pret hoppet: hoppe+verb+perfpart hoppet: hopp+subst+n+ent+best

Metoder og applikasjoner Ordklassetagging For hvert ord i en setning: Er det substantiv, verb, preposisjon, etc... Ordklassetagging

Metoder og applikasjoner Chunking Markere opp ikke-rekursive blokker i en setning, som regel NP-konstituenter. Chunking

Metoder og applikasjoner WSD Mange ord har flere betydninger. Hvordan kan vi automatisk entydiggjøre betydningene? WSD

Metoder og applikasjoner Information extraction Her har vi snakket mest om Named Entity Recognition (NER), som handler om å finne deler av teksten som refererer til et navngitt objekt: Personer, land, byer, etc. Information extraction

Metoder og applikasjoner Information retrieval Hente de mest relevante dokumentene for en søkestreng. INF3800. Information retrieval

Metoder og applikasjoner Moderne statistisk maskinoversettelse er basert på to hovedkomponenter. En oversettelsesmodell som lager en halvdårlig ord-for-ord-oversettelse og en språkmodell som passer på at en oversettelse som ser ut som en god setning i målspråket blir foretrukket.