INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

Like dokumenter
INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Forelesning 4, 10.2 Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V2015. Forelesning 4, 9.2 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Forelesning 4, 6.2 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Norsk minigrammatikk bokmål

INF 2820 V2018: Innleveringsoppgave 2

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

Oppgave 1 (samlet 15%)

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF 2820 V2016: Obligatorisk innleverinsoppgave 1

INF1820: Oppsummering

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Grammatikk En innføring av Anne Lene Berge

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF 2820 V2016: Obligatorisk innleverinsoppgave 2

Slides til 12.1 Formelt språk og formell grammatikk

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF 2820 V2016: Innleveringsoppgave 3 hele

Oppgave 1 (samlet 15%)

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V Gang Jan Tore Lønning

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

INF2820 Datalingvistikk V2017 Forelesning 2, 23.1 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V gang, 27.2 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

UKEPLAN FOR 7A, UKE 23 TIME

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

UKEPLAN FOR 7B, UKE 23 MANDAG TIRSDAG ONSDAG

INF 2820 V2018: Innleveringsoppgave 3

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

APPENDIKS D Geminittisk språk/grammatikk

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

Løsningforslag for obligatorisk innlevering 2 INF2820

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

2/22/2011. Høyre- og venstreavledninger. I dag. Chomsky-normalform (CNF) Chomsky-normalform (CNF) PARSING. Jan Tore Lønning & Stephan Oepen

LF - Eksamen i INF1820

INF 2820 V2016: Innleveringsoppgave 2

Kom i gang veiledning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2015. Jan Tore Lønning

UNIVERSITETET I OSLO

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Setningsledd. Norsk som fremmedspråk Side 131

EXFAC EURA Syntaks2 1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF5820. Language technological applications. H2010 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #13

Informasjonsgjenfinning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig?

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

Øvinger september Wiebke Ramm, Kjetil Rå Hauge

Muligheter for lulesamisk språkteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Innhold. Forord Om å bruke Norsk for deg: Grammatikkoppgaver Hovedfokus: Substantiv... 17

Eksamen i LING 1112 Morfologi og syntaks 1. Våren 2013

IN1140: Introduksjon til språkteknologi. Forelesning #7

Transkript:

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

I dag Naturlige språk Ord Litt morfologi Språkteknologi: leksikon og morfologi Tekstprosessering de første trinn 2

Naturlige språk som formelle språk Et formelt språk består av: En endelig mengde A Ø En delmengde L A* Eksempel 3 A = mengden av alle former av alle ord i Bokmålsordboka A* = mengden av alle sekvenser av slike ord L = mengden av de strengene fra A* vi anser som grammatiske norske setninger Eksempel 4 A = {a, b, c,, æ, ø, å} A* = {, a, b, c, aa, ab, ac, ba,, cccc,, datalingvistikk, } Det er mer struktur i naturlige språk enn det som fanges i definisjonen av formelle språk L = mengden av de bokstavstrengene vi ser på som norske ord. Eksempel 5 A = {a, b, c,, æ, ø, å, \blank, \.} L = mengden av de strengene vi ser på som norske setninger. 3. februar 2017 3

Setning Fraser NP, VP, PP NP S VP NP VP V AP N P Struktur PP NP Syntaks Struktur over ordnivå Morfem angripe lig u e/pl Hun studerer uangripelige IT-systemer ved UiO u+angripe+lig+e V Adj PL Adj Adj_pl Morfologi Ordenes struktur 3. februar 2017 4

Mer substruktur unassailable Morfologi un+assail+able V unassailable /ʌnəˈseɪləb(ə)l/ Fonologi+ fonetikk Adj Adj I ethvert språk er det et lite antall lyder som alle ord er bygget opp fra I tekster forholder vi oss til tegn For noen språk er skrift en refleksjon av lydene Men f.eks. ikke for kinesisk Mange flere skrifttegn enn lyder 3. februar 2017 5

Ord (i naturlige språk) En mann kjøpte en bil av en mann som hadde eid bilen i tjue år. Hvor mange ord? 3. februar 2017 6

Ord (i naturlige språk) En mann kjøpte en bil av en mann som hadde eid bilen i tjue år. In [10]: text="en mann kjøpte en bil av en mann som hadde eid bilen i tjue år".split() In [11]: len(text) Out[11]: 15 In [12]: len(set(text)) Out[12]: 13 In [13]: len(set(w.lower() for w in text)) Out[13]: 12 3. februar 2017 7

Ord (i naturlige språk) En mann kjøpte en bil av en mann som hadde eid bilen i tjue år. Hvor mange forskjellige ord (types)? 3. februar 2017 8

Ord (i naturlige språk) En mann kjøpte en bil av en mann som hadde eid bilen i tjue år. Hvor mange forskjellige ord (types)? 12 ord(former) 11 leksem Ett leksem 4 ulike former av samme leksem Ett lemma (siteringsform) mann mannen menn mennene N, sg, indef N, sg, def N, pl, indef N, pl, def 3. februar 2017 9

Utfordringer En murer murer murer. Hvor mange ordformer: 2 eller 4? Lemma en Det murer N mask sing indef murer murer V pres mure murer N mask pl indef mur 10

Utfordring Kari ga Ola bank. Kari satte pengene i en bank. bank, N, sg, indef To forskjellige ord eller ett? Mest naturlig å tenke på dette som to forskjellige ordformer av to forskjellige leksemer (homonymi) Men noen systemer behandler dem som et leksem med flere betydninger (polysemi) (eks. WordNet) 3. februar 2017 11

Ordklasser/ Part of speech N V N Jenta spiste eplet N V jenta, gutten, potetene, sola,.. spiste, så, likte, kastet, (Forenklet:) Ord av samme klasse kan erstatte hverandre: Gutten spiste eplet. Jenta så potetene. Ord av forskjellige klasser kan ikke alltid erstatte hverandre: *Gutten jenta potetene. *Spiste så potetene. 3. februar 2017 12

Noen ordklasser Klasse ( Category ) Underklasser Eksempler V verb kastet, spiser, løper, er, N nomen, substantiv, noun Fellesnavn, common noun, CN Egennavn, proper name jenta, gutter, barna, potetene, Per, Kari, Michelle, Bill, A adjektiv pen, snill, godt P preposisjon på, under, ved, Det Determinativ en, enhver, noen, ingen, Pronomen Adverb jeg, du, oss, min, Ikke, derfor, ofte, 3. februar 2017 13

Ordklasser fortsatt Flere ordklasser: Interjeksjon: ja, æsj, hurra,.. Konjunkjson: og, eller,.. Subjunksjon: at, hvis, fordi, Litt ulike forslag til Ordklasser inkl. antall Kriterier for klassifikasjon, og følgelig hvilken klasse en del ord faller i Skille Åpne klasser: N, V, Adj, Adv, Int Lukkede: Pro, Prep, Conj., Subj. 14

Ordform - trekk En fullform av et ord vil ha en del trekk ( features ) Noen av disse er inherente og felles for alle former av et leksem: Svarer til undeklasser av ordklassene Kjønn/ gender for substantiv Jente/jenta/jenter/jentene er femininum Transitivitet(stype) for verb Kaste/kaster/kastet/kast tar nomen-komplementet Vite/vet/visste/visst tar komplementsetning (at ) Andre er spesifikke for formen av ordet, Bestemthet, tall for substantiv, form og tid for verb Kjønn for adjektiv 3. februar 2017 15

I dag Naturlige språk Ord Litt morfologi Språkteknologi: leksikon og morfologi Tekstprosessering de første trinn 16

Morfologi To perspektiv: Ords oppbygning Danning av ord 1. Bøyning, infleksjon Ulike former av samme leksem 2. Avledning, derivasjon quick quickly 3. Ordsammensetning Hjernehinnebetennelse 4. Klitika 17

Oppbygning u+angripe+lig+e V Adj PL Adj Adj_pl Morfem: minste meningsbærende enhet Stamme: angripe Prefix: u- Suffix: -lig, -e Andre språk også: infix, circumfix 18

1.Bøyning/( inflection ): substantiv N, substantiv Entall Flertall Ubestemt Bestemt Ubestemt Bestemt gutt gutten gutter guttene jente jenta jenter jentene barn barnet barn barna En linje er et leksem Lemma = ubestemt entallsformen Abstrakt trekk Ubest+flertall Bestemt entall, neut Bestemt entall, fem Bestemt, flertall, neut Skille Realisering er,, 3. februar 2017 19 et a a, ene

1.Bøyning/( inflection ): verb V, verb infinitiv presens preteritum perfektum imperativ kaste kaster kastet kasta bygge bygger bygde bygget kastet kasta bygd bygget kast bygg gå går gikk gått gå En linje er et leksem Lemma = infinitivsformen Abstrakt trekk presens Skille Realisering er, preteritum et, de, et, 3. februar 2017 20

Eksempel: spansk (wikipedia) Fortid-nåtid-fremtid Entall: 1. pers, 2.pers, 3.pers Flertall 1. pers, 2.pers, 3.pers 21

Bøyning Regulær: Bil-bilen-biler-bilene Kaste-kaster-kastet-kastet Irregulær: Gås-gåsa-gjess-gjessene Gå-går-gikk-gått 3. februar 2017 22

2. Avledning-derivasjon Kombinere en ordstamme med et grammatisk morfem Ofte gir det ny ordklasse V, verb infinitiv Adjektiv, avledning Substantiv, avledning Substantiv, avledning Substantiv, avledning u+angripe+lig+e V Adj PL ende ing er Adj kaste kastende kasting (en) kaster (et) kast Adj_pl bygge byggende bygging (et) bygg gå gående gåing 3. februar 2017 23

3. Sammensetning Et sammensatt ord får egenskaper fra siste leddet god: Adj + snakke:v godsnakke: V fiske: V + konkurranse: N fiskekonkurranse: N 3. februar 2017 24

4. Klitika Ikke hele ord. Fungerer morfologisk som affikser, men syntaktisk som ord Mary s car I ve done that Jeg slo n i bordtennis Dronningen av Englands hund 25

Lyd- og skriftendringer Ved bøyning og avledning er det ikke bare å henge på endelser kiste: N + -en: sg,def kisten (ikke kisteen) vill: Adj + -t: Neut vilt (ikke villt) Osv. Også lyd-/skriftendringer ved sammensetning vin + glass vinglass rødvin + glass rødvinsglass 26

I dag Naturlige språk Ord Litt morfologi Språkteknologi: leksikon og morfologi Tekstprosessering de første trinn 27

Prosessering Analyse: Gitt en ordforekomst, eks gikk eller uangripelig, finn: Lemma (eller leksem) for å behandle ordets mening gikk gå, uangripelige uangripelig Morfologiske trekk for å se hvordan ordet passer med omgivelsene gikk: V, pret, uangripelige: Adj, pl Evt. interessert i om det er avledet (for semantikk) u-angripelige Syntese: Gitt lemma (leksem) og morfologiske trekk, generer form gå, V, pret gikk 28

Leksikon Vi trenger et leksikon. To alternativ: Fullformsleksiokon: Alle ordformer er listet med lemma/leksem og trekk: Gikk, V, pret, gå Leksemleksikon Til hvert leksem er det et lemma og (tilgang til) regler for å generer alle former med info Eks: for kaste holder det i leksikon at det er verb og regulær bøyning For gå må vi liste opp formene 29

Leksemleksikon eller fullformsleksikon? Tidligere tider måtte en ha leksemleksikon pga av plassbehov på datamaskinen I dag er det vanlig å bruke fullformsleksikon for språk som engelsk og norsk 30

Behov for morfologiske prosessr For språk med en rik morfologi f.eks. Finsk 12 000 former av et verb Tyrkisk 40 000 former av et verb kan vi ikke lagre alle former. Trenger regler. Tonivåmorfologien beskrevet i J&M en tilnærming for disse språkene 31

Tonivåmorfologien Ikke detaljer pga. Manglende programvare Ikke så relevant for norsk og engelsk Utilstrekkelig beskrivelse i boka 2/3/2017 Speech and Language Processing - Jurafsky and Martin 32

Leksikon for norsk For norsk kan vi bruke et fullformsleksikon for bøyning, dvs. alle kjente former av all kjente ord Men vi trenger noe mer Avledete ord vil kunne være representert i fullformsleksikonet, men det kan dannes nye Nye sammensatte ord Nye ord, disse kan også forsøkes analysert morfologisk ut i fra sammenhengen 33

Flertydigheter En morfologisk analysator som virker på enkeltord utenfor kontekst vil være flertydig Flertydighet er en utfordring for all språkprosessering Lemma murer N mask sing indef murer murer V pres mure murer N mask pl indef mur 34

I dag Naturlige språk Ord Litt morfologi Språkteknologi: leksikon og morfologi Tekstprosessering de første trinn 35

Arbeid med tekst Setningssegmentering Tokenisering Xvxvxvxvxvxvxvxvxvxvxvxvxv Xvxvxvxvxvxvxvxvxvxvx Xycxycxcycvdferefdvdferdf Nfnfnf Wgwgwgwgwg Wgwgwgwgwgwgwgwgwg Whhhhh Wgwgwgw Whwhwhwhwhwhwhwhwhhwhw Whwhwhhwwh Whhhhh Whhhhhhhhh whhhhhhhhhhhhhhh Xvxvx vxv xvxv xvxvx vxv xv xvxv Xvxvxvxvxvxvxvxvxvxvx Xycxyc xcy cvd fe ref dv df erdf Nfn fnf Wg wg wg wg wg Wgwgwg wgwg wgwg wgwg Whh hhh Whh hhh 36

Setningssegmentering ``Hvor vanskelig er det? : ``Bare del ved:.!? Hva med forkortelser? ``OK, ikke del etter forkortelser Men hva hvis forkortelsen kommer sist I en setning? Hva med innskutte setninger lurte Ola? Problemet er ikke så trivielt som det kan høres ut. 37

Tokenisering Dele opp en streng i en liste av ord. Høres enkelt ut, i Python In [10]: text="en mann kjøpte en bil av en mann som hadde eid bilen i tjue år".split() Men er det alltid så enkelt? For example, this isn t a well-formed example. Hvordan dele? 1. For example, this is n t a well-formed example. 2. For example, this isn t a well- formed example. 3. for example this is not a well-formed example (1) is Penn TreeBank-style (PTB) (2) is English Resource Grammar-style (ERG) 38

Tokenisering noen valg 1. For example, this is n t a well-formed example. 2. For example, this isn t a well- formed example. 3. for example this is not a well-formed example Skilletegn: (1) eget token, (2) del av ordet foran, (3) fjernet isn t, doesn t etc.: (1) dele, (2) beholde, (3) normalisere Norsk: skakke, vikke, måkke, bøkke, (Ikke i tekst, men i transkribert tale) Flerordsuttrykk: (2) en token, (1,3) en token per ord Bindestrek: Hvor skal vi dele? Case folding (lowercasing) eller ikke 39

Tokenisering spesielle tokens Desimaltalluttrykk 5 443 000 Klokkeslett URL E-postadresser Forkortelser... 40

Metoder Setningssegmentering Maskinlæring Tokenisering Regulære uttrykk (Se på oppgaver) 3. februar 2017 41

Hvordan tokenisere? Billigste i Python: words = s.split() Hvis vi heller vil ha example enn example. clean_words = [w.strip(.,:;?! ) for w in words] For å beholde. som en token krever mer. I NLTK for engelsk words = nltk.word_tokenize(s) Hvordan vil denne tokenisere ``for example -setning? Obs ikke optimal for norsk. 42

Tekst i NLTK In [36]: raw='this item consists of several sentences. It should be illustrative' In [37]: sents = nltk.sent_tokenize(raw) In [38]: for i in sents: print(i) This item consists of several sentences. It should be illustrative In [39]: tokenized = [nltk.word_tokenize(s) for s in sents] In [40]: tokenized Out[40]: [['This', 'item', 'consists', 'of', 'several', 'sentences', '.'], ['It', 'should', 'be', 'illustrative']] 3. februar 2017 43

Tekstnormalisering Søk Søk1: regjeringen foreslo Søk2: regjeringen foreslår Får vi det samme? For mange oppgaver ønsker vi at foreslo skal være det samme som foreslå Lemmatisering: Skifter en ordform med lemmaet svarende til leksemet Kan gjøres hvis vi har en morfologisk analysator. Men som eksempelet med murer viser: Prosessen er ikke entydig med mindre vi gjør noe mer Parsing eller tagging eller Velger første ller den mest frekvente 44

Stemming Forsøk på å finne stammen i ord uten leksikon (stamme er ikke alltid det samme som lemma) Forenklet lemmatisering Brukes i søkemotorer In [50]: norsk_stem = nltk.snowballstemmer('norwegian') In [52]: norsk_stem.stem('murer') Out[52]: 'mur' In [53]: norsk_stem.stem('uangripelige') Out[53]: 'uangrip In [55]: norsk_stem.stem('foreslo') Out[55]: 'foreslo' 45